8.9 KiB
8.9 KiB
文件清理方案
📊 当前文件分析
项目根目录文件统计
总计:67个文件
- Python脚本:约40个
- Markdown文档:约15个
- 配置/数据文件:约12个
🗂️ 文件分类
✅ 保留文件(核心必需)
# 主脚本
test_accuracy_batch_full.py
# CMA提取模块
cma_extraction_template_primary.py
cma_extraction_final.py
# 核心文档
CLAUDE.md
TEST_ACCURACY_BATCH_README.md
TEST_ACCURACY_BATCH_DEPENDENCIES.md
IMPLEMENTATION_SUMMARY.md
# 配置文件
requirements.txt
settings.xml
pom.xml
.classpath
project/settings.xml
# CMA模板
template/CMA_Logo.png
⚠️ 可归档文件(旧测试/调试脚本)
# === 调试脚本 (归档到 archive/temp_scripts/) ===
analyze_logo_position.py
analyze_ydq.py
analyze_ydq_v2.py
debug_actual_matching.py
debug_cma_extraction.py
debug_full_ocr.py
debug_ocr_only.py
debug_roi_content.py
debug_roi_extraction.py
debug_specific_pdfs.py
debug_template_matching.py
force_reload_test.py
quick_validation_test.py
run_single_test.py
run_test_fresh.py
simple_find.py
simple_test.py
test_cma_simple.py
test_crt_direct.py
test_crt_extraction.py
test_fullpage_fallback.py
test_improved_crt_extraction.py
test_improved_extraction.py
test_roi_fix.py
test_single_pdf.py
test_smart_logic.py
test_template_matching_unit.py
verify_crt_extraction.py
# === 辅助工具脚本 (归档到 archive/tools/) ===
extract_pdf_pages.py
find_all_logo_matches.py
find_cma_position.py
find_numbers.py
ocr_bridge_cross_platform.py
pdf_processor.py
show_results.py
visualize_matches.py
search_cma_position.py
# === CRT相关测试 (归档到 archive/crt_tests/) ===
diagnose_crt_extraction.py
inspect_certificate_data.py
quick_crt_test.py
standalone_crt_test.py
# === PaddleOCR测试 (归档到 archive/ocr_tests/) ===
investigate_seal_3.py
test_paddleocrvl_direct.py
test_paddleocrvl_timeout.py
test_vl_simple.py
📚 可归档文档
# === 旧文档 (归档到 archive/docs/) ===
ADDITIONAL_FIXES_SUMMARY.md
CMA_LOGO_POSITION_FIX.md
CMA_TEMPLATE_MATCHING_OPTIMIZATION_REPORT.md
CRT_EXTRACT_INVESTIGATION_REPORT.md
OCR_INTEGRATION_README.md
PADDLEOCRVL_5MIN_TIMEOUT_GUIDE.md
PADDLEOCRVL_TIMEOUT_FIX_SUMMARY.md
QUICK_FIX_REFERENCE.md
ROOT_CAUSE_ANALYSIS.md
SEAL_SELECTION_FIX.md
WSL_INSTALLATION_GUIDE.md
YDQ23_001838_FINAL_FIX_SUMMARY.md
3PDF_SEAL_INVESTIGATION_REPORT.md
INTEGRATION_TEST_REPORT.md
🗑️ 可删除文件
# === 副本/重复文件 ===
test_accuracy_batch_full - 副本.py
# === 临时/无用文件 ===
classpath.txt
ping.json
install_wsl.bat
# === 旧的归档 ===
# 如果不再需要,可以删除
🎯 清理步骤
步骤1:创建归档目录
mkdir -p archive/temp_scripts
mkdir -p archive/tools
mkdir -p archive/crt_tests
mkdir -p archive/ocr_tests
mkdir -p archive/docs
mkdir -p archive/old_reports
步骤2:移动文件到归档
# 移动调试脚本
mv analyze_*.py archive/temp_scripts/
mv debug_*.py archive/temp_scripts/
mv quick_*.py archive/temp_scripts/
mv run_*.py archive/temp_scripts/
mv simple_*.py archive/temp_scripts/
mv test_*.py archive/temp_scripts/ 2>/dev/null || true
mv verify_*.py archive/temp_scripts/
mv force_*.py archive/temp_scripts/
# 移动辅助工具
mv extract_pdf_pages.py archive/tools/
mv find_*.py archive/tools/
mv search_*.py archive/tools/
mv show_*.py archive/tools/
mv visualize_*.py archive/tools/
mv ocr_bridge_cross_platform.py archive/tools/
mv pdf_processor.py archive/tools/
# 移动CRT测试
mv diagnose_crt_extraction.py archive/crt_tests/
mv inspect_certificate_data.py archive/crt_tests/
mv quick_crt_test.py archive/crt_tests/
mv standalone_crt_test.py archive/crt_tests/
# 移动OCR测试
mv investigate_seal_3.py archive/ocr_tests/
mv test_paddleocrvl*.py archive/ocr_tests/
mv test_vl_simple.py archive/ocr_tests/
# 移动旧文档
mv ADDITIONAL_FIXES_SUMMARY.md archive/docs/
mv CMA_LOGO_POSITION_FIX.md archive/docs/
mv CMA_TEMPLATE_MATCHING_OPTIMIZATION_REPORT.md archive/docs/
mv CRT_EXTRACT_INVESTIGATION_REPORT.md archive/docs/
mv OCR_INTEGRATION_README.md archive/docs/
mv PADDLEOCRVL_5MIN_TIMEOUT_GUIDE.md archive/docs/
mv PADDLEOCRVL_TIMEOUT_FIX_SUMMARY.md archive/docs/
mv QUICK_FIX_REFERENCE.md archive/docs/
mv ROOT_CAUSE_ANALYSIS.md archive/docs/
mv SEAL_SELECTION_FIX.md archive/docs/
mv WSL_INSTALLATION_GUIDE.md archive/docs/
mv YDQ23_001838_FINAL_FIX_SUMMARY.md archive/docs/
mv 3PDF_SEAL_INVESTIGATION_REPORT.md archive/docs/
mv INTEGRATION_TEST_REPORT.md archive/docs/
步骤3:删除不需要的文件
# 删除副本和临时文件
rm "test_accuracy_batch_full - 副本.py"
rm classpath.txt
rm ping.json
rm install_wsl.bat
步骤4:清理输出目录(可选)
# 清理测试输出(如果想保留结果,跳过此步)
# rm -rf test_reports_full/
# rm test_accuracy_full.log
✅ 清理后的目录结构
project-root/
├── test_accuracy_batch_full.py # 主脚本
├── TEST_ACCURACY_BATCH_README.md # 使用文档
├── TEST_ACCURACY_BATCH_DEPENDENCIES.md # 依赖文档
├── CLAUDE.md # 项目指南
├── IMPLEMENTATION_SUMMARY.md # 实现总结
│
├── cma_extraction_template_primary.py # CMA提取模块
├── cma_extraction_final.py # 备用模块
│
├── src/test/resources/data/ # 测试数据
│ ├── pdfs/
│ └── results.json
│
├── template/ # 模板文件
│ └── CMA_Logo.png
│
├── archive/ # 归档目录
│ ├── temp_scripts/ # 调试脚本
│ ├── tools/ # 辅助工具
│ ├── crt_tests/ # CRT测试
│ ├── ocr_tests/ # OCR测试
│ └── docs/ # 旧文档
│
├── pom.xml # Maven配置
├── settings.xml # Maven设置
├── requirements.txt # Python依赖
│
└── src/ # 源代码目录
└── ...
📦 清理脚本
我可以为您创建一个自动化清理脚本:
#!/bin/bash
# cleanup_project.sh
echo "开始清理项目..."
# 创建归档目录
mkdir -p archive/{temp_scripts,tools,crt_tests,ocr_tests,docs}
# 移动调试脚本
echo "归档调试脚本..."
mv analyze_*.py debug_*.py quick_*.py run_*.py simple_*.py \
test_*.py verify_*.py force_*.py archive/temp_scripts/ 2>/dev/null
# 移动辅助工具
echo "归档辅助工具..."
mv extract_pdf_pages.py find_*.py search_*.py show_*.py \
visualize_*.py ocr_bridge_cross_platform.py pdf_processor.py \
archive/tools/ 2>/dev/null
# 移动CRT测试
echo "归档CRT测试..."
mv diagnose_crt_extraction.py inspect_certificate_data.py \
quick_crt_test.py standalone_crt_test.py archive/crt_tests/ 2>/dev/null
# 移动OCR测试
echo "归档OCR测试..."
mv investigate_seal_3.py test_paddleocrvl*.py test_vl_simple.py \
archive/ocr_tests/ 2>/dev/null
# 移动旧文档
echo "归档旧文档..."
mv ADDITIONAL_FIXES_SUMMARY.md CMA_LOGO_POSITION_FIX.md \
CMA_TEMPLATE_MATCHING_OPTIMIZATION_REPORT.md \
CRT_EXTRACT_INVESTIGATION_REPORT.md OCR_INTEGRATION_README.md \
PADDLEOCRVL_*.md QUICK_FIX_REFERENCE.md ROOT_CAUSE_ANALYSIS.md \
SEAL_SELECTION_FIX.md WSL_INSTALLATION_GUIDE.md \
YDQ23_001838_FINAL_FIX_SUMMARY.md 3PDF_SEAL_INVESTIGATION_REPORT.md \
INTEGRATION_TEST_REPORT.md archive/docs/ 2>/dev/null
# 删除不需要的文件
echo "删除临时文件..."
rm "test_accuracy_batch_full - 副本.py" 2>/dev/null
rm classpath.txt ping.json install_wsl.bat 2>/dev/null
echo "清理完成!"
echo ""
echo "保留的核心文件:"
ls -1 *.py *.md 2>/dev/null | head -10
🎯 推荐的清理方案
方案A:保守清理(推荐)
归档所有测试和调试脚本,保留核心功能
- 归档所有
test_*.py、debug_*.py、analyze_*.py脚本 - 归档所有旧文档
- 保留主脚本和核心模块
- 保留主要文档
方案B:激进清理
删除所有临时脚本,只保留必需文件
- 删除所有测试脚本(已归档)
- 删除所有调试脚本
- 只保留主脚本和CMA提取模块
- 删除所有旧文档(保留主要README)
方案C:分步清理
先归档,观察一段时间后再删除
- 第一步:移动到archive目录
- 第二步:观察1-2周,确认不需要
- 第三步:删除或永久归档
⚡ 快速清理命令
如果您想立即执行清理,我可以为您:
- 创建
archive/目录结构 - 移动所有非核心文件
- 创建
.gitignore规则 - 提交清理后的状态
请选择清理方案:
- 方案A:保守清理(推荐)
- 方案B:激进清理
- 方案C:只创建归档目录,不删除
注意:在执行清理前,建议先提交当前状态到git,以便可以恢复。