llm_ticket3/docs/RESUME_OCR.md
2025-05-07 17:12:50 +02:00

54 lines
1.9 KiB
Markdown

# Résumé des Modifications du Système OCR
## 1. Optimisation de l'OCR Brut (Tesseract)
- **Configuration optimale** :
- Profil de prétraitement "document" adapté aux documents administratifs
- PSM=11 (sparse text) pour une meilleure extraction
- OEM=3 (mode par défaut)
- **Simplification du code** :
- Suppression du redimensionnement redondant dans ocr_utils.py
- Uniformisation des chemins de sortie vers results/ocr_brut/
- Amélioration de la gestion des erreurs
## 2. Optimisation de l'OCR Avancé (Llama Vision)
- **Préparation des images** :
- Standardisation de toutes les images à 672x672 pixels
- Conservation des proportions avec padding
- Sortie unique vers results/ocr_avance/
- **Nettoyage du texte** :
- Dictionnaires de nettoyage séparés par profil
- Système modulaire pour activer différents niveaux de correction
## 3. Réorganisation de l'Architecture
- **Séparation claire des modules** :
- OCR brut (Tesseract) dans utils/ocr_brut/
- OCR avancé (Llama Vision) dans utils/ocr_avance/
- Résultats dans results/ocr_brut/ et results/ocr_avance/
- **Documentation complète** :
- README pour chaque module
- Documentation ARCHITECTURE_OCR.md pour la vue d'ensemble
- Avertissements dans les fichiers obsolètes
## 4. Tests et Compatibilité
- **Maintien de la compatibilité** :
- Module utils/__init__.py pour assurer la transition
- Conservation des fichiers originaux avec avertissements
- Duplication des fichiers critiques dans utils/ocrbrut/ pour archivage
- **Test agent_ocr.py** :
- Mise à jour pour utiliser les nouveaux chemins
- Création automatique des répertoires de résultats
- Affichage clair des chemins de sortie
## 5. Prochaines Étapes Possibles
- Suppression des fichiers obsolètes une fois la transition terminée
- Optimisation supplémentaire des profils de prétraitement
- Développement de nouveaux dictionnaires de correction