mirror of
https://github.com/Ladebeze66/llm_ticket3.git
synced 2025-12-16 00:36:52 +01:00
54 lines
1.9 KiB
Markdown
54 lines
1.9 KiB
Markdown
# Résumé des Modifications du Système OCR
|
|
|
|
## 1. Optimisation de l'OCR Brut (Tesseract)
|
|
|
|
- **Configuration optimale** :
|
|
- Profil de prétraitement "document" adapté aux documents administratifs
|
|
- PSM=11 (sparse text) pour une meilleure extraction
|
|
- OEM=3 (mode par défaut)
|
|
|
|
- **Simplification du code** :
|
|
- Suppression du redimensionnement redondant dans ocr_utils.py
|
|
- Uniformisation des chemins de sortie vers results/ocr_brut/
|
|
- Amélioration de la gestion des erreurs
|
|
|
|
## 2. Optimisation de l'OCR Avancé (Llama Vision)
|
|
|
|
- **Préparation des images** :
|
|
- Standardisation de toutes les images à 672x672 pixels
|
|
- Conservation des proportions avec padding
|
|
- Sortie unique vers results/ocr_avance/
|
|
|
|
- **Nettoyage du texte** :
|
|
- Dictionnaires de nettoyage séparés par profil
|
|
- Système modulaire pour activer différents niveaux de correction
|
|
|
|
## 3. Réorganisation de l'Architecture
|
|
|
|
- **Séparation claire des modules** :
|
|
- OCR brut (Tesseract) dans utils/ocr_brut/
|
|
- OCR avancé (Llama Vision) dans utils/ocr_avance/
|
|
- Résultats dans results/ocr_brut/ et results/ocr_avance/
|
|
|
|
- **Documentation complète** :
|
|
- README pour chaque module
|
|
- Documentation ARCHITECTURE_OCR.md pour la vue d'ensemble
|
|
- Avertissements dans les fichiers obsolètes
|
|
|
|
## 4. Tests et Compatibilité
|
|
|
|
- **Maintien de la compatibilité** :
|
|
- Module utils/__init__.py pour assurer la transition
|
|
- Conservation des fichiers originaux avec avertissements
|
|
- Duplication des fichiers critiques dans utils/ocrbrut/ pour archivage
|
|
|
|
- **Test agent_ocr.py** :
|
|
- Mise à jour pour utiliser les nouveaux chemins
|
|
- Création automatique des répertoires de résultats
|
|
- Affichage clair des chemins de sortie
|
|
|
|
## 5. Prochaines Étapes Possibles
|
|
|
|
- Suppression des fichiers obsolètes une fois la transition terminée
|
|
- Optimisation supplémentaire des profils de prétraitement
|
|
- Développement de nouveaux dictionnaires de correction |