Ladebeze66/llm_ticket3

mirror of https://github.com/Ladebeze66/llm_ticket3.git synced 2025-12-15 19:46:53 +01:00

Ladebeze66 6b96513438 0705-17:12

2025-05-07 17:12:50 +02:00

1.9 KiB

Raw Permalink Blame History

Résumé des Modifications du Système OCR

1. Optimisation de l'OCR Brut (Tesseract)

Configuration optimale :
- Profil de prétraitement "document" adapté aux documents administratifs
- PSM=11 (sparse text) pour une meilleure extraction
- OEM=3 (mode par défaut)
Simplification du code :
- Suppression du redimensionnement redondant dans ocr_utils.py
- Uniformisation des chemins de sortie vers results/ocr_brut/
- Amélioration de la gestion des erreurs

2. Optimisation de l'OCR Avancé (Llama Vision)

Préparation des images :
- Standardisation de toutes les images à 672x672 pixels
- Conservation des proportions avec padding
- Sortie unique vers results/ocr_avance/
Nettoyage du texte :
- Dictionnaires de nettoyage séparés par profil
- Système modulaire pour activer différents niveaux de correction

3. Réorganisation de l'Architecture

Séparation claire des modules :
- OCR brut (Tesseract) dans utils/ocr_brut/
- OCR avancé (Llama Vision) dans utils/ocr_avance/
- Résultats dans results/ocr_brut/ et results/ocr_avance/
Documentation complète :
- README pour chaque module
- Documentation ARCHITECTURE_OCR.md pour la vue d'ensemble
- Avertissements dans les fichiers obsolètes

4. Tests et Compatibilité

Maintien de la compatibilité :
- Module utils/init.py pour assurer la transition
- Conservation des fichiers originaux avec avertissements
- Duplication des fichiers critiques dans utils/ocrbrut/ pour archivage
Test agent_ocr.py :
- Mise à jour pour utiliser les nouveaux chemins
- Création automatique des répertoires de résultats
- Affichage clair des chemins de sortie

5. Prochaines Étapes Possibles

Suppression des fichiers obsolètes une fois la transition terminée
Optimisation supplémentaire des profils de prétraitement
Développement de nouveaux dictionnaires de correction