llm_ticket3/docs/RESUME_OCR.md
2025-05-07 17:12:50 +02:00

1.9 KiB

Résumé des Modifications du Système OCR

1. Optimisation de l'OCR Brut (Tesseract)

  • Configuration optimale :

    • Profil de prétraitement "document" adapté aux documents administratifs
    • PSM=11 (sparse text) pour une meilleure extraction
    • OEM=3 (mode par défaut)
  • Simplification du code :

    • Suppression du redimensionnement redondant dans ocr_utils.py
    • Uniformisation des chemins de sortie vers results/ocr_brut/
    • Amélioration de la gestion des erreurs

2. Optimisation de l'OCR Avancé (Llama Vision)

  • Préparation des images :

    • Standardisation de toutes les images à 672x672 pixels
    • Conservation des proportions avec padding
    • Sortie unique vers results/ocr_avance/
  • Nettoyage du texte :

    • Dictionnaires de nettoyage séparés par profil
    • Système modulaire pour activer différents niveaux de correction

3. Réorganisation de l'Architecture

  • Séparation claire des modules :

    • OCR brut (Tesseract) dans utils/ocr_brut/
    • OCR avancé (Llama Vision) dans utils/ocr_avance/
    • Résultats dans results/ocr_brut/ et results/ocr_avance/
  • Documentation complète :

    • README pour chaque module
    • Documentation ARCHITECTURE_OCR.md pour la vue d'ensemble
    • Avertissements dans les fichiers obsolètes

4. Tests et Compatibilité

  • Maintien de la compatibilité :

    • Module utils/init.py pour assurer la transition
    • Conservation des fichiers originaux avec avertissements
    • Duplication des fichiers critiques dans utils/ocrbrut/ pour archivage
  • Test agent_ocr.py :

    • Mise à jour pour utiliser les nouveaux chemins
    • Création automatique des répertoires de résultats
    • Affichage clair des chemins de sortie

5. Prochaines Étapes Possibles

  • Suppression des fichiers obsolètes une fois la transition terminée
  • Optimisation supplémentaire des profils de prétraitement
  • Développement de nouveaux dictionnaires de correction