mirror of
https://github.com/Ladebeze66/llm_ticket3.git
synced 2025-12-13 10:46:51 +01:00
Module OCR Brut (Tesseract)
Ce module contient les outils pour l'extraction de texte basique à partir d'images en utilisant Tesseract OCR.
Fichiers principaux
ocr_utils.py: Fonctions principales d'extraction de texte avec Tesseractocr_preprocessor.py: Prétraitement d'images pour améliorer la qualité de l'OCR
Configuration par défaut
- Profil de prétraitement : "document"
- PSM (Page Segmentation Mode) : 11 (Texte sparse)
- OEM (OCR Engine Mode) : 3 (par défaut)
Utilisation
from utils.ocr_brut import extraire_texte, extraire_texte_fr
# OCR multilingue avec détection automatique
texte, image_optimisee = extraire_texte("chemin/vers/image.jpg")
# OCR français optimisé
texte_fr = extraire_texte_fr("chemin/vers/image.jpg")
Résultats
Les résultats du prétraitement et de l'OCR sont sauvegardés dans le répertoire results/ocr_brut/.