# Module OCR Brut (Tesseract) Ce module contient les outils pour l'extraction de texte basique à partir d'images en utilisant Tesseract OCR. ## Fichiers principaux - `ocr_utils.py` : Fonctions principales d'extraction de texte avec Tesseract - `ocr_preprocessor.py` : Prétraitement d'images pour améliorer la qualité de l'OCR ## Configuration par défaut - Profil de prétraitement : "document" - PSM (Page Segmentation Mode) : 11 (Texte sparse) - OEM (OCR Engine Mode) : 3 (par défaut) ## Utilisation ```python from utils.ocr_brut import extraire_texte, extraire_texte_fr # OCR multilingue avec détection automatique texte, image_optimisee = extraire_texte("chemin/vers/image.jpg") # OCR français optimisé texte_fr = extraire_texte_fr("chemin/vers/image.jpg") ``` ## Résultats Les résultats du prétraitement et de l'OCR sont sauvegardés dans le répertoire `results/ocr_brut/`.