llm_ticket3/utils/ocr_brut/README.md

# Module OCR Brut (Tesseract)

Ce module contient les outils pour l'extraction de texte basique à partir d'images en utilisant Tesseract OCR.

## Fichiers principaux

- `ocr_utils.py` : Fonctions principales d'extraction de texte avec Tesseract
- `ocr_preprocessor.py` : Prétraitement d'images pour améliorer la qualité de l'OCR

## Configuration par défaut

- Profil de prétraitement : "document"
- PSM (Page Segmentation Mode) : 11 (Texte sparse)
- OEM (OCR Engine Mode) : 3 (par défaut)

## Utilisation

```python
from utils.ocr_brut import extraire_texte, extraire_texte_fr

# OCR multilingue avec détection automatique
texte, image_optimisee = extraire_texte("chemin/vers/image.jpg")

# OCR français optimisé
texte_fr = extraire_texte_fr("chemin/vers/image.jpg")
```

## Résultats

Les résultats du prétraitement et de l'OCR sont sauvegardés dans le répertoire `results/ocr_brut/`.