mirror of
https://github.com/Ladebeze66/llm_ticket3.git
synced 2025-12-18 05:07:49 +01:00
30 lines
902 B
Markdown
30 lines
902 B
Markdown
# Module OCR Brut (Tesseract)
|
|
|
|
Ce module contient les outils pour l'extraction de texte basique à partir d'images en utilisant Tesseract OCR.
|
|
|
|
## Fichiers principaux
|
|
|
|
- `ocr_utils.py` : Fonctions principales d'extraction de texte avec Tesseract
|
|
- `ocr_preprocessor.py` : Prétraitement d'images pour améliorer la qualité de l'OCR
|
|
|
|
## Configuration par défaut
|
|
|
|
- Profil de prétraitement : "document"
|
|
- PSM (Page Segmentation Mode) : 11 (Texte sparse)
|
|
- OEM (OCR Engine Mode) : 3 (par défaut)
|
|
|
|
## Utilisation
|
|
|
|
```python
|
|
from utils.ocr_brut import extraire_texte, extraire_texte_fr
|
|
|
|
# OCR multilingue avec détection automatique
|
|
texte, image_optimisee = extraire_texte("chemin/vers/image.jpg")
|
|
|
|
# OCR français optimisé
|
|
texte_fr = extraire_texte_fr("chemin/vers/image.jpg")
|
|
```
|
|
|
|
## Résultats
|
|
|
|
Les résultats du prétraitement et de l'OCR sont sauvegardés dans le répertoire `results/ocr_brut/`. |