Ladebeze66/llm_ticket3

mirror of https://github.com/Ladebeze66/llm_ticket3.git synced 2026-03-27 15:23:51 +01:00

History

Ladebeze66 6b96513438 0705-17:12

2025-05-07 17:12:50 +02:00

..

__init__.py

0705-17:12

2025-05-07 17:12:50 +02:00

ocr_preprocessor.py

0705-17:12

2025-05-07 17:12:50 +02:00

ocr_utils.py

0705-17:12

2025-05-07 17:12:50 +02:00

README.md

0705-17:12

2025-05-07 17:12:50 +02:00

README.md

Module OCR Brut (Tesseract)

Ce module contient les outils pour l'extraction de texte basique à partir d'images en utilisant Tesseract OCR.

Fichiers principaux

ocr_utils.py : Fonctions principales d'extraction de texte avec Tesseract
ocr_preprocessor.py : Prétraitement d'images pour améliorer la qualité de l'OCR

Configuration par défaut

Profil de prétraitement : "document"
PSM (Page Segmentation Mode) : 11 (Texte sparse)
OEM (OCR Engine Mode) : 3 (par défaut)

Utilisation

from utils.ocr_brut import extraire_texte, extraire_texte_fr

# OCR multilingue avec détection automatique
texte, image_optimisee = extraire_texte("chemin/vers/image.jpg")

# OCR français optimisé
texte_fr = extraire_texte_fr("chemin/vers/image.jpg")

Résultats

Les résultats du prétraitement et de l'OCR sont sauvegardés dans le répertoire results/ocr_brut/.