llm_ticket3/test_corrections/README.md

# Corrections pour le tri d'images avec llama-vision

Ce document décrit les corrections apportées pour résoudre les problèmes de tri d'images avec llama-vision.

## Problèmes identifiés

1. **Détection incomplète des images** : Seulement 2 images sur 4 étaient analysées après déduplication
2. **Classification trop stricte** : Toutes les images étaient classées comme non pertinentes
3. **Reconnaissance de formats limitée** : Certains formats d'images n'étaient pas correctement détectés

## Corrections apportées

### 1. Amélioration du prompt système (agent_image_sorter.py)

Le prompt système a été entièrement revu pour :
- Définir plus clairement ce qui constitue une image pertinente
- Adopter une approche "par défaut pertinent" en cas de doute
- Élargir la définition des images pertinentes
- Rendre le classement plus inclusif

### 2. Amélioration de la détection des images (orchestrator_llama.py)

La méthode `_lister_images` a été optimisée pour :
- Supporter davantage de formats d'images (ajout de .tiff, .tif)
- Vérifier que chaque fichier est bien une image valide
- Corriger la détection de l'extension .jpg (qui avait une erreur de syntaxe)
- Ajouter des logs pour faciliter le débogage

## Comment tester

Pour tester spécifiquement le tri d'images avec llama-vision, utilisez la commande suivante :

```bash
python main_llama.py <ticket_id> --skip-ticket-analysis --skip-image-analysis --skip-report
```

Après exécution, vérifiez :
1. Le fichier `tri_image_llama*.json` dans le dossier pipeline
2. Le nombre d'images analysées doit correspondre au nombre d'images uniques dans `rapport_de_deduplication.json`
3. Le classement des images devrait être plus généreux (plus d'images "pertinentes")

## Notes supplémentaires

- Le prompt a été optimisé pour llama-vision tout en conservant la consigne de répondre en français
- L'approche de tri est maintenant plus inclusive ("mieux vaut inclure trop que pas assez")