mirror of
https://github.com/Ladebeze66/coffreobsidian.git
synced 2025-12-16 21:57:44 +01:00
4.1 KiB
4.1 KiB
📘 Suivi & Optimisation RAGFlow - Documents Normes + Schémas Annotés
🧾 Objectif
Documenter et optimiser le traitement des documents de normes (AFNOR, EN, etc.) incluant à la fois du texte réglementaire et des schémas annotés, dans un pipeline RAG avec Ragflow et LLM vision.
🧠 Problématique 1 : Documents en français + LLM Vision (anglais)
❓ Peut-on utiliser des LLM vision sur des documents en français ?
- Oui, mais avec limitations :
- Les LLM vision (comme
llama3.2-vision) sont pré-entraînés sur des descriptions anglaises. - Si le texte environnant et les légendes des schémas sont en français, le modèle peut :
- Ne pas comprendre les légendes
- Générer une description incomplète ou fausse
- ⚠️ Cela affecte la capacité de mise en contexte du schéma avec la partie textuelle.
- Les LLM vision (comme
✅ Solutions proposées :
-
Pré-traduction automatique :
- Traduire (via LLM ou outil) les légendes et titres de schéma avant ingestion.
- Ajout dans les
metadatadu chunk :original_legende: "Écart-type mesuré à 28j"translated_legend: "Standard deviation measured at 28d"
-
Ajout d’un chunk de résumé visuel :
- Utiliser un LLM vision (manuellement ou via agent) pour générer une description anglaise du schéma.
- Exemple :
This diagram shows the compressive strength evolution of concrete over 28 days. - Ajouter ce résumé au chunk contenant le schéma.
⚙️ Problématique 2 : Création d’un profil KB efficace dans Ragflow (H100 disponible)
🧬 Configuration recommandée
| Élément | Valeur recommandée |
|---|---|
| KB Name | Normes_FR_Schemas |
| Template de chunking | law ou manual |
| Chunk size | 300–400 tokens |
| Overlap | 50 tokens |
| Vision activée ? | ✅ OUI pour assistant associé |
| LLM principal (chat) | llama3.2-vision:90b-instruct-q8_0 via Ollama |
| Re-ranking | EraX-multilingual-Rerank-3B-V2.0 pour précision FR |
| Langue du prompt système | Anglais (voir section suivante) |
🧾 Prompt système recommandé pour cette KB (en anglais pour llama-vision)
You are an assistant specialized in French construction standards. If the chunk contains a diagram with annotations, explain it clearly and link it with the surrounding text. Translate the annotations from French if necessary. Focus on article structure and norms logic. Cite the section if relevant.
📦 Métadonnées à inclure dans chaque chunk
type:norme/schéma/texte/mixteoriginal_legende: texte brut en françaistranslated_legend: (optionnel) version traduite si disponibleimage_context: texte descriptif ou résumé visuel du schémaarticle_ref: référence au chapitre ou article
🧪 Étapes futures à documenter ici
- Test de parsing sur 5 normes avec schémas
- Évaluation des descriptions générées avec et sans pré-traduction
- Qualité des réponses de
llama3.2-visionsur différents prompts - Implémentation d’un pipeline semi-automatisé d’annotation
- Comparaison avec un LLM texte seul (
deepseek-r1,mistral)
✍️ Observations / Journal (à compléter)
| Date | Étape / test | Résultat / problème | Commentaire |
|---|---|---|---|
Fichier mis à jour le : {{2025-03-26}}
Auteur : ChatGPT x [Ton Nom / Équipe]