# 📘 Suivi & Optimisation RAGFlow - Documents Normes + SchĂ©mas AnnotĂ©s ## đŸ§Ÿ Objectif Documenter et optimiser le traitement des **documents de normes (AFNOR, EN, etc.)** incluant Ă  la fois du **texte rĂ©glementaire** et des **schĂ©mas annotĂ©s**, dans un pipeline RAG avec Ragflow et LLM vision. --- ## 🧠 ProblĂ©matique 1 : Documents en français + LLM Vision (anglais) ### ❓ Peut-on utiliser des LLM vision sur des documents en français ? - **Oui**, mais avec limitations : - Les LLM vision (comme `llama3.2-vision`) sont **prĂ©-entraĂźnĂ©s sur des descriptions anglaises**. - Si le **texte environnant et les lĂ©gendes des schĂ©mas sont en français**, le modĂšle peut : - Ne **pas comprendre les lĂ©gendes** - GĂ©nĂ©rer une description incomplĂšte ou fausse - ⚠ Cela affecte la **capacitĂ© de mise en contexte du schĂ©ma** avec la partie textuelle. ### ✅ Solutions proposĂ©es : 1. **PrĂ©-traduction automatique** : - Traduire (via LLM ou outil) les **lĂ©gendes et titres de schĂ©ma** avant ingestion. - Ajout dans les `metadata` du chunk : - `original_legende: "Écart-type mesurĂ© Ă  28j"` - `translated_legend: "Standard deviation measured at 28d"` 2. **Ajout d’un chunk de rĂ©sumĂ© visuel** : - Utiliser un LLM vision (manuellement ou via agent) pour **gĂ©nĂ©rer une description anglaise du schĂ©ma**. - Exemple : ```text This diagram shows the compressive strength evolution of concrete over 28 days. ``` - Ajouter ce rĂ©sumĂ© au chunk contenant le schĂ©ma. --- ## ⚙ ProblĂ©matique 2 : CrĂ©ation d’un profil KB efficace dans Ragflow (H100 disponible) ### 🧬 Configuration recommandĂ©e | ÉlĂ©ment | Valeur recommandĂ©e | |----------------------------|-----------------------------------------------------------| | **KB Name** | `Normes_FR_Schemas` | | **Template de chunking** | `law` ou `manual` | | **Chunk size** | 300–400 tokens | | **Overlap** | 50 tokens | | **Vision activĂ©e ?** | ✅ OUI pour assistant associĂ© | | **LLM principal (chat)** | `llama3.2-vision:90b-instruct-q8_0` via Ollama | | **Re-ranking** | `EraX-multilingual-Rerank-3B-V2.0` pour prĂ©cision FR | | **Langue du prompt systĂšme** | Anglais (voir section suivante) | --- ## đŸ§Ÿ Prompt systĂšme recommandĂ© pour cette KB (en anglais pour llama-vision) ```text You are an assistant specialized in French construction standards. If the chunk contains a diagram with annotations, explain it clearly and link it with the surrounding text. Translate the annotations from French if necessary. Focus on article structure and norms logic. Cite the section if relevant. ``` --- ## 📩 MĂ©tadonnĂ©es Ă  inclure dans chaque chunk - `type`: `norme` / `schĂ©ma` / `texte` / `mixte` - `original_legende` : texte brut en français - `translated_legend` : (optionnel) version traduite si disponible - `image_context` : texte descriptif ou rĂ©sumĂ© visuel du schĂ©ma - `article_ref` : rĂ©fĂ©rence au chapitre ou article --- ## đŸ§Ș Étapes futures Ă  documenter ici - [ ] Test de parsing sur 5 normes avec schĂ©mas - [ ] Évaluation des descriptions gĂ©nĂ©rĂ©es avec et sans prĂ©-traduction - [ ] QualitĂ© des rĂ©ponses de `llama3.2-vision` sur diffĂ©rents prompts - [ ] ImplĂ©mentation d’un pipeline semi-automatisĂ© d’annotation - [ ] Comparaison avec un LLM texte seul (`deepseek-r1`, `mistral`) --- ## ✍ Observations / Journal (Ă  complĂ©ter) | Date | Étape / test | RĂ©sultat / problĂšme | Commentaire | |------------|----------------------------------------|----------------------|-------------| | | | | | --- **Fichier mis Ă  jour le :** {{2025-03-26}} **Auteur :** ChatGPT x [Ton Nom / Équipe]