coffreobsidian/Ragflow/RAGFlow_KB_Normes_Schemas.md
2025-04-14 08:52:08 +02:00

4.1 KiB
Raw Blame History

📘 Suivi & Optimisation RAGFlow - Documents Normes + Schémas Annotés

🧾 Objectif

Documenter et optimiser le traitement des documents de normes (AFNOR, EN, etc.) incluant à la fois du texte réglementaire et des schémas annotés, dans un pipeline RAG avec Ragflow et LLM vision.


🧠 Problématique 1 : Documents en français + LLM Vision (anglais)

Peut-on utiliser des LLM vision sur des documents en français ?

  • Oui, mais avec limitations :
    • Les LLM vision (comme llama3.2-vision) sont pré-entraînés sur des descriptions anglaises.
    • Si le texte environnant et les légendes des schémas sont en français, le modèle peut :
      • Ne pas comprendre les légendes
      • Générer une description incomplète ou fausse
    • ⚠️ Cela affecte la capacité de mise en contexte du schéma avec la partie textuelle.

Solutions proposées :

  1. Pré-traduction automatique :

    • Traduire (via LLM ou outil) les légendes et titres de schéma avant ingestion.
    • Ajout dans les metadata du chunk :
      • original_legende: "Écart-type mesuré à 28j"
      • translated_legend: "Standard deviation measured at 28d"
  2. Ajout dun chunk de résumé visuel :

    • Utiliser un LLM vision (manuellement ou via agent) pour générer une description anglaise du schéma.
    • Exemple :
      This diagram shows the compressive strength evolution of concrete over 28 days.
      
    • Ajouter ce résumé au chunk contenant le schéma.

⚙️ Problématique 2 : Création dun profil KB efficace dans Ragflow (H100 disponible)

🧬 Configuration recommandée

Élément Valeur recommandée
KB Name Normes_FR_Schemas
Template de chunking law ou manual
Chunk size 300400 tokens
Overlap 50 tokens
Vision activée ? OUI pour assistant associé
LLM principal (chat) llama3.2-vision:90b-instruct-q8_0 via Ollama
Re-ranking EraX-multilingual-Rerank-3B-V2.0 pour précision FR
Langue du prompt système Anglais (voir section suivante)

🧾 Prompt système recommandé pour cette KB (en anglais pour llama-vision)

You are an assistant specialized in French construction standards. If the chunk contains a diagram with annotations, explain it clearly and link it with the surrounding text. Translate the annotations from French if necessary. Focus on article structure and norms logic. Cite the section if relevant.

📦 Métadonnées à inclure dans chaque chunk

  • type: norme / schéma / texte / mixte
  • original_legende : texte brut en français
  • translated_legend : (optionnel) version traduite si disponible
  • image_context : texte descriptif ou résumé visuel du schéma
  • article_ref : référence au chapitre ou article

🧪 Étapes futures à documenter ici

  • Test de parsing sur 5 normes avec schémas
  • Évaluation des descriptions générées avec et sans pré-traduction
  • Qualité des réponses de llama3.2-vision sur différents prompts
  • Implémentation dun pipeline semi-automatisé dannotation
  • Comparaison avec un LLM texte seul (deepseek-r1, mistral)

✍️ Observations / Journal (à compléter)

Date Étape / test Résultat / problème Commentaire

Fichier mis à jour le : {{2025-03-26}}
Auteur : ChatGPT x [Ton Nom / Équipe]