# 📘 Traitement des Documents Normatifs dans Ragflow avec l'API Mistral & Ollama H100 ## 🎯 Objectif Constituer une base de donnĂ©es RAG de haute qualitĂ©, adaptĂ©e aux documents mĂ©tier du secteur du bĂ©ton (normes, essais, formulations), exploitable via un chatbot LLM. --- ## đŸ§± Types de Documents ConcernĂ©s | Type de Document | Contenu | SpĂ©cificitĂ©s | |-----------------------|--------------------------------------|----------------------------------------| | Norme Produit (AFNOR) | Textes, schĂ©mas, tableaux, formules | Langage technique normatif | | Formulation BĂ©ton | Formules, compositions, dosages | Notation mathĂ©matique, mesures | | Norme Essai | Protocoles, mesures, Ă©quipements | Vocabulaire mĂ©trologique, symboles | | Logiciel BRG-LAB | Interface, scripts, doc technique | Terminologie logicielle, procĂ©durale | --- ## 🔄 Workflow Global (diagramme synthĂ©tique en cours de crĂ©ation) 1. Ingestion du PDF (ex : NF P 11-300) 2. Extraction prĂ©-traitĂ©e : texte, tableaux, images 3. Traduction ciblĂ©e si nĂ©cessaire (schĂ©mas pour vision) 4. Analyse par modĂšles dĂ©diĂ©s (image2text, OCR, code) 5. Reconstitution enrichie (images → texte descriptif) 6. Chunking adaptatif 7. Indexation vectorielle dans Ragflow 8. RequĂȘte via chatbot ou interface RAG --- ## đŸ€– Profils de ModĂšles Disponibles (API Mistral & Ollama) ### ModĂšles API Mistral | Nom | Type | RĂŽle suggĂ©rĂ© | |--------------------------|-------------|--------------------------------------| | mistral-large-latest | Chat | Analyse profonde de texte normatif | | ministral-8b-latest | Chat | Traitement contextuel rapide | | mistral-small-latest | Chat | RĂ©sumĂ©s et tests lĂ©gers | | mistral-embed | Embedding | Indexation vectorielle | | mistral-ocr-latest | image2text | OCR annotĂ© des schĂ©mas/textes | | pixtral-12b-2409 | image2text | Vision poussĂ©e de documents illustrĂ©s| ### ModĂšles Ollama (H100) - `llama3.2-vision:90b`: trĂšs haute qualitĂ© image+texte - `mistral:latest`: rapide & stable - `bge-reranker`, `nomic-embed-text`: pour embeddings & rerank --- ## 🧠 Agents & RĂŽles | Agent | Description | ModĂšle utilisĂ© | |--------------------|----------------------------------------------|----------------------------------------| | Vision | InterprĂšte les schĂ©mas, OCR, etc. | Pixtral / Mistral OCR / LLaVA | | Analyse Normative | Analyse structurĂ©e des textes | mistral-large / ministral-8b | | Math/Formule | Extraction et transcription de formules | Qwen2.5-Coder / mistral-large | | Embedder | Indexation vectorielle pour recherche RAG | mistral-embed / nomic-embed-text | > 💡 CrĂ©er un rĂŽle d'agent par tĂąche, avec prĂ©rĂ©glages LLM (tempĂ©rature, max tokens, top_p, etc.) --- ## 🔧 Test Initial dans Ragflow (interface web) 1. AccĂ©der Ă  l’interface Ragflow 2. CrĂ©er une base de donnĂ©es `Normes Produits` 3. Config initiale : - LLM : `ministral-8b-latest` - Embedder : `mistral-embed` - Vision model : `pixtral-12b-2409` 4. Import du PDF 5. Ajout manuel de contexte pour les schĂ©mas (si nĂ©cessaire) 6. Lancer le chunking personnalisĂ© 7. Tester des requĂȘtes en langage naturel --- ## 🚀 Étapes futures recommandĂ©es - CrĂ©er un outil Python de prĂ©-traitement semi-automatisĂ© (GUI) - Ajouter une traduction ciblĂ©e pour les Ă©lĂ©ments visuels en anglais - CrĂ©er un index secondaire contenant uniquement les interprĂ©tations des images - ImplĂ©menter 3 profils de traitement : - **LĂ©ger** : mistral-small - **ModĂ©rĂ©** : ministral-8b - **Complet** : mistral-large + vision --- ## đŸ§© Conclusion Une configuration optimisĂ©e de Ragflow avec tes modĂšles (API Mistral & Ollama H100) permet de construire une base RAG efficace pour les documents techniques du bĂ©ton. Les schĂ©mas doivent ĂȘtre analysĂ©s dans leur contexte, traduits si nĂ©cessaire, et enrichis avant le chunking. Un second fichier `.md` pourra dĂ©tailler le **diagramme de traitement et les logs de test**.