coffreobsidian/inbox/Ragflow modérée-avancée.md
2025-03-28 16:18:37 +01:00

3.8 KiB
Raw Blame History

accès à linterface web de Ragflow (donc configuration manuelle par lUI)
tous tes documents en français
une instance Ollama avec les meilleurs modèles (chat, vision, embedding, reranker) via http://217.182.105.173:11434


Voici un résumé clair et actionnable de ce que tu dois faire dans linterface Web de Ragflow, étape par étape, pour une configuration équilibrée/avancée :


⚙️ ÉTAPE 1 : Ajout des modèles dans Ragflow Web

Rends-toi dans "Model Settings""Add LLM", et configure les modèles ci-dessous (un par un).


🧠 1. Modèle principal de chat (DeepSeek ou Qwen)

Champ Valeur
Model type chat
Model name deepseek-r1:70b-llama-distill-q8_0 (ou qwen2.5:72b...)
Base url http://217.182.105.173:11434
API-Key (laisser vide)
Max Tokens 1024
Does it support Vision? (désactiver, sauf si tu utilises Llama3 Vision en chat)

Si tu veux un modèle rapide pour les tests, ajoute aussi mistral:latest avec 512 tokens max.


👁 2. Modèle de vision (analyse des images/schémas)

Champ Valeur
Model type image2text
Model name llava:34b-v1.6-fp16 (ou) llama3.2-vision:90b...
Base url http://217.182.105.173:11434
Does it support Vision? ON

🔁 Tu peux ajouter les deux si tu veux basculer entre rapide/lourd.


🔤 3. Embedding (indexation vectorielle)

Champ Valeur
Model type embedding
Model name nomic-embed-text
Base url http://217.182.105.173:11434

🧠 4. Reranker (pertinence des réponses)

Champ Valeur
Model type rerank
Model name bge-reranker-v2-m3
Base url http://217.182.105.173:11434

📂 ÉTAPE 2 : Configurer la base de documents (dataset)

Quand tu crées une nouvelle base :

  1. Choisir les bons modèles :

    • Chat model → ton modèle principal (deepseek, qwen, etc.)

    • Embedding model → nomic-embed-text

    • Reranker → bge-reranker-v2-m3

    • Img2Text → llava ou llama3 vision

  2. Détection de layout (PDF) :

    • Choisir DeepDoc comme mode de parsing (il structure mieux)

    • Active OCR si tu veux extraire aussi les annotations dans les images

  3. Traduction automatique :

    • ⚠️ Non encore native dans Ragflow → à faire via script ou édition manuelle

    • 👉 Solution temporaire : éditer les chunks générés dans lUI pour ajouter la version traduite en anglais et/ou interprétation schéma


✏️ ÉTAPE 3 : Améliorer les documents manuellement (temporairement)

Une fois les documents ingérés :

  1. Va dans le Dataset → Onglet Documents

  2. Clique sur un document → Edit chunks

  3. Pour chaque chunk contenant un schéma ou texte critique :

    • ✍️ Ajoute une traduction en anglais

    • 🔁 Si image : génère un prompt à llava depuis une capture décran du schéma

    • Colle linterprétation dans le chunk

Tu peux aussi écrire un script pour automatiser ce processus plus tard (tu veux ?)


Bonnes pratiques

  • 🔄 Tous les textes importants doivent être traduits en anglais pour de meilleurs embeddings

  • 🧩 Si un chunk contient une figure interprétée, commence le texte par : Figure X Interprétation : ...

  • 📍 Garde le français visible dans le chunk ou en métadonnée si tu veux le restituer côté interface


Souhaites-tu que je te prépare un fichier .md avec ces étapes, les modèles et les champs prêts à remplir dans Ragflow, pour Obsidian ou impression ?