coffreobsidian/Ragflow/Ragflow modérée-avancée.md
2025-04-14 08:52:08 +02:00

127 lines
3.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

✅ accès à linterface **web** de Ragflow (donc configuration manuelle par lUI)
✅ tous tes **documents en français**
✅ une instance **Ollama** avec les meilleurs modèles (chat, vision, embedding, reranker) via `http://217.182.105.173:11434`
---
Voici un **résumé clair et actionnable** de **ce que tu dois faire dans linterface Web de Ragflow**, **étape par étape**, pour une configuration **équilibrée/avancée** :
---
## ⚙️ ÉTAPE 1 : Ajout des modèles dans Ragflow Web
Rends-toi dans **"Model Settings"** → **"Add LLM"**, et configure les modèles ci-dessous (un par un).
---
### 🧠 1. Modèle principal de chat (DeepSeek ou Qwen)
|Champ|Valeur|
|---|---|
|**Model type**|`chat`|
|**Model name**|`deepseek-r1:70b-llama-distill-q8_0` (ou `qwen2.5:72b...`)|
|**Base url**|`http://217.182.105.173:11434`|
|**API-Key**|_(laisser vide)_|
|**Max Tokens**|`1024`|
|**Does it support Vision?**|`❌` (désactiver, sauf si tu utilises Llama3 Vision en chat)|
> ✅ Si tu veux un modèle **rapide pour les tests**, ajoute aussi `mistral:latest` avec 512 tokens max.
---
### 👁 2. Modèle de vision (analyse des images/schémas)
|Champ|Valeur|
|---|---|
|**Model type**|`image2text`|
|**Model name**|`llava:34b-v1.6-fp16` _(ou)_ `llama3.2-vision:90b...`|
|**Base url**|`http://217.182.105.173:11434`|
|**Does it support Vision?**|✅ `ON`|
> 🔁 Tu peux ajouter les deux si tu veux basculer entre rapide/lourd.
---
### 🔤 3. Embedding (indexation vectorielle)
|Champ|Valeur|
|---|---|
|**Model type**|`embedding`|
|**Model name**|`nomic-embed-text`|
|**Base url**|`http://217.182.105.173:11434`|
---
### 🧠 4. Reranker (pertinence des réponses)
|Champ|Valeur|
|---|---|
|**Model type**|`rerank`|
|**Model name**|`bge-reranker-v2-m3`|
|**Base url**|`http://217.182.105.173:11434`|
---
## 📂 ÉTAPE 2 : Configurer la base de documents (dataset)
Quand tu crées une nouvelle base :
1. **Choisir les bons modèles** :
- Chat model → ton modèle principal (`deepseek`, `qwen`, etc.)
- Embedding model → `nomic-embed-text`
- Reranker → `bge-reranker-v2-m3`
- Img2Text → `llava` ou `llama3 vision`
2. **Détection de layout (PDF)** :
- Choisir `DeepDoc` comme mode de parsing (il structure mieux)
- ✅ Active **OCR** si tu veux extraire aussi les annotations dans les images
3. **Traduction automatique** :
- ⚠️ Non encore native dans Ragflow → à faire via script ou édition manuelle
- 👉 Solution temporaire : **éditer les chunks générés** dans lUI pour ajouter la version traduite en anglais et/ou interprétation schéma
---
## ✏️ ÉTAPE 3 : Améliorer les documents manuellement (temporairement)
Une fois les documents ingérés :
1. Va dans le Dataset → Onglet `Documents`
2. Clique sur un document → `Edit chunks`
3. Pour chaque chunk contenant un schéma ou texte critique :
- ✍️ Ajoute une traduction **en anglais**
- 🔁 Si image : génère un prompt à `llava` depuis une capture décran du schéma
- ✅ Colle linterprétation dans le chunk
> Tu peux aussi écrire un script pour automatiser ce processus plus tard (tu veux ?)
---
## ✅ Bonnes pratiques
- 🔄 Tous les textes importants doivent être traduits **en anglais** pour de meilleurs embeddings
- 🧩 Si un chunk contient une figure interprétée, commence le texte par : `Figure X Interprétation : ...`
- 📍 Garde le français **visible dans le chunk** ou en métadonnée si tu veux le restituer côté interface
---
Souhaites-tu que je te prépare un fichier `.md` avec ces étapes, les modèles et les champs prêts à remplir dans Ragflow, pour Obsidian ou impression ?