mirror of
https://github.com/Ladebeze66/devsite.git
synced 2026-05-11 16:56:26 +02:00
13 KiB
13 KiB
Guide de Configuration RAGFlow - Site Fernand Gras-Calvet
Guide mis à jour pour RAGFlow 0.24.0 avec modèles Ollama disponibles
🎯 Configuration Hardware Recommandée
Setup Optimal :
- RTX 4090 (24GB) : Vectorisation et embedding
- RTX 2080Ti (11GB) : Inference LLM pour autonomie
- Modèles locaux via Ollama
📊 Configuration Embedding
Modèle Embedding : qwen3-embedding:8b
# Installation
ollama pull qwen3-embedding:8b
# Vérification
ollama show qwen3-embedding:8b
Spécifications :
- Taille : 8B paramètres
- Dimension : 4096 (à vérifier avec ollama show)
- Max tokens : 8192 tokens
- Batch size RTX 4090 : 64-128
- Performances : Excellent pour le français et l'anglais
Configuration RAGFlow :
Model: qwen3-embedding:8b
Max Tokens: 8192
Dimension: 4096
🤖 Configuration Chat Models
Pour RTX 4090 (24GB VRAM) :
# Recommandé - Équilibre qualité/performance
ollama pull qwen2.5:14b
# Alternative haute qualité (si VRAM suffisante)
ollama pull qwen2.5:32b-q4_0
# Alternative rapide
ollama pull llama3.1:8b
Pour RTX 2080Ti (11GB VRAM) - Autonomie :
# Recommandé pour l'autonomie
ollama pull qwen2.5:7b
# Alternatives fiables
ollama pull llama3.1:7b
ollama pull mistral:7b
Limites de tokens :
qwen2.5:7b/14b: 32,768 tokensllama3.1:7b/8b: 128,000 tokens (limitez à 16384-32768 pour performance)mistral:7b: 32,768 tokens
Configuration RAGFlow Recommandée :
# Configuration Conservative (Recommandée)
qwen2.5:14b → Max tokens: 16384
qwen2.5:7b → Max tokens: 16384
llama3.1:8b → Max tokens: 16384
# Configuration Performance
qwen2.5:14b → Max tokens: 32768
llama3.1:8b → Max tokens: 32768
# Configuration Maximum (Attention VRAM)
qwen2.5:14b → Max tokens: 65536
👁️ Configuration VLM (Vision-Language Models)
Modèles VLM Recommandés pour RAGFlow :
Option 1 : Qwen3-VL (Recommandé)
# Modèles disponibles par taille
ollama pull qwen3-vl:2b # Léger, RTX 2080Ti compatible
ollama pull qwen3-vl:4b # Équilibré
ollama pull qwen3-vl:8b # Haute qualité, RTX 4090
ollama pull qwen3-vl:32b # Maximum qualité (si VRAM suffisante)
Spécifications Qwen3-VL :
- Versions : 2B, 4B, 8B, 30B, 32B, 235B
- Max tokens : 8192 tokens (toutes versions)
- Capacités : Vision + Language + Tools + Thinking
- Support : Images, documents, diagrammes
- Mise à jour : Récente (4 mois)
Configuration RAGFlow :
qwen3-vl:2b → Max tokens: 8192
qwen3-vl:4b → Max tokens: 8192
qwen3-vl:8b → Max tokens: 8192
Option 2 : Llama3.2-Vision
ollama pull llama3.2-vision:11b # Recommandé RTX 4090
ollama pull llama3.2-vision:90b # Très haute qualité (multi-GPU)
Spécifications Llama3.2-Vision :
- Versions : 11B, 90B
- Max tokens : 8192 tokens
- Spécialité : Raisonnement sur images
- Performance : Excellent pour l'analyse visuelle
Configuration RAGFlow :
llama3.2-vision:11b → Max tokens: 8192
llama3.2-vision:90b → Max tokens: 8192
Option 3 : MiniCPM-V (Efficace)
ollama pull minicpm-v:8b # Bon compromis performance/qualité
Spécifications MiniCPM-V :
- Taille : 8B paramètres
- Avantage : Optimisé pour l'efficacité
- Usage : Vision-language understanding
Option 4 : LLaVA (Populaire)
ollama pull llava:7b # Version standard
ollama pull llava:13b # Plus performant
ollama pull llava:34b # Haute qualité
Spécifications LLaVA :
- Versions : 7B, 13B, 34B
- Maturité : Très stable, bien testé
- Communauté : Large adoption
Modèles VLM Spécialisés :
Pour OCR et Documents :
# OCR spécialisé
ollama pull deepseek-ocr:3b
ollama pull glm-ocr
# Vision documentaire
ollama pull granite3.2-vision:2b
Pour Edge/Léger :
# Très léger pour edge computing
ollama pull moondream:1.8b
ollama pull llava-phi3:3.8b
Recommandations par GPU :
RTX 4090 (24GB) :
- Optimal :
qwen3-vl:8boullama3.2-vision:11b - Haute qualité :
qwen3-vl:32b - Multi-tâches :
llava:13b
RTX 2080Ti (11GB) :
- Recommandé :
qwen3-vl:4bouminicpm-v:8b - Léger :
qwen3-vl:2boumoondream:1.8b - OCR :
deepseek-ocr:3b
Configuration VLM dans RAGFlow :
# VLM Model Settings
Provider: Ollama
Endpoint: http://localhost:11434
Model: qwen3-vl:8b # Ajustez selon votre GPU
Max tokens: 4096-8192
Temperature: 0.1-0.3
Vision capabilities: Enabled
🔄 Configuration Reranker
Modèles Reranker Disponibles sur Ollama :
Option 1 : BGE Reranker V2-M3 (Recommandé)
# Installation via utilisateur communautaire
ollama pull xitao/bge-reranker-v2-m3
# Alternative
ollama pull zyw0605688/bge-reranker-v2-m3
Spécifications :
- Taille : 568M paramètres (1.2GB)
- Max tokens : 8192 tokens
- Quantification : F16
- Performance : Excellent pour le reranking multilingue
Configuration RAGFlow :
Model: xitao/bge-reranker-v2-m3
Max tokens: 4096-8192
Top-K rerank: 5-8
Option 2 : Jina Reranker V3 (Plus récent)
# Télécharger le modèle GGUF depuis Hugging Face
# Puis l'importer dans Ollama (nécessite conversion manuelle)
Spécifications :
- Taille : 597M paramètres
- Max tokens : 131,000 tokens (!!)
- Langues : 24 langues entraînées, 93 supportées
- Performance : +5.43% vs BGE-reranker-v2-m3
Configuration Reranker dans RAGFlow :
Model: xitao/bge-reranker-v2-m3
Max tokens: 8192
Top-K rerank: 5-8
🎯 Guide Max Tokens par Modèle (RTX 4090)
📊 Tableau de Référence Max Tokens :
| Type | Modèle | Max Tokens | Recommandé RAGFlow |
|---|---|---|---|
| Embedding | qwen3-embedding:8b | 8192 | 8192 |
| nomic-embed-text | 8192 | 8192 | |
| mxbai-embed-large | 512 | 512 | |
| Chat | qwen2.5:7b | 32768 | 16384 (démarrage) |
| qwen2.5:14b | 32768 | 16384 (démarrage) | |
| llama3.1:8b | 131072 | 16384 (performance) | |
| mistral:7b | 32768 | 16384 | |
| VLM | qwen3-vl:8b | 8192 | 8192 |
| llama3.2-vision:11b | 8192 | 8192 | |
| minicpm-v:8b | 4096 | 4096 | |
| Reranker | bge-reranker-v2-m3 | 8192 | 4096 (démarrage) |
🚀 Configurations Prédéfinies RTX 4090 :
Configuration Démarrage (Sécurisée) :
Embedding: 8192 tokens
Chat: 16384 tokens
VLM: 8192 tokens
Reranker: 4096 tokens
VRAM utilisée: ~18GB
Configuration Performance :
Embedding: 8192 tokens
Chat: 32768 tokens
VLM: 8192 tokens
Reranker: 8192 tokens
VRAM utilisée: ~20-22GB
Configuration Maximum (Attention) :
Embedding: 8192 tokens
Chat: 65536 tokens
VLM: 16384 tokens
Reranker: 8192 tokens
VRAM utilisée: ~23GB (limite)
🔍 Comment Vérifier les Limites :
Méthode 1 : Ollama Show
ollama show qwen3-embedding:8b
ollama show qwen2.5:14b
ollama show qwen3-vl:8b
Méthode 2 : Test Progressif
- Démarrez conservateur : 4096 tokens
- Augmentez progressivement : 8192 → 16384 → 32768
- Surveillez VRAM :
nvidia-smi - Testez stabilité : Plusieurs requêtes consécutives
⚠️ Signaux d'Alerte VRAM :
🔴 Trop élevé si :
- Erreurs "CUDA out of memory"
- Réponses très lentes (>10s)
nvidia-smimontre >22GB utilisés- RAGFlow plante ou freeze
🟡 Trop bas si :
- Réponses tronquées
- Contexte perdu dans conversations longues
- Messages "context length exceeded"
🟢 Optimal si :
- Réponses fluides (<5s)
- VRAM stable 18-20GB
- Pas d'erreurs de mémoire
- Contexte préservé
⚙️ Configuration RAGFlow Interface
Étape 1 : Configuration des Modèles
Dans RAGFlow > Settings > Models :
# Embedding Model
Provider: Ollama
Endpoint: http://localhost:11434
Model: qwen3-embedding:8b
Dimension: 4096
# Chat Model
Provider: Ollama
Endpoint: http://localhost:11434
Model: qwen2.5:14b # ou 7b selon votre GPU
# Reranker Model
Provider: Ollama
Endpoint: http://localhost:11434
Model: xitao/bge-reranker-v2-m3
Étape 2 : Configuration Knowledge Base
# Parsing Settings
Parser: Markdown
Chunk size: 512-768 tokens
Chunk overlap: 80-100 tokens
Language: French/English
# Retrieval Settings
Top-K retrieval: 10-15
Rerank Top-K: 5-8
Similarity threshold: 0.7-0.8
Étape 3 : Configuration Chat
# Generation Settings
Max output tokens: 2048-4096
Temperature: 0.1-0.3 (précision)
Top-p: 0.9
Context window: 8192-16384
Configuration VLM (Optionnel)
# VLM Settings pour analyse d'images
Model: qwen3-vl:8b
Max tokens: 4096
Vision input: Enabled
Image analysis: Technical diagrams, screenshots, 3D prints
Temperature: 0.2 (précision pour analyse technique)
🚀 Optimisations Performance
RTX 4090 (Embedding & Vectorisation) :
Batch size: 64-128
Concurrent requests: 4-8
GPU memory allocation: 20GB
Precision: FP16
RTX 2080Ti (Chat Inference) :
Batch size: 16-32
Model quantization: Q4_0 ou Q4_K_M
Context length: Adaptatif selon besoin
GPU memory allocation: 9GB
🎨 Cas d'Usage VLM pour votre Site
Analyse d'Images Techniques :
- Impressions 3D : Analyse des créations, matériaux, techniques
- Captures d'écran : Interface du site, code, configurations
- Diagrammes : Architecture système, flux de données
- Projets visuels : Screenshots de projets, interfaces
Support Visiteurs avec VLM :
- "Que vois-tu sur cette image ?" → Analyse contextuelle
- "Explique cette impression 3D" → Description technique
- "Comment fonctionne cette interface ?" → Guide utilisateur
- "Analyse ce code affiché" → Explication technique
Intégration Multimodale :
# Configuration pour site portfolio
Text + Vision: Combine documentation markdown + images
Use cases:
- Analyse de captures d'écran du site
- Description d'impressions 3D
- Explication de diagrammes techniques
- Support visuel pour projets
📁 Import de la Documentation
Structure à importer :
strapi_extraction/docs/
├── 00-homepage.md # Présentation
├── 01-projects-index.md # Index projets
├── 02-competences-index.md # Index compétences
├── 99-site-architecture.md # Architecture site
├── project-*.md # 17 projets détaillés
├── competence-*.md # 4 compétences détaillées
└── README.md # Vue d'ensemble
Processus d'import :
- Créer Knowledge Base : "Site Fernand Gras-Calvet"
- Upload en batch : Tous les fichiers .md
- Attendre indexation : Embedding + chunking
- Vérifier chunks : Dans l'interface RAGFlow
- Tester retrieval : Questions de validation
🧪 Questions de Test Recommandées
Tests de base :
"Quels sont les projets de Fernand ?"
"Parle-moi du projet push_swap en détail"
"Quelles sont ses compétences en intelligence artificielle ?"
"Comment est structuré le site web ?"
Tests de navigation :
"Comment un visiteur peut-il voir les projets ?"
"Où trouve-t-on les informations sur l'impression 3D ?"
"Comment contacter Fernand ?"
"Quelle est l'architecture technique du site ?"
Tests de précision :
"Combien de projets École 42 sont présentés ?"
"Quels langages de programmation utilise Fernand ?"
"Sur quel serveur est hébergé le site ?"
"Quelles technologies Next.js sont utilisées ?"
Tests VLM (si configuré) :
"Analyse cette capture d'écran du site"
"Décris les impressions 3D visibles sur cette image"
"Que vois-tu dans ce diagramme d'architecture ?"
"Explique cette interface de développement"
📈 Monitoring et Optimisation
Métriques à surveiller :
- Temps de réponse embedding : < 500ms
- Temps de réponse chat : < 3s
- Précision retrieval : > 80%
- Satisfaction reranking : Top-3 pertinence
Ajustements possibles :
- Chunk size selon la précision
- Similarity threshold selon le recall
- Temperature selon la créativité souhaitée
- Top-K selon la diversité des réponses
🔧 Dépannage Courant
Problèmes fréquents :
1. Modèle reranker non trouvé :
# Vérifier les modèles disponibles
ollama list
# Réinstaller si nécessaire
ollama pull xitao/bge-reranker-v2-m3
2. VRAM insuffisante :
- Utiliser modèles quantifiés (Q4_0, Q4_K_M)
- Réduire batch size
- Utiliser des modèles plus petits (7B au lieu de 14B)
3. Réponses imprécises :
- Ajuster similarity threshold
- Augmenter Top-K retrieval
- Vérifier la qualité des chunks
Guide mis à jour le 15/03/2026 - Compatible RAGFlow 0.24.0