4.7 KiB
Schéma détaillé de l'installation
PC Principal (Windows 11 Pro)
│
├── Disque principal (Crucial T700 - 2 To)
│ ├── Windows 11
│ ├── Logiciels principaux
│ ├── Ollama + WSL2
│
├── Disques Crucial P3 (4 To x2)
│ ├── P3 (1)
│ │ ├── Modèles LLM
│ │ └── Fine-tuning (LoRA)
│ └── P3 (2)
│ └── Données (notes, code, contenus)
│
└── SSD MX500 SATA
└── Sauvegardes & temporaires
Serveur Windows Server 2025
│
├── Disque NVMe Gen3
│ ├── OS
│ ├── IIS
│ ├── Next.js
│ ├── Strapi
│ └── Base vectorielle (RAG avec Ragflow)
│
├── SSD 240 Go SATA
│ ├── FastAPI
│ └── Ollama (Mistral 7B)
│
├── HDD RAID1
│ └── Données site web (images, médias)
│
└── HDD 8To / 3To
└── Sauvegardes & archives
Optimisation RAMDISK
Pourquoi utiliser RAMDISK ?
- Accélère significativement les accès aux fichiers temporaires durant le fine-tuning.
- Parfait pour des opérations intensives ponctuelles.
Recommandation d'utilisation RAMDISK
- Taille recommandée : jusqu'à 16 Go sur le PC principal lors du fine-tuning uniquement.
- Logiciel recommandé sous Windows : ImDisk Toolkit.
- Créer/détruire le RAMDISK uniquement pendant les sessions de fine-tuning pour libérer les ressources après utilisation.
Commande Nvidia : nvitop
Installation de nvitop :
pip install nvitop
Utilisation :
nvitop
- Affiche une vue interactive avancée des ressources GPU en temps réel (similaire à
htoppour GPU). - Indispensable pour surveiller efficacement la consommation GPU lors du fine-tuning et utilisation des modèles LLM.
Optimisation Fine-tuning (LoRA)
- Répertoire dédié : Crucial P3 (1) ou RAMDISK pour vitesse optimale.
- RAM recommandée : jusqu'à 16 Go durant le fine-tuning.
- Pause des modèles en jeu :
ollama stop <modèle>
Tableau des commandes Nvidia détaillées
| Commande | Description |
|---|---|
nvidia-smi |
Affiche usage GPU actuel, mémoire, température. |
nvidia-smi -l 1 |
Rafraîchissement toutes les secondes |
nvidia-smi -q |
Rapport complet GPU |
nvidia-smi topo -m |
Topologie GPU (multi-GPU) |
nvcc --version |
Version CUDA installée |
watch -n 1 nvidia-smi |
Suivi temps réel GPU (Linux/WSL) |
nvitop |
Surveillance interactive temps réel (GPU) |
Script Python : Surveillance des Ressources Systèmes
Dépendances
pip install psutil GPUtil
Code
import psutil
import GPUtil
import time
def get_system_usage():
cpu_usage = psutil.cpu_percent(interval=1)
ram_usage = psutil.virtual_memory().percent
gpu_info = GPUtil.getGPUs()[0] # GPU principal
gpu_load = gpu_info.load * 100
gpu_temp = gpu_info.temperature
print(f"CPU Usage: {cpu_usage}%")
print(f"RAM Usage: {ram_usage}%")
print(f"GPU Load: {gpu_load}%")
print(f"GPU Temperature: {gpu_temp}°C")
if __name__ == "__main__":
while True:
get_system_usage()
print("-"*30)
time.sleep(5)
Surveillance Ollama (modèles en cours d'utilisation)
ollama ps
Gestion par WSL2
Par défaut, tous les disques Windows sont automatiquement montés dans WSL2 sous le répertoire :
/mnt/
Par exemple :
- Disque C sous Windows →
/mnt/c - Disque D sous Windows →
/mnt/d - Et ainsi de suite pour chaque disque disponible.
Exemple :
Pour accéder à ton disque Crucial P3 (1), si sous Windows il est assigné à la lettre D, tu feras :
cd /mnt/d/
Ainsi, toutes les opérations (installation Ollama, Ragflow, scripts Python, etc.) peuvent être réalisées directement depuis WSL en bénéficiant pleinement des performances de tes disques NVMe.
C'est d'ailleurs la méthode recommandée pour utiliser Ollama, les modèles LLM, et Ragflow efficacement tout en profitant de la simplicité de gestion offerte par WSL2.
Ce guide optimisé prend en compte la centralisation Ragflow sur serveur, la gestion fine du fine-tuning avec RAMDISK optionnel, et la flexibilité pour maximiser les performances gaming tout en utilisant efficacement la RAM et le GPU.
automatiser-lancement-serveur-windows Préversion IA locales personnelle Infrastructure Optimisée d'IA Locale (version 2)