coffreobsidian/Serveur perso/Infrastructure Optimisée d'IA Locale.md
2025-03-23 20:59:56 +01:00

4.4 KiB


Schéma détaillé de l'installation

PC Principal (Windows 11 Pro)
│
├── Disque principal (Crucial T700 - 2 To)
│   ├── Windows 11
│   ├── Logiciels principaux
│   ├── Ollama + WSL2
│
├── Disques Crucial P3 (4 To x2)
│   ├── P3 (1)
│   │   ├── Modèles LLM
│   │   └── Fine-tuning (LoRA)
│   └── P3 (2)
│       └── Données (notes, code, contenus)
│
└── SSD MX500 SATA
    └── Sauvegardes & temporaires

Serveur Windows Server 2025
│
├── Disque NVMe Gen3
│   ├── OS
│   ├── IIS
│   ├── Next.js
│   ├── Strapi
│   └── Base vectorielle (RAG avec Ragflow)
│
├── SSD 240 Go SATA
│   ├── FastAPI
│   └── Ollama (Mistral 7B)
│
├── HDD RAID1
│   └── Données site web (images, médias)
│
└── HDD 8To / 3To
    └── Sauvegardes & archives

Optimisation RAMDISK

Pourquoi utiliser RAMDISK ?

  • Accélère significativement les accès aux fichiers temporaires durant le fine-tuning.
  • Parfait pour des opérations intensives ponctuelles.

Recommandation d'utilisation RAMDISK

  • Taille recommandée : jusqu'à 16 Go sur le PC principal lors du fine-tuning uniquement.
  • Logiciel recommandé sous Windows : ImDisk Toolkit.
  • Créer/détruire le RAMDISK uniquement pendant les sessions de fine-tuning pour libérer les ressources après utilisation.

Commande Nvidia : nvitop

Installation de nvitop :

pip install nvitop

Utilisation :

nvitop
  • Affiche une vue interactive avancée des ressources GPU en temps réel (similaire à htop pour GPU).
  • Indispensable pour surveiller efficacement la consommation GPU lors du fine-tuning et utilisation des modèles LLM.

Optimisation Fine-tuning (LoRA)

  • Répertoire dédié : Crucial P3 (1) ou RAMDISK pour vitesse optimale.
  • RAM recommandée : jusqu'à 16 Go durant le fine-tuning.
  • Pause des modèles en jeu :
ollama stop <modèle>

Tableau des commandes Nvidia détaillées

Commande Description
nvidia-smi Affiche usage GPU actuel, mémoire, température.
nvidia-smi -l 1 Rafraîchissement toutes les secondes
nvidia-smi -q Rapport complet GPU
nvidia-smi topo -m Topologie GPU (multi-GPU)
nvcc --version Version CUDA installée
watch -n 1 nvidia-smi Suivi temps réel GPU (Linux/WSL)
nvitop Surveillance interactive temps réel (GPU)

Script Python : Surveillance des Ressources Systèmes

Dépendances

pip install psutil GPUtil

Code

import psutil
import GPUtil
import time

def get_system_usage():
    cpu_usage = psutil.cpu_percent(interval=1)
    ram_usage = psutil.virtual_memory().percent
    gpu_info = GPUtil.getGPUs()[0]  # GPU principal
    gpu_load = gpu_info.load * 100
    gpu_temp = gpu_info.temperature

    print(f"CPU Usage: {cpu_usage}%")
    print(f"RAM Usage: {ram_usage}%")
    print(f"GPU Load: {gpu_load}%")
    print(f"GPU Temperature: {gpu_temp}°C")

if __name__ == "__main__":
    while True:
        get_system_usage()
        print("-"*30)
        time.sleep(5)

Surveillance Ollama (modèles en cours d'utilisation)

ollama ps

Gestion par WSL2

Par défaut, tous les disques Windows sont automatiquement montés dans WSL2 sous le répertoire :

/mnt/

Par exemple :

  • Disque C sous Windows → /mnt/c
  • Disque D sous Windows → /mnt/d
  • Et ainsi de suite pour chaque disque disponible.

Exemple :

Pour accéder à ton disque Crucial P3 (1), si sous Windows il est assigné à la lettre D, tu feras :

cd /mnt/d/

Ainsi, toutes les opérations (installation Ollama, Ragflow, scripts Python, etc.) peuvent être réalisées directement depuis WSL en bénéficiant pleinement des performances de tes disques NVMe.

C'est d'ailleurs la méthode recommandée pour utiliser Ollama, les modèles LLM, et Ragflow efficacement tout en profitant de la simplicité de gestion offerte par WSL2.

Ce guide optimisé prend en compte la centralisation Ragflow sur serveur, la gestion fine du fine-tuning avec RAMDISK optionnel, et la flexibilité pour maximiser les performances gaming tout en utilisant efficacement la RAM et le GPU.

automatiser-lancement-serveur-windows Préversion IA locales personnelle Infrastructure Optimisée d'IA Locale (version 2)