coffreobsidian/Serveur perso/Infrastructure Optimisée d'IA Locale.md


---

## Schéma détaillé de l'installation

```
PC Principal (Windows 11 Pro)
│
├── Disque principal (Crucial T700 - 2 To)
│   ├── Windows 11
│   ├── Logiciels principaux
│   ├── Ollama + WSL2
│
├── Disques Crucial P3 (4 To x2)
│   ├── P3 (1)
│   │   ├── Modèles LLM
│   │   └── Fine-tuning (LoRA)
│   └── P3 (2)
│       └── Données (notes, code, contenus)
│
└── SSD MX500 SATA
    └── Sauvegardes & temporaires

Serveur Windows Server 2025
│
├── Disque NVMe Gen3
│   ├── OS
│   ├── IIS
│   ├── Next.js
│   ├── Strapi
│   └── Base vectorielle (RAG avec Ragflow)
│
├── SSD 240 Go SATA
│   ├── FastAPI
│   └── Ollama (Mistral 7B)
│
├── HDD RAID1
│   └── Données site web (images, médias)
│
└── HDD 8To / 3To
    └── Sauvegardes & archives
```

---

## Optimisation RAMDISK

### Pourquoi utiliser RAMDISK ?

- Accélère significativement les accès aux fichiers temporaires durant le fine-tuning.
- Parfait pour des opérations intensives ponctuelles.

### Recommandation d'utilisation RAMDISK

- Taille recommandée : jusqu'à 16 Go sur le PC principal lors du fine-tuning uniquement.
- Logiciel recommandé sous Windows : **ImDisk Toolkit**.
- Créer/détruire le RAMDISK uniquement pendant les sessions de fine-tuning pour libérer les ressources après utilisation.

---

## Commande Nvidia : `nvitop`

### Installation de `nvitop` :

```bash
pip install nvitop
```

### Utilisation :

```bash
nvitop
```

- Affiche une vue interactive avancée des ressources GPU en temps réel (similaire à `htop` pour GPU).
- Indispensable pour surveiller efficacement la consommation GPU lors du fine-tuning et utilisation des modèles LLM.

---

## Optimisation Fine-tuning (LoRA)

- **Répertoire dédié :** Crucial P3 (1) ou RAMDISK pour vitesse optimale.
- **RAM recommandée :** jusqu'à 16 Go durant le fine-tuning.
- **Pause des modèles en jeu :**

```bash
ollama stop <modèle>
```

---

## Tableau des commandes Nvidia détaillées

| Commande                | Description                                     |
| ----------------------- | ----------------------------------------------- |
| `nvidia-smi`            | Affiche usage GPU actuel, mémoire, température. |
| `nvidia-smi -l 1`       | Rafraîchissement toutes les secondes            |
| `nvidia-smi -q`         | Rapport complet GPU                             |
| `nvidia-smi topo -m`    | Topologie GPU (multi-GPU)                       |
| `nvcc --version`        | Version CUDA installée                          |
| `watch -n 1 nvidia-smi` | Suivi temps réel GPU (Linux/WSL)                |
| `nvitop`                | Surveillance interactive temps réel (GPU)       |

---

## Script Python : Surveillance des Ressources Systèmes

### Dépendances

```bash
pip install psutil GPUtil
```

### Code

```python
import psutil
import GPUtil
import time

def get_system_usage():
    cpu_usage = psutil.cpu_percent(interval=1)
    ram_usage = psutil.virtual_memory().percent
    gpu_info = GPUtil.getGPUs()[0]  # GPU principal
    gpu_load = gpu_info.load * 100
    gpu_temp = gpu_info.temperature

    print(f"CPU Usage: {cpu_usage}%")
    print(f"RAM Usage: {ram_usage}%")
    print(f"GPU Load: {gpu_load}%")
    print(f"GPU Temperature: {gpu_temp}°C")

if __name__ == "__main__":
    while True:
        get_system_usage()
        print("-"*30)
        time.sleep(5)
```

### Surveillance Ollama (modèles en cours d'utilisation)

```bash
ollama ps
```

### Gestion par WSL2

Par défaut, tous les disques Windows sont automatiquement montés dans WSL2 sous le répertoire :

```bash
/mnt/
```

Par exemple :

- Disque C sous Windows → `/mnt/c`
- Disque D sous Windows → `/mnt/d`
- Et ainsi de suite pour chaque disque disponible.

### Exemple :

Pour accéder à ton disque Crucial P3 (1), si sous Windows il est assigné à la lettre `D`, tu feras :

```bash
cd /mnt/d/
```

Ainsi, toutes les opérations (installation Ollama, Ragflow, scripts Python, etc.) peuvent être réalisées directement depuis WSL en bénéficiant pleinement des performances de tes disques NVMe.

C'est d'ailleurs la méthode recommandée pour utiliser Ollama, les modèles LLM, et Ragflow efficacement tout en profitant de la simplicité de gestion offerte par WSL2.

Ce guide optimisé prend en compte la centralisation Ragflow sur serveur, la gestion fine du fine-tuning avec RAMDISK optionnel, et la flexibilité pour maximiser les performances gaming tout en utilisant efficacement la RAM et le GPU.

[[automatiser-lancement-serveur-windows]]
[[Préversion IA locales personnelle]]
[[Infrastructure Optimisée d'IA Locale (version 2)]]