mirror of
https://github.com/Ladebeze66/notes_stage_brut.git
synced 2025-12-16 02:37:49 +01:00
2.6 KiB
2.6 KiB
1. Connaissances de base et commandes essentielles
a. Installation et configuration initiale
- Installation sur Linux/Windows/macOS:
curl -fsSL https://ollama.com/install.sh | sh
- Vérifier l'installation :
ollama --version
- Lancer le serveur Ollama :
ollama serve
Commandes complètes de base
-
Afficher les modèles disponibles :
ollama list -
Télécharger un modèle précis :
ollama pull llama3
- Lancer un prompt rapidement :
ollma run llama3 "Quelle est la capitale de la France?"
- Gestion avancée des modèles :
ollama show llama3
ollama rm llama3
c. Utilisation des commandes GPU Nvidia (spécifique H100)
- Vérification GPU disponible:
nivdia-smi
- Configuration spécifique GPU Nvidia pour Ollama:
- Ollama utilise automatiquement CUDA lorsqu'un GPU Nvidia est disponible, mais vérifier le support CUDA
nvcc --version
- Monitoring GPU durant l'utilisation Ollama :
watch -n 1 nvidia-smi
- Optimisation d'utilisation GPU (exemple H100) :
- S'assurer d'avoir installé CUDA Toolkit 12.x (compatible H100).
- Gestion des ressources GPU (notamment via variables d'environnement si besoin spécifique) :
export CUDA_CISIBLE_DEVICES=0 #pour préciser le GPU à utiliser
2. Connaissances globales sur Ollama
a. Architechture générale d'Ollama
- Composants principaux :
- Ollama server (gestion des requêtes et des modèles)
- Modèles supportés (LLaMa, Gemma, Mistral, LLaVA, Codellama...)
- Communication via REST API locale
b. Modèles disponibles et usages recommandés
- Modèles linguistiques (LLM) généraux (LLaMA3, Mistral, Mixtral...)
- Modèles spécialisés (CodeLLaMA pour code, LLaVA pour multimodal...)
c. Bonnes pratiques
- Gestion et stockage des modèles (volumes importants)
- Mise à jour régulière des modèles
- Structuration simple des requêtes de test
3. Connaissances poussées et avancées
a. Déploiement en production (serveur, VM, cloud)
- Dockerisation Ollama
docker run -d -p 11434:11434 -v ~/.ollama:/root/.ollama ollama/ollama
- Automatisation (docker-compose, Kubernetes)
b. Modèles avancés et optimisation
- Fine-tuning personalisé (concept théorique, actuellement limité sur Ollama)
- Création de modèles personnalisés via Ollama (ollama create)
c. Benchmark et évaluation de performances
- Tests de vitesse et de latence des modèles:
ollma run --verbose llama3 "test de performance"
- Monitoring continu et logging avancé