Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

wiki:ia_setup [2026/05/16 16:27] – créée daguerdalwiki:ia_setup [2026/05/16 16:29] (Version actuelle) daguerdal
Ligne 2: Ligne 2:
  
 **Matériel :** **Matériel :**
-• PRIME B365M-A / i5-9400F / 48 Go DDR4 +  * PRIME B365M-A / i5-9400F / 48 Go DDR4 
-• Radeon RX 9060 XT +  Radeon RX 9060 XT 
-• RTX 3060 12 Go sur adaptateur M.2+  RTX 3060 12 Go sur adaptateur M.2
  
 **Au niveau OS :** **Au niveau OS :**
-• Linux Mint 22.3 +  * Linux Mint 22.3 
-• on rajoute docker => https://docs.docker.com/engine/install/ubuntu/ +  on rajoute docker => https://docs.docker.com/engine/install/ubuntu/ 
-• On ajoute le runtime Nvidia => apt install nvidia-container-toolkit +  On ajoute le runtime Nvidia => apt install nvidia-container-toolkit 
-• On ajoute le runtime Amd => apt install amd-container-toolkit +  On ajoute le runtime Amd => apt install amd-container-toolkit 
-• On paramètre docker pour qu'il puisse discuter Nvidia => nvidia-ctk runtime configure --runtime=docker +  On paramètre docker pour qu'il puisse discuter Nvidia => nvidia-ctk runtime configure --runtime=docker 
-• On paramètre docker pour qu'il puisse discuter Amd => amd-ctk runtime configure+  On paramètre docker pour qu'il puisse discuter Amd => amd-ctk runtime configure
  
 Ensuite mon service docker pour llama Ensuite mon service docker pour llama
Ligne 55: Ligne 55:
 On teste du Modèle Dense : On teste du Modèle Dense :
  
-     Qwen3.6-27B-UD-Q3_K_XL.gguf | 131 072 Ctx | -> 13.70 t/s+  * Liste à puceQwen3.6-27B-UD-Q3_K_XL.gguf | 131 072 Ctx | -> 13.70 t/s
  
 Pour les MOE : Pour les MOE :
  
-     Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf | 262 144 Ctx | => 44.94 t/s +  * Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf | 262 144 Ctx | => 44.94 t/s 
-     Qwen3.5-35B-A3B-UD-Q4_K_L.gguf | 131 072 Ctx | => 46.27 t/s +  Qwen3.5-35B-A3B-UD-Q4_K_L.gguf | 131 072 Ctx | => 46.27 t/s 
-     gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf | 131 072 Ctx | => 45.15 t/s+  gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf | 131 072 Ctx | => 45.15 t/s
  
 Modèles plus light :   Modèles plus light :  
  
-     Qwen3.5-4B-UD-Q8_K_XL.gguf | 131 072 Ctx | => 37.40 t/s +  * Qwen3.5-4B-UD-Q8_K_XL.gguf | 131 072 Ctx | => 37.40 t/s 
-     Qwen3.5-9B-Q8_0.gguf | 131 072 Ctx | => 28.38 t/s +  Qwen3.5-9B-Q8_0.gguf | 131 072 Ctx | => 28.38 t/s 
-     Qwen3.5-9B-DeepSeek-V4-Flash-Q8_0.gguf | 262 144 Ctx | => 24.7 t/s+  Qwen3.5-9B-DeepSeek-V4-Flash-Q8_0.gguf | 262 144 Ctx | => 24.7 t/s
  
 On teste les Q6 (pour faire de la place au kv_cache): On teste les Q6 (pour faire de la place au kv_cache):
-     Carnice-9b-Q6_K.gguf | 131 072 Ctx | => 28.85 t/s +  * Carnice-9b-Q6_K.gguf | 131 072 Ctx | => 28.85 t/s 
-     Qwen3.5-9B-UD-Q6_K_XL.gguf | 131 072 Ctx | => 27.06 t/s +  Qwen3.5-9B-UD-Q6_K_XL.gguf | 131 072 Ctx | => 27.06 t/s 
-     gemma-4-E4B-it-Q6_K.gguf | 131 072 Ctx | => Impossible de charge le modèle => plantage de llama.cpp +  gemma-4-E4B-it-Q6_K.gguf | 131 072 Ctx | => Impossible de charge le modèle => plantage de llama.cpp 
-     Nemotron-Orchestrator-8B.Q6_K.gguf | 40 960 Ctx (max du modèle) | => 36.24 t/s+  Nemotron-Orchestrator-8B.Q6_K.gguf | 40 960 Ctx (max du modèle) | => 36.24 t/s
  
-Je suis en train de benchmarker les modèles en fonction de leurs capacité pour utiliser au mieux les "auxilary models" de Hermes Agent.+Je suis en train de benchmarker les modèles en fonction de leurs capacité pour utiliser au mieux les "auxiliary models" de Hermes Agent.

wiki/ia_setup.txt · Dernière modification : de daguerdal
CC Attribution 4.0 International Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC Attribution 4.0 International