Différences

Ci-dessous, les différences entre deux révisions de la page.

--- wiki:ia_setup [2026/05/16 16:27] – créée daguerdal
+++ wiki:ia_setup [2026/05/16 16:29] (Version actuelle) – daguerdal
@@ Ligne 2: / Ligne 2: @@
 **Matériel :**
-• PRIME B365M-A / i5-9400F / 48 Go DDR4
+  * PRIME B365M-A / i5-9400F / 48 Go DDR4
-• Radeon RX 9060 XT
+  * Radeon RX 9060 XT
-• RTX 3060 12 Go sur adaptateur M.2
+  * RTX 3060 12 Go sur adaptateur M.2
 **Au niveau OS :**
-• Linux Mint 22.3
+  * Linux Mint 22.3
-• on rajoute docker => https://docs.docker.com/engine/install/ubuntu/
+  * on rajoute docker => https://docs.docker.com/engine/install/ubuntu/
-• On ajoute le runtime Nvidia => apt install nvidia-container-toolkit
+  * On ajoute le runtime Nvidia => apt install nvidia-container-toolkit
-• On ajoute le runtime Amd => apt install amd-container-toolkit
+  * On ajoute le runtime Amd => apt install amd-container-toolkit
-• On paramètre docker pour qu'il puisse discuter Nvidia => nvidia-ctk runtime configure --runtime=docker
+  * On paramètre docker pour qu'il puisse discuter Nvidia => nvidia-ctk runtime configure --runtime=docker
-• On paramètre docker pour qu'il puisse discuter Amd => amd-ctk runtime configure
+  * On paramètre docker pour qu'il puisse discuter Amd => amd-ctk runtime configure
 Ensuite mon service docker pour llama
@@ Ligne 55: / Ligne 55: @@
 On teste du Modèle Dense :
-     Qwen3.6-27B-UD-Q3_K_XL.gguf | 131 072 Ctx | -> 13.70 t/s
+  * Liste à puceQwen3.6-27B-UD-Q3_K_XL.gguf | 131 072 Ctx | -> 13.70 t/s
 Pour les MOE :
-     Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf | 262 144 Ctx | => 44.94 t/s
+  * Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf | 262 144 Ctx | => 44.94 t/s
-     Qwen3.5-35B-A3B-UD-Q4_K_L.gguf | 131 072 Ctx | => 46.27 t/s
+  * Qwen3.5-35B-A3B-UD-Q4_K_L.gguf | 131 072 Ctx | => 46.27 t/s
-     gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf | 131 072 Ctx | => 45.15 t/s
+  * gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf | 131 072 Ctx | => 45.15 t/s
 Modèles plus light :
-     Qwen3.5-4B-UD-Q8_K_XL.gguf | 131 072 Ctx | => 37.40 t/s
+  * Qwen3.5-4B-UD-Q8_K_XL.gguf | 131 072 Ctx | => 37.40 t/s
-     Qwen3.5-9B-Q8_0.gguf | 131 072 Ctx | => 28.38 t/s
+  * Qwen3.5-9B-Q8_0.gguf | 131 072 Ctx | => 28.38 t/s
-     Qwen3.5-9B-DeepSeek-V4-Flash-Q8_0.gguf | 262 144 Ctx | => 24.7 t/s
+  * Qwen3.5-9B-DeepSeek-V4-Flash-Q8_0.gguf | 262 144 Ctx | => 24.7 t/s
 On teste les Q6 (pour faire de la place au kv_cache):
-     Carnice-9b-Q6_K.gguf | 131 072 Ctx | => 28.85 t/s
+  * Carnice-9b-Q6_K.gguf | 131 072 Ctx | => 28.85 t/s
-     Qwen3.5-9B-UD-Q6_K_XL.gguf | 131 072 Ctx | => 27.06 t/s
+  * Qwen3.5-9B-UD-Q6_K_XL.gguf | 131 072 Ctx | => 27.06 t/s
-     gemma-4-E4B-it-Q6_K.gguf | 131 072 Ctx | => Impossible de charge le modèle => plantage de llama.cpp
+  * gemma-4-E4B-it-Q6_K.gguf | 131 072 Ctx | => Impossible de charge le modèle => plantage de llama.cpp
-     Nemotron-Orchestrator-8B.Q6_K.gguf | 40 960 Ctx (max du modèle) | => 36.24 t/s
+  * Nemotron-Orchestrator-8B.Q6_K.gguf | 40 960 Ctx (max du modèle) | => 36.24 t/s
-Je suis en train de benchmarker les modèles en fonction de leurs capacité pour utiliser au mieux les "auxilary models" de Hermes Agent.
+Je suis en train de benchmarker les modèles en fonction de leurs capacité pour utiliser au mieux les "auxiliary models" de Hermes Agent.