Ceci est une ancienne révision du document !
Donc pour le setup :
Matériel : • PRIME B365M-A / i5-9400F / 48 Go DDR4 • Radeon RX 9060 XT • RTX 3060 12 Go sur adaptateur M.2
Au niveau OS : • Linux Mint 22.3 • on rajoute docker ⇒ https://docs.docker.com/engine/install/ubuntu/ • On ajoute le runtime Nvidia ⇒ apt install nvidia-container-toolkit • On ajoute le runtime Amd ⇒ apt install amd-container-toolkit • On paramètre docker pour qu'il puisse discuter Nvidia ⇒ nvidia-ctk runtime configure –runtime=docker • On paramètre docker pour qu'il puisse discuter Amd ⇒ amd-ctk runtime configure
Ensuite mon service docker pour llama
services:
llama-cpp:
image: ghcr.io/ggml-org/llama.cpp:server-vulkan
environment:
- LLAMA_ARG_MODELS_AUTOLOAD=true
cap_add:
- IPC_LOCK
ports:
- "8000:8080"
volumes:
- ./models:/models2
- ./models2:/models
- ./models-config:/models-config
restart: unless-stopped
command: >
--models-dir /models
--models-preset /models-config/models.ini
--models-max 1
devices:
- /dev/kfd
- /dev/dri
deploy:
resources:
reservations:
devices:
- driver: nvidia
device_ids: ['0']
capabilities: [gpu]
security_opt:
- seccomp=unconfined
Dans le dossier models ⇒ les modèles Dans le dossier models-config ⇒ un fichier models.ini où je peux faire varier les paramêtres de llama.cpp
Donc sur mon setup, les perfs donnent ça :
On teste du Modèle Dense :
Qwen3.6-27B-UD-Q3_K_XL.gguf | 131 072 Ctx | -> 13.70 t/s
Pour les MOE :
Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf | 262 144 Ctx | => 44.94 t/s Qwen3.5-35B-A3B-UD-Q4_K_L.gguf | 131 072 Ctx | => 46.27 t/s gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf | 131 072 Ctx | => 45.15 t/s
Modèles plus light :
Qwen3.5-4B-UD-Q8_K_XL.gguf | 131 072 Ctx | => 37.40 t/s Qwen3.5-9B-Q8_0.gguf | 131 072 Ctx | => 28.38 t/s Qwen3.5-9B-DeepSeek-V4-Flash-Q8_0.gguf | 262 144 Ctx | => 24.7 t/s
On teste les Q6 (pour faire de la place au kv_cache):
Carnice-9b-Q6_K.gguf | 131 072 Ctx | => 28.85 t/s Qwen3.5-9B-UD-Q6_K_XL.gguf | 131 072 Ctx | => 27.06 t/s gemma-4-E4B-it-Q6_K.gguf | 131 072 Ctx | => Impossible de charge le modèle => plantage de llama.cpp Nemotron-Orchestrator-8B.Q6_K.gguf | 40 960 Ctx (max du modèle) | => 36.24 t/s
Je suis en train de benchmarker les modèles en fonction de leurs capacité pour utiliser au mieux les “auxilary models” de Hermes Agent.