Donc pour le setup : **Matériel :** * PRIME B365M-A / i5-9400F / 48 Go DDR4 * Radeon RX 9060 XT * RTX 3060 12 Go sur adaptateur M.2 **Au niveau OS :** * Linux Mint 22.3 * on rajoute docker => https://docs.docker.com/engine/install/ubuntu/ * On ajoute le runtime Nvidia => apt install nvidia-container-toolkit * On ajoute le runtime Amd => apt install amd-container-toolkit * On paramètre docker pour qu'il puisse discuter Nvidia => nvidia-ctk runtime configure --runtime=docker * On paramètre docker pour qu'il puisse discuter Amd => amd-ctk runtime configure Ensuite mon service docker pour llama services: llama-cpp: image: ghcr.io/ggml-org/llama.cpp:server-vulkan environment: - LLAMA_ARG_MODELS_AUTOLOAD=true cap_add: - IPC_LOCK ports: - "8000:8080" volumes: - ./models:/models2 - ./models2:/models - ./models-config:/models-config restart: unless-stopped command: > --models-dir /models --models-preset /models-config/models.ini --models-max 1 devices: - /dev/kfd - /dev/dri deploy: resources: reservations: devices: - driver: nvidia device_ids: ['0'] capabilities: [gpu] security_opt: - seccomp=unconfined Dans le dossier models => les modèles Dans le dossier models-config => un fichier models.ini où je peux faire varier les paramêtres de llama.cpp Donc sur mon setup, les perfs donnent ça : On teste du Modèle Dense : * Liste à puceQwen3.6-27B-UD-Q3_K_XL.gguf | 131 072 Ctx | -> 13.70 t/s Pour les MOE : * Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf | 262 144 Ctx | => 44.94 t/s * Qwen3.5-35B-A3B-UD-Q4_K_L.gguf | 131 072 Ctx | => 46.27 t/s * gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf | 131 072 Ctx | => 45.15 t/s Modèles plus light : * Qwen3.5-4B-UD-Q8_K_XL.gguf | 131 072 Ctx | => 37.40 t/s * Qwen3.5-9B-Q8_0.gguf | 131 072 Ctx | => 28.38 t/s * Qwen3.5-9B-DeepSeek-V4-Flash-Q8_0.gguf | 262 144 Ctx | => 24.7 t/s On teste les Q6 (pour faire de la place au kv_cache): * Carnice-9b-Q6_K.gguf | 131 072 Ctx | => 28.85 t/s * Qwen3.5-9B-UD-Q6_K_XL.gguf | 131 072 Ctx | => 27.06 t/s * gemma-4-E4B-it-Q6_K.gguf | 131 072 Ctx | => Impossible de charge le modèle => plantage de llama.cpp * Nemotron-Orchestrator-8B.Q6_K.gguf | 40 960 Ctx (max du modèle) | => 36.24 t/s Je suis en train de benchmarker les modèles en fonction de leurs capacité pour utiliser au mieux les "auxiliary models" de Hermes Agent.