wiki:ia_setup

Donc pour le setup :

Matériel :

PRIME B365M-A / i5-9400F / 48 Go DDR4
Radeon RX 9060 XT
RTX 3060 12 Go sur adaptateur M.2

Au niveau OS :

Linux Mint 22.3
on rajoute docker ⇒ https://docs.docker.com/engine/install/ubuntu/
On ajoute le runtime Nvidia ⇒ apt install nvidia-container-toolkit
On ajoute le runtime Amd ⇒ apt install amd-container-toolkit
On paramètre docker pour qu'il puisse discuter Nvidia ⇒ nvidia-ctk runtime configure –runtime=docker
On paramètre docker pour qu'il puisse discuter Amd ⇒ amd-ctk runtime configure

Ensuite mon service docker pour llama

services:
  llama-cpp:
    image: ghcr.io/ggml-org/llama.cpp:server-vulkan
    environment:
      - LLAMA_ARG_MODELS_AUTOLOAD=true
    cap_add:
      - IPC_LOCK
    ports:
      - "8000:8080"
    volumes:
      - ./models:/models2
      - ./models2:/models
      - ./models-config:/models-config
    restart: unless-stopped
    command: >
      --models-dir /models
      --models-preset /models-config/models.ini
      --models-max 1
    devices:
      - /dev/kfd
      - /dev/dri
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              device_ids: ['0']
              capabilities: [gpu]
    security_opt:
      - seccomp=unconfined

Dans le dossier models ⇒ les modèles Dans le dossier models-config ⇒ un fichier models.ini où je peux faire varier les paramêtres de llama.cpp

Donc sur mon setup, les perfs donnent ça :

On teste du Modèle Dense :

Liste à puceQwen3.6-27B-UD-Q3_K_XL.gguf | 131 072 Ctx | → 13.70 t/s

Pour les MOE :

Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf | 262 144 Ctx | ⇒ 44.94 t/s
Qwen3.5-35B-A3B-UD-Q4_K_L.gguf | 131 072 Ctx | ⇒ 46.27 t/s
gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf | 131 072 Ctx | ⇒ 45.15 t/s

Modèles plus light :

Qwen3.5-4B-UD-Q8_K_XL.gguf | 131 072 Ctx | ⇒ 37.40 t/s
Qwen3.5-9B-Q8_0.gguf | 131 072 Ctx | ⇒ 28.38 t/s
Qwen3.5-9B-DeepSeek-V4-Flash-Q8_0.gguf | 262 144 Ctx | ⇒ 24.7 t/s

On teste les Q6 (pour faire de la place au kv_cache):

Carnice-9b-Q6_K.gguf | 131 072 Ctx | ⇒ 28.85 t/s
Qwen3.5-9B-UD-Q6_K_XL.gguf | 131 072 Ctx | ⇒ 27.06 t/s
gemma-4-E4B-it-Q6_K.gguf | 131 072 Ctx | ⇒ Impossible de charge le modèle ⇒ plantage de llama.cpp
Nemotron-Orchestrator-8B.Q6_K.gguf | 40 960 Ctx (max du modèle) | ⇒ 36.24 t/s

Je suis en train de benchmarker les modèles en fonction de leurs capacité pour utiliser au mieux les “auxiliary models” de Hermes Agent.