Donc pour le setup :
Matériel :
Au niveau OS :
Ensuite mon service docker pour llama
services:
llama-cpp:
image: ghcr.io/ggml-org/llama.cpp:server-vulkan
environment:
- LLAMA_ARG_MODELS_AUTOLOAD=true
cap_add:
- IPC_LOCK
ports:
- "8000:8080"
volumes:
- ./models:/models2
- ./models2:/models
- ./models-config:/models-config
restart: unless-stopped
command: >
--models-dir /models
--models-preset /models-config/models.ini
--models-max 1
devices:
- /dev/kfd
- /dev/dri
deploy:
resources:
reservations:
devices:
- driver: nvidia
device_ids: ['0']
capabilities: [gpu]
security_opt:
- seccomp=unconfined
Dans le dossier models ⇒ les modèles Dans le dossier models-config ⇒ un fichier models.ini où je peux faire varier les paramêtres de llama.cpp
Donc sur mon setup, les perfs donnent ça :
On teste du Modèle Dense :
Pour les MOE :
Modèles plus light :
On teste les Q6 (pour faire de la place au kv_cache):
Je suis en train de benchmarker les modèles en fonction de leurs capacité pour utiliser au mieux les “auxiliary models” de Hermes Agent.