Différences
Ci-dessous, les différences entre deux révisions de la page.
| wiki:ia_setup [2026/05/16 16:27] – créée daguerdal | wiki:ia_setup [2026/05/16 16:29] (Version actuelle) – daguerdal | ||
|---|---|---|---|
| Ligne 2: | Ligne 2: | ||
| **Matériel :** | **Matériel :** | ||
| - | • PRIME B365M-A / i5-9400F / 48 Go DDR4 | + | * PRIME B365M-A / i5-9400F / 48 Go DDR4 |
| - | • Radeon RX 9060 XT | + | |
| - | • RTX 3060 12 Go sur adaptateur M.2 | + | |
| **Au niveau OS :** | **Au niveau OS :** | ||
| - | • Linux Mint 22.3 | + | * Linux Mint 22.3 |
| - | • on rajoute docker => https:// | + | |
| - | • On ajoute le runtime Nvidia => apt install nvidia-container-toolkit | + | |
| - | • On ajoute le runtime Amd => apt install amd-container-toolkit | + | |
| - | • On paramètre docker pour qu'il puisse discuter Nvidia => nvidia-ctk runtime configure --runtime=docker | + | |
| - | • On paramètre docker pour qu'il puisse discuter Amd => amd-ctk runtime configure | + | |
| Ensuite mon service docker pour llama | Ensuite mon service docker pour llama | ||
| Ligne 55: | Ligne 55: | ||
| On teste du Modèle Dense : | On teste du Modèle Dense : | ||
| - | Qwen3.6-27B-UD-Q3_K_XL.gguf | 131 072 Ctx | -> 13.70 t/s | + | * Liste à puceQwen3.6-27B-UD-Q3_K_XL.gguf | 131 072 Ctx | -> 13.70 t/s |
| Pour les MOE : | Pour les MOE : | ||
| - | Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf | 262 144 Ctx | => 44.94 t/s | + | * Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf | 262 144 Ctx | => 44.94 t/s |
| - | | + | |
| - | | + | |
| Modèles plus light : | Modèles plus light : | ||
| - | Qwen3.5-4B-UD-Q8_K_XL.gguf | 131 072 Ctx | => 37.40 t/s | + | * Qwen3.5-4B-UD-Q8_K_XL.gguf | 131 072 Ctx | => 37.40 t/s |
| - | | + | |
| - | | + | |
| On teste les Q6 (pour faire de la place au kv_cache): | On teste les Q6 (pour faire de la place au kv_cache): | ||
| - | Carnice-9b-Q6_K.gguf | 131 072 Ctx | => 28.85 t/s | + | * Carnice-9b-Q6_K.gguf | 131 072 Ctx | => 28.85 t/s |
| - | | + | |
| - | | + | |
| - | | + | |
| - | Je suis en train de benchmarker les modèles en fonction de leurs capacité pour utiliser au mieux les "auxilary | + | Je suis en train de benchmarker les modèles en fonction de leurs capacité pour utiliser au mieux les "auxiliary |