Warum lokal?
Cloud-LLMs sind bequem, aber bringen drei Probleme: Latenz, Privacy, Kosten. Wenn dein Smart Home jeden Sprachbefehl an OpenAI schickt, hast du nicht nur einen Backup-Plan — du hast auch jede Voice-Interaktion einer fremden Firma anvertraut.
Llama 3.1 8B läuft auf einem AMD Ryzen 7 mit 32 GB RAM unter 200 ms first-token-latency. Das reicht für Home Assistant Voice. Kein Internet nötig, keine Quota, keine "Service temporarily unavailable".
Hardware-Setup
- AMD Ryzen 7 7700X (8 Cores, kein dedicated GPU)
- 64 GB DDR5
- Ubuntu 24.04 LTS Server
- Ollama als Runtime (auto-quantize zu Q5_K_M)
Im Idle zieht das System 38 W laut PowerTOP. Beim Inferenz-Run kurz auf 95 W, dann zurück.
Integration in Home Assistant
conversation:
- platform: ollama
url: http://10.0.0.183:11434
model: llama3.1:8b
Plus die assist-Pipeline in HA-UI auf den ollama-conversation-agent stellen. Das war's.
First-Hand: was funktioniert, was nicht
Ich habe das auf einem Ryzen 5600G getestet. Single-Turn Voice-Commands ("Mach das Wohnzimmerlicht aus") laufen unter 600 ms. Multi-Turn ("Was hab ich vor 5 Minuten gesagt?") funktioniert mit Context-Limit ~4k tokens.
Was NICHT klappt: komplexe Reasoning-Fragen ("Wieso ist mein Dishwasher seit gestern aus?"). Da ist 8B zu klein — ich switche dann manuell auf 70B Q4 (auf einem 2. Server mit mehr RAM).
Reproduzieren
Vollständige Configs auf GitHub: github.com/<lo-slug>/marvin-config (in Frontmatter verlinkt)