Lokale LLMs für Home Assistant: Llama 3.1 8B mit 200ms-Latency

Inhaltsverzeichnis

Warum lokal?

Cloud-LLMs sind bequem, aber bringen drei Probleme: Latenz, Privacy, Kosten. Wenn dein Smart Home jeden Sprachbefehl an OpenAI schickt, hast du nicht nur einen Backup-Plan — du hast auch jede Voice-Interaktion einer fremden Firma anvertraut.

Llama 3.1 8B läuft auf einem AMD Ryzen 7 mit 32 GB RAM unter 200 ms first-token-latency. Das reicht für Home Assistant Voice. Kein Internet nötig, keine Quota, keine "Service temporarily unavailable".

Hardware-Setup

  • AMD Ryzen 7 7700X (8 Cores, kein dedicated GPU)
  • 64 GB DDR5
  • Ubuntu 24.04 LTS Server
  • Ollama als Runtime (auto-quantize zu Q5_K_M)

Im Idle zieht das System 38 W laut PowerTOP. Beim Inferenz-Run kurz auf 95 W, dann zurück.

Integration in Home Assistant

conversation:
  - platform: ollama
    url: http://10.0.0.183:11434
    model: llama3.1:8b

Plus die assist-Pipeline in HA-UI auf den ollama-conversation-agent stellen. Das war's.

First-Hand: was funktioniert, was nicht

Ich habe das auf einem Ryzen 5600G getestet. Single-Turn Voice-Commands ("Mach das Wohnzimmerlicht aus") laufen unter 600 ms. Multi-Turn ("Was hab ich vor 5 Minuten gesagt?") funktioniert mit Context-Limit ~4k tokens.

Was NICHT klappt: komplexe Reasoning-Fragen ("Wieso ist mein Dishwasher seit gestern aus?"). Da ist 8B zu klein — ich switche dann manuell auf 70B Q4 (auf einem 2. Server mit mehr RAM).

Reproduzieren

Vollständige Configs auf GitHub: github.com/<lo-slug>/marvin-config (in Frontmatter verlinkt)