Lokale KI installieren: Der praktische Ollama-Leitfaden für Einsteiger und Unternehmen

Kurzantwort: Lokale KI bedeutet, dass ein KI-Modell direkt auf dem eigenen Rechner, Server oder Edge-Gerät läuft. Die Eingaben müssen dabei nicht an einen Cloud-Anbieter geschickt werden, solange wirklich ein lokales Modell genutzt wird. Für den Einstieg ist Ollama aktuell einer der einfachsten Wege: installieren, Modell herunterladen, starten und testen.

Lokale Modelle sind aber kein kleines ChatGPT. Sie sind ein eigener KI-Werkzeugkasten. Stark sind sie bei Datenschutz, Lernen, Automatisierung, Coding, Zusammenfassungen, lokalen Experimenten und internen Workflows. Ihre Qualität hängt stark von Hardware, RAM, VRAM, Kontextlänge, Modellgröße und dem richtigen Einsatzzweck ab.

Dieser Leitfaden erklärt, wie Sie lokale KI mit Ollama installieren, welche Modelle sich zum Einstieg eignen, welche Hardware realistisch ist und worauf Unternehmen bei Datenschutz und Sicherheit achten sollten.

Der Unterschied auf einen Blick

FrageCloud-KILokale KI mit Ollama
Wo läuft das Modell?Beim AnbieterAuf dem eigenen Gerät
Wohin geht die Eingabe?Zum Cloud-DienstLokal auf den eigenen Rechner
Was ist der größte Vorteil?Sehr starke Modelle, wenig EinrichtungKontrolle, Datenschutz, Offline-Fähigkeit
Was ist die wichtigste Grenze?Daten verlassen das eigene SystemHardware begrenzt Modellgröße und Geschwindigkeit

Das ist die wichtigste Einordnung für den Einstieg: Lokale KI ist kein kleinerer Cloud-Chatbot, sondern ein kontrollierbarer Werkzeugkasten. Sie wird stark, wenn Aufgabe, Modell und Hardware zusammenpassen.

Was ist lokale KI?

Lokale KI bedeutet: Das KI-Modell läuft auf einem Gerät, das Sie selbst kontrollieren. Das kann ein MacBook, ein Windows-PC, ein Linux-Server, ein Mac mini, ein GPU-PC oder ein Raspberry Pi sein.

Der wichtigste Unterschied zur Cloud-KI:

  • Bei Cloud-KI wird Ihre Eingabe an einen externen Dienst gesendet.
  • Bei lokaler KI wird die Eingabe auf Ihrem eigenen Gerät verarbeitet.

Das klingt simpel, ist aber für Datenschutz, Souveränität und Kostenkontrolle wichtig. Lokale KI kann besonders interessant sein, wenn interne Texte, technische Dokumentationen, Code, Protokolle oder sensible Arbeitsdaten nicht unnötig an externe Anbieter gehen sollen.

Trotzdem gilt: Lokal heißt nicht automatisch sicher. Auch lokale Tools müssen sauber installiert, aktualisiert und kontrolliert werden. Modelle müssen aus vertrauenswürdigen Quellen stammen. Und in Unternehmen braucht es klare Regeln, welche Daten in welche KI-Systeme eingegeben werden dürfen.

Was ist Ollama?

Ollama ist ein Tool, mit dem man KI-Modelle lokal herunterladen, starten und verwalten kann. Man muss dafür nicht zuerst Python-Umgebungen, Modellformate, Treiber und komplizierte Frameworks verstehen.

Für Einsteiger ist das der große Vorteil:

  1. Ollama installieren.
  2. Ein Modell starten.
  3. Einen Prompt eingeben.
  4. Lokale KI erleben.

Ollama bietet eine Kommandozeile, eine lokale API und lässt sich mit vielen Werkzeugen verbinden, zum Beispiel mit Entwicklungsumgebungen, Automatisierungstools, lokalen Chat-Oberflächen oder Agentensystemen.

Der wichtigste Satz:

Mit Ollama läuft ein KI-Modell direkt auf Ihrem eigenen Gerät. Ihre Eingabe muss nicht an einen Cloud-Anbieter geschickt werden, solange Sie wirklich ein lokales Modell nutzen und keine Cloud-Variante oder externe Integration aktiv ist.

Für wen lohnt sich lokale KI?

Lokale KI lohnt sich besonders für Menschen und Unternehmen, die Kontrolle, Datenschutz und praktisches Ausprobieren verbinden wollen.

Typische Einsatzfälle:

  • interne Texte zusammenfassen
  • E-Mails oder Notizen umformulieren
  • Code erklären oder verbessern
  • lokale Automatisierungen testen
  • private Wissensdatenbanken vorbereiten
  • Dokumente klassifizieren
  • Chatbots für interne Prototypen bauen
  • KI-Kompetenz im Team praktisch vermitteln
  • sensible Workflows erst lokal testen

Lokale KI ist auch ideal zum Lernen. Man versteht schneller, was Modelle können, wo sie scheitern und warum Hardware so wichtig ist.

Wann lokale KI nicht die beste Lösung ist

Lokale KI ist nicht automatisch besser als Cloud-KI. Sie ist anders.

Cloud-Modelle sind oft stärker bei:

  • komplexem Reasoning
  • aktuellem Weltwissen
  • sehr großen Kontextfenstern
  • multimodaler Spitzenleistung
  • professioneller Skalierung
  • stabiler Produktintegration

Lokale Modelle gewinnen dagegen bei:

  • Datenschutzkontrolle
  • Offline-Fähigkeit
  • Experimentierfreiheit
  • Kostenkontrolle bei vielen kleinen Aufgaben
  • Integration in eigene lokale Workflows
  • Lernen und technische Souveränität

Ein lokales 1B- oder 4B-Modell ist beeindruckend, weil es direkt auf dem eigenen Gerät läuft. Es ist aber nicht automatisch so leistungsfähig wie ein großes Cloud-Modell. Wer lokale KI richtig einsetzt, erwartet keinen vollständigen ChatGPT-Ersatz, sondern baut einen kontrollierbaren Werkzeugkasten für konkrete Aufgaben.

Installation: Ollama für absolute Anfänger

Die Installation hängt vom Betriebssystem ab. Für die meisten Einsteiger ist macOS oder Windows am einfachsten. Linux ist ebenfalls gut unterstützt, setzt aber etwas mehr Terminal-Verständnis voraus.

Der Ablauf ist immer gleich:

  1. Ollama installieren.
  2. Terminal, PowerShell oder Eingabeaufforderung öffnen.
  3. Mit ollama -v prüfen, ob Ollama erreichbar ist.
  4. Mit ollama run llama3.2:1b das erste kleine Modell herunterladen und starten.
  5. Eine Frage eingeben.
  6. Den Chat mit /bye oder Ctrl+D verlassen.

Beim ersten Start lädt Ollama das Modell herunter. Das kann je nach Internetverbindung einige Minuten dauern und braucht Speicherplatz auf der Festplatte.

Wenn hier ein Befehl in einem grauen Codeblock steht: Kopieren Sie den Befehl exakt so, wie er dort steht, fügen Sie ihn in Terminal oder PowerShell ein und bestätigen Sie mit Enter.

macOS

Voraussetzung: macOS 14 Sonoma oder neuer. Auf Apple-Silicon-Macs, also M1, M2, M3 oder M4, kann Ollama CPU und GPU nutzen. Auf Intel-Macs läuft Ollama deutlich eingeschränkter und im Kern über die CPU.

Für Einsteiger ist der einfachste Weg:

  1. Ollama von der offiziellen Website herunterladen.
  2. Die .dmg-Datei öffnen.
  3. Ollama in den systemweiten Programme-Ordner ziehen.
  4. Ollama einmal starten.
  5. Wenn macOS fragt, ob Ollama den Terminal-Befehl einrichten darf, bestätigen.
  6. Terminal öffnen. Am einfachsten: cmd + Leertaste drücken, nach Terminal suchen und öffnen.
  7. Version prüfen:
ollama -v

Danach kann das erste Modell gestartet werden:

ollama run llama3.2:1b

Wenn der Befehl ollama nicht gefunden wird: Ollama-App einmal starten, Terminal schließen, neues Terminal öffnen und ollama -v erneut testen.

Windows

Voraussetzung: Windows 10 Version 22H2 oder neuer. Ollama läuft als native Windows-App und ist nach der Installation über PowerShell, cmd oder Windows Terminal nutzbar.

Für Einsteiger ist der Installer der beste Weg:

  1. Ollama von der offiziellen Website herunterladen.
  2. Installer starten.
  3. Installation abschließen.
  4. Ollama über das Startmenü einmal öffnen.
  5. PowerShell öffnen. Am einfachsten: Startmenü öffnen, nach PowerShell suchen und öffnen.
  6. Version prüfen:
ollama -v

Danach das erste Modell starten:

ollama run llama3.2:1b

Alternativ kann Ollama per PowerShell installiert werden. Für absolute Anfänger ist der Installer aber meistens angenehmer, weil der PowerShell-Befehl auf manchen Windows-Systemen durch Sicherheitsregeln blockiert werden kann:

irm https://ollama.com/install.ps1 | iex

Wenn ollama -v nicht funktioniert: PowerShell schließen, Ollama über das Startmenü öffnen, danach PowerShell neu starten. Ollama läuft unter Windows im Hintergrund.

Für Einsteiger ist wichtig: PowerShell ist nur die Bedienoberfläche. Das Modell läuft lokal auf dem Rechner.

Linux

Unter Linux ist der Standardbefehl:

curl -fsSL https://ollama.com/install.sh | sh

Kopieren Sie den Befehl exakt in ein Linux-Terminal und bestätigen Sie mit Enter.

Danach prüfen:

ollama -v

Wenn Ollama nicht läuft, den Dienst prüfen:

sudo systemctl status ollama

Falls der Dienst nicht gestartet ist:

sudo systemctl start ollama

Danach das erste Modell starten:

ollama run llama3.2:1b

Bei Linux-Systemen mit NVIDIA- oder AMD-GPU sollten Treiber und GPU-Unterstützung sauber eingerichtet sein. Für reine CPU-Systeme funktionieren kleine Modelle, aber die Geschwindigkeit ist begrenzt.

Wenn ein Linux-System kein systemd nutzt oder eine manuelle Installation verwendet wurde, kann Ollama auch manuell gestartet werden:

ollama serve

Dann in einem zweiten Terminal prüfen:

ollama -v

Raspberry Pi

Auf Raspberry Pi muss man genauer hinschauen. Ein Raspberry Pi ist kein normaler KI-PC. Kleine Modelle können funktionieren, aber große lokale Sprachmodelle sind dort nur eingeschränkt sinnvoll.

Für absolute Anfänger ist diese Reihenfolge sinnvoll:

  1. Erst Ollama auf Mac, Windows oder einem normalen Linux-PC testen.
  2. Danach Raspberry Pi als Lern- oder Edge-Projekt verwenden.
  3. Nur sehr kleine Modelle einsetzen, zum Beispiel llama3.2:1b, gemma3:1b oder ein kleines Qwen-Modell.

Wichtig ist die Architektur: Für Raspberry Pi braucht man ein 64-Bit-System, also ARM64. Auf Raspberry Pi OS 64-bit kann man den normalen Linux-Weg testen:

curl -fsSL https://ollama.com/install.sh | sh

Wenn die automatische Installation nicht passt, ist das manuelle ARM64-Paket der nächste Weg. Das ist eher ein Fortgeschrittenen-Schritt:

curl -fsSL https://ollama.com/download/ollama-linux-arm64.tar.zst | sudo tar x -C /usr
ollama serve

Ein Raspberry Pi 5 ohne KI-HAT eignet sich gut zum Lernen und für kleine lokale Tests. Er ist aber kein Ersatz für einen Mac mini, Mac Studio oder GPU-PC.

Bei AI-HATs ist wichtig: Nicht jeder AI-HAT beschleunigt lokale Sprachmodelle wie ein normaler GPU-PC. Manche HATs sind vor allem für Kamera- und Vision-Modelle gedacht. Für LLMs auf spezieller Hailo-Hardware gelten eigene Modell- und Serverwege.

Erster Test: Woran erkennt man, dass es funktioniert?

Nach diesem Befehl:

ollama run llama3.2:1b

passieren beim ersten Mal zwei Dinge:

  1. Ollama lädt das Modell herunter.
  2. Danach erscheint ein Eingabefeld im Terminal.

Wenn Sie dort ein >>> sehen, können Sie Ihre erste Frage eingeben:

Erkläre mir in einfachen Worten, was ein lokales KI-Modell ist.

Wenn eine Antwort erscheint, ist Ollama erfolgreich installiert und das Modell läuft lokal.

Den Chat verlassen Sie mit:

/bye

oder mit Ctrl+D.

Danach können Sie prüfen, welche Modelle installiert sind:

ollama ls

Und Sie können prüfen, ob gerade ein Modell läuft:

ollama ps

Mini-Schaubild: Der erste Ollama-Test

SchrittBefehl oder AktionErgebnis
1ollama -vOllama ist installiert
2ollama run llama3.2:1bModell wird geladen und gestartet
3Frage eingebenModell antwortet lokal
4/byeChat wird beendet
5ollama lsInstallierte Modelle werden angezeigt

Die wichtigsten Ollama-Befehle

Für 90 Prozent der Anfängerfälle reichen diese Befehle:

# Modell herunterladen und direkt starten
ollama run llama3.2:1b

# Modell nur herunterladen
ollama pull gemma3:4b

# Installierte Modelle anzeigen
ollama ls

# Laufende Modelle anzeigen
ollama ps

# Modell stoppen
ollama stop gemma3:4b

# Modell löschen
ollama rm gemma3:4b

# Ollama-Server manuell starten
# meistens nur nötig, wenn Ollama nicht bereits als App/Dienst läuft
ollama serve

Für andere Programme stellt Ollama eine lokale API bereit. Der lokale Ollama-Server ist standardmäßig hier erreichbar:

http://localhost:11434

Die eigentlichen API-Endpunkte liegen darunter, zum Beispiel:

http://localhost:11434/api/generate
http://localhost:11434/api/tags

Darüber können lokale Tools, Skripte, Chat-Oberflächen oder Automatisierungen mit dem Modell sprechen.

Häufige Installationsprobleme und schnelle Lösungen

ollama: command not found

Das bedeutet: Das Terminal findet den Ollama-Befehl nicht.

Lösung:

  • macOS: Ollama-App einmal starten, Terminal schließen, neues Terminal öffnen.
  • Windows: Ollama über das Startmenü öffnen, PowerShell schließen, neu öffnen.
  • Linux: Installation erneut prüfen und testen, ob der Dienst läuft.

Ollama verbindet sich nicht

Typische Fehlermeldungen sind:

  • could not connect to Ollama
  • connection refused

Das bedeutet meistens: Die Ollama-App oder der Ollama-Server läuft gerade nicht.

Lösung:

  • macOS/Windows: Ollama-App starten.
  • Linux: sudo systemctl start ollama
  • manuelle Installation: ollama serve

Der Download dauert sehr lange

Beim ersten ollama run wird das Modell heruntergeladen. Das ist normal. Je nach Modell und Internetverbindung kann das Minuten dauern. Größere Modelle brauchen mehrere Gigabyte Speicherplatz.

Das Modell antwortet sehr langsam

Dann ist das Modell wahrscheinlich zu groß für die Hardware oder läuft teilweise auf der CPU.

Lösung:

  1. kleineres Modell testen, zum Beispiel llama3.2:1b
  2. mit ollama ps prüfen, was gerade läuft
  3. große Modelle stoppen oder entfernen

port 11434 already in use

Das passiert, wenn Ollama bereits läuft und man zusätzlich ollama serve startet. Für Einsteiger ist das meistens kein Problem. Dann einfach die App oder den laufenden Dienst verwenden und ollama serve nicht zusätzlich starten.

Die besten Einstiegsmodelle

Für den Anfang sollte man nicht 20 Modelle ausprobieren. Besser ist eine klare Testreihenfolge: ein kleines Modell, ein Alltagsmodell, ein Coding-Modell und optional ein Reasoning- oder Embedding-Modell.

1. Kleines Modell für den ersten Aha-Moment

ollama run llama3.2:1b

Warum dieses Modell?

  • klein
  • schnell
  • guter Einstieg
  • geeignet für einfache Texte, Umschreiben und erste lokale Tests

Testprompt:

Erkläre mir in einfachen Worten, was ein lokales KI-Modell ist.

Dieses Modell zeigt sofort, dass lokale KI funktioniert. Es ist aber nicht der Maßstab für maximale Qualität.

2. Alltagsmodell für Schreiben, Zusammenfassen und Deutsch/Englisch

ollama run gemma3:4b

Warum dieses Modell?

  • guter Allrounder
  • mehrsprachig
  • brauchbar für Zusammenfassungen, Umformulierungen und einfache Analysen
  • je nach Variante auch mit Bildinput nutzbar

Testprompt:

Schreibe diese Nachricht professioneller und freundlicher:
Hallo Alex, anbei das Video und der Chat. Ich freue mich auf die Zusammenarbeit.

3. Coding-Modell

ollama run qwen2.5-coder:7b

Für schwächere Hardware:

ollama run qwen2.5-coder:1.5b

Warum dieses Modell?

  • speziell für Code
  • hilfreich zum Erklären, Korrigieren und Erzeugen von Code
  • gute Übung für Entwickler, Admins und technisch interessierte Einsteiger

Testprompt:

Erkläre mir diesen Python-Code so, als wäre ich Anfänger:
def add(a, b):
    return a + b

4. Reasoning-Modell zum Testen

ollama run deepseek-r1:1.5b

Oder bei stärkerer Hardware:

ollama run deepseek-r1:7b

Reasoning-Modelle sind für Denkaufgaben, Logik und Problemlösung gedacht. Sie können aber langsamer sein und mehr Zwischenschritte erzeugen. Für alltägliche kurze Aufgaben fühlt sich ein normales Alltagsmodell oft schneller an.

5. Embedding-Modell für lokale Dokumentensuche

Für lokale Dokumentensuche reicht ein Chat-Modell allein nicht aus. Man braucht häufig zusätzlich ein Embedding-Modell. Es wandelt Texte in Zahlenvektoren um, damit ähnliche Inhalte gefunden werden können.

Beispiele:

ollama pull embeddinggemma
ollama pull nomic-embed-text
ollama pull nomic-embed-text-v2-moe

Das ist besonders relevant für RAG-Systeme, lokale Wissensdatenbanken und interne Dokumentensuche.

Die wichtigsten Begriffe einfach erklärt

Modellgröße: 1B, 4B, 7B, 14B, 32B

Das B steht für Milliarden Parameter. Ein 1B-Modell hat ungefähr eine Milliarde Parameter, ein 7B-Modell ungefähr sieben Milliarden.

Grundregel:

  • kleinere Modelle sind schneller und sparsamer
  • größere Modelle können oft mehr
  • größere Modelle brauchen mehr Speicher
  • zu große Modelle werden langsam oder laufen gar nicht sinnvoll

Nicht das größte Modell ist automatisch das beste Modell für Ihren Rechner. Ein kleines Modell, das vollständig in den schnellen Speicher passt, fühlt sich oft besser an als ein großes Modell, das ständig ausgelagert wird.

RAM, VRAM und Unified Memory

Auf klassischen PCs gibt es normalen RAM und separaten GPU-Speicher, also VRAM. Die Grafikkarte hat ihren eigenen Speicher. Wenn ein Modell nicht in diesen VRAM passt, wird es langsamer oder läuft teilweise auf der CPU.

Auf Apple Silicon gibt es Unified Memory. CPU und GPU teilen sich denselben Speicher. Das ist für lokale KI sehr praktisch, weil ein MacBook oder Mac mini mit 32 GB oder 48 GB Unified Memory auch größere Modelle sinnvoll lokal ausführen kann.

Praktisch prüfen kann man die Auslastung mit:

ollama ps

Dort sieht man unter anderem, welches Modell läuft, wie groß es ist, welcher Prozessor genutzt wird und wie groß der Kontext ist.

Was bedeutet eine RAM-Anzeige beim Raspberry Pi?

Auf Linux-Systemen sieht man Speicherangaben oft in dieser Form:

RAM
705Mi used / 7.9Gi total, 7.2Gi available

Das sieht technischer aus, als es ist. Gemeint ist:

AnzeigeEinfache BedeutungEinordnung für lokale KI
705Mi usedDer Raspberry Pi nutzt gerade ungefähr 705 MiB Arbeitsspeicher.Das System ist im Leerlauf noch recht frei.
7.9Gi totalDer Pi hat insgesamt rund 8 GB RAM.Das ist typisch für einen Raspberry Pi 5 mit 8 GB.
7.2Gi availableLinux schätzt, dass noch ungefähr 7.2 GiB für Programme verfügbar sind.Gut für kleine Modelle, aber nicht für große lokale LLMs.

Wichtig: available heißt nicht, dass ein 7-GB-Modell automatisch gut läuft. Ein KI-Modell braucht zusätzlich Speicher für Kontext, Zwischenergebnisse und das Betriebssystem. Für einen Raspberry Pi sollte man deshalb klein starten, zum Beispiel mit 1B- oder 1.5B-Modellen.

Praxisbeispiel: Mac mini M4 Pro mit 48 GB Unified Memory

Ein Mac mini mit Apple M4 Pro, 12 CPU-Kernen und 48 GB Unified Memory ist eine ganz andere Klasse als ein Raspberry Pi. Hier ist lokale KI nicht nur ein Lernexperiment, sondern kann für Alltag, Coding, längere Zusammenfassungen und lokale Agenten-Workflows sinnvoll werden.

GerätSpeicherklasseRealistische Nutzung mit Ollama
Raspberry Pi 5, 8 GB RAMsehr knappkleine Tests, 1B-Modelle, Edge-Experimente
MacBook Air M4, 24 GB Unified Memorygute mobile Einstiegsklasse4B- bis 14B-Modelle, Alltag, Texte, Coding
Mac mini M4 Pro, 48 GB Unified Memorystarke lokale Arbeitsmaschine12B- bis 32B-Modelle, Coding, Agenten, größere Kontexte
GPU-PC mit 24 GB VRAMstarke Inferenzklasseschnelle 14B- bis 32B-Modelle, je nach Quantisierung

Beim Mac mini zählt vor allem das Unified Memory. Es ist nicht dasselbe wie klassischer PC-RAM plus separate Grafikkarte. CPU und GPU greifen auf denselben Speicher zu. Für lokale Modelle ist das praktisch, weil größere Modelle überhaupt erst sinnvoll in den schnellen Speicher passen.

Was heißt: Das Modell passt in den Speicher?

Ein Modell besteht nicht nur aus einer Datei auf der Festplatte. Beim Start wird es in den Arbeitsspeicher geladen. Dazu kommt zusätzlicher Speicher für die aktuelle Unterhaltung, also für den Kontext.

Wenn Modellgewichte und Kontext vollständig in den schnellen Speicher passen, läuft lokale KI deutlich angenehmer. Wenn das System stark auslagert, werden Antworten langsam.

Kontext

Kontext ist das, was das Modell gleichzeitig berücksichtigen kann: aktuelle Frage, bisheriger Chatverlauf, eingefügter Text, Dokumentenauszüge, Code und Systemanweisungen.

Mehr Kontext klingt immer besser, kostet aber Speicher und Geschwindigkeit. Für einfache Chatfragen reicht wenig Kontext. Für Coding, Agenten, Websuche oder Dokumentenanalyse braucht man deutlich mehr.

Ollama kann die Kontextlänge erhöhen. Das ist aber ein Fortgeschrittenen-Thema, weil der Ollama-Server dafür mit der passenden Einstellung gestartet werden muss. Beispiel:

OLLAMA_CONTEXT_LENGTH=64000 ollama serve

Aber Vorsicht: Mehr Kontext ist nicht kostenlos. Ein zu großer Kontext kann ein Modell spürbar langsamer machen oder den Speicher überfordern. Wenn Ollama bereits als App oder Dienst läuft, kann ollama serve außerdem mit port 11434 already in use abbrechen. Für den ersten Einstieg sollte man die Kontextlänge deshalb nicht verändern.

Quantisierung

Quantisierung bedeutet vereinfacht: Das Modell wird komprimiert, damit es weniger Speicher braucht.

Ein 4-Bit-Modell ist deutlich kleiner als ein 16-Bit-Modell. Dadurch läuft es auf mehr Geräten. Es kann aber etwas Genauigkeit verlieren.

Typische Tags sind zum Beispiel:

  • q4_K_M
  • q8_0
  • fp16

Für Einsteiger ist meist ein gut unterstütztes Q4-Modell sinnvoll. Es ist klein genug für normale Hardware und liefert trotzdem brauchbare Qualität.

Hardware-Empfehlungen nach Klassen

Die folgende Tabelle ist bewusst realistisch. Sie soll helfen, Erwartungen richtig einzuordnen.

HardwareRealistische ModellklasseGute Modelle zum StartEinschätzung
Raspberry Pi 5 ohne AI HAT, 8 GB0.3B-1.5B, teilweise 3B langsamgemma3:270m, gemma3:1b, llama3.2:1b, qwen3:0.6bGut zum Lernen und für kleine lokale Helfer. Nicht als ChatGPT-Ersatz verkaufen.
Raspberry Pi 5 + AI HAT+ 13/26 TOPSVision, nicht klassische LLM-BeschleunigungVision-/Kamera-ModelleStark für Kamera, Objekterkennung und Robotics, nicht automatisch für lokale Chatmodelle.
Raspberry Pi 5 + AI HAT+ 2, 40 TOPSkleine LLMs/VLMs je nach SupportLlama 3.2 1B, Qwen2.5 1.5B, DeepSeek-R1-Distill 1.5BSpannend für Edge-GenAI, aber Hailo-Ökosystem und Modell-Support beachten.
MacBook mit 8 GB1B-4Bllama3.2:1b, gemma3:1b, gemma3:4bGut für Einstieg, kurze Texte und einfache Zusammenfassungen.
MacBook / Mac mini mit 16 GB4B-8B, teilweise 12Bgemma3:4b, qwen3:8b, qwen2.5-coder:7b, deepseek-r1:7bGute Alltagsklasse für private KI und einfache Automatisierungen.
Mac mit 24-32 GB12B-24Bgemma3:12b, qwen3:14b, qwen2.5-coder:14b, mistral-small3.1:24bStarke Prosumer-Klasse für Coding, Zusammenfassungen und längere Kontexte.
Mac mini M4 Pro mit 48 GB Unified Memory12B-32B komfortabel, größere Modelle je nach Quantisierunggemma3:12b, gemma3:27b, qwen3:30b, qwen2.5-coder:32b, deepseek-r1:32bSehr interessant für lokale Agenten, Coding, größere Kontexte und interne Automatisierung.
Mac Studio / großer Mac mit 64 GB+32B und größer je nach Modell32B-Modelle, teils 70B quantisiertFür anspruchsvolle lokale KI-Workloads, aber nicht nötig für den Einstieg.
GPU-PC mit 12-16 GB VRAM7B-14Bqwen2.5-coder:7b, qwen3:8b, deepseek-r1:14bSchnell, aber durch VRAM begrenzt.
GPU-PC mit 24 GB VRAM+24B-32B gut, 70B je nach Quantisierungmistral-small3.1:24b, qwen2.5-coder:32b, qwen3:30bSehr starke lokale Workstation-Klasse.

Raspberry Pi und lokale KI: sauber einordnen

Beim Raspberry Pi entstehen viele falsche Erwartungen. TOPS klingt beeindruckend, ist aber nicht gleichbedeutend mit „lokales ChatGPT läuft perfekt“.

TOPS steht für Tera Operations per Second. Es beschreibt eine theoretische Spitzenleistung für bestimmte KI-Berechnungen. Das sagt aber noch nicht automatisch, welche Modelle unterstützt werden, wie schnell ein Sprachmodell antwortet oder ob Ollama-Modelle direkt laufen.

Raspberry Pi AI HAT+ mit 13/26 TOPS

Der ältere Raspberry Pi AI HAT+ ist vor allem für Vision-Aufgaben interessant: Kamera, Objekterkennung, Postprocessing, Robotics.

Wichtige Einordnung:

Der AI HAT+ mit 13/26 TOPS ist nicht automatisch ein lokaler ChatGPT-Beschleuniger. Er ist primär für Vision- und Kamera-Anwendungen gedacht.

Raspberry Pi AI HAT+ 2 mit 40 TOPS

Der neuere Raspberry Pi AI HAT+ 2 ist deutlich spannender für GenAI-Szenarien. Er bietet mehr Leistung und eigenes RAM. Raspberry Pi positioniert ihn für generative KI auf dem Raspberry Pi 5.

Trotzdem gilt: Das ist kein normaler Mac mit beliebigen Ollama-Modellen. Für LLMs auf dem AI HAT+ 2 wird ein spezieller Hailo-Ollama-Server und ein Hailo-Modell-Ökosystem beschrieben.

Gute Blog-Aussage:

Ein Raspberry Pi 5 mit AI HAT+ 2 ist spannend für kleine lokale GenAI-Demos, Edge-Geräte, Datenschutzprojekte und Kamera-/Text-Kombinationen. Er ersetzt aber keinen starken Mac oder GPU-PC für große lokale Modelle.

Modell-Empfehlungen nach Anwendungsfall

Allgemeiner Assistent

  • Einstieg: llama3.2:1b
  • Alltag: gemma3:4b
  • stärkere Hardware: qwen3:8b oder gemma3:12b

Deutsch und Englisch schreiben, umformulieren, zusammenfassen

  • llama3.2:3b
  • gemma3:4b
  • gemma3:12b bei mehr RAM

Coding

  • schwache Hardware: qwen2.5-coder:1.5b
  • MacBook 16 GB: qwen2.5-coder:7b
  • Mac 32/48 GB: qwen2.5-coder:14b oder qwen2.5-coder:32b

Reasoning und Denkaufgaben

  • Einstieg: deepseek-r1:1.5b
  • Alltag: deepseek-r1:7b oder deepseek-r1:8b
  • stärker: deepseek-r1:14b oder deepseek-r1:32b

Bilder verstehen

  • gemma3:4b
  • gemma3:12b
  • gemma3:27b
  • mistral-small3.1:24b bei stärkerer Hardware

Beispiel:

ollama run gemma3:4b "Beschreibe dieses Bild: /Users/niklas/Desktop/bild.png"

Lokale Dokumentensuche

Für RAG und lokale Wissensdatenbanken:

ollama pull embeddinggemma
ollama pull nomic-embed-text
ollama pull nomic-embed-text-v2-moe

Ein Chatmodell beantwortet Fragen. Ein Embedding-Modell hilft dabei, passende Textstellen zu finden. Für ernsthafte Dokumentensuche braucht man meistens beides.

Anfänger-Testplan: In 20 Minuten zur ersten lokalen KI

Schritt 1: Ollama installieren und prüfen

ollama -v

Wenn eine Versionsnummer erscheint, ist Ollama installiert.

Schritt 2: Erstes kleines Modell starten

ollama run llama3.2:1b

Testprompt:

Erkläre mir in einfachen Worten, was ein lokales KI-Modell ist.

Schritt 3: Alltagsmodell testen

ollama run gemma3:4b

Testprompt:

Fasse diesen Text in drei Stichpunkten zusammen:
[Text einfügen]

Schritt 4: Coding-Modell testen

ollama run qwen2.5-coder:7b

Testprompt:

Erkläre mir diesen Code so, als wäre ich Anfänger:
def add(a, b):
    return a + b

Schritt 5: Prüfen, was läuft

ollama ps

Dieser Befehl ist wichtig. Er zeigt, welches Modell geladen ist, wie groß es ist, ob CPU oder GPU genutzt wird und welcher Kontext aktiv ist.

Datenschutz: Was lokale KI kann und was nicht

Lokale KI reduziert Datenabfluss, weil Eingaben lokal verarbeitet werden können. Das ist ein echter Vorteil.

Aber:

  • Das Tool muss wirklich lokal laufen.
  • Keine Cloud-API darf unbemerkt eingebunden sein.
  • Modelle sollten aus vertrauenswürdigen Quellen stammen.
  • Unternehmensdaten brauchen klare Regeln.
  • Logs, Chatverläufe und lokale Dateien müssen ebenfalls geschützt werden.
  • Ein lokaler KI-Workflow ersetzt keine Datenschutzprüfung.

Für Unternehmen ist der richtige Einstieg nicht: „Wir installieren irgendein Modell und lassen alle los.“

Besser ist:

  1. Ziel definieren.
  2. Datenklasse festlegen.
  3. erlaubte Tools definieren.
  4. lokale Installation testen.
  5. Sicherheits- und Updateprozess klären.
  6. Mitarbeitende schulen.
  7. Pilot mit klarer Freigabe starten.

Typische Fehler beim Einstieg

Fehler 1: Zu großes Modell wählen

Ein 32B-Modell klingt besser als ein 4B-Modell. Auf schwacher Hardware kann es aber unbrauchbar langsam sein.

Besser: klein starten, dann steigern.

Fehler 2: Lokale KI mit Cloud-KI vergleichen

Ein kleines lokales Modell ist nicht fair mit einem großen Cloud-Modell vergleichbar. Die bessere Frage lautet: Welche lokale Aufgabe soll das Modell zuverlässig erledigen?

Fehler 3: Kontext zu hoch setzen

64K oder 128K Kontext klingt gut. Es braucht aber viel Speicher und kann die Antwortgeschwindigkeit stark senken.

Besser: Nur so viel Kontext wie nötig.

Fehler 4: Datenschutz überschätzen

Lokal ist besser kontrollierbar, aber nicht automatisch risikofrei. Auch lokale Workflows brauchen Regeln.

Fehler 5: Keine Modellrolle definieren

Ein Modell für alles führt schnell zu Enttäuschung. Besser:

  • kleines Modell für schnelle Tests
  • Alltagsmodell für Texte
  • Coding-Modell für Code
  • Embedding-Modell für Suche
  • Reasoning-Modell für Denkaufgaben

FAQ: Lokale KI installieren

Ist Ollama kostenlos?

Ollama ist als Tool frei nutzbar. Die Kosten entstehen durch Ihre eigene Hardware, Strom, Speicherplatz und den Aufwand für Einrichtung und Pflege. Prüfen Sie zusätzlich immer die Lizenzbedingungen der einzelnen Modelle.

Muss ich programmieren können?

Nein. Für den Einstieg reichen wenige Terminalbefehle. Wer lokale KI später in Automatisierungen, Apps oder Unternehmensprozesse einbauen will, braucht technisches Verständnis oder Unterstützung.

Sind meine Daten mit Ollama automatisch privat?

Nicht automatisch. Wenn das Modell lokal läuft und keine externe API verwendet wird, müssen Prompts nicht an einen Cloud-Anbieter gesendet werden. Trotzdem müssen lokale Logs, Dateien, Tools, Berechtigungen und Integrationen kontrolliert werden.

Welches Modell soll ich zuerst testen?

Für den ersten Test: llama3.2:1b. Danach gemma3:4b als Alltagsmodell. Für Code: qwen2.5-coder:7b oder bei schwacher Hardware qwen2.5-coder:1.5b.

Reicht ein Raspberry Pi für lokale KI?

Für kleine Tests ja. Für große Sprachmodelle nein. Ein Raspberry Pi 5 kann kleine Modelle ausführen und ist spannend für Edge-Szenarien. Für komfortable lokale KI sind ein Mac mit ausreichend Unified Memory oder ein GPU-PC deutlich geeigneter.

Was ist besser: Ollama oder LM Studio?

Ollama ist sehr gut für Terminal, API, Automatisierung und Entwickler-Workflows. LM Studio ist für viele Einsteiger angenehmer, wenn sie eine grafische Oberfläche bevorzugen. Für diesen Leitfaden ist Ollama der Hauptpfad, weil es einfach skriptbar und gut integrierbar ist.

Kann lokale KI ChatGPT ersetzen?

Teilweise, aber nicht vollständig. Lokale Modelle können viele Aufgaben übernehmen: Zusammenfassen, Umformulieren, Coding-Hilfe, Klassifikation, lokale Automatisierung. Große Cloud-Modelle bleiben oft stärker bei komplexer Analyse, aktuellem Wissen und multimodaler Spitzenleistung.

Wie viele Modelle sollte ich installieren?

Am Anfang reichen drei bis fünf Modelle: ein kleines Testmodell, ein Alltagsmodell, ein Coding-Modell, optional ein Reasoning-Modell und ein Embedding-Modell.

Fazit: Lokale KI ist kein Spielzeug, sondern ein Souveränitätswerkzeug

Lokale KI ist nicht die kleinere Version von ChatGPT. Sie ist ein eigener Werkzeugkasten.

Für Einsteiger ist Ollama ein sehr guter Start, weil die technische Einstiegshürde niedrig ist. Ein kleines Modell wie llama3.2:1b zeigt schnell, wie lokale KI funktioniert. Ein Modell wie gemma3:4b macht die ersten Alltagsaufgaben greifbar. Für Coding ist qwen2.5-coder ein sinnvoller nächster Schritt. Für lokale Wissensdatenbanken kommen Embedding-Modelle hinzu.

Für Unternehmen ist lokale KI besonders spannend, wenn Datenschutz, Kontrolle und Automatisierung zusammen gedacht werden. Es geht nicht darum, jedes Cloud-Modell zu ersetzen. Es geht darum, einfache, wiederkehrende, sensible oder interne Aufgaben kontrollierbar auf eigener Hardware auszuführen.

Der beste nächste Schritt ist ein kleiner, sauber begrenzter Pilot:

  • ein konkreter Anwendungsfall
  • ein lokales Modell
  • klare Datenregeln
  • ein Testgerät
  • ein messbares Ergebnis

So wird aus lokaler KI kein technisches Experiment ohne Richtung, sondern ein kontrollierter Baustein für sichere KI-Nutzung im Unternehmen.

Nächster Schritt

Wenn Sie lokale KI im Unternehmen einsetzen möchten, starten Sie nicht mit der Modellliste, sondern mit dem Ziel:

  • Welche Daten sollen verarbeitet werden?
  • Welche Aufgabe soll automatisiert werden?
  • Welche Risiken müssen ausgeschlossen werden?
  • Welche Mitarbeitenden brauchen eine klare KI-Richtlinie?
  • Welche Prozesse lassen sich sinnvoll lokal unterstützen?

Consulting Entenmann unterstützt Unternehmen dabei, KI praktisch, sicher und verständlich einzuführen: von KI-Kompetenz und KI-Richtlinien bis zu lokalen Pilotprojekten und Automatisierung mit Freigabe-Gates.

Quellen und weiterführende Links

Ähnliche Beiträge