Lokale KI installieren: Der praktische Ollama-Leitfaden für Einsteiger und Unternehmen
Kurzantwort: Lokale KI bedeutet, dass ein KI-Modell direkt auf dem eigenen Rechner, Server oder Edge-Gerät läuft. Die Eingaben müssen dabei nicht an einen Cloud-Anbieter geschickt werden, solange wirklich ein lokales Modell genutzt wird. Für den Einstieg ist Ollama aktuell einer der einfachsten Wege: installieren, Modell herunterladen, starten und testen.
Lokale Modelle sind aber kein kleines ChatGPT. Sie sind ein eigener KI-Werkzeugkasten. Stark sind sie bei Datenschutz, Lernen, Automatisierung, Coding, Zusammenfassungen, lokalen Experimenten und internen Workflows. Ihre Qualität hängt stark von Hardware, RAM, VRAM, Kontextlänge, Modellgröße und dem richtigen Einsatzzweck ab.
Dieser Leitfaden erklärt, wie Sie lokale KI mit Ollama installieren, welche Modelle sich zum Einstieg eignen, welche Hardware realistisch ist und worauf Unternehmen bei Datenschutz und Sicherheit achten sollten.
Der Unterschied auf einen Blick
| Frage | Cloud-KI | Lokale KI mit Ollama |
|---|---|---|
| Wo läuft das Modell? | Beim Anbieter | Auf dem eigenen Gerät |
| Wohin geht die Eingabe? | Zum Cloud-Dienst | Lokal auf den eigenen Rechner |
| Was ist der größte Vorteil? | Sehr starke Modelle, wenig Einrichtung | Kontrolle, Datenschutz, Offline-Fähigkeit |
| Was ist die wichtigste Grenze? | Daten verlassen das eigene System | Hardware begrenzt Modellgröße und Geschwindigkeit |
Das ist die wichtigste Einordnung für den Einstieg: Lokale KI ist kein kleinerer Cloud-Chatbot, sondern ein kontrollierbarer Werkzeugkasten. Sie wird stark, wenn Aufgabe, Modell und Hardware zusammenpassen.
Was ist lokale KI?
Lokale KI bedeutet: Das KI-Modell läuft auf einem Gerät, das Sie selbst kontrollieren. Das kann ein MacBook, ein Windows-PC, ein Linux-Server, ein Mac mini, ein GPU-PC oder ein Raspberry Pi sein.
Der wichtigste Unterschied zur Cloud-KI:
- Bei Cloud-KI wird Ihre Eingabe an einen externen Dienst gesendet.
- Bei lokaler KI wird die Eingabe auf Ihrem eigenen Gerät verarbeitet.
Das klingt simpel, ist aber für Datenschutz, Souveränität und Kostenkontrolle wichtig. Lokale KI kann besonders interessant sein, wenn interne Texte, technische Dokumentationen, Code, Protokolle oder sensible Arbeitsdaten nicht unnötig an externe Anbieter gehen sollen.
Trotzdem gilt: Lokal heißt nicht automatisch sicher. Auch lokale Tools müssen sauber installiert, aktualisiert und kontrolliert werden. Modelle müssen aus vertrauenswürdigen Quellen stammen. Und in Unternehmen braucht es klare Regeln, welche Daten in welche KI-Systeme eingegeben werden dürfen.
Was ist Ollama?
Ollama ist ein Tool, mit dem man KI-Modelle lokal herunterladen, starten und verwalten kann. Man muss dafür nicht zuerst Python-Umgebungen, Modellformate, Treiber und komplizierte Frameworks verstehen.
Für Einsteiger ist das der große Vorteil:
- Ollama installieren.
- Ein Modell starten.
- Einen Prompt eingeben.
- Lokale KI erleben.
Ollama bietet eine Kommandozeile, eine lokale API und lässt sich mit vielen Werkzeugen verbinden, zum Beispiel mit Entwicklungsumgebungen, Automatisierungstools, lokalen Chat-Oberflächen oder Agentensystemen.
Der wichtigste Satz:
Mit Ollama läuft ein KI-Modell direkt auf Ihrem eigenen Gerät. Ihre Eingabe muss nicht an einen Cloud-Anbieter geschickt werden, solange Sie wirklich ein lokales Modell nutzen und keine Cloud-Variante oder externe Integration aktiv ist.
Für wen lohnt sich lokale KI?
Lokale KI lohnt sich besonders für Menschen und Unternehmen, die Kontrolle, Datenschutz und praktisches Ausprobieren verbinden wollen.
Typische Einsatzfälle:
- interne Texte zusammenfassen
- E-Mails oder Notizen umformulieren
- Code erklären oder verbessern
- lokale Automatisierungen testen
- private Wissensdatenbanken vorbereiten
- Dokumente klassifizieren
- Chatbots für interne Prototypen bauen
- KI-Kompetenz im Team praktisch vermitteln
- sensible Workflows erst lokal testen
Lokale KI ist auch ideal zum Lernen. Man versteht schneller, was Modelle können, wo sie scheitern und warum Hardware so wichtig ist.
Wann lokale KI nicht die beste Lösung ist
Lokale KI ist nicht automatisch besser als Cloud-KI. Sie ist anders.
Cloud-Modelle sind oft stärker bei:
- komplexem Reasoning
- aktuellem Weltwissen
- sehr großen Kontextfenstern
- multimodaler Spitzenleistung
- professioneller Skalierung
- stabiler Produktintegration
Lokale Modelle gewinnen dagegen bei:
- Datenschutzkontrolle
- Offline-Fähigkeit
- Experimentierfreiheit
- Kostenkontrolle bei vielen kleinen Aufgaben
- Integration in eigene lokale Workflows
- Lernen und technische Souveränität
Ein lokales 1B- oder 4B-Modell ist beeindruckend, weil es direkt auf dem eigenen Gerät läuft. Es ist aber nicht automatisch so leistungsfähig wie ein großes Cloud-Modell. Wer lokale KI richtig einsetzt, erwartet keinen vollständigen ChatGPT-Ersatz, sondern baut einen kontrollierbaren Werkzeugkasten für konkrete Aufgaben.
Installation: Ollama für absolute Anfänger
Die Installation hängt vom Betriebssystem ab. Für die meisten Einsteiger ist macOS oder Windows am einfachsten. Linux ist ebenfalls gut unterstützt, setzt aber etwas mehr Terminal-Verständnis voraus.
Der Ablauf ist immer gleich:
- Ollama installieren.
- Terminal, PowerShell oder Eingabeaufforderung öffnen.
- Mit
ollama -vprüfen, ob Ollama erreichbar ist. - Mit
ollama run llama3.2:1bdas erste kleine Modell herunterladen und starten. - Eine Frage eingeben.
- Den Chat mit
/byeoderCtrl+Dverlassen.
Beim ersten Start lädt Ollama das Modell herunter. Das kann je nach Internetverbindung einige Minuten dauern und braucht Speicherplatz auf der Festplatte.
Wenn hier ein Befehl in einem grauen Codeblock steht: Kopieren Sie den Befehl exakt so, wie er dort steht, fügen Sie ihn in Terminal oder PowerShell ein und bestätigen Sie mit Enter.
macOS
Voraussetzung: macOS 14 Sonoma oder neuer. Auf Apple-Silicon-Macs, also M1, M2, M3 oder M4, kann Ollama CPU und GPU nutzen. Auf Intel-Macs läuft Ollama deutlich eingeschränkter und im Kern über die CPU.
Für Einsteiger ist der einfachste Weg:
- Ollama von der offiziellen Website herunterladen.
- Die
.dmg-Datei öffnen. - Ollama in den systemweiten Programme-Ordner ziehen.
- Ollama einmal starten.
- Wenn macOS fragt, ob Ollama den Terminal-Befehl einrichten darf, bestätigen.
- Terminal öffnen. Am einfachsten:
cmd+ Leertaste drücken, nachTerminalsuchen und öffnen. - Version prüfen:
ollama -vDanach kann das erste Modell gestartet werden:
ollama run llama3.2:1bWenn der Befehl ollama nicht gefunden wird: Ollama-App einmal starten, Terminal schließen, neues Terminal öffnen und ollama -v erneut testen.
Windows
Voraussetzung: Windows 10 Version 22H2 oder neuer. Ollama läuft als native Windows-App und ist nach der Installation über PowerShell, cmd oder Windows Terminal nutzbar.
Für Einsteiger ist der Installer der beste Weg:
- Ollama von der offiziellen Website herunterladen.
- Installer starten.
- Installation abschließen.
- Ollama über das Startmenü einmal öffnen.
- PowerShell öffnen. Am einfachsten: Startmenü öffnen, nach
PowerShellsuchen und öffnen. - Version prüfen:
ollama -vDanach das erste Modell starten:
ollama run llama3.2:1bAlternativ kann Ollama per PowerShell installiert werden. Für absolute Anfänger ist der Installer aber meistens angenehmer, weil der PowerShell-Befehl auf manchen Windows-Systemen durch Sicherheitsregeln blockiert werden kann:
irm https://ollama.com/install.ps1 | iexWenn ollama -v nicht funktioniert: PowerShell schließen, Ollama über das Startmenü öffnen, danach PowerShell neu starten. Ollama läuft unter Windows im Hintergrund.
Für Einsteiger ist wichtig: PowerShell ist nur die Bedienoberfläche. Das Modell läuft lokal auf dem Rechner.
Linux
Unter Linux ist der Standardbefehl:
curl -fsSL https://ollama.com/install.sh | shKopieren Sie den Befehl exakt in ein Linux-Terminal und bestätigen Sie mit Enter.
Danach prüfen:
ollama -vWenn Ollama nicht läuft, den Dienst prüfen:
sudo systemctl status ollamaFalls der Dienst nicht gestartet ist:
sudo systemctl start ollamaDanach das erste Modell starten:
ollama run llama3.2:1bBei Linux-Systemen mit NVIDIA- oder AMD-GPU sollten Treiber und GPU-Unterstützung sauber eingerichtet sein. Für reine CPU-Systeme funktionieren kleine Modelle, aber die Geschwindigkeit ist begrenzt.
Wenn ein Linux-System kein systemd nutzt oder eine manuelle Installation verwendet wurde, kann Ollama auch manuell gestartet werden:
ollama serveDann in einem zweiten Terminal prüfen:
ollama -vRaspberry Pi
Auf Raspberry Pi muss man genauer hinschauen. Ein Raspberry Pi ist kein normaler KI-PC. Kleine Modelle können funktionieren, aber große lokale Sprachmodelle sind dort nur eingeschränkt sinnvoll.
Für absolute Anfänger ist diese Reihenfolge sinnvoll:
- Erst Ollama auf Mac, Windows oder einem normalen Linux-PC testen.
- Danach Raspberry Pi als Lern- oder Edge-Projekt verwenden.
- Nur sehr kleine Modelle einsetzen, zum Beispiel
llama3.2:1b,gemma3:1boder ein kleines Qwen-Modell.
Wichtig ist die Architektur: Für Raspberry Pi braucht man ein 64-Bit-System, also ARM64. Auf Raspberry Pi OS 64-bit kann man den normalen Linux-Weg testen:
curl -fsSL https://ollama.com/install.sh | shWenn die automatische Installation nicht passt, ist das manuelle ARM64-Paket der nächste Weg. Das ist eher ein Fortgeschrittenen-Schritt:
curl -fsSL https://ollama.com/download/ollama-linux-arm64.tar.zst | sudo tar x -C /usr
ollama serveEin Raspberry Pi 5 ohne KI-HAT eignet sich gut zum Lernen und für kleine lokale Tests. Er ist aber kein Ersatz für einen Mac mini, Mac Studio oder GPU-PC.
Bei AI-HATs ist wichtig: Nicht jeder AI-HAT beschleunigt lokale Sprachmodelle wie ein normaler GPU-PC. Manche HATs sind vor allem für Kamera- und Vision-Modelle gedacht. Für LLMs auf spezieller Hailo-Hardware gelten eigene Modell- und Serverwege.
Erster Test: Woran erkennt man, dass es funktioniert?
Nach diesem Befehl:
ollama run llama3.2:1bpassieren beim ersten Mal zwei Dinge:
- Ollama lädt das Modell herunter.
- Danach erscheint ein Eingabefeld im Terminal.
Wenn Sie dort ein >>> sehen, können Sie Ihre erste Frage eingeben:
Erkläre mir in einfachen Worten, was ein lokales KI-Modell ist.Wenn eine Antwort erscheint, ist Ollama erfolgreich installiert und das Modell läuft lokal.
Den Chat verlassen Sie mit:
/byeoder mit Ctrl+D.
Danach können Sie prüfen, welche Modelle installiert sind:
ollama lsUnd Sie können prüfen, ob gerade ein Modell läuft:
ollama psMini-Schaubild: Der erste Ollama-Test
| Schritt | Befehl oder Aktion | Ergebnis |
|---|---|---|
| 1 | ollama -v | Ollama ist installiert |
| 2 | ollama run llama3.2:1b | Modell wird geladen und gestartet |
| 3 | Frage eingeben | Modell antwortet lokal |
| 4 | /bye | Chat wird beendet |
| 5 | ollama ls | Installierte Modelle werden angezeigt |
Die wichtigsten Ollama-Befehle
Für 90 Prozent der Anfängerfälle reichen diese Befehle:
# Modell herunterladen und direkt starten
ollama run llama3.2:1b
# Modell nur herunterladen
ollama pull gemma3:4b
# Installierte Modelle anzeigen
ollama ls
# Laufende Modelle anzeigen
ollama ps
# Modell stoppen
ollama stop gemma3:4b
# Modell löschen
ollama rm gemma3:4b
# Ollama-Server manuell starten
# meistens nur nötig, wenn Ollama nicht bereits als App/Dienst läuft
ollama serveFür andere Programme stellt Ollama eine lokale API bereit. Der lokale Ollama-Server ist standardmäßig hier erreichbar:
http://localhost:11434Die eigentlichen API-Endpunkte liegen darunter, zum Beispiel:
http://localhost:11434/api/generate
http://localhost:11434/api/tagsDarüber können lokale Tools, Skripte, Chat-Oberflächen oder Automatisierungen mit dem Modell sprechen.
Häufige Installationsprobleme und schnelle Lösungen
ollama: command not found
Das bedeutet: Das Terminal findet den Ollama-Befehl nicht.
Lösung:
- macOS: Ollama-App einmal starten, Terminal schließen, neues Terminal öffnen.
- Windows: Ollama über das Startmenü öffnen, PowerShell schließen, neu öffnen.
- Linux: Installation erneut prüfen und testen, ob der Dienst läuft.
Ollama verbindet sich nicht
Typische Fehlermeldungen sind:
could not connect to Ollamaconnection refused
Das bedeutet meistens: Die Ollama-App oder der Ollama-Server läuft gerade nicht.
Lösung:
- macOS/Windows: Ollama-App starten.
- Linux:
sudo systemctl start ollama - manuelle Installation:
ollama serve
Der Download dauert sehr lange
Beim ersten ollama run wird das Modell heruntergeladen. Das ist normal. Je nach Modell und Internetverbindung kann das Minuten dauern. Größere Modelle brauchen mehrere Gigabyte Speicherplatz.
Das Modell antwortet sehr langsam
Dann ist das Modell wahrscheinlich zu groß für die Hardware oder läuft teilweise auf der CPU.
Lösung:
- kleineres Modell testen, zum Beispiel
llama3.2:1b - mit
ollama psprüfen, was gerade läuft - große Modelle stoppen oder entfernen
port 11434 already in use
Das passiert, wenn Ollama bereits läuft und man zusätzlich ollama serve startet. Für Einsteiger ist das meistens kein Problem. Dann einfach die App oder den laufenden Dienst verwenden und ollama serve nicht zusätzlich starten.
Die besten Einstiegsmodelle
Für den Anfang sollte man nicht 20 Modelle ausprobieren. Besser ist eine klare Testreihenfolge: ein kleines Modell, ein Alltagsmodell, ein Coding-Modell und optional ein Reasoning- oder Embedding-Modell.
1. Kleines Modell für den ersten Aha-Moment
ollama run llama3.2:1bWarum dieses Modell?
- klein
- schnell
- guter Einstieg
- geeignet für einfache Texte, Umschreiben und erste lokale Tests
Testprompt:
Erkläre mir in einfachen Worten, was ein lokales KI-Modell ist.Dieses Modell zeigt sofort, dass lokale KI funktioniert. Es ist aber nicht der Maßstab für maximale Qualität.
2. Alltagsmodell für Schreiben, Zusammenfassen und Deutsch/Englisch
ollama run gemma3:4bWarum dieses Modell?
- guter Allrounder
- mehrsprachig
- brauchbar für Zusammenfassungen, Umformulierungen und einfache Analysen
- je nach Variante auch mit Bildinput nutzbar
Testprompt:
Schreibe diese Nachricht professioneller und freundlicher:
Hallo Alex, anbei das Video und der Chat. Ich freue mich auf die Zusammenarbeit.3. Coding-Modell
ollama run qwen2.5-coder:7bFür schwächere Hardware:
ollama run qwen2.5-coder:1.5bWarum dieses Modell?
- speziell für Code
- hilfreich zum Erklären, Korrigieren und Erzeugen von Code
- gute Übung für Entwickler, Admins und technisch interessierte Einsteiger
Testprompt:
Erkläre mir diesen Python-Code so, als wäre ich Anfänger:
def add(a, b):
return a + b4. Reasoning-Modell zum Testen
ollama run deepseek-r1:1.5bOder bei stärkerer Hardware:
ollama run deepseek-r1:7bReasoning-Modelle sind für Denkaufgaben, Logik und Problemlösung gedacht. Sie können aber langsamer sein und mehr Zwischenschritte erzeugen. Für alltägliche kurze Aufgaben fühlt sich ein normales Alltagsmodell oft schneller an.
5. Embedding-Modell für lokale Dokumentensuche
Für lokale Dokumentensuche reicht ein Chat-Modell allein nicht aus. Man braucht häufig zusätzlich ein Embedding-Modell. Es wandelt Texte in Zahlenvektoren um, damit ähnliche Inhalte gefunden werden können.
Beispiele:
ollama pull embeddinggemma
ollama pull nomic-embed-text
ollama pull nomic-embed-text-v2-moeDas ist besonders relevant für RAG-Systeme, lokale Wissensdatenbanken und interne Dokumentensuche.
Die wichtigsten Begriffe einfach erklärt
Modellgröße: 1B, 4B, 7B, 14B, 32B
Das B steht für Milliarden Parameter. Ein 1B-Modell hat ungefähr eine Milliarde Parameter, ein 7B-Modell ungefähr sieben Milliarden.
Grundregel:
- kleinere Modelle sind schneller und sparsamer
- größere Modelle können oft mehr
- größere Modelle brauchen mehr Speicher
- zu große Modelle werden langsam oder laufen gar nicht sinnvoll
Nicht das größte Modell ist automatisch das beste Modell für Ihren Rechner. Ein kleines Modell, das vollständig in den schnellen Speicher passt, fühlt sich oft besser an als ein großes Modell, das ständig ausgelagert wird.
RAM, VRAM und Unified Memory
Auf klassischen PCs gibt es normalen RAM und separaten GPU-Speicher, also VRAM. Die Grafikkarte hat ihren eigenen Speicher. Wenn ein Modell nicht in diesen VRAM passt, wird es langsamer oder läuft teilweise auf der CPU.
Auf Apple Silicon gibt es Unified Memory. CPU und GPU teilen sich denselben Speicher. Das ist für lokale KI sehr praktisch, weil ein MacBook oder Mac mini mit 32 GB oder 48 GB Unified Memory auch größere Modelle sinnvoll lokal ausführen kann.
Praktisch prüfen kann man die Auslastung mit:
ollama psDort sieht man unter anderem, welches Modell läuft, wie groß es ist, welcher Prozessor genutzt wird und wie groß der Kontext ist.
Was bedeutet eine RAM-Anzeige beim Raspberry Pi?
Auf Linux-Systemen sieht man Speicherangaben oft in dieser Form:
RAM
705Mi used / 7.9Gi total, 7.2Gi availableDas sieht technischer aus, als es ist. Gemeint ist:
| Anzeige | Einfache Bedeutung | Einordnung für lokale KI |
|---|---|---|
705Mi used | Der Raspberry Pi nutzt gerade ungefähr 705 MiB Arbeitsspeicher. | Das System ist im Leerlauf noch recht frei. |
7.9Gi total | Der Pi hat insgesamt rund 8 GB RAM. | Das ist typisch für einen Raspberry Pi 5 mit 8 GB. |
7.2Gi available | Linux schätzt, dass noch ungefähr 7.2 GiB für Programme verfügbar sind. | Gut für kleine Modelle, aber nicht für große lokale LLMs. |
Wichtig: available heißt nicht, dass ein 7-GB-Modell automatisch gut läuft. Ein KI-Modell braucht zusätzlich Speicher für Kontext, Zwischenergebnisse und das Betriebssystem. Für einen Raspberry Pi sollte man deshalb klein starten, zum Beispiel mit 1B- oder 1.5B-Modellen.
Praxisbeispiel: Mac mini M4 Pro mit 48 GB Unified Memory
Ein Mac mini mit Apple M4 Pro, 12 CPU-Kernen und 48 GB Unified Memory ist eine ganz andere Klasse als ein Raspberry Pi. Hier ist lokale KI nicht nur ein Lernexperiment, sondern kann für Alltag, Coding, längere Zusammenfassungen und lokale Agenten-Workflows sinnvoll werden.
| Gerät | Speicherklasse | Realistische Nutzung mit Ollama |
|---|---|---|
| Raspberry Pi 5, 8 GB RAM | sehr knapp | kleine Tests, 1B-Modelle, Edge-Experimente |
| MacBook Air M4, 24 GB Unified Memory | gute mobile Einstiegsklasse | 4B- bis 14B-Modelle, Alltag, Texte, Coding |
| Mac mini M4 Pro, 48 GB Unified Memory | starke lokale Arbeitsmaschine | 12B- bis 32B-Modelle, Coding, Agenten, größere Kontexte |
| GPU-PC mit 24 GB VRAM | starke Inferenzklasse | schnelle 14B- bis 32B-Modelle, je nach Quantisierung |
Beim Mac mini zählt vor allem das Unified Memory. Es ist nicht dasselbe wie klassischer PC-RAM plus separate Grafikkarte. CPU und GPU greifen auf denselben Speicher zu. Für lokale Modelle ist das praktisch, weil größere Modelle überhaupt erst sinnvoll in den schnellen Speicher passen.
Was heißt: Das Modell passt in den Speicher?
Ein Modell besteht nicht nur aus einer Datei auf der Festplatte. Beim Start wird es in den Arbeitsspeicher geladen. Dazu kommt zusätzlicher Speicher für die aktuelle Unterhaltung, also für den Kontext.
Wenn Modellgewichte und Kontext vollständig in den schnellen Speicher passen, läuft lokale KI deutlich angenehmer. Wenn das System stark auslagert, werden Antworten langsam.
Kontext
Kontext ist das, was das Modell gleichzeitig berücksichtigen kann: aktuelle Frage, bisheriger Chatverlauf, eingefügter Text, Dokumentenauszüge, Code und Systemanweisungen.
Mehr Kontext klingt immer besser, kostet aber Speicher und Geschwindigkeit. Für einfache Chatfragen reicht wenig Kontext. Für Coding, Agenten, Websuche oder Dokumentenanalyse braucht man deutlich mehr.
Ollama kann die Kontextlänge erhöhen. Das ist aber ein Fortgeschrittenen-Thema, weil der Ollama-Server dafür mit der passenden Einstellung gestartet werden muss. Beispiel:
OLLAMA_CONTEXT_LENGTH=64000 ollama serveAber Vorsicht: Mehr Kontext ist nicht kostenlos. Ein zu großer Kontext kann ein Modell spürbar langsamer machen oder den Speicher überfordern. Wenn Ollama bereits als App oder Dienst läuft, kann ollama serve außerdem mit port 11434 already in use abbrechen. Für den ersten Einstieg sollte man die Kontextlänge deshalb nicht verändern.
Quantisierung
Quantisierung bedeutet vereinfacht: Das Modell wird komprimiert, damit es weniger Speicher braucht.
Ein 4-Bit-Modell ist deutlich kleiner als ein 16-Bit-Modell. Dadurch läuft es auf mehr Geräten. Es kann aber etwas Genauigkeit verlieren.
Typische Tags sind zum Beispiel:
q4_K_Mq8_0fp16
Für Einsteiger ist meist ein gut unterstütztes Q4-Modell sinnvoll. Es ist klein genug für normale Hardware und liefert trotzdem brauchbare Qualität.
Hardware-Empfehlungen nach Klassen
Die folgende Tabelle ist bewusst realistisch. Sie soll helfen, Erwartungen richtig einzuordnen.
| Hardware | Realistische Modellklasse | Gute Modelle zum Start | Einschätzung |
|---|---|---|---|
| Raspberry Pi 5 ohne AI HAT, 8 GB | 0.3B-1.5B, teilweise 3B langsam | gemma3:270m, gemma3:1b, llama3.2:1b, qwen3:0.6b | Gut zum Lernen und für kleine lokale Helfer. Nicht als ChatGPT-Ersatz verkaufen. |
| Raspberry Pi 5 + AI HAT+ 13/26 TOPS | Vision, nicht klassische LLM-Beschleunigung | Vision-/Kamera-Modelle | Stark für Kamera, Objekterkennung und Robotics, nicht automatisch für lokale Chatmodelle. |
| Raspberry Pi 5 + AI HAT+ 2, 40 TOPS | kleine LLMs/VLMs je nach Support | Llama 3.2 1B, Qwen2.5 1.5B, DeepSeek-R1-Distill 1.5B | Spannend für Edge-GenAI, aber Hailo-Ökosystem und Modell-Support beachten. |
| MacBook mit 8 GB | 1B-4B | llama3.2:1b, gemma3:1b, gemma3:4b | Gut für Einstieg, kurze Texte und einfache Zusammenfassungen. |
| MacBook / Mac mini mit 16 GB | 4B-8B, teilweise 12B | gemma3:4b, qwen3:8b, qwen2.5-coder:7b, deepseek-r1:7b | Gute Alltagsklasse für private KI und einfache Automatisierungen. |
| Mac mit 24-32 GB | 12B-24B | gemma3:12b, qwen3:14b, qwen2.5-coder:14b, mistral-small3.1:24b | Starke Prosumer-Klasse für Coding, Zusammenfassungen und längere Kontexte. |
| Mac mini M4 Pro mit 48 GB Unified Memory | 12B-32B komfortabel, größere Modelle je nach Quantisierung | gemma3:12b, gemma3:27b, qwen3:30b, qwen2.5-coder:32b, deepseek-r1:32b | Sehr interessant für lokale Agenten, Coding, größere Kontexte und interne Automatisierung. |
| Mac Studio / großer Mac mit 64 GB+ | 32B und größer je nach Modell | 32B-Modelle, teils 70B quantisiert | Für anspruchsvolle lokale KI-Workloads, aber nicht nötig für den Einstieg. |
| GPU-PC mit 12-16 GB VRAM | 7B-14B | qwen2.5-coder:7b, qwen3:8b, deepseek-r1:14b | Schnell, aber durch VRAM begrenzt. |
| GPU-PC mit 24 GB VRAM+ | 24B-32B gut, 70B je nach Quantisierung | mistral-small3.1:24b, qwen2.5-coder:32b, qwen3:30b | Sehr starke lokale Workstation-Klasse. |
Raspberry Pi und lokale KI: sauber einordnen
Beim Raspberry Pi entstehen viele falsche Erwartungen. TOPS klingt beeindruckend, ist aber nicht gleichbedeutend mit „lokales ChatGPT läuft perfekt“.
TOPS steht für Tera Operations per Second. Es beschreibt eine theoretische Spitzenleistung für bestimmte KI-Berechnungen. Das sagt aber noch nicht automatisch, welche Modelle unterstützt werden, wie schnell ein Sprachmodell antwortet oder ob Ollama-Modelle direkt laufen.
Raspberry Pi AI HAT+ mit 13/26 TOPS
Der ältere Raspberry Pi AI HAT+ ist vor allem für Vision-Aufgaben interessant: Kamera, Objekterkennung, Postprocessing, Robotics.
Wichtige Einordnung:
Der AI HAT+ mit 13/26 TOPS ist nicht automatisch ein lokaler ChatGPT-Beschleuniger. Er ist primär für Vision- und Kamera-Anwendungen gedacht.
Raspberry Pi AI HAT+ 2 mit 40 TOPS
Der neuere Raspberry Pi AI HAT+ 2 ist deutlich spannender für GenAI-Szenarien. Er bietet mehr Leistung und eigenes RAM. Raspberry Pi positioniert ihn für generative KI auf dem Raspberry Pi 5.
Trotzdem gilt: Das ist kein normaler Mac mit beliebigen Ollama-Modellen. Für LLMs auf dem AI HAT+ 2 wird ein spezieller Hailo-Ollama-Server und ein Hailo-Modell-Ökosystem beschrieben.
Gute Blog-Aussage:
Ein Raspberry Pi 5 mit AI HAT+ 2 ist spannend für kleine lokale GenAI-Demos, Edge-Geräte, Datenschutzprojekte und Kamera-/Text-Kombinationen. Er ersetzt aber keinen starken Mac oder GPU-PC für große lokale Modelle.
Modell-Empfehlungen nach Anwendungsfall
Allgemeiner Assistent
- Einstieg:
llama3.2:1b - Alltag:
gemma3:4b - stärkere Hardware:
qwen3:8bodergemma3:12b
Deutsch und Englisch schreiben, umformulieren, zusammenfassen
llama3.2:3bgemma3:4bgemma3:12bbei mehr RAM
Coding
- schwache Hardware:
qwen2.5-coder:1.5b - MacBook 16 GB:
qwen2.5-coder:7b - Mac 32/48 GB:
qwen2.5-coder:14boderqwen2.5-coder:32b
Reasoning und Denkaufgaben
- Einstieg:
deepseek-r1:1.5b - Alltag:
deepseek-r1:7boderdeepseek-r1:8b - stärker:
deepseek-r1:14boderdeepseek-r1:32b
Bilder verstehen
gemma3:4bgemma3:12bgemma3:27bmistral-small3.1:24bbei stärkerer Hardware
Beispiel:
ollama run gemma3:4b "Beschreibe dieses Bild: /Users/niklas/Desktop/bild.png"Lokale Dokumentensuche
Für RAG und lokale Wissensdatenbanken:
ollama pull embeddinggemma
ollama pull nomic-embed-text
ollama pull nomic-embed-text-v2-moeEin Chatmodell beantwortet Fragen. Ein Embedding-Modell hilft dabei, passende Textstellen zu finden. Für ernsthafte Dokumentensuche braucht man meistens beides.
Anfänger-Testplan: In 20 Minuten zur ersten lokalen KI
Schritt 1: Ollama installieren und prüfen
ollama -vWenn eine Versionsnummer erscheint, ist Ollama installiert.
Schritt 2: Erstes kleines Modell starten
ollama run llama3.2:1bTestprompt:
Erkläre mir in einfachen Worten, was ein lokales KI-Modell ist.Schritt 3: Alltagsmodell testen
ollama run gemma3:4bTestprompt:
Fasse diesen Text in drei Stichpunkten zusammen:
[Text einfügen]Schritt 4: Coding-Modell testen
ollama run qwen2.5-coder:7bTestprompt:
Erkläre mir diesen Code so, als wäre ich Anfänger:
def add(a, b):
return a + bSchritt 5: Prüfen, was läuft
ollama psDieser Befehl ist wichtig. Er zeigt, welches Modell geladen ist, wie groß es ist, ob CPU oder GPU genutzt wird und welcher Kontext aktiv ist.
Datenschutz: Was lokale KI kann und was nicht
Lokale KI reduziert Datenabfluss, weil Eingaben lokal verarbeitet werden können. Das ist ein echter Vorteil.
Aber:
- Das Tool muss wirklich lokal laufen.
- Keine Cloud-API darf unbemerkt eingebunden sein.
- Modelle sollten aus vertrauenswürdigen Quellen stammen.
- Unternehmensdaten brauchen klare Regeln.
- Logs, Chatverläufe und lokale Dateien müssen ebenfalls geschützt werden.
- Ein lokaler KI-Workflow ersetzt keine Datenschutzprüfung.
Für Unternehmen ist der richtige Einstieg nicht: „Wir installieren irgendein Modell und lassen alle los.“
Besser ist:
- Ziel definieren.
- Datenklasse festlegen.
- erlaubte Tools definieren.
- lokale Installation testen.
- Sicherheits- und Updateprozess klären.
- Mitarbeitende schulen.
- Pilot mit klarer Freigabe starten.
Typische Fehler beim Einstieg
Fehler 1: Zu großes Modell wählen
Ein 32B-Modell klingt besser als ein 4B-Modell. Auf schwacher Hardware kann es aber unbrauchbar langsam sein.
Besser: klein starten, dann steigern.
Fehler 2: Lokale KI mit Cloud-KI vergleichen
Ein kleines lokales Modell ist nicht fair mit einem großen Cloud-Modell vergleichbar. Die bessere Frage lautet: Welche lokale Aufgabe soll das Modell zuverlässig erledigen?
Fehler 3: Kontext zu hoch setzen
64K oder 128K Kontext klingt gut. Es braucht aber viel Speicher und kann die Antwortgeschwindigkeit stark senken.
Besser: Nur so viel Kontext wie nötig.
Fehler 4: Datenschutz überschätzen
Lokal ist besser kontrollierbar, aber nicht automatisch risikofrei. Auch lokale Workflows brauchen Regeln.
Fehler 5: Keine Modellrolle definieren
Ein Modell für alles führt schnell zu Enttäuschung. Besser:
- kleines Modell für schnelle Tests
- Alltagsmodell für Texte
- Coding-Modell für Code
- Embedding-Modell für Suche
- Reasoning-Modell für Denkaufgaben
FAQ: Lokale KI installieren
Ist Ollama kostenlos?
Ollama ist als Tool frei nutzbar. Die Kosten entstehen durch Ihre eigene Hardware, Strom, Speicherplatz und den Aufwand für Einrichtung und Pflege. Prüfen Sie zusätzlich immer die Lizenzbedingungen der einzelnen Modelle.
Muss ich programmieren können?
Nein. Für den Einstieg reichen wenige Terminalbefehle. Wer lokale KI später in Automatisierungen, Apps oder Unternehmensprozesse einbauen will, braucht technisches Verständnis oder Unterstützung.
Sind meine Daten mit Ollama automatisch privat?
Nicht automatisch. Wenn das Modell lokal läuft und keine externe API verwendet wird, müssen Prompts nicht an einen Cloud-Anbieter gesendet werden. Trotzdem müssen lokale Logs, Dateien, Tools, Berechtigungen und Integrationen kontrolliert werden.
Welches Modell soll ich zuerst testen?
Für den ersten Test: llama3.2:1b. Danach gemma3:4b als Alltagsmodell. Für Code: qwen2.5-coder:7b oder bei schwacher Hardware qwen2.5-coder:1.5b.
Reicht ein Raspberry Pi für lokale KI?
Für kleine Tests ja. Für große Sprachmodelle nein. Ein Raspberry Pi 5 kann kleine Modelle ausführen und ist spannend für Edge-Szenarien. Für komfortable lokale KI sind ein Mac mit ausreichend Unified Memory oder ein GPU-PC deutlich geeigneter.
Was ist besser: Ollama oder LM Studio?
Ollama ist sehr gut für Terminal, API, Automatisierung und Entwickler-Workflows. LM Studio ist für viele Einsteiger angenehmer, wenn sie eine grafische Oberfläche bevorzugen. Für diesen Leitfaden ist Ollama der Hauptpfad, weil es einfach skriptbar und gut integrierbar ist.
Kann lokale KI ChatGPT ersetzen?
Teilweise, aber nicht vollständig. Lokale Modelle können viele Aufgaben übernehmen: Zusammenfassen, Umformulieren, Coding-Hilfe, Klassifikation, lokale Automatisierung. Große Cloud-Modelle bleiben oft stärker bei komplexer Analyse, aktuellem Wissen und multimodaler Spitzenleistung.
Wie viele Modelle sollte ich installieren?
Am Anfang reichen drei bis fünf Modelle: ein kleines Testmodell, ein Alltagsmodell, ein Coding-Modell, optional ein Reasoning-Modell und ein Embedding-Modell.
Fazit: Lokale KI ist kein Spielzeug, sondern ein Souveränitätswerkzeug
Lokale KI ist nicht die kleinere Version von ChatGPT. Sie ist ein eigener Werkzeugkasten.
Für Einsteiger ist Ollama ein sehr guter Start, weil die technische Einstiegshürde niedrig ist. Ein kleines Modell wie llama3.2:1b zeigt schnell, wie lokale KI funktioniert. Ein Modell wie gemma3:4b macht die ersten Alltagsaufgaben greifbar. Für Coding ist qwen2.5-coder ein sinnvoller nächster Schritt. Für lokale Wissensdatenbanken kommen Embedding-Modelle hinzu.
Für Unternehmen ist lokale KI besonders spannend, wenn Datenschutz, Kontrolle und Automatisierung zusammen gedacht werden. Es geht nicht darum, jedes Cloud-Modell zu ersetzen. Es geht darum, einfache, wiederkehrende, sensible oder interne Aufgaben kontrollierbar auf eigener Hardware auszuführen.
Der beste nächste Schritt ist ein kleiner, sauber begrenzter Pilot:
- ein konkreter Anwendungsfall
- ein lokales Modell
- klare Datenregeln
- ein Testgerät
- ein messbares Ergebnis
So wird aus lokaler KI kein technisches Experiment ohne Richtung, sondern ein kontrollierter Baustein für sichere KI-Nutzung im Unternehmen.
Nächster Schritt
Wenn Sie lokale KI im Unternehmen einsetzen möchten, starten Sie nicht mit der Modellliste, sondern mit dem Ziel:
- Welche Daten sollen verarbeitet werden?
- Welche Aufgabe soll automatisiert werden?
- Welche Risiken müssen ausgeschlossen werden?
- Welche Mitarbeitenden brauchen eine klare KI-Richtlinie?
- Welche Prozesse lassen sich sinnvoll lokal unterstützen?
Consulting Entenmann unterstützt Unternehmen dabei, KI praktisch, sicher und verständlich einzuführen: von KI-Kompetenz und KI-Richtlinien bis zu lokalen Pilotprojekten und Automatisierung mit Freigabe-Gates.
Quellen und weiterführende Links
- Ollama CLI Reference
- Ollama macOS Dokumentation
- Ollama Linux Dokumentation
- Ollama API Dokumentation
- Ollama Context Length
- Ollama Modellbibliothek: llama3.2
- Ollama Modellbibliothek: gemma3
- Ollama Modellbibliothek: qwen2.5-coder
- Ollama Suche: deepseek-r1
- Ollama Blog: Embedding models
- Raspberry Pi AI HAT Dokumentation
- Raspberry Pi AI HAT+ 2 Vorstellung
- Raspberry Pi AI Software Dokumentation
- Google Search Central: Helpful, reliable, people-first content
- Google Search Central: Generative AI features in Search


