Preis der Freiheit


OllamaNachdem ich jetzt eine Weile mit Ollama und einigen lokalen KIs bzw. LLM-Modellen experimentiert habe, ziehe ich ein gemischtes Fazit. Ich habe mittlerweile mit Ollama Phi, Gemma, llama3.3, deepseek-r1 und mistral installiert und ausprobiert.

Oüen WebUIEin Kommentar von Gerhard Stein zu dem letzten Post auf Linkedin  (vielen Dank ;-)) hat mich dazu gebracht, neben Ollama auch Open WebUI zu installieren. Zuerst in einem Docker-Container, aber damit war ich nicht zufrieden. Mit einer venv unter Python habe ich aber eine brauchbare Umgebung für das System eingerichtet. Das kann man für einen Zugriff auf die Modells, die mit Ollama installiert sind, über einen lokalen Webserver und dann aus einem Browser nutzen.

Page AssistNoch bequemer für den Zugriff auf Ollama und die verschiedenen Modelle finde ich die Browser-Extension „Page Assist“, die Ollama direkt aus einem Browser wie Chrome oder Firefox verwenden kann. Das ist schlank, schnell und ohne viel Overhead. Man braucht dazu dann nicht einmal Python/pip oder gar Docker oder so etwas.

Ich habe jetzt sehr viel mit lokalen LLM gespielt sowie installiert und konfiguriert und im Grunde sind diese lokalen Modelle genial.  Aber mir wurde schnell deutlich, dass mein Rechner zu schwach auf der Brust ist. Zumindest für llama3.3. Ich habe 32 GB RAM und damit startet das Modell nicht. Normalerweise brauche ich nicht soviel RAM und habe deshalb auch meine Swap-Datei auf eine minimale Größe von 2 GB eingestellt. So mehr oder weniger als Alibi. Aber beim Start von llama3.3 kam gleich die Fehlermeldung, dass ich bei meinem „winzigen“ RAM die Swap-Datei auf mindestens 40 GB aufblasen müsste. Damit ist das Modell dann gestartet, aber die Antwortzeiten waren vollkommen untauglich. Mehrere Minuten. Die kleinen Modelle hingegen sind recht gut gelaufen, aber selbst da waren die Antwortzeiten länger als üblicher Weise bei Online-KIs.

Es ist absolut klar, dass diese Einschränkungen rein durch meinen Rechner kommen und wer einen passenden Boliden hat (denke an so 256 GB RAM mit KI-Chip und moderner GPU), wird die Vorteile erst genießen können. Ich lasse die Installation trotzdem auf meinem System und werden insbesondere auch mit API-Zugriffen experimentieren. Da wird es sowieso erst richtig interessant.