LLama sie die Sprachmodelle von Meta (ex. Facebook).
Ollama#
Diese können einfach in einem Service namens Ollama gestartet werden. Ollama ist eine kleine, aber relativ ausgereifte Plattform.
Service#
Der Service gibt nach einiger Zeit den GPU-Speicher frei, wenn keine Anfragen eintreffen. So kann der Service auf einem Anwenderrechner permanent im Hintergrund laufen, ohne dass es zu Einschränkungen des Systems kommt. So können auch verschiedene Modelle betrieben werden, ohne dass der GPU-Speicher überläuft.
Normalerweise wird der Server als Service in Windows oder Linux installiert. Er kann allerdings auch manuell gestartet werden:
ollama serve
Grundoperationen#
Mit dem Commandline-Tool namens "ollama" kann das System konfiguriert werden:
- Modelle lokal herunterladen (ollama pull)
- Modelle auflisten (ollama ls)
- Modelle mittels eines Modelfile importieren, z.B. GGUF
Modelfile#
Ein Modelfile sieht im einfachsten Fall so aus:
FROM ./<name>.gguf
Dann kann das Model importiert werden:
ollama create <name> -f Modelfile