Intersult: LLama

LLama sie die Sprachmodelle von Meta (ex. Facebook).

Ollama#

Diese können einfach in einem Service namens Ollama gestartet werden. Ollama ist eine kleine, aber relativ ausgereifte Plattform.

Service#

Der Service gibt nach einiger Zeit den GPU-Speicher frei, wenn keine Anfragen eintreffen. So kann der Service auf einem Anwenderrechner permanent im Hintergrund laufen, ohne dass es zu Einschränkungen des Systems kommt. So können auch verschiedene Modelle betrieben werden, ohne dass der GPU-Speicher überläuft.

Normalerweise wird der Server als Service in Windows oder Linux installiert. Er kann allerdings auch manuell gestartet werden:

ollama serve

Grundoperationen#

Mit dem Commandline-Tool namens "ollama" kann das System konfiguriert werden:

Modelle lokal herunterladen (ollama pull)
Modelle auflisten (ollama ls)
Modelle mittels eines Modelfile importieren, z.B. GGUF

Modelfile#

Ein Modelfile sieht im einfachsten Fall so aus:

FROM ./<name>.gguf

Dann kann das Model importiert werden:

ollama create <name> -f Modelfile