[LLama] sie die Sprachmodelle von Meta (ex. Facebook).

!!!Ollama
Diese können einfach in einem Service namens Ollama gestartet werden. Ollama ist eine kleine, aber relativ ausgereifte Plattform.

!!Service
Der Service gibt nach einiger Zeit den GPU-Speicher frei, wenn keine Anfragen eintreffen. So kann der Service auf einem Anwenderrechner permanent im Hintergrund laufen, ohne dass es zu Einschränkungen des Systems kommt. So können auch verschiedene Modelle betrieben werden, ohne dass der GPU-Speicher überläuft.

Normalerweise wird der Server als Service in Windows oder Linux installiert. Er kann allerdings auch manuell gestartet werden:

{{{
ollama serve
}}}

!!Grundoperationen
Mit dem Commandline-Tool namens "ollama" kann das System konfiguriert werden:

* Modelle lokal herunterladen (ollama pull)
* Modelle auflisten (ollama ls)
* Modelle mittels eines Modelfile importieren, z.B. GGUF

!!Modelfile
Ein Modelfile sieht im einfachsten Fall so aus:

{{{
FROM ./<name>.gguf
}}}

Dann kann das Model importiert werden:

{{{
ollama create <name> -f Modelfile
}}}