Ein langer Weg

Von der ersten Idee bis zur endgültigen Realisierung unserer eigenen KI wurden wir vor viele Herausforderungen gestellt.
Denn eine KI zu entwicklen, mit allen gewünschten Funktionalitäten zu versehen und zu trainieren, erweist sich als komplexer, als es auf den ersten Blick erscheinen mag.
Warum wir diesen Aufwand betrieben haben? Weil es für uns nie infrage kam, uns mit fremden Leistungen zu schmücken.?
Unser Ziel war es stets, etwas Eigenständiges und Authentisches zu schaffen.

Die Anfänge

Zu Beginn des letzten Jahres stand die Frage nach dem passenden Basismodell. Mit OpenHermes-2.5-Mistral-7B fanden wir eine erste Grundlage.
Im weiteren Verlauf stellte sich heraus, dass Basismodelle in dieser Form ausschließlich auf GPU-Servern lauffähig sind.
Unser Ziel war eine Lösung für unsere Kunden, die auch auf CPU-Servern funktioniert und damit flexibler, unabhängiger und effzienter ist.
Die Antwort fanden wir in optimierten Modellen, die genau diese Anforderungen erfüllen.
Der Weg für Kim war geebnet.

September 2024

Kim läuft erstmals stabil auf einem CPU-Server – langsam, aber funktionsfähig.
Schnell zeigte sich jedoch, dass für eine produktive Anwendung diese Basis nicht ausreichend ist.
Mehr Leistung, parallele Anfragen und Training – all diese Anforderungen machten den Wechsel zu einem GPU-Server unvermeidlich.
Wichtig war uns dabei: Der Serverstandort musste in Europa liegen, um unseren Ansprüchen an Sicherheit und Verfügbarkeit gerecht zu werden..
Mit unserem langjährigen Provider fanden wir schließlich die passende Lösung – leistungsstark und zu einem fairen Preis.

Oktober 2024 Server mit folgender Hardware angeschafft:

Der Server unserer Wahl:
AMD EPYC™ 7313P
Zen 3 (Milan)
16 C/32 T
3,0-3,7 GHz

128 GB
DDR4 ECC

960 GB NVMe SSD
(2 x 960 GB)
Hardware RAID 1

NVIDIA® A10 GPU
Der Anschaffungspreis für einen solchen Server beträgt dabei zwischen 7.000 € und 15.000 €.
Auf einem solchen Server läuft Kim schnell und ist in der Lage, mehr als hundert parallele Anfragen zu verarbeiten.
Unser Test-Server mit 32GB:
IX6-32 NVMe

Intel®Xeon® E-2356G
Rocket Lake
6 C/12 T | 3,2-5,0 GHz

32 GB
DDR4 ECC

512 GB NVMe SSD
(2 x 512 GB)
Software RAID 1
Auf diesem Server läuft Kim ebenfalls schnell, parallele Anfragen sind hier nur sehr eingeschränkt möglich.

November 2024

Beginn des Trainings von Kim.
Beim Training eines Modells können viele Parameter verändert und angepasst werden, die obendrein noch Abhängigkeiten zueinander aufweisen.
Daher sind das Training und die anschließenden Tests zeitaufwändig und erfordern viel Geduld.

Februar 2025

Kim hat das erste mal tatsächlich gelernt.
Es zeigten sich erste Erfolge beim Training von Kim, die jedoch bei weitem noch nicht zufriedenstellend sind.
Das Zusammenspiel zwischen Datensätzen, Trainingsparameter und Prompts muss perfekt sein, um zufriedenstellende Ergebnisse zu erzielen.
Zur Info: Bei Prompts handelt es sich um eine möglichst konkret formulierte Aufgabensbeschreibung, die bei jeder Anfrage an Kim vorab gesendet werden.

Sommer 2025

Das Wissen um KI-Training ist in den letzten Monaten stetig gewachsten und damit auch unsere Kenntnisse zu allgemeinen Fragen zur KI.
Nun beginnt der Feinschliff unserer eigenen KI.
Besonders bemerkenswert ist für uns, dass es viele Unternehmen auf dem Markt gibt, welche behaupten, eine eigene KI zu besitzen, dabei jedoch nur eine Schnittstelle zu den größten KI-Anbietern bereitstellen.

Hier einige Fakten und Hinweise:

Unser Grundmodell heißt "Llama-3.1-8B-Instruct"
Das Modell hat 8 Milliarden Parameter.
Dieses Modell besitzt acht Milliarden Parameter, antwortet sehr gut auf Fragen, geherrscht Rechtschreibprüfungen und ist zudem mehrsprachig.
Unser trainiertes Modell heisst "Llama-OFORK".
Unser trainiertes Modell für einem reinen CPU-Server mit mindestens 32GB heisst "Llama-OFORK.Q4_K_M.gguf".
Wir nutzen zusätzlich Qdrant, ein sogenanntes RAG-Modell. Damit werden die Antworten von Kim perfektioniert.
Qdrant erledigt auch die Ticketsuche mit Anhängen..
Dabei läuft Qdrant immer lokal auf Ihrem eigenen Server, auf dem auch Ihr OFORK installiert ist.
Qdrant läuft immer lokal auf ihrem eigenen Server auf dem auch OFORK installiert ist.
Im Gegensatz dazu werden Fragen im Kim-Chat und Rechtschreibprüfung an unseren GPU-Server gesendet. Auf diesem Server läuft Kim.
Es werden dabei keinerlei Daten gespeichert! Kim erhält lediglich eine Anfrage und sendet die Antwort zurück