Die Entstehung von Kim
Von der ersten Idee bis zur eigenen produktiven KI war es ein langer Weg. Kim ist nicht aus einer einfachen Anbindung an fremde Dienste entstanden, sondern aus dem klaren Anspruch, für OFORK eine eigenständige, technisch belastbare und glaubwürdige KI-Lösung aufzubauen.
Warum wir Kim überhaupt entwickelt haben
Die Idee hinter Kim war nie, einfach einen fremden KI-Dienst an OFORK anzubinden und ihn als eigene Lösung zu präsentieren. Unser Anspruch war von Anfang an ein anderer: Wir wollten eine KI, die wirklich zu OFORK passt, technisch nachvollziehbar ist und auf einem Fundament steht, das wir selbst verstehen, weiterentwickeln und verantworten können.
Genau dieser Anspruch hat den Weg länger, aufwendiger und technisch anspruchsvoller gemacht. Aber genau deshalb ist Kim heute auch mehr als ein bloßes Schaufenster für fremde Leistungen.
Worum es uns dabei ging
- eine eigenständige KI für OFORK aufbauen
- keine bloße Schnittstelle zu großen Drittanbietern vermarkten
- Kontrolle über Technik, Training und Weiterentwicklung behalten
- eine Lösung schaffen, die praktisch im Support-Alltag nutzbar ist
- Datensicherheit und Glaubwürdigkeit ernst nehmen
Die Suche nach der richtigen Grundlage
Zu Beginn stand die Frage nach dem passenden Basismodell. Mit OpenHermes-2.5-Mistral-7B fanden wir eine erste technische Basis. Schnell zeigte sich jedoch, dass Basismodelle in dieser Form vor allem für GPU-Umgebungen gedacht sind.
Unser Ziel war aber eine Lösung, die auch für Kunden sinnvoll ist, die nicht zwingend eine große GPU-Infrastruktur betreiben. Damit wurde früh klar: Wir müssen einen Weg finden, der sowohl leistungsfähig als auch flexibel einsetzbar ist.
Die ersten stabilen CPU-Tests
- Kim lief erstmals stabil auf einem CPU-Server – noch langsam, aber funktionsfähig.
- Für eine produktive Anwendung reichte diese Basis jedoch noch nicht aus.
- Parallelität, Trainingsaufwand und höhere Leistung machten den Wechsel auf GPU-Server notwendig.
- Wichtig war dabei ein Serverstandort in Europa, passend zu unseren Anforderungen an Sicherheit und Verfügbarkeit.
- Mit unserem langjährigen Provider fanden wir schließlich eine passende Lösung.
Die passende Hardware
Produktiver GPU-Server:
- AMD EPYC™ 7313P
- Zen 3 (Milan)
- 16 C / 32 T
- 3,0–3,7 GHz
- 128 GB DDR4 ECC
- 960 GB NVMe SSD (2 × 960 GB, Hardware RAID 1)
- NVIDIA® A10 GPU
Der Anschaffungspreis für einen solchen Server liegt etwa zwischen 7.000 € und 15.000 €. Auf dieser Basis läuft Kim schnell und kann viele parallele Anfragen verarbeiten.
CPU-Betrieb mit kleinerer Ausstattung
Test-Server mit 32 GB:
- IX6-32 NVMe
- Intel® Xeon® E-2356G
- Rocket Lake
- 6 C / 12 T | 3,2–5,0 GHz
- 32 GB DDR4 ECC
- 512 GB NVMe SSD (2 × 512 GB, Software RAID 1)
Auch auf diesem Server läuft Kim schnell, allerdings sind parallele Anfragen dort nur eingeschränkt möglich.
Beginn des Trainings
- Start des eigentlichen Trainings von Kim
- viele Parameter mit gegenseitigen Abhängigkeiten
- zeitaufwändige Tests und ständiges Nachjustieren
Erste echte Lernerfolge
- Kim zeigte erstmals tatsächlich gelerntes Verhalten
- die Ergebnisse waren ermutigend, aber noch nicht zufriedenstellend
- Datensätze, Trainingsparameter und Prompts mussten exakt zusammenspielen
- Prompts wurden zu einem wichtigen Baustein für die Qualität
Feinschliff und Klarheit
- das Wissen über KI-Training war in den Monaten zuvor stark gewachsen
- der Feinschliff der eigenen KI begann
- gleichzeitig wurde uns immer deutlicher, wie viele Anbieter am Markt nur fremde KI-Dienste umetikettieren
- gerade deshalb blieb unser Anspruch an Eigenständigkeit zentral
Technische Fakten zu Kim
- Unser Grundmodell heißt Llama-3.1-8B-Instruct.
- Das Modell besitzt 8 Milliarden Parameter.
- Es beantwortet Fragen, unterstützt Rechtschreibprüfungen und arbeitet mehrsprachig.
- Unser trainiertes Modell heißt Llama-OFORK.
- Die CPU-Version für Server mit mindestens 32 GB heißt Llama-OFORK.Q4_K_M.gguf.
Qdrant und Infrastruktur
- Zusätzlich nutzen wir Qdrant als RAG-Komponente.
- Damit werden Antworten von Kim verbessert und die Ticketsuche unterstützt.
- Qdrant durchsucht auch Anhänge und läuft lokal auf dem eigenen Server, auf dem auch OFORK installiert ist.
- Fragen im Kim-Chat und die Rechtschreibprüfung werden an unseren GPU-Server gesendet.
- Dort läuft Kim produktiv – ohne dauerhafte Speicherung der Inhalte.
Kim ist aus Überzeugung eigenständig entstanden
Der Weg war technisch anspruchsvoll und deutlich aufwendiger als eine einfache Anbindung an fremde KI-Dienste. Genau deshalb steht Kim heute für etwas, das uns wichtig ist: Eigenständigkeit, Nachvollziehbarkeit und eine Lösung, die wirklich zu OFORK passt.
Funktionen ansehen Vorführung anfragen
EN