Ein Erfahrungsbericht über Wissensmanagement bei der STROMDAO GmbH
Einleitung: Die Anfänge der Computerlinguistik und die neue Ära der KI
Für viele von uns, die in den letzten Jahrzehnten im Bereich der Computerlinguistik und Sprachverarbeitung ausgebildet wurden, ist die heutige Ära der “GPTs” (Generative Pre-trained Transformers) eine Verwirklichung lang gehegter Träume. Technologien, die wir damals nur in theoretischen Ansätzen studieren konnten, sind heute zugänglich und allgegenwärtig. Endlich können wir die Konzepte, die einst in trockenen Vorlesungen vermittelt wurden, auf eine Weise anwenden, die das Potenzial hat, das Wissen und die Arbeitsweise von Unternehmen tiefgreifend zu verändern. Zudem ist die heutige Welt der KI und insbesondere der GPTs keine einsame Reise mehr. Der Austausch mit anderen, die ähnliche Erfahrungen machen, eröffnet neue Perspektiven und erlaubt es uns, gemeinsam zu lernen und voranzukommen.
In diesem Blogbeitrag möchte ich über meinen Weg mit STROMDAO GmbH berichten, wo ich begonnen habe, das gesammelte Wissen der letzten sieben Jahre nutzbar zu machen. Mit einem auf Vector Stores, Nextcloud, Qdrant und N8N basierenden Wissensmanagementsystem versuchen wir, das Wissen des Unternehmens zu erschließen und für die Mitarbeitenden zugänglich zu machen. Die bisherigen Erkenntnisse, Herausforderungen und Lösungsansätze teile ich hier.
Die Herausforderung: Ein Jahrzehnt an Unternehmenswissen zugänglich machen
Als ich begann, für die STROMDAO GmbH ein Wissensmanagementsystem aufzubauen, stand ich vor einer gigantischen Datenmenge. In den letzten Jahren hatten sich über 80.000 Dokumente in unserer Nextcloud angesammelt: PDF-Berichte, Präsentationen, Word-Dokumente und andere Dateien. Dieses Wissen enthielt wertvolle Informationen, die sich über die Jahre angesammelt hatten, aber inzwischen nicht mehr als „abrufbares Wissen“ in meinem oder im Gedächtnis meiner Kollegen verankert waren. Ein Großteil davon war in Vergessenheit geraten und nur bei gezielten Fragen verfügbar.
Um das Wissen für das gesamte Unternehmen zugänglich zu machen, reichte eine einfache Suchfunktion nicht aus. Die Lösung musste mehr bieten als das bloße Durchsuchen von Textinhalten. Ich wollte eine Möglichkeit schaffen, mit dem Wissen zu „interagieren“, es zu befragen und aus ihm heraus strukturierte Antworten zu erhalten. Dazu mussten jedoch alle Dokumente effizient verarbeitet und in einem durchsuchbaren Format gespeichert werden.
Der Weg zum Wissensmanagementsystem: Von Qdrant bis N8N
1. Datenextraktion und Transformation mit N8N
Ein entscheidender erster Schritt war die Extraktion aller Dokumente aus unserer Nextcloud und deren Transformation in ein durchsuchbares Format. Hier kam N8N ins Spiel – ein Open-Source-Automatisierungstool, das uns die Möglichkeit gab, den gesamten Extraktionsprozess zu automatisieren und zu kontrollieren. N8N erlaubt es, die Dokumente regelmäßig zu synchronisieren, notwendige Metadaten hinzuzufügen und den Prozess so anzupassen, dass er zu den Anforderungen der späteren Verarbeitung passt. Die Fähigkeit, auf Dokumente aus unterschiedlichen Quellen zuzugreifen und diese in einen strukturierten Ablauf zu bringen, war für unser Projekt von unschätzbarem Wert.
2. Vector Store und semantische Suche mit Qdrant
Alle Dokumente, die extrahiert wurden, mussten in einem sogenannten Vector Store abgelegt werden, um eine semantische Suche zu ermöglichen. Für diesen Zweck habe ich Qdrant auf einem unserer Server installiert. Qdrant ermöglicht es, Informationen als „Vektoren“ zu speichern, also in einem Format, das sich durch semantische Ähnlichkeiten durchsuchen lässt. Anders als klassische Suchfunktionen, die meist auf Schlüsselwörter basieren, ermöglicht die Vektorspeicherung, Informationen in einem umfassenderen Sinnzusammenhang abzurufen – eine Art „intelligente“ Suche, die über reine Stichwörter hinausgeht.
3. Large Language Models und die Rolle von Ollama
Um das Wissen effektiv zugänglich zu machen, kamen mehrere Large Language Models (LLMs) zum Einsatz, die in eine Ollama-Instanz integriert wurden. Ollama, das ebenfalls auf einem unserer Server läuft, dient dabei als Schnittstelle, über die wir verschiedene LLMs wie Mistral, Claude oder ChatGPT nutzen können. Diese Modelle sind so trainiert, dass sie in der Lage sind, Texte zu verstehen und sinnvolle Antworten auf komplexe Fragen zu generieren. Durch die Integration dieser Modelle in Ollama ist es uns möglich, flexibel auf unterschiedliche Anforderungen und Anwendungsfälle zu reagieren.
Herausforderungen im Aufbau des Systems und die Rolle von Optimierungen
Ein Projekt dieser Größenordnung ist nicht ohne Herausforderungen. Die größten Stolpersteine auf unserem Weg waren der hohe Zeitaufwand und die zahlreichen notwendigen Optimierungsschritte. Das Einlesen der gesamten Datenmenge dauerte fast drei Monate, da wir immer wieder Anpassungen an den Prozessen vornehmen mussten, um die Datenqualität und die Effizienz der Abfragen zu verbessern. Jede Optimierung erforderte teilweise einen Neustart des Einlesens, was eine Herausforderung für das gesamte Team darstellte.
Ein weiterer Aspekt war die Erstellung einer geeigneten Struktur für die Dokumente. Um effiziente und präzise Antworten zu ermöglichen, mussten die Dokumente in bestimmte Kategorien eingeordnet und strukturiert werden. Dadurch konnten wir sicherstellen, dass das GPT-Modell später nicht in einer unüberschaubaren Menge an Informationen „verloren“ geht.
Die Nutzung des Wissens: Gespräche mit dem Unternehmensgedächtnis
Nach der erfolgreichen Integration aller Dokumente in den Vector Store und der Implementierung der LLMs war es endlich möglich, mit dem „Unternehmensgedächtnis“ zu interagieren. Mithilfe von Chat-Oberflächen konnte ich nun komplexe Fragen stellen und erhielt strukturierte Antworten, die auf das gesamte Wissen des Unternehmens zurückgreifen. Dabei stellte ich fest, dass diese Chats – ähnlich wie man es von ChatGPT, Claude oder anderen LLMs kennt – strukturiert angegangen werden sollten.
Die Strukturierung von Anfragen
Ein wichtiger Punkt ist die Formulierung der Anfragen. Beispielsweise, wenn ich einen umfassenden Überblick über ein Thema erhalten möchte, ist es ratsam, die Anfrage in mehrere Varianten aufzuspalten. Dadurch werden unterschiedliche Aspekte des Themas beleuchtet, was in einem komplexen Kontext von Vorteil sein kann. Dies lässt sich recht einfach in N8N realisieren und stellt sicher, dass die Antworten nicht nur präzise, sondern auch umfassend sind. Bei spezifischen Fragen hingegen ist es oft besser, direkt zu fragen, ohne Varianten zu erstellen.
Dieser Prozess erinnert stark an die Strukturen, die man bei Marktstudien oder Forschungsprojekten anwendet: Die Aufteilung in verschiedene Stränge hilft, die Analyse zielgerichteter und umfassender zu gestalten.
Präzision und Vermeidung von Halluzinationen
Eine Herausforderung bei der Nutzung von GPT-Modellen im Unternehmenskontext ist die Vermeidung von „Halluzinationen“. Darunter versteht man die Eigenschaft von LLMs, erfundene Informationen zu präsentieren, die zwar plausibel klingen, jedoch nicht korrekt sind. Durch die gezielte Gestaltung der Prompts und klare Strukturierung der Anfragen können Halluzinationen in gewissem Maße kontrolliert werden. Dennoch bleibt die Validierung der Antworten durch Experten unerlässlich. In unserem Fall ist es wichtig, dass ein STROMDAO-Experte die Antworten überprüft, bevor Entscheidungen auf deren Basis getroffen werden.
Das GPT-Modell hat kein Verständnis von Frust, Ärger oder den zusätzlichen Aufwand, den es verursachen könnte – es liefert schlicht die beste Antwort, die es geben kann. Daher bleibt die menschliche Kontrolle ein wichtiger Bestandteil des gesamten Systems.
Die Bedeutung für die STROMDAO GmbH und zukünftige Potenziale
Dieses Projekt eröffnet für die STROMDAO GmbH vollkommen neue Möglichkeiten. Zum einen ist es nun möglich, auf das gesamte Wissen des Unternehmens zuzugreifen, unabhängig davon, ob es in PDF-Dokumenten, Präsentationen oder Word-Dateien gespeichert ist. Zum anderen stellt das System eine Ressource dar, die flexibel an unterschiedliche Anforderungen angepasst werden kann, sei es für Marktanalysen, Produktentwicklung oder interne Schulungen.
Ein weiterer Vorteil ist die Zeitersparnis: Anstatt wertvolle Arbeitszeit für die Strukturierung und Zusammenführung von Informationen aufzuwenden, können Mitarbeitende nun direkt auf strukturierte Antworten zurückgreifen. Das System schafft somit Raum für mehr Kreativität und Innovation, da weniger Zeit für die Organisation von Wissen aufgewendet werden muss.
Fazit: Die neue Welt der GPTs – eine Chance und ein Werkzeug für modernes Wissensmanagement
Für jemanden, der vor Jahrzehnten in die Computerlinguistik eintauchte, ist die heutige Welt der GPTs eine Gelegenheit, die weit über das hinausgeht, was damals möglich war. Die Möglichkeit, Wissen in einer intelligenten und interaktiven Form zugänglich zu machen, ist ein großer Schritt nach vorne und zeigt, wie weit die KI-Forschung inzwischen gekommen ist.
Das Beispiel der STROMDAO GmbH verdeutlicht, wie Unternehmen von modernen Wissensmanagementsystemen profitieren können. GPTs und ähnliche Modelle bieten eine Flexibilität, die klassische Datenbanken oder Suchsysteme nicht leisten können. Sie ermöglichen den Zugriff auf das kollektive Wissen eines Unternehmens und sind in der Lage, dies in einer strukturierten und verwertbaren Form bereitzustellen.
In den kommenden Jahren wird sich dieses Potenzial noch weiter entfalten. Mit der fortschreitenden Entwicklung von KI und NLP (Natural Language Processing) wird es immer einfacher, Wissen zu organisieren, zug
Mehr bei stromhaltig:
- Die Beschaffungsstrategie eines Stromversorgers
- Der deutsche Strommix im Wandel: Eine Analyse der ersten 9 Monate 2024