HFT TransferBot
Konzeption, Evaluierung und Implementierung eines Transfer ChatBots
?berblick
Gesamtziel des Projekts ist die Entwicklung und Beforschung eines ChatBots f¨¹r die Hochschule f¨¹r Technik Stuttgart am Beispiel eines TransferBots f¨¹r den Transfer und die Vermittlung von Wissenschafts- und Forschungsergebnissen der HFT Stuttgart. Im Hinblick auf diesen Anwendungszweck werden vorhandene Large Language Models (LLMs) und ihre Parametrisierung validiert, die relevanten Daten aggregiert und vorbereitet sowie der TransferBot in einem Prototyp realisiert und evaluiert.
![[Bild: HFT Stuttgart] Transferbot Logo](/fileadmin/Dateien/Forschung/_processed_/1/2/csm_Transferbot-Logo_e787236ed6.png)
Fragestellung
- Validierung vorhandener LLMs im Hinblick auf ihre Eignung und Ermittlung einer geeigneten Parametrisierung f¨¹r die Anwendung als TransferBot auf der Homepage der HFT Stuttgart
- Auswahl und Aggregierung der relevanten Daten (u.a. von der Homepage, aus dem Forschungsmanagement usw.) in Kooperation mit den entsprechenden Expert:innen an der Hochschule und Aufbereitung in einer geeigneten Datenbank
- Implementation eines lauff?higen Prototyps, dabei Experimente mit lizenzbasierten, frei verf¨¹gbaren und ggf. auch selbst betriebenen Sprachmodellen,
verschiedenen Aufbereitungsmethoden f¨¹r die abzudeckenden Informationen und verschiedenen Prompting-Strategien - Evaluation des TransferBots im Hinblick auf Richtigkeit und Abdeckung der Antworten
- Praxisfeste Erstellung der als n?tig identifizierten technischen Ressourcen (Wissensdatenbank, ggf. LLM-Betrieb) und Einbindung des TransferBots in die Homepage der HFT Stuttgart
Wissenschaftliche Vorgehensweise und Methodik
ChatBots auf Grundlage der neuesten technischen Entwicklungen im Bereich der gro?en Sprachmodelle (Large Language Models) versprechen einen niederschwelligen Zugang zu Informationen.
Im Gegensatz zu vorgegebenen Texten z. B. auf einer Projekthomepage oder einer Schlagwortsuche formulieren LLMs anpassungsf?hig und individuell ma?geschneiderte Antworten auf die Anfragen der Anwender:innen.
So bietet sich die Technologie auch daf¨¹r an, als zus?tzlicher Kommunikationskanal Forschungsergebnisse inhaltlich und technisch leicht zug?nglich in die Wissenschafts- und Zivilgesellschaft zu transportieren, wie an der HFT Stuttgart angestrebt.
Eine wichtige Herausforderung bei der Entwicklung eines solchen TransferBots ist die Tendenz von LLMs, Informationen zu halluzinieren und dabei so glaubw¨¹rdig zu pr?sentieren, dass die
Fehlinformationen nicht auf den ersten Blick erkennbar sind. Ein solcherart halluzinierender TransferBot w?re selbstverst?ndlich kontraproduktiv. Daher w?hlen wir die Herangehensweise der Retrieval Augmented Generation (RAG), bei der in einem vorgeschalteten Schritt relevante und verl?ssliche Informationen identifiziert werden und das LLM nur noch die Aufgabe hat, diese Informationen fl¨¹ssig und verst?ndlich darzubieten.
Die RAG-Herangehensweise sorgt nicht nur f¨¹r inhaltlich korrekte Ausgaben des TransferBots, sondern sichert ihn auch weitestgehend gegen b?swillige Versuche ab, mittels der Prompt-Injection-Strategie durch fingierte Anfragen sachfremde oder anst??ige Inhalte generieren zu lassen, da zu diesen Anfragen nat¨¹rlich keine Informationen in der vertrauensw¨¹rdigen Datensammlung vorliegen.
Die Auswahl und Aufbereitung der verl?sslichen Dokumente ist daher f¨¹r die Qualit?t der Ausgaben wichtig und wird empirisch ermittelt.
Eine weitere wichtige ?berlegung ist die Provenienz und Qualit?t des verwendeten LLMs. Lizenzbasierte Modelle sind garantiert qualitativ hochwertig und unaufw?ndig einzubinden,
verursachen aber laufende Kosten und sind aus Sicht des Daten- und Wissensschutzes fragw¨¹rdig.
Daher soll m?glichst ein frei verf¨¹gbares (Open-Source-)LLM genutzt werden, das an einem vertrauensw¨¹rdigen Ort betrieben werden kann (ggf. auch von der HFT Stuttgart selber).
Die genaue Herangehensweise wird hier in einem Qualit?tsvergleich (z.B. durch extrinsische Evaluation von Modellreaktionen auf Useranfragen) ermittelt.
Angestrebte Ergebnisse
Belastbares Wissen ¨¹ber die Qualit?t der betrachteten LLMs und ¨¹ber eine g¨¹nstige Parametrisierung eines ChatBots im Kontext des geplanten Anwendungsfalls wurde gewonnen.
Die grundlegende Datenbank wurde erstellt und mit relevanten Daten bef¨¹llt; ein verbindlicher Anforderungskatalog zur weiteren Datenerhebung wurde abgeleitet.
Ein Prototyp wurde entwickelt und seine Verl?sslichkeit wurde evaluiert. Der Prototyp wurde in die Homepagestruktur der HFT Stuttgart eingebunden.
Leitung | Prof. Dr.-Ing. Volker Coors, Prof. Dr. Ulrike Pado |
Partner | KM2 GmbH |
F?rderkennzeichen | P2024-13-009 |
F?rdergeber | Carl-Zeiss-Stiftung |
Programm | CZS Plus |
Ausschreibung | CZS Plus: Ausschreibung f¨¹r Alumni der Carl-Zeiss-Stiftung |
Laufzeit | 01.04.2025¨C31.12.2025 |
Team
Name & Position | E-Mail & Telefon | B¨¹ro |
---|---|---|
Prorektor Forschung und Digitalisierung | +49 711 8926 2663 | 1/121 |
Professorin | +49 711 8926 2811 | 2/449 |