Startseite » Taugen Sprachmodelle für die Spracherhaltung?

Taugen Sprachmodelle für die Spracherhaltung?

Von bendelo12. August 202313. Dezember 2023Innovationen, Projekte

Vom 1. März bis 11. August 2023 erstellte Dali Jabou im Rahmen seiner Bachelorarbeit den Chatbot @llegra, mit dem man im rätoromanischen Idiom Vallader kommunizieren kann. Es handelt sich um ein von Prof. Dr. Oliver Bendel initiiertes und finanziertes Low-Budget-Projekt, für das bisher ca. 300 CHF ausgegeben wurden. Die Ausgangsfrage ist, ob sich Sprachmodelle wie GPT für den Bau von Chatbots eignen, die tote, gefährdete oder ausgestorbene Sprachen beherrschen, und ob sie für die Spracherhaltung taugen (etwa im Rahmen des Unterrichts). Mit @llegra entstand ein Chatbot mit Sprachausgabe, der die Stärken und Schwächen von GPT-4 widerspiegelt. Er verfügt über Weltwissen und gibt mehrheitlich korrekt Auskunft, auch zu Einrichtungen im Unterengadin. Manchmal halluziniert er und erfindet Personen oder Werke – ein bekanntes Problem von Sprachmodellen, an dem die Entwickler bei OpenAI, Microsoft, Google und Co. arbeiten. Ein weiteres Problem ist, dass er manchmal vom Idiom abweicht und sich in Sursilvan und Rumantsch Grischun verirrt. Er wird sich weiter verbessern lassen, sobald man GPT-4 (wie im Falle von GPT-3) direkt mit Sprachmaterial trainieren kann – was noch nicht der Fall ist (eine Wissensdatenbank, angereichert mit Vallader-Kinderbüchern, zur Verfügung gestellt von der Lia Rumantscha, war aber hilfreich). Die Text-to-Speech-Engine für Vallader, die von SlowSoft kostenlos zur Verfügung gestellt wurde, erfüllt ihren Zweck. Man darf sie nicht mit einer professionellen Lösung verwechseln, wie sie heute mit Hilfe von Machine Learning möglich wäre. Der Chatbot stand auf allegra-bot.ch zur Verfügung, damit eingeladene Tester unkompliziert darauf zugreifen und auch Versuche im Feld (etwa direkt im Unterengadin) stattfinden konnten. Nachdem mehrere Medien über den Chatbot berichtet und den Link verbreitet hatten, nahmen die Zugriffe stark zu. Um die Kosten nicht zu stark anwachsen zu lassen und deutlich zu machen, dass es sich um ein wissenschaftliches Projekt und eine unfertige Vorstufe – einen Prototyp – handelt, nicht um einen öffentlichen Dienst und nicht um ein fertiges Produkt, wurde der Chatbot mit einer entsprechenden Information auf der Seite am 11. August vorerst stillgelegt. Er wird intern weiter getestet und verbessert, bis er Ende des Jahres (sofern die Annahme erfolgt) auf einer internationalen Konferenz vorgestellt wird. Im Rahmen der Begutachtung findet eine Freischaltung von September bis Dezember statt. Oliver Bendel wünscht sich, dass weitere Entwickler den Ansatz aufgreifen und irgendwann eine @llegra entsteht, die im Unterricht eingesetzt werden kann. Dafür müssten Unternehmen die Sache in die Hand nehmen, oder es müsste ein finanziertes Forschungs- und Entwicklungsprojekt aufgelegt werden. In letzterer Richtung unternimmt die FH Graubünden, mit der man in Kontakt ist, seit einiger Zeit Anstrengungen. Bei der Abschlusspräsentation der Bachelorarbeit am 11. August waren neben einer Vertreterin dieser Hochschule auch zwei Vertreter der Lia Rumantscha zugegen, die sich beeindruckt zeigten und wohlwollend äußerten. @llegra hat eine Zukunft – wenn man dies im rätoromanischen Sprachraum will.

Abb.: So stellen sich Bildgeneratoren Chatbots vor