Der Chatbot kAIxo kommt auf die Welt

Am 11. November 2024 fand die Zwischenpräsentation zum Projekt „kAIxo“ statt. Projektmitarbeiter ist Nicolas Lluis Araya. An der Hochschule für Wirtschaft FHNW werden Chatbots für tote, gefährdete und ausgestorbene Sprachen entwickelt. Ein bekanntes Beispiel ist @llegra, ein Chatbot für Vallader. Oliver Bendel hat zuletzt die Reichweite von GPTs für gefährdete Sprachen wie Irisch (Irisch-Gälisch), Maori und Baskisch getestet. Nach Auskunft von ChatGPT gibt es zu ihnen relativ viel Trainingsmaterial. Am 12. Mai 2024 wurde – nach Irish Girl und Maori Girl – eine erste Version von Adelina erstellt, eines Chatbots für Baskisch. Später wurde sie in einer zweiten Version verbessert. Im Rahmen des Projekts „kAIxo“ (das baskische „kaixo“ entspricht dem deutschen „hallo“) wird der Chatbot oder Sprachassistent kAIxo gebaut, der Baskisch beherrscht. Sinn und Zweck soll es sein, dass man als Benutzer in geschriebener oder gesprochener Sprache in Übung bleibt oder die Lust entwickelt, die gefährdete Sprache zu erlernen. Der Chatbot basiert auf GPT-4o. Retrieval-Augmented Generation (RAG) spielt eine zentrale Rolle. Genutzt wird ein ChatSubs-Datensatz, der Dialoge auf Spanisch und in drei weiteren Amtssprachen Spaniens (Katalanisch, Baskisch und Galizisch) enthält. Bei der Zwischenpräsentation stellte Nicolas Lluis Araya einen funktionierenden Prototyp vor. Dieser soll nun Schritt für Schritt erweitert werden.

Abb.: Ein Mädchen von Bilbao

GPT-4o Will be Omnipresent

On May 13, 2024, OpenAI presented GPT-4o. It writes about it on its website: „GPT-4o (‚o‘ for ‚omni‘) is a step towards much more natural human-computer interaction – it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time (opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.“ (Website OpenAI) The company is addressing the weaknesses of the previous model: GPT-4 „loses a lot of information – it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.“ (Website OpenAI) It is precisely these weaknesses that the new model can overcome. „With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.“ (Website OpenAI) A video shows how the language model processes video data. With this function, the Be My Eyes app could take another leap forward in its development. In the coming weeks and months, there will certainly be many interesting application possibilities. GPT-4o will be omnipresent.

Fig.: GPT-4o processes video data (Image: OpenAI)