Die Mächtigkeit von Sprachmodellen

Am 26. Mai 2023 ist Heft 4/2023 der Zeitschrift messtec drives Automation erschienen. Darin enthalten ist der Beitrag „Die Mächtigkeit von Sprachmodellen“ von Prof. Dr. Oliver Bendel. Er geht auf Anwendungen ein, die man noch wenig kennt, die aber relevant sein werden für Service- und Industrieroboter und für Brain-Computer-Interfaces. In diesem Bereich hat vor allem das Sprachmodell PaLM-E für Aufmerksamkeit gesorgt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität miteinander verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Aber nicht nur Google und TU Berlin forschen auf diesem Gebiet – in dem Paper „ChatGPT for Robotics“ hat auch Microsoft erste Ergebnisse vorgestellt. Sprachmodelle mit solchen Wahrnehmungs- und Steuerungsmöglichkeiten wären interessant für Lio und Optimus oder für soziale Roboter im Bildungsbereich, die nicht nur kommunizieren, sondern in vielfältiger Weise interagieren. Wichtig ist, dass den Fähigkeiten bei der Wahrnehmung und Steuerung entsprechende Fähigkeiten der Motorik gegenüberstehen. Der Zweiseiter kann über www.wileyindustrynews.com/messtec-drives-automation/messtec-drives-automation-04-23 heruntergeladen werden.

Abb.: Ein Ausschnitt aus der ersten Seite des Artikels

Wie Sprachmodelle für die Steuerung von Haushaltsrobotern genutzt werden können

Forscher von Google und der TU Berlin haben am 6. März 2023 ein verkörpertes, multimodales Sprachmodell mit dem Namen PaLM-E vorgestellt, das virtuelle und physische Welt verbindet. So kann man per Spracheingabe einen Haushaltsroboter steuern und ihn dazu bringen, bestimmte Gegenstände zu holen oder andere Tätigkeiten zu verrichten. Der Prompt kann dabei vom Benutzer spontan aus seiner eigenen Beobachtung der Umwelt abgeleitet werden. Die Idee der PaLM-E-Architektur besteht laut Projektwebsite darin, kontinuierliche, verkörperte Beobachtungen wie Bilder, Zustandseinschätzungen oder andere Sensormodalitäten in den Spracheinbettungsraum eines vortrainierten Sprachmodells zu integrieren. Im Beispielvideo lautet die Instruktion in deutscher Übersetzung: „Bring mir die Reischips aus der Schublade“. Golem schreibt in einem Artikel: „Dazu analysiert Palm-E die Daten der Roboterkamera, ohne dass eine vorverarbeitete Szenendarstellung erforderlich ist. Damit entfällt die Notwendigkeit, dass ein Mensch die Daten vorverarbeitet oder kommentiert, was eine autonomere Robotersteuerung ermöglicht.“ (Golem, 10. März 2023) Im Video fährt der Roboter – ein Roboterarm auf einer mobilen Plattform, ganz ähnlich wie Lio – zur Schublade und entnimmt ihr die Packung. In dem Paper „ChatGPT for Robotics: Design Principles and Model Abilities“ von Microsoft-Forschern wird eine ähnliche Strategie verfolgt, wobei ChatGPT verwendet wird, das wiederum auf GPT-3 basiert. Allerdings handelt es sich um einen indirekten Ansatz, bei dem Code generiert wird. Das Paper zu PaLM-E kann hier heruntergeladen werden.

Abb.: Ein Roboterarm (Foto: F&P Robotics)