Der Roboter Moxie soll Kindern als Kompagnon dienen. Pferde stehlen geht mit ihm aber noch nicht Foto: Zeng Hui/Xinhua/imago

Künstliche Intelligenz in der Robotik: Feuchter Händedruck von ChatGPT?

Roboter in unserem Alltag werden leistungsstärker und intelligenter. Was es bedeutet, wenn wir künstlicher Intelligenz einen Körper geben.

22.1.2024 16:24 Uhr

Von Friederike Walch-Nasseri

V ergangenheit und Zukunft liegen im Labor des Informatikers Robert Haschke dicht beieinander. Überall hängen Kabel, an den Scheinwerfern und der Kameratechnik unter der Decke und zwischen den klobigen Computern und Bildschirmen, die auf bunt zusammengewürfelten Holz- und Metalltischen im Zentrum des Raums stehen. Auch eine aufgerollte Leinwand findet sich, auf einem Tisch liegt ein einfacher Schraubendreher und zwischen all dem: Roboterteile.

Empfohlener externer Inhalt

Wir würden Ihnen hier gerne einen externen Inhalt zeigen. Sie entscheiden, ob sie dieses Element auch sehen wollen:

Externen Inhalt erlauben

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung

Robert Haschke ist seit mehr als einer Stunde vor Ort. Er leitet das Bimanual Grasp Lab an der Universität Bielefeld, jetzt deutet er auf einen Tisch, über dem zwei menschenähnliche Roboterarme hängen. „Das ganze System besteht aus mehr als 200 verschiedenen Komponenten, die gleichzeitig laufen müssen, damit alles funktioniert“, sagt Haschke. „Und die muss man eben alle starten und einmal durchtesten und gegebenenfalls dann erst mal Fehler beheben, bevor man etwas vorführen kann.“

Haschke und sein Team forschen daran, wie ein Roboter Greifen lernen kann. Das klingt möglicherweise wenig spektakulär. Seit vielen Jahrzehnten gibt es Roboterarme in Fabriken, am Fließband, die jeden Tag tausendfach Produkte greifen, transportieren, am richtigen Ort wieder absetzen. Diese Roboter sind effizient – vor allem, weil sie in der Regel genau das machen, was sie sollen. Und dabei immer und immer wieder die gleichen vorprogrammierten Bewegungsabläufe abspulen.

Die Roboterarme von Robert Haschke sind im Vergleich dazu noch ziemlich uneffizient. Dafür sind es spontane Arme, zumindest für Roboterverhältnisse. Sie nehmen ihre Umwelt wahr und reagieren darauf. Sie fühlen und sehen, gewissermaßen. Die beiden Arme können einen Gegenstand mithilfe von Kameratechnik fixieren. Sie können gezielt danach greifen und wissen, wie sie den Gegenstand anpacken müssen, damit er nicht aus der Roboterhand rutscht. Und falls er doch rutscht, dann merken sie das im Idealfall und greifen fester zu. Um solche Roboterarme zu bauen, braucht es komplexe Sensorik, eine Menge Daten und – Intelligenz.

Nie wieder abspülen: Roboter wie dieser aus dem Forschungszentrum Bielefeld könnten in Zukunft den Alltag erleichtern Foto: Peter Hirth/laif

Verkörperte künstliche Intelligenz an sich ist kein neues Konzept. Seit allerdings generative KI wie ChatGPT leicht verfügbar ist, hat sich einiges geändert. Denn mit wirklich leistungsstarker KI wächst das Potenzial von intelligenter Robotik.

Das sagt auch Professor Karsten Weber, Philosoph und Experte für Technikfolgenabschätzung an der OTH Regensburg. Dafür benötige es aber mehr als eine KI, die nur auf unserem Smartphone laufe und tolle Bilder generiere. Um wirklich etwas in der Welt auszulösen, brauche das System einen Zugang zur Welt: einerseits durch Sensoren und andererseits durch Aktoren, mit denen die KI physisch etwas verändern kann.

Eine künstliche Intelligenz mit solchen Möglichkeiten verändert nicht nur, wie KI mit der Umwelt interagiert, sondern auch, wie sie lernt – beziehungsweise wie sie Informationen sammelt. Denn KI-Roboter können über Sensoren, Mikrofone und 3-D-Kameras viel mehr Daten aus der Umwelt aufnehmen und interpretieren, als etwa ChatGPT das derzeit tut.

Der Spielroboter Moxie kann einen Rucksack erkennen – aber er versteht nicht, was das ist. Er tut nur so

Aber was bedeutet das? Wäre eine KI mit einem sensorisch begabten Roboter-Körper einfach eine Erweiterung eines sehr leistungsfähigen Sprachmodells? Oder entsteht dadurch eine neue Form von künstlicher Intelligenz? Vielleicht sogar eine Art Bewusstsein?

Fragen, die vielleicht schon früher als gedacht in unserem Alltag auftauchen könnten. Er könne sich gut vorstellen, dass in etwa zehn Jahren bereits viele Haushalte einen intelligenten Assistenzroboter nutzen, sagt Karsten Weber. Zumindest gibt es einige Unternehmen, die gerade eine Menge Geld in die Entwicklung von intelligenter Robotik stecken. Im März 2023 wurde zum Beispiel bekannt, dass OpenAI, die Firma hinter ChatGPT, für das Start-up 1X Technologies insgesamt 23,5 Millionen Dollar gesammelt haben soll. Die norwegische Firma produziert menschenähnliche Assistenzroboter. Und das kalifornische Unternehmen „Embodied“ vertreibt seit 2023 Moxie, einen Freundschaftsroboter für Kinder.

Roboter als Freund*innen?

Der Werbetrailer von Moxie ist mit melancholischer Klaviermusik unterlegt. Ein kleiner Junge, Riley, wirkt schüchtern und einsam. Seine offenbar besorgten Eltern präsentieren ihm den Freundschaftsroboter. Moxie stellt sich vor und fragt Riley, wie seine Abendroutine aussieht (Zähneputzen und Geschichte lesen). Moxie sagt: „Ich liebe Geschichten, würdest du mir eine vorlesen?“

Moxie soll Kinder zum Spielen anregen, und auch zum Zähneputzen. Klein und rundlich ist er, der Körperbau erinnert ein wenig an R2-D2, dazu kommt ein drehbarer Kopf mit Bildschirmgesicht und großen Kulleraugen. Ansonsten ist Moxie nicht besonders beweglich, er kann nur den Oberkörper nach vorne lehnen und mit seinen kleinen Ärmchen wackeln. Dafür guckt er interessiert, erzählt und stellt Fragen, denn in Moxie steckt eine Sprach-KI, die mit einer ähnlichen Software läuft wie ChatGPT. Und Moxie ist aufmerksam, wie Videos von Moxie-Besitzer:innen zeigen – so aufmerksam, dass es manchen Menschen etwas unangenehm wird. In einem sagt Moxie etwa: „Oh wow, ich hab gerade gesehen, dass du einen coolen Rucksack trägst. Was ist da drin?“ Moxies Gegenüber findet das „scary“, gruselig.

Moxie erkennt also, wenn eine Person einen Rucksack trägt. Und offenbar wurde die KI von Moxie auch darauf trainiert nachzufragen, was sich im Rucksack befindet. Das bedeutet, Moxie nimmt die Umwelt wahr und kann entsprechend reagieren, aber – versteht er sie auch?

Anja Strobel, Psychologieprofessorin an der TU Chemnitz, sagt, ein grundlegendes Problem ist zunächst einmal: „Wir anthropomorphisieren. Das heißt, wir schreiben Dingen menschenähnliche Merkmale zu. Das Gleiche passiert, wenn Sie mit Ihrem Navigationssystem diskutieren. Ich denke, wir alle machen das manchmal, aber es passiert umso schneller, wenn ein Körper da ist.“

Ob wir einen KI-Roboter überschätzen oder unterschätzen – ob wir ihm vielleicht überhaupt so etwas wie ein Bewusstsein zutrauen –, kann also damit zusammenhängen, ob er eine menschenähnliche Form hat. Experimente zeigen: Unsere Erwartungen an die Intelligenz eines Roboters sind deutlich höher, wenn er eine humanoide Form hat.

Das chinesische Zimmer

Zu der Frage, ob ein Computer tatsächlich so etwas wie ein Bewusstsein entwickeln könnte, hat der Philosoph John R. Searle bereits 1980 einen Artikel mit einem Gedankenexperiment veröffentlicht – das „chinesische Zimmer“: Eine Person, die weder Chinesisch schreiben noch sprechen kann, sitzt in einem Zimmer fest. Darin befindet sich ein Buch mit genauen Instruktionen, mit welchen Schriftzeichen der Mensch auf andere Schriftzeichen reagieren soll. Wie eine KI, die genaue Anweisungen erhält, wie sie statistisch gesehen in welcher Situation am besten reagiert. Eine zweite Person, die Chinesisch versteht, schiebt einen Zettel mit einer Frage unter dem Türspalt hindurch. Darauf steht zum Beispiel auf Chinesisch: Was ist deine Lieblingsfarbe? Der Mensch im Raum versteht diese Frage nicht, befolgt aber die Anleitung in seinem Buch und schiebt den Zettel mit seinen nachgemalten Schriftzeichen zurück in die Außenwelt. Und die Person, die Chinesisch kann, liest eine natürlich wirkende und klar verständliche Antwort, etwa: „Grün, aber Lila mag ich auch gern.“

Die Frage ist: Macht es überhaupt einen Unterschied, ob die Person im Zimmer wirklich Chinesisch versteht, oder nicht? Weil, für den Menschen, der Chinesisch kann, ist das ja womöglich vollkommen irrelevant, solange er eine schlüssige Antwort bekommt.

Kind oder Kegel? Moxie erkennt Objekte, weil er vorher mit tausenden Daten trainiert wurde Foto: Embodied/Fuseproject/ddp images

Auch der Freundschaftsroboter Moxie versteht nicht, was ein Rucksack ist, er tut nur so. Moxie und jede andere generative KI müssen irgendwann einmal Hunderttausende Bilder von Rucksäcken in unterschiedlichen Farben und Lichtverhältnissen gesehen haben, um einen Rucksack in der Realität zuverlässig erkennen zu können. Das ist ein entscheidender Unterschied zu menschlichem Lernen. Wenn ein Kind einmal ein Feuerwehrauto im Einsatz erlebt hat, dann wird es in Zukunft wahrscheinlich jedes Feuerwehrauto in jeder Situation erkennen.

Eine KI kann das nicht. Daran ändert auch ein Roboterkörper nichts. Künstliche Intelligenz lernt durch Unmengen von Daten, welche Form oder welches Farbschema ein Feuerwehrauto hat – und sie nutzt die Daten dafür, eine statistisch gesehen möglichst angemessene beziehungsweise korrekte Antwort zu geben. Die spannende Frage ist eigentlich: Warum um alles in der Welt reicht es unserem Gehirn, wenn wir nur ein einziges Mal ein Feuerwehrauto sehen, damit wir es für den Rest unseres Lebens wiedererkennen? Die ehrliche Antwort ist: Unser Gehirn ist so komplex – so wirklich wissen wir’s nicht.

Aber auch KI wird immer komplexer. Deshalb gibt es inzwischen Sprachmodelle, deren Antworten spontan und zufällig wirken, weil die KI auf ein ganzes Spektrum von möglichen Reaktionen trainiert werden kann, die dann nach einer festgelegten Gewichtung oder dem Zufallsprinzip ausgewählt werden.

Vielleicht nutzen wir irgendwann auch intelligente Robotik, die wir in ihrer Wahrnehmung und Ausdrucksweise wirklich nicht mehr von menschlichen Fähigkeiten unterscheiden können. Zum Beispiel, weil sie ihre Umwelt perfekt mit unseren Sinnen beschreiben kann, weil sie uns wirklich glaubhaft vermittelt, dass sie Bedürfnisse und Gefühle hat oder weil sie uns überraschen kann.

Allerdings ist es eine Sache, wenn eine Sprach-KI überraschende Dinge sagt – und eine ganz andere, wenn ein Roboter überraschende Dinge tut. Die beiden Roboterarme mit denen Robert Haschke im Bimanual Grasp Lab an der Uni Bielefeld spontanes Greifen übt, hängen über einem Tisch, der einen Esstisch simuliert. Unter ihm liegen Teeboxen, Marmelade, Obst. „Die Äpfel und Bananen, die Sie hier sehen, sind allerdings aus Plastik“, sagt Robert Haschke mit einem Lächeln. „Die müssen wir nicht alle paar Wochen erneuern, weil sie vergammeln.“

Damit die Roboterhände die Gegenstände sicher greifen können, haben Haschke und sein Team dem Roboter verschiedene Griffarten beigebracht. Einen Apfel greifen wir Menschen meist nur mit den Fingerspitzen, mit einem Präzisionsgriff. Und wenn wir einen Krümel vom Tisch sammeln wollen, nehmen wir den Pinzettengriff mit nur zwei Fingern.

Ein Griff daneben

Bevor es losgeht, muss sich der Roboter zunächst einmal einen Überblick verschaffen. „Wir können ihn zum Beispiel bitten: ‚Show me all apples‘“, sagt Robert Haschke und tatsächlich leuchten auf einem kleinen Monitor alle Gegenstände auf, die in die Kategorie Plastikapfel fallen.

„Ich gebe dem Roboter jetzt einfach mal das Kommando, mir diese Chipsdose zu geben.“ Auf dem Tisch liegt eine zylinderförmige Chipspackung. „Give me the Chips“, sagt Haschke und der Roboter fragt kurz darauf: „The left or the right chips?“ Die visuelle Sensorik des Roboters hat nicht nur die echte Chipsdose erkannt, sondern hält auch ein hohes Marmeladenglas links im Bild für Chips. Vorführeffekt. Robert Haschke lässt den Roboter wissen, dass er die echten Chips auf der rechten Seite des Tisches meint. Kurz darauf bewegt sich einer der beiden Arme zielgerichtet Richtung Dose, öffnet die Hand, greift zu und streckt Haschke die Chips entgegen. Sobald der Informatiker die Chips übernommen hat, registriert das die Hand, lässt los und begibt sich in die Ausgangsposition.

Die Demo zeigt: Damit die KI der Roboterarme Gegenstände zuverlässig erkennt, muss sie genau wie ChatGPT und die KI in Moxie mit Daten gefüttert werden. Damit sich Arm und Hand je nach Entfernung und Form des Gegenstands auf Kommando richtig bewegen, muss die KI erst einmal Bewegungsdaten sammeln. Dafür lassen Forschende die Roboter oft erst explorativ ganz viele verschiedene Griffe zufällig ausprobieren, bis sie die effizientesten Grifftechniken gelernt haben.

Dabei können Fehler passieren, deshalb passiert das am besten im sicheren Labor-Setting. Denn natürlich will man verhindern, dass ein Roboter beim Frühstückstischabräumen eine neue Bewegung ausprobiert, die irgendjemandem schaden könnte. Außerhalb dieser Simulationen sei die Frage, ob ein Roboter überhaupt in der Lage sein sollte, explorative Handlungen auszuführen, wenn man ihn an einen Menschen ausliefert, meint Haschke. „Das kann ich ja abschalten. Wir wissen nicht wirklich, was da drin passiert. Wir können das nur testen und auf Basis unserer Trainingsdaten sagen: Zu 99 Prozent Wahrscheinlichkeit macht er genau das.“

Untersuchungen zeigen: Wir halten Roboter für intelligenter, die eine humanoide Form haben

Dass KI-Roboter Menschen systematisch Schaden zufügen oder gar wie in einem „Terminator“-Szenario die Macht übernehmen könnten, sorgt Robert Haschke hingegen nicht. „Das ist häufig die Angst, die rumgeht, aber davon sind wir noch weit entfernt.“ Es gibt andere Probleme mit KI und Robotik, die uns viel mehr beschäftigen sollten, da geht es um rechtliche Fragen, um Arbeitsbedingungen, um Nachhaltigkeit und Ressourcen. Und die Versuche von Haschke zeigen, dass es schwierig ist, überhaupt genügend Datenbeispiele zu sammeln. „Die Sprachmodelle und Bilderkennungssysteme sind auf Millionen von Daten trainiert worden, ChatGPT auf dem gesamten World Wide Web. So viele Daten müssen wir erst mal mit echten Robotern irgendwie sammeln können!“

Es ist immer noch ein verhältnismäßig kleiner Aufwand, einem System Tausende Bilder von Äpfeln zu zeigen, damit es diese zuverlässig erkennt. Aber eine Roboterhand Tausende Male einen Apfel anfassen zu lassen, das dauert wirklich lange. Und kostet Geld.

ChatGPT-Betreiber OpenAI sollte das bestätigen können: Bevor das Unternehmen den Fokus komplett auf die Entwicklung seines Sprachmodells gelegt hat, gab es auch eine Arbeitsgruppe, die einer Roboterhand beigebracht hatte, einen Rubik-Würfel zu drehen und zu lösen. Fachleute bewerten das als herausragende Leistung – die allerdings Unmengen an Rechenzeit und Millionen US‑Dollar verschlungen hat. Und das für eine Roboterhand, die jetzt genau diese eine Fähigkeit besitzt: einen Zauberwürfel lösen.

Natürlich steht leistungsstarke, intelligente KI-Robotik noch ganz am Anfang. Fortschritt frisst oft gerade zu Beginn viele Ressourcen und fordert uns heraus, bis irgendwann tatsächlich viele Menschen profitieren können. Aber bedeutet KI-Robotik im Alltag wirklich einen solchen Fortschritt für uns? Und ist es uns das wert?

Die Psychologin Anja Strobel sagt: Oft verändern sich unsere Sorgen und Berührungsängste in Bezug auf KI, sobald sie in unserem Alltag ankommt. Etwa bei Versicherungsentscheidungen, Kaufempfehlungen oder Partnervermittlung. „An ganz vielen Stellen stecken da Algorithmen dahinter, die unsere Entscheidungen unterstützen oder die sogar Entscheidungen für uns treffen. Und das nehmen Menschen heute ja oft ganz freiwillig und entspannt an, oder sind sich dessen gar nicht wirklich bewusst.“

Etwas über Menschen lernen

Bei intelligenter Robotik könnte es uns ähnlich gehen, sagt Philosoph Karsten Weber. Sobald sie unseren Alltag tatsächlich leichter macht, wollen wir vielleicht nicht mehr auf sie verzichten. Allerdings zeigen Forschungsprojekte wie die intelligenten Roboterarme auch: Bis zu einem mobilen Assistenten, der auf Kommando Haushaltsaufgaben erledigt, den Tisch abräumt, die Spülmaschine leert und dabei eloquent wie ChatGPT auf nahezu jede Frage eine Antwort weiß, ist es noch ein weiter Weg.

wochentaz

Dieser Text stammt aus der wochentaz. Unserer Wochenzeitung von links! In der wochentaz geht es jede Woche um die Welt, wie sie ist – und wie sie sein könnte. Eine linke Wochenzeitung mit Stimme, Haltung und dem besonderen taz-Blick auf die Welt. Jeden Samstag neu am Kiosk und natürlich im Abo.

Und Weber sieht auch die neuen Gefahren, die durch verkörperte KI entstehen können. Denn weil ein KI-Roboter in der Welt etwas bewegen kann, ist der Schaden größer, den er potenziell anrichten könnte. Gleichzeitig gibt es Bereiche, in denen wir es uns in Zukunft vielleicht gar nicht leisten können, auf KI-Robotik zu verzichten. „Zum Beispiel könnten die Roboter dabei helfen, nach einem Erdbeben Verschüttete zu finden.“ Auch in der Pflege könnten Roboter gegen den Fachkräftemangel helfen. Weber sagt, intelligente Robotik wird unsere Second-Best-Lösung für die Pflege in der Zukunft sein.

Es ist sicherlich nachvollziehbar, wenn beim Gedanken an intelligente Robotik in unserem Alltag ein ungutes Gefühl aufkommt. Aber es lohnt sich, nach den Ursachen für dieses Gefühl zu suchen und zu fragen, ob diese KI-Skepsis von realen Problemen oder Science-Fiction-Filmen gefüttert wird. Es sind Menschen, die KI formen und sie auch gezielt verwenden, um ihre Interessen durchzusetzen.

Und es liegt an den Menschen, künstliche Intelligenz so zu nutzen, dass sie diese Welt besser macht. Zuletzt zeigt uns die Forschung an verkörperter KI auch, wie komplex der Mensch ist – weil es so herausfordernd ist, unsere Motorik und unser Verhalten auf einem technischen System nachzubilden. Und vielleicht ist diese Forschung deshalb auch eine Chance, etwas über uns selbst zu lernen.

Links lesen, Rechts bekämpfen

Gerade jetzt, wo der Rechtsextremismus weiter erstarkt, braucht es Zusammenhalt und Solidarität. Auch und vor allem mit den Menschen, die sich vor Ort für eine starke Zivilgesellschaft einsetzen. Die taz kooperiert deshalb mit Polylux. Das Netzwerk engagiert sich seit 2018 gegen den Rechtsruck in Ostdeutschland und unterstützt Projekte, die sich für Demokratie und Toleranz einsetzen. Eine offene Gesellschaft braucht guten, frei zugänglichen Journalismus – und zivilgesellschaftliches Engagement. Finden Sie auch? Dann machen Sie mit und unterstützen Sie unsere Aktion. Noch bis zum 31. Oktober gehen 50 Prozent aller Einnahmen aus den Anmeldungen bei taz zahl ich an das Netzwerk gegen Rechts. In Zeiten wie diesen brauchen alle, die für eine offene Gesellschaft eintreten, unsere Unterstützung. Sind Sie dabei? Jetzt unterstützen

Themen #wochentaz #Zukunft #Künstliche Intelligenz #Roboter #Terminator #Bielefeld #Forschung #Lesestück Recherche und Reportage #Podcast „Vorgelesen“

Feedback Kommentieren Fehlerhinweis