Roboterforscher Peter Dürr im Interview: Woran Alltagsroboter noch scheitern
R2-D2, Nummer 5 und Wall-E: Roboter werden immer noch wie Science-Fiction wahrgenommen, dieserfalls hantieren wir im Alltag schon mit erstaunlich viel Robotik.
c’t Magazin Von
- Jan-Keno Janssen
Sensortechnik mit künstlicher Intelligenz zusammenzubringen: Daran arbeitet Peter Dürr als Leiter von Sony AI Zürich. Mit Robotik beschäftigt sich Dürr seit über 15 Jahren, er hat zu dem Thema an der EPFL Lausanne promoviert und später bei Sony in Tokio an Flugdrohnen geforscht. c’t hat mit ihm über Roboterentwicklung gesprochen.
Entwickelt unter anderem Lernalgorithmen für Maschinen: Peter Dürr.
c’t: Herr Dürr, wie lange dauert es noch, bis man für sagen wir mal 2000 Euro einen Roboter kaufen kann, der den Geschirrspüler ein und ausräumt?
Peter Dürr: Solche Vorhersagen sind sehr schwierig. Wenn Sie ein bisschen in der Geschichte zurückgehen: Die Leute, die sich in den Fünfzigerjahren mit künstlicher Intelligenz beschäftigt haben, dachten, in zehn Jahren ist alles gelöst.
c’t: So wie bei den selbstfahrenden Autos, da hat man vor ein paar Jahren ja auch geglaubt, dass es bald soweit ist.
Dürr: Richtig. Ich halte mich ergo zurück mit Vorhersagen, daher ich denke, es kommen zurzeit viele Technologien zusammen, die uns sehr positiv stimmen. Wir denken, dass vieles möglich sein wird, welches bisher schwierig war.
c’t: Was sind denn zum Beispiel bei Haushaltsrobotern zurzeit die größten Hindernisse?
Dürr: Zum einen ist das die Wahrnehmung. So ein Haushaltsroboter ist ja nicht in einer Umgebung unterwegs wie ein Industrieroboter, wo alles klar definiert ist und wo auf den Millimeter alles genau so bleibt, wie es gestern war. Da gibt’s Menschen, die herumlaufen und Möbel verrücken. Und die das Geschirr nicht immer gleich in die Schränke räumen. Da muss der Roboter mit seiner Sensorik den Zustand seiner Umgebung ständig dynamisch verstehen.
Jetzt kommen wir in den Bereich der künstlichen Intelligenz; der Roboter muss Entscheidungen treffen, die der Mensch als sinnvoll und hilfreich erachtet. Und dann muss der Roboter diese Entscheidungen ja auch noch mechanisch implementieren können. In all diesen drei Bereichen – Wahrnehmung, KI und Mechanik – gibt es Hürden, die noch nicht überwunden sind.
Haushaltsroboter (hier die Samsung-Studie Bot Handy) sind zurzeit noch Zukunftsmusik.
c’t: In welchem dieser drei Bereiche muss noch am meisten passieren?
Dürr: Das sollte man nicht so scharf trennen. Sie haben ja selbst das Beispiel mit dem selbstfahrenden Auto gebracht. Ein erfahrener Autofahrer könnte ein Auto wohl fernsteuern, wenn er oder sie ein Live-Kamerabild sehen würde. Für einen Roboter wäre das dagegen sehr schwierig. Aber wir arbeiten hart an der Sensorik: Wenn Sie sich einen Bildsensor anschauen, dann ist der bisher für Menschen gemacht – er ersetzt quasi das Auge eines Menschen, er ist dafür da, Bilder für Menschen herzustellen. Er ist nicht dafür gemacht, Roboter mit Informationen zu versorgen, mit denen diese Probleme lösen können. Bei Sony arbeiten wir nun an neuer Kameratechnologie: Wir machen ein Auge für die Maschine und nicht für den Menschen.
c’t: Was bedeutet das konkret? Dass der Infrarot-Filter weggelassen wird?
Dürr: Ja, zum Beispiel. Ein anderes Beispiel sind eventbasierte Kameras statt herkömmliche auf Intensitätsbildern basierende Sensoren. Das Bild, das Sie bei einer Videokonferenz sehen: Das entsteht ja dadurch, dass der Bildsensor für eine gewisse Zeit dem Licht ausgesetzt wird und dieses während dieser Zeit integriert und misst, wie groß die Intensität bei jedem Pixel ist. Das hat den Vorteil, dass wir ein Bild darstellen können mit 30 Hertz – das sieht für uns dann aus wie ein bewegtes Bild.
Was man aber auch machen kann: Die Fotodioden auf dem Bildsensor konstant dem Licht aussetzen und anstatt der Intensität die Intensitätsänderungen anschauen. Wir haben dann kein bewegtes Bild mehr für Menschen, sondern extrem fein aufgelöste Informationen über Änderungen der Intensität als Datenstrom mit Eventdaten – die von Menschen gar nicht interpretierbar wäre. Der Vorteil ist, dass wir nicht mehr 33 Millisekunden auf die nächste Information warten müssen, sondern im Prinzip in Mikrosekunden-Auflösung die Welt wahrnehmen können. Und mit diesen Informationen kann man einen Roboter steuern, der damit viel schneller reagiert, als wenn man zuerst ein Bild auswerten müsste.
c’t: Wie viel von der Robotik-Sensorik muss man selbst entwickeln und wie viel kann man einfach einkaufen? Vermutlich benötigt ein Haushalts-Roboter ja ähnliche Sensoren wie beispielsweise ein Auto mit Fahrassistenz.
Dürr: Sie können heute sehr viel kaufen und da gibt es auch viele hervorragende Hersteller. Extrem wichtig ist, die Entwicklung der Sensoren und die Entwicklung der KI zu verbinden. So kann man sehr früh Sensorinformationen abgreifen und die, die man nicht braucht, ignorieren. Wir haben letztes Jahr den IMX500 veröffentlicht, einen Bildsensor mit zwei Ebenen: Auf der oberen hat man die Pixel, die ein Intensitätsbild messen, und gleich darunter gibt es einen Logiklayer, der KI-Algorithmen ausführen kann. Sie haben dann einmal ein normales Bild für Menschen, aber Sie haben auch ein neuronales Netz, das ermittelt, was auf dem Bild zu sehen ist; zum Beispiel "Drei Personen mit Mund-Nasen-Schutz". Diese Information existiert nur kurzzeitig, das Bild selbst wird direkt verworfen – der Sensor braucht dann im Prinzip gar keinen Ausgang, um das Bild auszugeben. Das hat nicht nur Datenschutzvorteile, sondern auch technische: Wenn man nur die wirklich benötigten Daten aus dem Sensor herausbekommt, muss man die anderen Daten gar nicht erst verarbeiten und transferieren.
Viele dieser Systeme sind ja so konzipiert, dass sie die Bilddaten aufzeichnen und per Mobilfunk oder Kabel irgendwo hin kopieren. Das verursacht Kosten und auch Energieverbrauch – gerade bei akkubetriebenen Geräten ist das ein Problem. Ein weiterer Vorteil: Wenn Sie die Logik direkt hinter die Pixel bringen, vermeiden Sie Latenz. Sie können also Entscheidungen schneller treffen.
c’t: Würden Sie sagen, dass Datenschutz direkt bei der Entwicklung mitgedacht werden sollte?
Dürr: Klar, wenn ich so einen Haushaltsroboter kaufen würde, dann hätte ich großes Interesse daran, dass der nicht permanent meine Bilddaten ins Sony-Hauptquartier schickt. Generell ist das Ganze aber ein Kontinuum, eine gesellschaftliche Frage, die sich entwickeln wird. Ein guter historischer Vergleich sind Heißluftballons. Als die erstmals aufgekommen sind, haben sich die Leute Sorgen gemacht, dass jemand von oben in die Gärten gucken konnte – damals hat man über ein Verbot nachgedacht. Heute sind Luftbilder für uns selbstverständlich.
Das ist eine gesellschaftliche Diskussion, und auch eine wirtschaftliche. Wenn Sie andere Tech-Unternehmen zum Beispiel aus dem Silicon Valley anschauen, dann haben diese oft ein Interesse daran, Ihre Daten zu nutzen, um Werbung zu verkaufen. Andere Firmen wie Sony haben das nicht.
c’t: Was werden Ihrer Meinung nach die ersten Alltagsroboter sein?
Dürr: Ich halte schon ein Auto mit adaptiver Geschwindigkeit für einen Roboter. Wo zieht man da die Grenze? Auch in einer Waschmaschine stecken Sensoren, das sind quasi auch robotische Systeme – werden aber nicht als Robotiktechnologie gesehen. Ich finde interessant, wie sich die Wahrnehmung verändert. Als man in den Fünfzigerjahren anfing, sich mit künstlicher Intelligenz zu beschäftigen, dachte man: Wenn eine Maschine Schach spielen kann, dann hat man Intelligenz; das war damals ein nahezu unerreichbares Ziel. Heute sieht man: Es ist komplizierter, Schachfiguren physisch zu verschieben, als das Spiel selbst zu spielen.
Als ich Anfang der 2000er-Jahre meine Doktorarbeit geschrieben habe, galt es als extrem schwieriges KI-Problem, auf Fotos Katzen und Hunde zu unterscheiden. Heutzutage kann ein Informatikstudent so ein System an einem Nachmittag bauen. Die Wahrnehmung, was schwierig ist und was nicht, verschiebt sich permanent.
c’t: Roboter haben nach wie vor Probleme mit sicherem Greifen. Woran liegt das?
Dürr: Greifen und Manipulation sind in der Tat sehr schwierige Probleme. Aber es gibt neue Ansätze dazu, wie man Robotern mit Lernalgorithmen das beibringen kann. Die Roboter lernen dann vom Erfolg oder Misserfolg: Ist das Glas runtergefallen oder hat es der Roboter gegriffen? Ich denke, wir sind auf einem guten Weg.
c’t: Alle bekannten KI-Assistenten wie Alexa, Google Assistant, Siri oder Bixby haben kein Gesicht. Woran liegt das?
Dürr: In der Robotik gibt es die Theorie des Uncanny Valley von Masahiro Mori: Kommt man einem Menschen in Sachen Aussehen und Verhalten nahe, gibt es irgendwann einen Punkt, an dem man ganz knapp dran ist – aber eben nicht ganz. Das empfinden viele als gruselig. Gibt man einem Roboter zum Beispiel ein menschliches Gesicht, dann verspricht man den Nutzern damit unterschwellig, dass der Roboter auch menschliche Fähigkeiten hat, und das ist dann oft eine Enttäuschung.
c’t Ausgabe 6/2021
In c’t 6/2021 möchten wir Ihnen den Einstieg ins Smart Home erleichtern: Wir liefern Praxistipps und Kaufberatung für mehr Sicherheit, Komfort und Effizienz im intelligenten Zuhause. Wer seine Finanzen im Griff haben und dafür Homebanking nutzen möchte, sollte Ausgabe 6 zu Rate ziehen: Darin haben wir sechs Programme fürs Homebanking getestet und dabei besonders auf den Datenschutz geschaut. Außerdem zeigen wir, wie Sie im Homeoffice Ihre persönlichen Telefonate und Daten sauber von den beruflichen trennen können. Wir testen GPS-Tracker für E-Bikes, kompakte Dokumentenscanner für mehr Ordnung im Büro und das erste E-Auto mit Android. Die Schul-Cloud des Hasso-Plattner-Instituts (HPI) offenbarte kürzlich ein gewaltiges Sicherheitsleck. Zum Glück wurde das Loch der Plattform nach unseren Hinweisen geschlossen. Dies und noch viel mehr lesen Sie in Ausgabe 6/2021, die ab dem 26. Februar im Heise-Shop und am gut sortierten Zeitschriftenkiosk erhältlich ist.
(jkj)
Quelle: www.heise.de