Alexa ist (noch lange nicht) K.I.T.

by Weissgarnix on 16. Januar 2018

Seit Weihnachten gehöre ich auch zur wachsenden Alexa-Community. Zwar nicht direkt über eines der Amazon-Echo-Dingens, sondern nur über die abgespeckte Version im neuen Sonos One Lautsprecher. Der steht in der Küche und ist das einzige Alexa-enabled Teil im Haus, was bedeutet, dass ich die komplette Sonos-Anlage zwar aus der Küche über Sprachbefehle steuern kann, aber eben von keinem anderen Raum aus. Außerdem kann ich dort jetzt punktgenau Frühstückseier kochen mittels “Alexa, Timer auf 5 Minuten!”, das hat schon was…

Naja, jedenfalls funktioniert das Ding so lala. Nicht übel wenn man spricht wie mit einem 3-jährigen, gaaaanz deutlich und gaaaanz langsam. Dann klappt das meistens. Oft aber auch nicht. “Ich kann Deluxe Lounge Radio auf Tune-In nicht finden”… die weibliche Stimme kapituliert noch immer das eine oder andere Mal.

Was mich zum Punkt dieses Beitrags bringt. Nämlich zu meiner Verblüffung darüber, wie erstaunlich schlecht die gesamte Voice-Recognition-Technologie anno 2017 noch ist. 2017! Das sind minimum 25 Jahre Forschung und Entwicklung zum Thema in der Breite, davon mindestens die letzten 15 mit hunderten Millionen wenn nicht gar Milliarden an Venture Capital gesponserten Unternehmungen im Bereich der Applikationstechnik. Einer meiner ehemaligen Kollegen war selbst an einem Berliner Startup namens “8Herz” beteiligt, die waren um 2003 bereits voll zugange (und dann glaube ich irgendwann pleite), und damals klang das jedenfalls so, als wäre David Hasselhoff’s vorlautes Auto spätestens 2010 Realität.

Aber weit gefehlt. Dass man zwar heutzutage in so gut wie jeder Telefonschleife mit einem Voice-Server abgefertigt wird, der mit extrem reduziertem Sprachumfang auch ziemlich gut funktioniert: geschenkt! Aber dass man die menschliche Sprache selbst nach 2 Jahrzehnten noch nicht besser modellieren und algorithmisch synthetisieren kann, sodass einigermaßen natürliche Dialoge mit einer gewissen semantischen Tiefe möglich sind: enttäuschend.

Jetzt bin ich kein Tekkie, zugegeben, aber meiner Auffassung nach ist menschliche Sprache gemessen an dem, was technologisch noch alles so auf der Agenda steht, von irgendwelchen “intelligenten” Maschinen, die sonstwas erledigen, bis hin zu dem ganzen Neurokram, der Informationstechnik und Neurologie gemeinsam in den Ring schickt um dann quasi “künstlich erweiterte” natürliche Intelligenz zu schaffen, eine läppische Fingerübung. Dass wir nach 20 Jahren nicht weiter sind, als das was Alexa in meiner Küche oder das Navi in meinem Auto zuwege bringen, lässt mich da nicht erwarten, dass auf jenen Forschungsgebieten in den nächsten 20-30 Jahren auch nur irgendwas Brauchbares das große Publikum beglücken wird. Mithin ist unsere ganze aktuelle Fortschrittssemantik wahrscheinlich viel zu optimistisch.

{ 21 comments… read them below or add one }

Thorsten Haupts Januar 16, 2018 um 11:01

Stimmt :-).

Als ehemaliger IT-Projektleiter bin ich nicht ganz so erstaunt, wie der Autor. Die menschliche Sprache ist enorm variabel (vgl. in Deutschland einen verschnupften, saufkehligen Hamburger mit einer kieksigen Münchnerin mit oberbayrischem Akzent), das macht Modellierung sehr, sehr aufwendig.

Aber insgesamt sind die Fortschritte bescheiden. Das galt noch 2006 selbst für eine der theoretische einfachsten Aufgaben – Optical Character Recognition, also die Erkennung von Buchstaben auf gescannten Druckseiten. Auch da waren bereits 20 Jahre intensive Entwicklung passiert, trotzdem war das Ergebnis mit 99% bei guten Druckvorlagen und sauberen Scans erstaunlich schlecht (99% heisst, dass es auf einer Seite mit 3600 Zeichen 36 Fehlerkennungen gibt. Um 36 Fehlerkennungen zu lesen und zu beseitigen, braucht man länger, als ein/e geübte/r Datentypist zum fast fehlerfreien Abtippen).

Wird also noch dauern, bis eine Stimmerkennung soweit und so gut ist, dass sie eine einfache Unterhaltung simulieren kann (dazu bräuchte sie in Deutschland einen Sprachumfang von etwa 2 bis 3.000 Worten, die bei allen Sprechern zwischen 5 und 85 mit einer Fehlerrate von weniger als 0,1% auf Anhieb richtig erkannt werden).
Weshalb ich die ganzen Vorhersagen, wieviele Jobs die “Künstliche Intelligenz” in den nächsten 5 bis 10 Jahren angeblich kosten wird, für reine Panikmache halte.

Selbst das “autonome Fahren”, in das Technik- wie Automobilkonzerne seit Jahren enorme Summen investieren, ist noch ziemlich weit von Serienreife entfernt.

Gruss,
Thorsten Haupts

ruby Januar 16, 2018 um 11:04

Lounge Radio:
Madrid deLos Austrias mit Deia
weiter dösen

egghat Januar 16, 2018 um 11:05

Sprache (Wörter oder abstrakter Syntax) verstehen ist was ganz anderes als Sprache (Sinn /Bedeutung oder abstrakter Semantik) verstehen.

Wenn man Sprache vollständig – bis hin zur Bedeutung – verstehen würde, hätte man nicht einen kleinen ersten Schritt getan (“läppische Fingerübung”), sondern hätte quasi schon das Ziel erreicht.

Menschliche Sprache zu erkennen und verstehen ist zigfach komplexer als z.B. Katzen in Bildern zu erkennen (oder für Facebook Nippel zu erkennen). Wir werden aber sinnvolle Anwendungen für “Katzen in Bildern erkennen” haben. genauso wird “alexa spiele Coldplay” Anwendungen finde oder “alexa, mach Licht im Wohnzimmer an”. Und auch wenn deine Erfahrungen andere zu sein scheinen, bei mir funktioniert das. Und zwar zuverlässig. Ich kann Alexa sogar zulabern und ihr Befehle geben, während ich einen Podcast höre. Ehrlich gesagt, das finde ich durchaus beeindruckend …

ruby Januar 16, 2018 um 11:06

@wgn
aber bei yellos desire die boxen aufdrehen!!!

ruby Januar 16, 2018 um 11:12

Bezos sagte Alexa hat 28.000 Befehle im Englischen im Deutschen erst um die 2.000.
aus dem Stern-Beitrag zu amazon

Bruchmüller Januar 16, 2018 um 11:40

Zur Erinnerung:

>>> In eigener Sache
>>> Das Programm des Blogs ist einfach und anspruchsvoll.
>>> … mit der Lust des am Augenblick sich messenden Denkens
>>> Mit dabei sind Frank Lübberding (wer mag das sein, kennt den jemand?) und Thomas Strobl. Seien Sie willkommen!

H.K.Hammersen Januar 16, 2018 um 12:43

Alexa dient hauptsächlich dem Schürfen der Daten, die zur Entwicklung einer Spracherkennung gebraucht werden. Die weitere Entwicklung wird exponentiell ablaufen. Da ist es vollkommen egal, wie tief das Startniveau ist; es wird sehr schnell sehr starke Verbesserungen geben.

Schlimm finde ich nur, dass es sich bei Alexa und Co. um in sich geschlossene Systeme handelt. Wer garantiert Ihnen denn, dass Alexa im Interesse seines Eigentümers agiert und nicht im Sinne des dahinter stehenden Systems? Sie liefern schließlich nicht nur Informationen über Ihre Sprache, sondern auch über Ihre Interessen und Gewohnheiten. Das Din bei Ihnen in der Küche ist ja nur ein Lautsprecher mit Mikrofon. Alexa selbst ist auf fernen Servern installiert.

Sus scrofa Januar 16, 2018 um 13:25

@ egghat —> “Wir werden aber sinnvolle Anwendungen für “Katzen in Bildern erkennen” haben. genauso wird “alexa spiele Coldplay” Anwendungen finde[n]”

Sinnvoll fände ich ja erst die Anwendung: “Alexa, spiele mit der Katze”.

Blue Angel Januar 16, 2018 um 13:55

Wer sich vorsätzlich Spionage-Equipment in´s Haus holt der glaubt auch an eine “gütige” Weltregierung.

Als ich noch ein grün-piratig-verblödeter Linker war (und noch kein höflicher Rechter) hätte ich geschrieben “So jemand hat einen an der Klatsche”.

Eingesperrte Kaninchen oder Schweine leben auch oft “bequemer” als ihre Artgenossen in der Freiheit. Zumindest bis sie geschlachtet werden.

Thorsten Haupts Januar 16, 2018 um 14:30

@egghat:

“Ich kann Alexa sogar zulabern …”

Aus reiner Neugier: Stört es Sie überhaupt nicht, dass Sie damit einen potentiell immer mithörenden Spion in Ihrer Intimsphäre haben?

Gruss,
Thorsten Haupts

Keynesianer Januar 16, 2018 um 14:42

Wenn Erich Mielke das noch erleben könnte, er hätte wohl längst den Verstand verloren.

Warum hat er das nicht geschafft, dass sich die Leute selber ihre Wohnungen verwanzen und sogar noch die Geräte und den Strom selber bezahlen?

Der Kapitalismus ist dem Sozialismus wirklich überlegen.

Blue Angel Januar 16, 2018 um 15:11

Keynesianer, bitte vergessen Sie nicht die Vorgeschichte von Frau Merkel als IM Erika. Da kommt zusammen, was zusammengehört: Optimierung der Ausbeutung unter Nutzung sozialistisch erprobter Methoden ;-)

egghat Januar 16, 2018 um 17:38

@Thorsten Haupts:

Smartphone ist immer aus, wenn Sie zu Hause sind? Das kann auch potenziell immer zuhören, wenn es gehackt wird, Bilder machen, etc.

egghat Januar 16, 2018 um 17:39

@Sus scrofa:

Dann bräuchte man sich keine Katze anschaffen ;)

ruby Januar 16, 2018 um 18:03

Für Bezos dient die Spracherkennung zur Verkaufs- und Gewinnoptimierung (Einkauf, Lagerung, Vertrieb, Finanzbuchhaltung).

Thorsten Haupts Januar 16, 2018 um 18:11

“Vorgeschichte von Frau Merkel als IM Erika …”

Ach, Merkel hat eine Verpflichtungserklärung als inoffizieller Mitarbeiter der StaSi unterschrieben? Und das kann belegt werden?

Nein?

Dumm gelaufen für kleine Verleumder …

Thorsten Haupts Januar 16, 2018 um 18:12

@egghat:

Ja, mein Smartphone ist normalerweise aus bzw. in einer Tasche vergraben.

Gruss,
Thorsten Haupts

Thor Januar 16, 2018 um 20:53

Die Bedeutung von Sprache ist höchst kontextabhängig. Damit haben die Maschinchen ihre Probleme.
In einer bayrischen Disko fragte mich mal jemand, “Mogst was?”. Was in dem Kontext keine Frage war, ob ich eine leckere Weißwurst mit ihm esse. Den Maschinen steht zwar das komplette Vokabular zur Auswahl, sie wissen aber nicht wie sie es einsetzen sollten.
“Zupf di”, wäre z.B. hier die korrekte Antwort gewesen.

Thor Januar 16, 2018 um 21:02

Bayrisch ist nicht so meins, aber Ruhrpottdeutsch .
http://www.ruhrgebietssprache.de/glossar.html

Weissgarnix Weissgarnix Januar 16, 2018 um 22:13

@egghat

Mit „erstaunlich schlecht“ meinte ich nicht etwa eine Art Versagen, in dem Sinne, dass man es besser hinkriegen hätte können (bzw müssen). Sondern was ich meinte, ist – auch wenn dass den Begriff „Fingerübung“ womöglich etwas deplaziert erscheinen lässt -, dass technologischer Fortschritt eben seine Zeit braucht. Und mitunter wesentlich mehr Zeit, als wir annehmen bzw die Protagonisten des Fortschritts uns glauben machen wollen. Dass das alles nicht trivial ist, habe ich sehr wohl verstanden.

Weissgarnix Weissgarnix Januar 17, 2018 um 15:52

Leave a Comment

Previous post:

Next post: