User Experience bei Voice User Interfaces – Eine Tagebuchstudie am Beispiel Amazon Echo

Voice Interfaces sind keinesfalls neu. Siri ist schon seit 2011 am Markt. Genährt durch die stark sichtbare Amazon Echo Werbung ist das Thema aber so aktuell wie noch nie. Auch die Konkurrenten sind in diesem Feld stark aktiv. Google mit Assistant, Microsoft mit Cortana und Facebook mit ihrem Messenger M buhlen um die Gunst der Nutzer. In der Folge werden graphische Interfaces zunehmend ersetzt werden oder nur in der Kombination mit Voice Interfaces verwendet werden, denn die Sprache ist die einfachste und geübteste Kommunikationsform und das schon seit Jahrtausenden. Bisher waren Sprachinterfaces immer noch fehleranfällig. In der Kombination mit künstlicher Intelligenz und Machine Learning kann diesen aber eine goldene Zukunft prophezeit werden, auch wenn sie sicherlich nicht für alle Interaktionen von Mensch und Computer geeignet sind. Wenn komplexe Selektions- und Auswahlprozesse mit hohen Anforderungen an das Arbeitsgedächtnis über das Interface erfolgen oder mehrere Informationen parallel verarbeitet werden sollen, sind Schriftsprache und visuell aufbereitete Inhalte oft besser geeignet.

Warum diese Studie?

Ausgangspunkt der Studie war es in Erfahrung zu bringen, wie sich die Akzeptanz und Nutzung von Sprachinterfaces in der ersten Erprobungsphase bei den Nutzern gestaltet. Am Beispiel von Amazon Echo wollten wir herausfinden, ob die Sprachinteraktion die Nutzer überzeugen kann, was die Treiber einer guten User Experience sind und wie die Adaption dieser Technologie erfolgt. Ein besonderes Interesse hatten wir an der Frage: Wie die Gestaltung der Skills zu einer höheren UX beitragen kann.

Tagebuchstudie begleitete Nutzer während der ersten Alexa Erprobung

Zur Beantwortung dieser Fragen führte Facit Digital in Kooperation mit der Voice Interface Agentur VUI.agency eine zweiwöchige Tagebuchstudie unter 26 Erstverwendern von Amazon Echo durch. Dabei wurden die Teilnehmer mit einem Echo Dot ausgestattet, den sie mit ihrem eigenen Amazon Account aktiviert haben. Die Nutzer mussten dabei alle zwei Tage beschreiben, welche Erfahrungen und Gefühle sie bei der Nutzung des Echos hatten, wo Probleme bei der Nutzung auftraten und was sie begeistert hat. Dabei waren sie aufgefordert, u.a. einen eigenen für den Test entwickelten Skill „Brain Challenge“ regelmäßig zu benutzen. Bei „Brain Challenge“ handelt es sich um einen Skill zum Ausführen von Kopfrechnen, Rätsel, Quiz oder Gedächtnistraining in drei Schwierigkeitsgraden.

Dieser Skill wurde von unserem Studienpartner VUI.agency in zwei Versionen entwickelt. In dem ungeführten Skill mussten die Nutzer ohne das aktive Angebot an Hilfestellung durch den Skill „navigieren“. Die geführte Version des Skills bot regelmäßig Hilfestellungen an, die die Navigation durch den Skill erklärte.

Erwartungen an Alexa werden häufig erfüllt

Die Ergebnisse zeigen, dass nach der zweiwöchigen Erprobungszeit mehr als die Hälfte der Teilnehmer angeben, dass Ihre Erwartungen an Alexa erfüllt wurden. Die Interaktion mit dem Assistenten macht ihnen großen Spaß, sie schätzen die freundliche Stimme, die Leichtigkeit der Interaktion als auch die große Auswahl an Skills die genutzt werden können. Die durchschnittliche Nutzungszeit dieser Gruppe beträgt ca. 30 Minuten.

Für 42% der Nutzer erfüllten sich die Erwartungen nur zum Teil oder gar nicht. Sie waren oft frustriert von der unnatürlichen Kommunikation und der unflexiblen Bedienung von Alexa. Dabei trat immer wieder, dass Problem auf, dass der Sprachassistent sie nicht vollständig verstand. Das wurde z.T. darauf zurückgeführt, dass die Entfernung zum Gerät zu groß war, z.T. wurden aber auch Hintergrundgeräusche dafür verantwortlich gemacht. Wenn der Echo bspw. Musik abspielt, mussten die Teilnehmer regelrecht „schreien“ um Alexa zum Zuhören zu bewegen. Ebenso bei der Eingabe von fremdsprachlichen (Eigen-)Begriffen und Namen konnte Alexa oft nicht richtig verstehen.

Aber auch die korrekte Befehlseingabe bereitete einigen Teilnehmern Schwierigkeiten. Zum einen erinnerten sich einige Teilnehmer nicht mehr an den korrekten „Invocation Name“ also den Aufrufnamen für den Skill, so dass der Aufruf gar nicht erfolgen kann. Zum anderen werden die Befehle nicht in der korrekten Anordnung geben, was ebenfalls dazu führt, dass die Skills nicht richtig ausgeführt werden. In diesem Zusammenhang wird auch kritisiert, dass Alexa den Kontext nicht richtig einordnet. Auf die Frage etwa: „Wann wurde Mozart geboren?“,antwortet Alexa richtig mit 1756. Bei der Nachfrage: „Und wo wurde er geboren?“ ist Alexa überfordert, da sie den Bezug zu Mozart nicht mehr herstellen kann. Hier wäre mehr „Intelligenz“ wünschenswert.

Die kritischer eingestellten Nutzer führen auch wiederholt an, dass sie ein Unbehagen verspüren bei dem Gedanken, dauerhaft „abgehört“ zu werden.

Nur wenige überzeugende Inhalte vorhanden

Selbstverständlich sind auch die verfügbaren Inhalte für die User Experience ausschlaggebend. In der zweiwöchigen Erprobungsphase gingen die am häufigsten genutzten Skills nur in Einzelfällen über die „Standardinhalte“ hinaus, die da wären News abhören, Musik, Radio bzw. Spotify starten oder Wetter und Verkehrsmeldungen abrufen.

Nutzung und User Experience im Zeitverlauf

Abgesehen von der Einrichtung des Echos am ersten Tag, pendelt sich die Nutzungszeit schnell auf ein Niveau von 20 bis 25 Minuten ein. Bei den begeisterten Nutzern beträgt die durchschnittliche tägliche Nutzungszeit dabei ca. 30 Minuten. Bei den weniger engagierten Nutzern bewegt sich die tägliche Nutzungszeit bei ca. 15 Min.

Dabei ist eine steile Lernkurve zu beobachten. Schon nach einer Woche geben weniger als die Hälfte an, noch etwas Neues dazu zu lernen in der Interaktion mit Alexa. Nach zwei Wochen reduziert sich dieser Anteil auf weniger als ein Drittel. Alles spricht dafür, dass Alexa vergleichsweise leicht zu erlernen ist.

So lässt sich auch der Emotionsverlauf über die ersten zwei Wochen der Nutzung erklären.

Nach der Anfangseuphorie zu Anbeginn, sinkt die Begeisterung für Alexa zunächst ab, insbesondere dann, wenn die Teilnehmer mit einigen Problemen oder Unzulänglichkeiten der Interaktion konfrontiert werden. Doch schon nach kürzester Zeit steigt die Zufriedenheit wieder an, was auf den oben beschriebenen schnellen Lerneffekt zurückzuführen ist. So steigt die emotionale Bewertung sogar über den Ausgangspunkt an. Nach etwa 10 Tagen ist der Höhepunkt erreicht. Der Gewöhnungseffekt führt zu einem leichten Absinken der positiven Emotionen. Gleichwohl ist das Niveau insgesamt auch nach zwei Wochen noch ausgesprochen hoch.

Zufriedenheit kann durch gute Skillgestaltung deutlich gesteigert werden

Besonders interessant ist der Vergleich der Performance Indikatoren in Hinblick auf die Nutzung der zwei unterschiedlichen Skills. Die aufgestellte Hypothese, dass der stark geführte Skill bei längerer Nutzung zu einem Absinken der Zufriedenheit führt, konnte nicht bestätigt werden. Im Gegenteil, die wahrgenommene Zufriedenheit in der Gruppe der Teilnehmer mit dem geführten Skill ist über den ganzen Befragungszeitraum deutlich höher. Zwar kann der ungeführte Skill zum Ende der Beobachtungszeit noch etwas Boden gut machen, kommt aber nicht an den geführten Skill heran.

Auch die direkte Abfrage offenbart: Die Teilnehmer, die aktiv keine Hilfestellungen angeboten bekommen, fordern diese vehement ein. Aber noch erstaunlicher: Die Gruppe mit dem sehr intensiv geführten Skill wünschen sich zu knapp einen Drittel noch mehr Hilfestellung. Verhalten weniger Hilfestellung wollen in dieser Gruppe nur 41%. Es zeigt sich also, dass Führung und Hilfestellungen sehr positiv wahrgenommene Eigenschaften sind.

Diese Bild bestätigt sich auch bei den Maßen zur subjektiven Einschätzung des Spracherkennungssystems. Die folgenden Abbildungen zeigen die wahrgenommenen, relativen Bewertungsunterschiede zwischen den Nutzern die Hilfestellungen in dem Skill bekommen haben und denen, die keine Hilfestellungen erhalten haben.

Fazit: Was ist für einen guten Skill zu beachten?

Zu einem gut gestalteten Skill gehört es auch, den Nutzer an die Hand zu nehmen und ihn durch die Funktionen zu führen. Ebenso wie auch bei graphischen Interfaces kann die Bedienung dadurch erleichtert und die Zufriedenheit gesteigert werden, dass Dialoge bei der Nutzung unterstützen. Bei graphischen User Interfaces kann das z.B. durch Dialogfenster erfolgen. „Wollen Sie die Datei vor dem schließen speichern“ oder „Öffnen sie eine der zuletzt genutzten Dateien.“ Wenn diese Hilfestellungen nicht gegeben sind, verlieren sich die Nutzer oder begehen Fehler. Das gilt auch verstärkt für Voice Interfaces. Neben einer professionellen Programmierung der Skills gehört somit auch dazu, die Bedürfnisse und Fähigkeiten der Nutzer bei der Bedienung von Sprachinterfaces zu kennen und diese bei der Konzeption der Skills einfließen zu lassen. Facit Digital und VUI.agency verfügt über die Tools und Möglichkeiten, diese Prozesse zu unterstützen und so zu einer verbesserten User Experience beizutragen.

Expertenempfehlung von Patrick Esslinger (VUI.agency): In der Studie hat das geführte Nutzungsdesign eindeutig besser abgeschnitten als die abgespeckte Variante. Doch man darf nicht vergessen, dass mehr Hilfe auch immer mehr Zeit bedeutet. Anders als bei schriftlichen Hilfestellungen kann man Einleitungen und Erklärungen nicht einfach überspringen oder schnell weiter klicken. Ein Mittelweg zwischen geführtem und ungeführtem Nutzungsdesign sind abnehmende Hilfestellungen. Das heißt: Beim ersten Aufrufen des Skills bekommt der Nutzer eine ausführliche Erklärung bzw. je nach Komplexität, auch mehrere ausführliche Erklärungen zu den unterschiedlichen Stufen des Skills. Beim zweiten Aufrufen werden die Erklärungen reduziert und ab dem dritten Mal komplett ausgelassen (wahlweise können Erklärungen wieder abgespielt werden, sobald der User zum Beispiel mehr als vierzehn Tage nicht im Skill war).

This page is available in English (Englisch)