netz98 Blog

Der E-Commerce &
Magento Blog

Voice Commerce: Nutzen Sie die Power von Alexa, Siri & Co.

Spätestens seit den großen Erfolgen von Apples Siri und Amazons Alexa ist dieses Thema sprichwörtlich in aller Munde: virtuelle, sprachgesteuerte Assistenten. Was genau steckt dahinter? Welche Chancen bietet diese Technologie im Bereich des E-Commerce? Ist der sogenannte Voice Commerce nur ein Hype oder ein wichtiger Trend für die Zukunft?

 

Was sind Sprachassistenten?

Unter dem Begriff „Voice Commerce“ werden verschiedene Technologien und Ansätze der Informationstechnologie gesammelt, die direkt oder indirekt mit der Sprachverarbeitung zu tun haben. Ein Beispiel: Der Kunde spricht mit einem Spracherkennungsdienst, der ganz ohne menschliche Hilfe auf einfache Fragen oder Anweisungen reagiert. Außerdem erhält der Nutzer auf seine Anfragen in der Regel auch per Sprachausgabe die gewünschte Antwort oder die passende Rückmeldung.

Im Prinzip sind Siri, Alexa und andere Spracherkennungsdienste bzw. Sprachassistenten die nächste Evolutionsstufe der in den letzten Jahren immer mehr aufkommenden Messaging-Bots. Der große Unterschied hierbei ist, dass das gesprochene Wort das Übertragungsmedium ist und der User keine Nachrichten mehr manuell eintippen muss.

Die Vision hinter den Sprachassistenten ist die Vereinfachung und Beschleunigung der Mensch-Maschine-Kommunikation, so dass diese möglichst natürlich – im Idealfall menschenähnlich – stattfindet. Sie könnte schon bald ein fester Bestandteil des täglichen Lebens sein.

 

voice commerce 2

 

Die Chance ist bereits heute sehr hoch, dass auch Sie schon bewusst oder unbewusst mit einem virtuellen Sprachassistenten gesprochen haben. Gerade im Bereich der Callcenter wird diese Technologie momentan sehr stark vorangetrieben. Sie hat bereits einen Reifegrad erreicht, bei dem es immer schwieriger wird, einen künstlichen Ansprechpartner von einem menschlichen zu unterscheiden.

Die menschliche Sprache ist das neue Interface.

Satya Nadella, Microsoft CEO

Und dann wären da noch Amazon, Google, Apple und andere Anbieter. Sie haben mittlerweile eine Fülle an verschiedenen Anwendungen (bei Amazon „Skills“ genannt) in petto, die man über den jeweiligen Sprachassistenten nutzen kann. Diese Anwendungen reichen von Musikstreaming-Angeboten und Smart-Home-Funktionen über Organisationsaufgaben und Quiz-Spielen bis hin zu orts- und wetterabhängigen Antworten und Erinnerungen.

 

Voice Commerce im Onlinehandel

Abseits von Support- und Feedback-Formularen sind virtuelle (textbasierte) Assistenten im Onlinehandel noch nicht sehr weit verbreitet. Sobald es um Sprachassistenten für Webseiten geht, gibt es de facto keinen nennenswerten Anbieter.

Neben den technischen Herausforderungen auf Entwicklungsseite gibt es auch recht banale Hürden zu meistern. Dazu zählt zum Beispiel, dass Menschen, die nicht zu den sogenannten Digital-Natives gehören, häufig ungern offen und frei mit einem nicht-menschlichen „Gegenüber“ sprechen möchten. Für sie ist es ungewohnt und befremdlich, mit einem Sprachassistenten oder einer KI auf einer Webseite zu kommunizieren. Doch mit der zunehmenden Verbreitung von Siri, Alexa und Co. wird diese Eintrittsbarriere wahrscheinlich bald in den Hintergrund rücken.

Es gibt eine weitere Hürde: Die meisten stationären Computer (Desktop-PCs) haben auch heute noch kaum fest eingebaute Mikrofone oder Lautsprecher. Diese werden aber für die Sprachassistenten benötigt.

Wenn ein Unternehmen seine Zielgruppe für Voice Commerce möglichst effektiv erreichen will, sollte es zunächst auf die bewährten Kanäle zurückgreifen: Apples Siri auf iPhones, Amazons Alexa in Form der Echo-Geräte, Google Home bzw. Google Now von Google. Und dann gibt es noch Cortana von Microsoft, das es ab Windows 10 und für verschiedene Smart Devices gibt. Für diese Sprachassistenten und Geräte können E-Commerce-treibende Unternehmen die für sie relevanten Funktionalitäten entwickeln.

voice commerce 3

 

Use Cases für Sprachassistenten im E-Commerce

Passende Funktionen für Sprachassistenten wären zum Beispiel das Aufgeben von Bestellungen oder das Abfragen eines Bestellstatus zu einer bestimmten Auftragsnummer. Außerdem könnten Up- und Cross-Selling-Funktionalitäten angeboten werden, wie man sie aus Onlineshops kennt: „Das gewünschte Produkt wurde in Ihren Warenkorb gelegt. Dieses Produkt wird gerne zusammen mit den Produkten X, Y und Z gekauft – sollen diese ebenfalls in Ihren Warenkorb gelegt werden?“

Generell kann fast jede Funktion, die man von einer klassischen Webseite kennt, über einen Sprach- bzw. Messaging-Assistenten zur Verfügung gestellt werden. Das eigentlich Schwierige daran ist der enorme Aufwand, der hinter der entsprechenden Logik steckt. Denn der Assistent ist nur so intelligent wie der dahinterliegende Algorithmus.

 


Technische Aspekte


Sprachassistenten sind dumm.


Das mag angesichts der faszinierenden Möglichkeiten, die diese Assistenten bieten, ein gewagtes Statement sein. Doch lassen Sie mich erklären, was genau es damit auf sich hat:


Anwendungsbeispiel

Wenn man Amazon Echo (also Alexa) eine Frage wie „Wie wird heute das Wetter in Mainz?“ stellt und wenige Sekunden später eine erschreckend genaue Prognose des lokalen Wetters hört, dann fragt man sich unweigerlich: „Wie hat der kleine Computer das gemacht?“


Die Antwort ist so simpel wie ernüchternd: Die aufgezeichnete Anfrage wird als Audio-Datei über das Internet an den jeweiligen Anbieter (zum Beispiel Amazon) geschickt. Dieser wandelt dieAudio-Datei in eine Zeichenkette um, die von dem jeweiligen Dienst verarbeitet werden kann. Die Antwort kommt in Form eines fertig formulierten Satzes zurück, den der Sprachassistent von sich gibt.


So funktioniert das System, wenn man es ganz einfach erklärt. Dahinter steckt allerdings viel mehr. Nämlich: In der Regel besteht die Basisfunktionalität der verschiedenen Sprachassistenten nur aus drei grundlegenden Elementen. Zum einen gibt es die ASR (Automatic Speech Recognition) sowie das NLU (Natural Language Understanding). An diesen beiden Elementen wird dann die jeweilige Logik des Anbieters (wie zum Beispiel der Webservice des Wetter-Dienstes) angeschlossen. Sobald der Dienst eine Antwort für die Anfrage ermittelt hat, wird diese an den sogenannten TTS (Text To Speech) zur Ausgabe des Ergebnisses in Sprachform weitergegeben.


Die Schritte im Detail



  1. Die von dem Sprachassistenten übermittelte Audio-Datei wird von dem ASR-Service verarbeitetund in eine simple Zeichenkette umgewandelt, so als hätte man den Text mittels einer Tastatur eingegeben.

  2. Der NLU-Service nimmt die Zeichenkette entgegen und zerlegt sie in seine Bestandteile. Durch diese kann bestimmt werden, was genau mit der Anfrage bezweckt wird (die sogenannte „Intention“, in unserem Fall „Wie wird das Wetter?“) und welche variablen Parameter („heute“ sowie „in Mainz“) es gibt.

  3. Die aufbereiteten und angereicherten Daten werden dann an den Webservice des Wetter-Dienstes weitergeleitet, und die weitere Verarbeitung findet direkt bei dem Anbieter statt. Außerdem werden in der Regel generische Informationen wie Datum und Ortsangaben direkt in einen Timestamp und Geo-Informationen umgewandelt, dies ist aber vom verwendeten Sprachassistenten abhängig.

  4. Der Webservice des Anbieters liefert in einem einheitlichen Format einen aus Textbausteinen zusammengesetzten Text zurück, der an den Sprachassistenten gespielt wird und mittels der TTS-Engine über die Lautsprecher ertönt. Je nachdem, welche Anwendung angefragt wird, kann auch direkt eine Audio-Datei oder ein Musikstream zurückgegeben werden. Man sieht bei diesem Ablauf relativ schnell, dass die eigentliche Business-Logik in der Verantwortung des Anbieters liegt. Alexa und Co. sind nur eine abgewandelte Form von Tastatur und Monitor – und somit erstmal nur eingeschränkt intelligent. Erst der Anbieter im Hintergrund macht die Sprachassistenten zu dem, was sie sind.

 

Die User Experience bei Alexa und Co.

Wie beim Design von grafischen Oberflächen spielt auch bei der Verarbeitung von Sprachkommandos die Benutzerfreundlichkeit eine große Rolle. Jede Funktion, die bereitgestellt wird, kann mehrere Intentions definieren – also Anweisungen auf die die Funktion hört. Die große Kunst ist, diese Intentions so zu gestalten, dass diese eindeutig sind, damit keine zwei Funktionen auf dieselbe Intention hören. Außerdem sollte eine Intention in verschiedenen grammatischen Varianten hinterlegt werden, um möglichst viele Sprachstile abzudecken.

Für die Eindeutigkeit der Intentions wird der Name der App in der Anfrage mitverwendet. Zum Beispiel „Spiele die Playlist XY in iTunes“. Wichtig hierbei ist, dass „iTunes“ in diesem Fall ein Bestandteil der Intention ist und nicht als Parameter interpretiert wird.

Der Erfolg der Anwendung steht und fällt mit dem Mehrwert, den sie für den Kunden bietet. Nur wenn der Kunde sich individuell und vor allem gut beraten fühlt, wird er den Sprachassistenten regelmäßig verwenden. Genau hier kommt ein weiteres immer wichtiger werdendes Thema ins Spiel: Künstliche Intelligenz (KI).

 

Voice Commerce ist ein wichtiger Trend

Die neuen Entwicklungen auf diesem Gebiet sind beeindruckend und werden in Zukunft auch im E-Commerce verstärkt zum Einsatz kommen. Gerade im Bereich der Messenger-Bots und Sprachassistenten kann diese Technologie ihr gesamtes Potential entfalten. Kundenindividuelle Wünsche und bereits erfolgte Bestellungen sind die Grundlage für Empfehlungen oder Angebote, die den Kunden wirklich interessieren, da sie individuell für ihn zusammengestellt wurden.

So sorgen die neuen Technologien für eine Verbesserung der Customer Journey: Während der intelligent wirkende Chatbot als Kaufberater auf Webseiten agiert, kommt der Sprachassistent auf smarten Geräten wie beispielsweise Google Home oder Amazon Echo zum Einsatz.

 

Fazit

Die Zeit der Sprachassistenten im E-Commerce ist angebrochen. Sie werden in den nächsten Jahren sicherlich eine stärkere Verbreitung finden. Bis es soweit ist, gibt es allerdings noch einige Hürden zu meistern.

Neben den Hardware-Anforderungen, die allerdings aufgrund der wachsenden Leistung von Smartphones und Tablets zunehmend vernachlässigbar werden, spielt hier auch der intelligente Einsatz dieser Technologie eine sehr große Rolle. Nur wenn es Unternehmen gelingt, den Nutzern einen echten Mehrwert zu bieten, indem die Assistenten zu validen Beratern werden, wird sich die Investition lohnen.

Bereits in wenigen Jahren könnte die Verwendung eines Sprachassistenten so normal sein, wie es Messaging-Bots heute für viele schon sind. Daher sollte sich jedes Unternehmen fragen, ob ein entsprechender Sprachassistent für seine Kunden Sinn macht. Die Umsetzung mag je nach Anwendungsgebiet durchaus aufwendig sein und erfordert einen gewissen Vorlauf – doch wer in der ersten Liga mitspielen will, sollte den Startschuss nicht verpassen!

 


Dieser Beitrag ist ein Auszug aus dem netz98-Magazin „Zukunftsthemen“. In der aktuellen Ausgabe geht es unter anderem um die Digitalisierung von Unternehmen, E-Commerce-Trends und innovative Konzepte. Die „Zukunftsthemen“ können Sie hier kostenlos herunterladen:

Bilder: netz98

Über den Autor / die Autorin

Kommentar hinterlassen

*Pflichtfeld

netz98 flyin

Verpassen Sie nicht mehr das Neueste rund um E-Commerce- und Magento-Themen!

Mit der Anmeldung zu unserem Newsletter erhalten Sie regelmäßig wissenswerte und spannende Informationen, die IHR Online-Business nach vorne bringen.

Vielen Dank für Ihre Anmeldung! Wir haben Ihnen soeben ein E-Mail gesendet. Bitte bestätigen Sie in der E-Mail Ihre Anmeldung.