Deutsch Intern
MOTIV - Digital Interaction Literacy

Sprachassistenten-FAQ

Allgemein

Ein Sprachassistent ist ein KI-basiertes Dialogsystem, das auf Fragen und Anweisungen reagiert und Sprachbefehle ausführen kann (Bendel, 2022). Sprachassistenten besitzen ein Softwaresystem, mittels dem die Kommunikation zwischen Mensch und Maschine über natürliche bzw. gesprochene Sprache möglich ist (Hoeppner, 2008). Sprachassistenten sind unter anderem auf Smartphones zu finden oder auch in Smart Speakern (Anke et al., 2019).

Sprachassistenten funktionieren mit Hilfe einer Software, die sich unter anderem verschiedene Methodiken aus der Künstlichen Intelligenz, wie bspw. dem Natural Language Processing (NLP) – der Verarbeitung der natürlichen Sprache – zu Nutze macht (Kreutzer & Seyed Vousoghi, 2020). Mit NLP werden Kontext, Sinn und Zusammenhang der gestellten Fragen oder Anweisungen erfasst. Zudem ermöglicht NLP, dass Schlüsse und damit mögliche Antworten oder Reaktionen aus der gestellten Anfrage oder Anweisung gezogen werden können (Stanoevska-Slabeva, 2018). Dadurch ist es Sprachassistenten möglich, die menschliche Sprache zu verarbeiten, zu interpretieren und letztendlich darauf zu reagieren (Han & Yang, 2018; Krol & Boßow-Thies, 2020). Beispiele für bekannte Sprachassistenten sind Alexa, Google Assistant, Siri oder Cortana.

  • Anke, J., Fischer, U. & Lemke, R. (2019). Integration digitaler Sprachassistenten in den Kundenservice am Beispiel der Stadtwerke Leipzig. Digitalisierung von Staat und Verwaltung.
  • Bendel, O. (2022). Sprachassistent. In Gabler Wirtschaftslexikon. wirtschaftslexikon.gabler.de/definition/sprachassistent-123447
  • Han, S. & Yang, H. (2018). Understanding adoption of intelligent personal assistants. Industrial Management & Data Systems, 118(3), 618–636. doi.org/10.1108/IMDS-05-2017-0214
  • Hoeppner, W. (2001). Der Mensch-Maschine-Dialog. In K. Brinker, G. Antos, W. Heinemann & S. Sager (Hrsg.), Text- und Gesprächslinguistik: Ein internationales Handbuch zeitgenössischer Forschung (S. 1607-1618). De Gruyter.
  • Kreutzer, R. T. & Seyed Vousoghi, D. (2020). Voice-Marketing: Der Siegeszug der digitalen Assistenten. Springer. doi.org/10.1007/978-3-658-29474-8
  • Krol, B. & Boßow-Thies, S. (2020). Akzeptanz von Sprachassistenten zur Steuerung von Smart Home Services. In R. Buchkremer, T. Heupel & O. Koch (Hrsg.). Künstliche Intelligenz in Wirtschaft & Gesellschaft: Auswirkungen, Herausforderungen & Handlungsempfehlungen (S. 517–541). Springer Gabler.
  • Stanoevska-Slabeva, K. (2018). Conversational Interfaces — die Benutzerschnittstelle der Zukunft? Wirtschaftsinformatik & Management, 10(6), 26–37. doi.org/10.1007/s35764-018-0117-7

Ein Smart Speaker ist ein bestimmter Lautsprecher, der einen Sprachassistenten integriert hat (Anke et al., 2019; Tas et al., 2019). Er besteht aus einer Kombination mehrerer Lautsprecher und meist mehrerer Mikrofone. Der integrierte Sprachassistent ist hierbei für die Analyse der gesprochenen Sprache und für die Erzeugung der Sprachausgabe zuständig (Waldhör, 2019). So verwendet beispielsweise der Smart Speaker Amazon Echo den Sprachassistenten Alexa, welcher durch die Nutzenden direkt angesprochen wird („Alexa, …“).

  • Anke, J., Fischer, U. & Lemke, R. (2019). Integration digitaler Sprachassistenten in den Kundenservice am Beispiel der Stadtwerke Leipzig. In M. Michael, S. Halsbenning, D. Rätz, D. Richter & E. Schweighofer (Hrsg.), Digitalisierung von Staat und Verwaltung (S. 25-36). Köllen.
  • Tas, S., Hildebrandt, C. & Arnold, R. (2019). Sprachassistenten in Deutschland (No. 441). WIK Diskussionsbeitrag. hdl.handle.net/10419/227052 
  • Krol, B. & Boßow-Thies, S. (2020). Akzeptanz von Sprachassistenten zur Steuerung von Smart Home Services. In R. Buchkremer, T. Heupel & O. Koch (Hrsg.). Künstliche Intelligenz in Wirtschaft & Gesellschaft: Auswirkungen, Herausforderungen & Handlungsempfehlungen (S. 517–541). Springer Gabler.
  • Waldhör, K. (2019). Smarte Objekte – Wie Smart Speaker und Smarthome die medizinische und pflegerische Versorgung zu Hause unterstützen werden. In M. A. Pfannstiel, P. Da-Cruz & H. Mehlich (Hrsg.), Digitale Transformation von Dienstleistungen im Gesundheitswesen VI: Impulse für die Forschung (S. 389–406). Springer Gabler.

  • Beispiele für einen Sprachassistenten: Alexa; Google Assistant, Siri
  • Beispiele für einen Smart Speaker: Amazon Echo; Google Home, HomePod 
  • Der Smart Speaker Amazon Echo verwendet den Sprachassistenten Alexa.
  • Der Smart Speaker Google Home hat den Sprachassistenten Google Assistant integriert.
  • Der Smart Speaker HomePod mini von Apple verwendet den Sprachassistenten Siri. 

Der US-amerikanische Markt verfügte als erstes über Smart Speaker (erster Smart Speaker: Amazon Echo; Kinsella, 2022), sodass aktuelle Prognosen davon ausgehen, dass bereits über die Hälfte der Haushalte in den USA einen Smart Speaker nutzen (Loup Ventures, 2019; OC&C, 2018). In Deutschland hingegen besitzen ungefähr ein Drittel aller Haushalte einen Smart Speaker (OMD Germany, 2021) – Tendenz steigend (IDC, 2021). Die beliebteste Smart-Speaker-Marke sowohl in Deutschland als auch in den USA ist Amazon Echo (DE: 78 %, USA: 72 %), gefolgt von Google Home (DE: 14 %, USA: 26 %) und Apple HomePod auf Platz 3 (DE: 12 %, USA: 17 %) (Statista Global Consumer Survey, 2022a, b).

Theoretisch kann jede Person einen Smart Speaker oder Sprachassistenten steuern. Um jedoch eine kompetente und vor allem sichere Nutzung gewährleisten zu können, sind gewisse Grundkenntnisse und Kompetenzen hilfreich. In der Wissenschaft werden dafür erste Konzepte und Rahmenbedingungen formuliert und diskutiert (Carolus et al., u2023; Long & Magerko, 2020). Dazu zählt beispielsweise ein allgemeines Wissen zur Funktionsweise der Systeme oder ein grundlegendes Verständnis, wie künstliche Intelligenzen durch Daten lernen, aber auch beeinflusst werden (Carolus et al., 2023).

Eine ausführlichere Beschreibung der notwendigen Fähigkeiten und Kompetenzen für den selbstbestimmten und reflektierten Umgang mit sprachbasierter KI findest du hier auf unsrer Website

  • Carolus, A., Augustin, Y., Markus, A. & Wienrich, C. (2023). Digital interaction literacy model – Conceptualizing competencies for literate interactions with voice-based AI systems. Computers & Education: Artificial Intelligence.
  • Long, D. & Magerko, B. (2020). What is AI literacy? Competencies and design considerations. Proceedings of the 2020 CHI conference on human factors in computing systems, Honolulu, HI, United States. 

Smart Speaker bezeichnen eine Gerätegattung von mit dem Internet verbundenen Lautsprechern und Mikrofonen mit integriertem Sprachassistenten (Bedford-Strohm, 2017; Anke et al., 2019; Tas et al., 2019). Sprachassistenten sind ein KI-basiertes Dialogsystem, das Sprachbefehle ausführen und Fragen beantworten kann (Bendel, 2022).

  • Anke, J., Fischer, U. & Lemke, R. (2019). Integration digitaler Sprachassistenten in den Kundenservice am Beispiel der Stadtwerke Leipzig. In M. Michael, S. Halsbenning, D. Rätz, D. Richter & E. Schweighofer (Hrsg.), Digitalisierung von Staat und Verwaltung (S. 25-36). Köllen.
  • Bendel, O. (2022). Sprachassistent. In Gabler Wirtschaftslexikon. wirtschaftslexikon.gabler.de/definition/sprachassistent-123447
  • Bedford-Strohm, J. (2017). Voice First? Eine Analyse des Potentials von intelligenten Sprachassistenten am Beispiel Amazon Alexa. Communicatio Socialis, 50(4), 485–494. doi.org/10.5771/0010-3497-2017-4-485
  • Tas, S., Hildebrandt, C. & Arnold, R. (2019). Sprachassistenten in Deutschland (No. 441). WIK Diskussionsbeitrag. hdl.handle.net/10419/227052

"Alexa Skills sind sprachaktivierte Apps, die Ihr Alexa-fähiges Gerät um zusätzliche Funktionen ergänzen’’ (Amazon, o. D.). Sie ermöglichen beispielsweise das Bestellen von Nahrungsmitteln, das Vorlesen von Büchern, das Bezahlen von Rechnungen oder das Tracking von Lieferungen. Skills können auch von Drittanbietern entwickelt und auf der Alexa-Plattform angeboten werden (Lenz -Kesekamp & Weber, 2018). Andere Sprachassistenten bieten derzeit keine Drittanbieterapps an.

Die KI wird von den jeweiligen Unternehmen selbst entwickelt, daher ist über technische Informationen wenig bekannt (Amazon., (o. D.)). Smart Speaker nutzen jedoch Cloud Computing basierte KI. Das bedeutet, dass die KI in der Cloud läuft. Außerdem können Smart Speaker auf eine herstellereigene Cloud zugreifen, den sie als Datenspeicher nutzen.  Die KI verarbeitet die natürliche Sprache in Echtzeit (Natural Language Processing ) (Terzopoulos & Satratzemi, 2020).

Es gibt drei Kernelemente, die Smart Speaker von normalen Programmen unterscheidet: 

  1. Natural Language Processing (NLP) beschreibt die Fähigkeit eines Geräts menschliche Sprache zu verstehen und zu verarbeiten. Der Vorteil dabei ist, dass Smart Speaker in natürlicher Sprache kommunizieren können. 
  2. Die Fähigkeit auf eine Cloud und somit auf gespeicherte Informationen zuzugreifen und daraus neue Erkenntnisse zu ziehen (Terzopoulos & Satratzemi, 2020).
  3. Außerdem das sogenannte „machine leraning‘‘, bei dem die KI sich an neue Gegebenheiten anpasst und seine Leistung verbessert auf Grund von Erfahrungen und dem Erkennen von bereits bekannten Mustern (Terzopoulos & Satratzemi, 2020, Mitchell et al., 1990 ).

Mehr zum Thema Künstliche Intelligenz und KI in Sprachassistenten findest du hier auf unsrer Website.

Funktionsweise

Die Besonderheit von Sprachassistenten ist die Steuerung mittels menschlicher Sprache (Krol & Boßow-Thies, 2020). Üblicherweise nehmen die Mikrofone des Smart Speakers alle Spracheingaben und Umgebungsgeräusche auf und der Sprachassistent untersucht diese auf das Aktivierungswort („Wake Word“, z. B. „Hey Google“, oder „Alexa“). Wird dieses von dem Gerät erkannt, wird der Sprachassistent aktiviert, das Gesprochene aufgezeichnet und in die Cloud des Herstellers geschickt (Krol & Boßow-Thies, 2020; Terzopoulos & Satratzemi, 2020). Dort wird das Gesprochene in einen Text umgewandelt (Speech-To-Text). Dieser Text wird dann verarbeitet und interpretiert. Anschließend wird eine passende Textantwort erstellt, welche die Anfrage beantwortet (z. B. Wetterbericht) oder eine in Auftrag gegebene Funktion ausführt (z. B. Smart-Home-Steuerung) (Bedford-Strohm, 2017; Krol & Boßow-Thies, 2020; Terzopoulos & Satratzemi, 2020). Damit die nutzende Person eine Antwort auf eine gestellte Anfrage erhält, wird der Text wieder in Sprache (Text-To-Speech) umgewandelt und zu hören ist die Antwort des Sprachassistenten (Terzopoulos & Satratzemi, 2020). Ein ausführliche Beschreibung der Funktionsweise von Sprachassistenten befindet sich hier.

  • Krol, B. & Boßow- Thies, S. (2020). Akzeptanz von Sprachassistenten zur Steuerung von Smart Home Services. In R. Buchkremer, T. Heupel & O. Koch (Hrsg.). Künstliche Intelligenz in Wirtschaft & Gesellschaft: Auswirkungen, Herausforderungen & Handlungsempfehlungen (S. 517–541). Springer Gabler.
  • Terzopoulos, G. & Satratzemi, M. (2020). Voice assistants and smart speakers in everyday life and in dducation. Informatics in Education, 19(3), 473–490. doi.org/10.15388/infedu.2020.21
  • Bedford-Strohm, J. (2017). Voice First? Eine Analyse des Potentials von intelligenten Sprachassistenten am Beispiel Amazon Alexa. Communicatio Socialis, 50(4), 485–494. doi.org/10.5771/0010-3497-2017-4-485

Smart Speaker mit integriertem Sprachassistenten verfügen über eine Bandbreite an Funktionen. Angefangen beim Stellen eines Weckers, über das Vorlesen von Nachrichten und des Wetterberichts bis hin zum Online-Shopping. Zu den beliebtesten Funktionen zählen dabei das Streamen von Musik oder Hörspielen, das Stellen konkreter Suchanfragen über Suchmaschinen wie z. B. Google oder das Abfragen allgemeiner Informationen wie den Wetterbericht, Nachrichtenupdates oder Verkehrsinformationen (Comscore, 2019; Splendid Research, 2019; Statista, 2019). 

Um einen Sprachassistenten zu aktivieren, ist lediglich ein Aktivierungsbefehl notwendig (z. B. „Alexa“, „Hey Google“) (Lau et al., 2018). Zur Erkennung des Befehls müssen die Mikrofone des Smart Speakers dauerhaft aktiv sein und nach dem Befehl „lauschen“ (Lau et al., 2018). Die Hersteller versichern dabei jedoch, dass erst nach der Aktivierung des Smart Speakers durch den Sprachbefehl die Aufnahme, Weiterleitung, Verarbeitung und Speicherung des Gesprochenen erfolgt (Amazon, o. D.; Google, o. D.). Zudem bieten die Hersteller an, dass der gesamte Sprachverlauf überprüft sowie jederzeit gelöscht werden kann (Amazon, o. D.; Google, o. D.). Wer sich dennoch unwohl fühlt, kann zusätzlich das Mikrofon stummschalten.

  • Amazon. (o. D.). Datenschutzportal für Alexa. www.amazon.de/Datenschutzportal-f%C3%BCr-Alexa/b
  • Google. (o. D.). Google Nest. Für den Schutz Ihrer Privatsphäre zu Hause. safety.google/intl/de/nest/
  • Lau, J., Zimmerman, B. & Schaub, F. (2018). Alexa, are you listening? Privacy perceptions, concerns and privacy-seeking behaviors with smart speakers. Proceedings of the ACM on Human-Computer Interaction, 2(CSCW), 1-31. doi.org/10.1145/3274371
  • Krol, B. & Boßow-Thies, S. (2020). Akzeptanz von Sprachassistenten zur Steuerung von Smart Home Services. In R. Buchkremer, T. Heupel & O. Koch (Hrsg.). Künstliche Intelligenz in Wirtschaft & Gesellschaft: Auswirkungen, Herausforderungen & Handlungsempfehlungen (S. 517–541). Springer Gabler.
  • Terzopoulos, G. & Satratzemi, M. (2020). Voice assistants and smart speakers in everyday life and in education. Informatics in Education, 19(3), 473–490. doi.org/10.15388/infedu.2020.21

Der Sprachassistent wartet auf einen Aktivierungsbefehl (z. B. „Hey Google”), woraufhin das Gesprochene aufgenommen und an eine Cloud gesendet wird (Krol & Boßow-Thies, 2020; Terzopoulos & Satratzemi, 2020; Lau et al., 2018). Für den Zugriff auf die Cloud wird eine stabile Internetverbindung benötigt (Rose et al., 2015). Smart Speaker können zudem als Controller von Smart-Home-Geräten (z. B. Steuerung der Beleuchtung, Thermostat oder Rollläden) benutzt werden (Lau et al., 2018), wofür häufig ebenfalls ein Internetzugriff notwendig ist (Rose et al., 2015). Das bedeutet, um einen Sprachassistenten nutzen zu können, benötigt er eine Internetverbindung.

  • Lau, J., Zimmerman, B. & Schaub, F. (2018). Alexa, are you listening? Privacy perceptions, concerns and privacy-seeking behaviors with smart speakers. Proceedings of the ACM on Human-Computer Interaction, 2(CSCW), 1-31. doi.org/10.1145/3274371 
  • Krol, B. & Boßow-Thies, S. (2020). Akzeptanz von Sprachassistenten zur Steuerung von Smart Home Services. In R. Buchkremer, T. Heupel & O. Koch (Hrsg.). Künstliche Intelligenz in Wirtschaft & Gesellschaft: Auswirkungen, Herausforderungen & Handlungsempfehlungen (S. 517–541). Springer Gabler.
  • Terzopoulos, G. & Satratzemi, M. (2020). Voice assistants and smart speakers in everyday life and in education. Informatics in Education, 19(3), 473–490. doi.org/10.15388/infedu.2020.21
  • Rose, K., Eldridge, S. & Chapin, L. (2015). The internet of things: An overview [White paper]. The internet society. www.internetsociety.org/wp-content/uploads/2017/08/ISOC-IoT-Overview-20151221-en.pdf

Für die Installation und Einrichtung des Smart Speakers ist ein weiteres Gerät (Smartphone, Tablet) sowie die dazugehörige App notwendig. Sobald dieser Prozess jedoch abgeschlossen und der Smart Speaker mit dem Internet verbunden ist, kann dieser auch ohne das für die Installation verwendete Gerät verwendet werden. Die App dient weiterhin zur Verwaltung sowie Konfiguration des Smart Speakers und verfügt über verschiedene Funktionen (Amazon, o. D.; Google, o. D.).

Mikrofone von Smart Speakern sind standardgemäß dauerhaft aktiv. Zur Wahrung der Privatsphäre ist es bei den gängigen Geräten wie Amazon Echo jedoch möglich, die Mikrofone per Knopfdruck zu deaktivieren (Amazon, o. D.-a). Laut Herstellerangaben wird dadurch die Stromverbindung zum Mikrofon tatsächlich unterbrochen. Hierdurch ist eine Sprachaufzeichnung nicht mehr möglich (Amazon, o. D.-b). Zu erkennen ist eine aktive Stummschaltung durch ein rotes Signalisierungslicht (Amazon, o. D.-a).

Es kann verschiedene Gründe geben, warum der integrierte Sprachassistent nicht reagiert oder die Spracheingabe nicht korrekt versteht. 

Damit der integrierte Sprachassistent auf einen Sprachbefehl reagieren kann, muss er das Wake Word (z. B. “Hey, Google” oder “Alexa”) erkennen. Um das zu überprüfen, muss das Wake Word einmal gesagt werden. Falls der Smart Speaker das Wake Word erkannt hat und mit der Sprachaufzeichnung beginnt, erscheint bei Smart Speakern ein bläuliches Licht zusammen mit einem Signalton. Auf anderen Geräten mit Display wird der Sprachassistent dargestellt. Passiert dies nicht, dann wird das Wake Word nicht erkannt. Eine Einstellung der Empfindlichkeit kann Abhilfe schaffen (Google, o. D.-a). Über die Einstellungen in der zum Smart Speaker gehörenden App muss eingestellt werden, wie empfindlich das Gerät auf Ausdrücke wie das Wake Word und Umgebungsgeräusche reagiert (Google, o. D.-b). 

  • Leuchtet die Signalleuchte des Geräts rot? Dann ist das Mikrofon deaktiviert. Bestätigen Sie die Mute-Taste, um das Mikrofon wieder zu aktivieren. Ihr Sprachassistent sollte Sie nun wieder verstehen (Amazon, o. D.; Google, o. D.-a).
  • Falls der Smart Speaker eine andere Frage als die gestellte Frage beantwortet, dann kann eine Umformulierung der Frage zur Lösung des Problems beitragen (Google, o. D.; Amazon, o. D.).
  • Auch ein Neustart des Geräts kann Hilfe bringen. Hierfür einfach den Smart Speaker vom Stromnetz trennen und wieder anschließen (Google, o. D.-a; Amazon, o. D.).
  • Eine Veränderung der Position, an der der Smart Speaker aufgestellt ist, kann bei der Fehlerbeheung helfen. Wichtig hierbei: Smart Speaker mit Abstand zu Wänden, anderen Lautsprecher und Hintergrundgeräuschen aufstellen, sonst hört der integrierte Sprachassistent den Befehl womöglich nicht richtig (Amazon, o. D.). 

Eine akustische Anfrage (bspw.: „Hey Alexa‘‘) wird von dem Smart Speaker aufgenommen und auf die Cloud des Herstellers hochgeladen, um die Anfrage zu bearbeiten (Meng et al., 2021). Das Sprachprotokoll wird auf der Cloud gespeichert, ist für die besitzende Person transparent einsehbar und bei Bedarf auch individuell löschbar (Malkin et al., 2019). Weiterführende Befehle (Bsp.: „Hey Alexa, schalte das Licht an‘‘) werden ebenfalls auf eine Cloud hochgeladen (und gespeichert) und von dort an den Server weitergeleitet, der die Anfrage gestellt hat (Meng et al., 2021). Anfragen ins World Wide Web oder Online-Käufe werden auch bei Smart Speakern getrackt und analysiert und für gezielte Werbung des benutzten Accounts verwendet (Lau et al., 2018). Laut Herstellerangabe verarbeitet Alexa Musikwiedergabelisten, Alexa-to-do Listen und -Einkaufslisten in der Cloud, um Alexa auf die nutzende Person anzupassen (Amazon, o. D.). Allerdings werden diese personenbezogenen Daten auch an Dritte weitergegeben und für ,,target ads‘‘ verwendet (Iqbal et al., 2022)

  • Amazon. (o. D.). Alexa Nutzungsbedingungen. www.amazon.de/gp/help/customer/display.html
  • Malkin, N., Deatrick, J., Tong, A., Wijesekera, P., Egelman, S. & Wagner, D. (2019). Privacy attitudes of smart speaker user. Proceedings on Privacy Enhancing Technologies, 2019(4), 250-271. doi.org/10.2478/popets-2019-0068
  • Meng, N., Keküllüoğlu, D & Vaniea, K. (2021). Owning and Sharing: Privacy perceptions of smart speaker users. Proceedings of the ACM Human-Computer Interaction, 5(CSCW1), Article 45. doi.org/10.1145/3449119
  • Iqbal, U., Bahrami, P. N., Trimananda, R., Cui, H., Gamero-Garrido A., Dubois, D., Choffnes, D., Markopoulou, A., Roesner, F., Shafiq, Z. & (2022). Your Echos are heard: Tracking, profiling, and ad targeting in the Amazon smart speaker Ecosystem. Cryptography and Security, 1-18. doi.org/10.48550/arXiv.2204.10920

Durch „machine learning“ passt sich die KI der Sprachassistenten an die gegebenen Umstände an und verbessert sich selbst auf Basis von gesammelten Erfahrungen, gespeicherten Daten (Nutzerdaten) und bekannten Mustern, die ein bekanntes Schema abrufen (Terzopoulos & Satratzemi, 2020, Mitchell et al., 1990).

Laut Herstellerangaben lernt Alexa dazu, in dem sie personenbezogene Daten, in Form von gesprochenen Anfragen auf der Cloud des Herstellers hochlädt. Alexa speichert die Interaktionen auf der Cloud, um sich auf die nutzende Person zu personalisieren. Außerdem aktualisiert sich Alexa regelmäßig per Updates über die Cloud, um die neuste Software zu erhalten. (Amazon, o. D.). Ähnlich funktioniert Google Nest (Google, o. D.).

Privatsphäre

Smart Speaker und somit auch Sprachassistenten können durchaus ein Problem darstellen, wenn es um die Frage der Sicherheit geht. Generell können Hackerangriffe auf Smart Speaker nicht vollständig ausgeschlossen werden. Systemlücken werden zwar regelmäßig geprüft und geschlossen, doch neue Angriffsvektoren werden von Kriminellen höchst wahrscheinlich immer wieder gefunden werden (Park et al., 2019). Zu beachten gilt, dass nicht nur Hacker potenziell auf Ihr Gerät zugreifen können, sondern aufgrund mangelnder Sicherung via Passwort prinzipiell alle Personen in Hör- und Sprechweite auf den Smart Speaker zugreifen können (Augustin et al., 2022).

Durch die sogenannte Dolphin Attack können zudem auch Sprachbefehle gesendet werden, welche vom Nutzenden nicht einmal bemerkt werden (Park et al., 2019). Unter dieser Attacke wird ein Angriff auf einen Smart Speaker verstanden, bei dem Sprachbefehle in Form einer Ultraschallfrequenz gesendet werden, die das menschliche Gehör nicht wahrnehmen kann (Park et al., 2019; Chalhoub & Flechais, 2020). Der angegriffene Smart Speaker nimmt diese Frequenz dennoch als Sprachbefehl war. Hierdurch können jegliche Sprachbefehle an den Smart Speaker gesendet werden und eine anwesende Person bekommt hiervon nichts mit (Park et al., 2019). 

Grundlegend bietet die Cloud, die mit dem Smart Speaker gekoppelt ist und auf der die gestellten Anfragen der Nutzenden verarbeitet werden, nahezu unbegrenzte Ressourcen. Sie kann jedoch auch ein erhebliches Sicherheitsrisiko darstellen. In der Cloud finden sich eine Vielzahl personenbezogener Daten – wenn Angreifer Zugriff hierauf erhalten, können sie Zugang zu sensiblen Informationen erhalten. Wie an diesem Beispiel zu erkennen ist, wirken sich viele Sicherheitsprobleme auch auf die Privatsphäre der Nutzenden aus und stellen für diese ebenfalls ein Risiko dar (Edu et al., 2021).

  • Augustin, Y., Carolus, A. & Wienrich, C. (2022). Privacy of AI-based voice assistants: Understanding the users’ perspective. In G. Salvendy & J. Wei (Hrsg.), Lecture notes in computer science: Vol. 13337. Design, Operation and Evaluation of Mobile Communications (S. 309-321). Springer. https://doi.org/10.1007/978-3-031-05014-5_26
  • Chalhoub, G. & Flechais, I. (2020). “Alexa, are you spying on me?”: Exploring the effect of user experience on the security and privacy of smart speaker users. In Moallem, A. (Hrsg.), Lecture Notes in Computer Scienc: Vol. 12210. HCI for Cybersecurity, Privacy and Trust (S. 305-326) Springer. https://doi.org/10.1007/978-3-030-50309-3_21
  • Edu, J. S., Such, J. M. & Suarez-Tangil, G. (2021). Smart home personal assistants. ACM Computing Survey, 53(6), Article 116. https://doi.org/10.1145/3412383
  • Park, Y., Choi, H., Cho, S. & Kim, Y. G. (2019). Security analysis of smart speaker: Security attacks and mitigation. Computers, Materials & Continua, 61(3), 1075–1090. doi.org/10.32604/cmc.2019.08520

Smart Speaker und somit auch Sprachassistenten stellen durch die dauerhaft aktiven Mikrofone durchaus ein Privatsphärenrisiko dar. Je mehr der Vorteile genutzt werden, desto höher das Privatsphärenrisiko (Lau et al., 2018).

Wenn Smart Speaker mit integriertem Sprachassistenten aktiv sind, dann können Personen, die sich in Hör- und Sprechweite des Geräts befinden verbale Abfragen zu den gesammelten Daten stellen. Findet eine solche Abfrage durch eine fremde Person statt, dann kann diese eine Vielzahl an sowohl personenbezogenen  Informationen (beispielsweise Kalenderdaten, persönliche Interessen/Hobbys, Standortverläufe) als auch persönlichen Gesundheitsdaten (beispielsweise Schlafzeiten, Anzahl der Schritte) erhalten. Doch auch die Dienstanbieter können Einblicke in diese Informationen erhalten (Furey & Blue, 2019). Momentan ist noch mangelnde Transparenz und ein großes Defizit an Kontrolle über die Datenerfassung bei der Nutzung von Smart Speakern festzustellen (Iqbal et al., 2022). Oftmals geben Dienstanbieter der Geräte nicht ausdrücklich an, zu welchen Zwecken sie die empfangene Datenmenge verarbeiten und welche Methoden sie hierfür anwenden. Wie viele Rückschlüsse über die Nutzenden im Allgemeinen gezogen werden können, hängt davon ab, wie viele Informationen die nutzende Person tatsächlich von sich preisgibt und wie viele Konten und Anwendungen mit dem Smart Speaker verknüpft sind (Furey & Blue, 2019). Wird versehentlich das Wake Word ausgesprochen, wird das Gesprochene aufgezeichnet und in die Cloud des Anbieters geschickt. Wenn vertrauliche oder private Gespräche darunterfallen, dann stellt auch dies ein Privatsphärenrisiko da, denn es kann auch zu einem Abgreifen dieser Daten kommen (Edu et al., 2021). 

  • Edu, J. S., Such, J. M. & Suarez-Tangil, G. (2021). Smart home personal assistants. ACM Computing Survey, 53(6), Article 116. doi.org/10.1145/3412383
  • Furey E. & Blue, J. (2019). Can I trust her? Intelligent personal assistants and GDPR. International Symposium on Networks, Computers and Communications (ISNCC), 1-6. 10.1109/ISNCC.2019.8909098
  • Iqbal, U., Bahrami, P. N., Trimananda, R., Cui, H., Gamero-Garrido A., Dubois, D., Choffnes, D., Markopoulou, A., Roesner, F., Shafiq, Z. & (2022). Your Echos are heard: Tracking, profiling, and ad targeting in the Amazon smart speaker Ecosystem. Cryptography and Security, 1-18. doi.org/10.48550/arXiv.2204.10920
  • Lau, J., Zimmerman, B. & Schaub, F. (2018). Alexa, are you listening? Privacy perceptions, concerns and privacy-seeking behaviors with smart speakers. Proceedings of the ACM on Human-Computer Interaction, 2(CSCW), Article 102. doi.org/10.1145/3274371 

Hackerangriffe auf Smart-Speaker treten seit der Vermarktung der Geräte auf. Zwar werden Systemlücken regelmäßig überprüft und geschlossen, doch neue Angriffsvektoren werden von Kriminellen höchst wahrscheinlich immer wieder gefunden werden. Smart Speaker werden oft auf veralteten Android-Versionen aufgebaut, was bekannte und nicht gepatchte Sicherheitslücken anbietet, die von Hackern ausgenutzt werden können. (Park et al., 2019). Zu beachten gilt, dass nicht nur Hacker potenziell auf Ihr Gerät zugreifen können, sondern aufgrund mangelnder Sicherung via Passwort prinzipiell alle Personen in Hör- und Sprechweite des Geräts darauf zugreifen können (Augustin et al., 2022).

  • Augustin, Y., Carolus, A. & Wienrich, C. (2022). Privacy of AI-based voice assistants: Understanding the users’ perspective. In G. Salvendy & J. Wei (Hrsg.), Lecture notes in computer science: Vol. 13337. Design, Operation and Evaluation of Mobile Communications (S. 309-321). Springer. doi.org/10.1007/978-3-031-05014-5_26
  • Park, Y., Choi, H., Cho, S. & Kim, Y. G. (2019). Security analysis of smart speaker: Security attacks and mitigation. Computers, Materials & Continua, 61(3), 1075–1090. doi.org/10.32604/cmc.2019.08520

Bei einem Angriff auf das Betriebssystem des Smart Speakers nutzen Hacker bekannte oder unbekannte Sicherheitslücken im Betriebssystem. Smart Speaker, die das Android-Betriebssystem verwenden, sind oft auf einer älteren Version aufgebaut. Das stellt eine Sicherheitslücke dar, da es bekannte, aber nicht gepatchte Sicherheitslücken gibt, die von Hackern ausgenutzt werden können (Park et al., 2019).

Ein Angriff auf die Server-Applikation ist eine gängige Vorgehensweise von Hackern. Dabei wird ein Ton erzeugt, der von dem Smart Speaker wie ein Befehl wahrgenommen wird. Es wird unterschieden in ein Black-Box-Modell und ein White-Box-Modell.
Beim Black-Box-Modell werden Befehle erzeugt, die schwierig zu verstehen sind und dadurch effektiv gegen existierende Systeme. Der Hacker kennt das Spracherkennungssystem nicht.

Beim White-Box-Modell kennt der Hacker das Spracherkennungssystem und nutzt das, um Befehle zu formulieren, die einen Angriff gegen das System starten sollen (Park et al., 2019, Carlini et al., 2016).
 

Alle Interaktionsdaten mit Sprachassistenten werden in der Anbieter-Cloud gespeichert. Regierungsbehörden benötigen lediglich Zugriff auf diese Systeme und könnten auf diese Weise sensible Interaktionsdaten durchleuchten. In den meisten Ländern der Welt ist ein solcher Datenzugriff je nach Gesetzeslage lediglich in Ausnahmefällen und nur mit richterlichem Beschluss möglich  (Manzoor, J. A., 2021).

Exemplarisch kann ein Fall im US-amerikanischen Bundesstaat Arkansas angeführt werden, bei dem Ermittlungsbehörden aufgezeichnete Tonspuren als Beweis genutzt hat, um eine Anklage wegen Mordes zu unterstützen (Manzoor, J. A., 2021). Es gibt keine speziell zu Smart Speaker entwickelten Datenschutzgesetze, die regeln, auf welche Informationen die Regierung ohne Durchsuchungsbefehl zugreifen darf. Viele der Daten können ohne Beschluss einfach an die Regierung weitergegeben werden (hier handelt es sich um amerikanisches Recht) (Manzoor, J. A., 2021).

Unter der Prämisse, dass geschaltete Werbeanzeigen eine bestimmte Wirkung wie das Erzeugen einer Emotion, Einstellung ober Handlungsabsicht erzielen sollen, kann durchaus angenommen werden, dass Digitalkonzerne oder ihre Kunden die Rezipienten beeinflussen möchten. Brisanter wirkt der Umstand, weil die Diensteanbieter wie Amazon, Google und Apple bereits ausführliche Nutzerprofile ihrer Kundschaft verwalten und diese Daten für Personalisierung und gezielte Werbung verwenden (Laut et al., 2018), was Auswirkungen auf das Kaufverhalten haben kann (Choi & Lim, 2020).

  • Choi, J.-A. & Lim, K. (2020). Identifying machine learning techniques for classification of target advertising. Information & Communications Technology Express, 6(3), 175-180. doi.org/10.1016/j.icte.2020.04.012
  • Lau, J., Zimmerman, B. & Schaub, F. (2018). Alexa, are you listening? Privacy perceptions, concerns and privacy-seeking behaviors with smart speakers. Proceedings of the ACM on Human-Computer Interaction, 2(CSCW), Article 102. doi.org/10.1145/3274371 

Wie viele Rückschlüsse über die Nutzenden gezogen werden können, hängt davon ab, wie viele Informationen die nutzende Person tatsächlich von sich preisgibt und wie viele Konten und Anwendungen mit dem Gerät (Smart Speaker, Smartphone) verknüpft sind. Generell ist es aber möglich, dass eine Vielzahl an Rückschlüssen aus den Daten gezogen werden können. Dazu können sowohl personenbezogene Informationen (beispielsweise Kalenderdaten, persönliche Interessen/Hobbys, Standortverläufe) als auch persönliche Gesundheitsdaten (beispielsweise Schlafzeiten, Anzahl der Schritte) zählen. Hierdurch kann ein umfassendes Profil von Nutzenden entstehen (Furey & Blue, 2019). 

Doch auch allein schon aus dem Klang menschlichen Sprache kann viel herausanalysiert werden (Voice Analysis). So ist es inzwischen möglich, menschliche Emotionen nur auf Grundlage von Sprachverarbeitung zu erkennen und zu analysieren (Dasgupta, P. B., 2017). Zudem kann die menschliche Stimme, unabhängig von semantischen Informationen, als wertvoller Indikator dienen, um Untreue zu erkennen (Hughes & Harrison, 2017). Sogar der sozioökonomische Status, der sich in Sprachmustern widerspiegelt, kann abgeleitet werden (Kröger et al., 2020). Unklar ist jedoch, wie fortgeschritten die Technologie in diesen Bereichen ist und durch die mangelnde Transparenz der Datenverarbeitung von Seiten der Dienstanbieter ist zudem unklar, inwiefern diese Technologien in Bezug auf die Datenverarbeitung Anwendung findet (Furey & Blue, 2019; Iqbal et al., 2022). Zudem wird der Gefahr von unerwarteten Rückschlüssen aus Audiodateien weitgehend keine Beachtung geschenkt (Kröger et al., 2020). 

  • Dasgupta, P. B. (2017). Detection and analysis of human emotions through voice and speech pattern processing. International Journal of Computer Trends and Technology, 52(1), S. 1-3. 
  • doi.org/10.14445/22312803/IJCTT-V52P101
  • Furey E. & Blue, J. (2019). Can I trust her? Intelligent personal assistants and GDPR. International Symposium on Networks, Computers and Communications, S. 1-6. 10.1109/ISNCC.2019.8909098
  • Hughes, S. M., & Harrison, M. A. (2017). Your cheatin’ voice will tell on you: Detection of past infidelity from voice. Evolutionary Psychology, 15(2), Article 1474704917711513. doi.org/10.1177/1474704917711513
  • Iqbal, U., Bahrami, P. N., Trimananda, R., Cui, H., Gamero-Garrido A., Dubois, D., Choffnes, D., Markopoulou, A., Roesner, F., Shafiq, Z. & (2022). Your Echos are heard: Tracking, profiling, and ad targeting in the Amazon smart speaker Ecosystem. Cryptography and Security, 1-18. doi.org/10.48550/arXiv.2204.10920
  • Kröger, J. L., Lutz, O. HM., Raschke, P. (2020). Privacy implications of voice and speech analysis – Information disclosure by inference. In Friedewald, M., Önen, M., Lievens, E., Krenn, S. & Fricker, S. (Hrsg.), IFIP advances in information and communication technology: Vol. 576. Privacy and identity management. Data for better living: AI and privacy (S. 242-258). Springer. doi.org/10.1007/978-3-030-42504-3_16

Datenschutzverhalten

Zuerst ist es wichtig zu sensibilisieren, welchen Wert die Daten haben, die auf einem Smart Speaker gespeichert sind. Lediglich 8,89% der Befragten gaben an, dass sie sich, bei einer Sicherheitsverletzung Sorgen um ihre Daten auf dem Smart Speaker machen. 

Ein simpler, aber wichtiger Schutz ist, das Passwort regelmäßig zu wechseln und an niemanden drittes weiterzugeben (Yu et al., 2021).

Die meisten Menschen sind sich sehr wohl über den Wert mancher Daten bewusst, beispielsweise die ihres Online-Banking Accounts. Wenn es dieselben Schutzmechanismen und Sensibilisierungen für die Daten des Smart-Speakers gäbe, wie es bei Bank-Account Daten der Fall ist, könnten viele Sicherheitsrisiken reduziert werden (Jayatilleke et al., 2019).

Um vor Angriffe auf den Smart Speaker geschützt zu sein, gibt es Security-Analyse Programme, die solche Angriffe entdecken und den Smart Speaker davor schützen. Quasi wie ein Anti-Viren-Programm auf einem Computer. (Yu et al., 2021) 
 

  • Yu, R., Zhang, M. & Zhang, X. (2021). Smart home security analysis system based on the internet of things [Conference paper]. Proceedings of 2021 IEEE 2nd International Conference on Big Data, Artificial Intelligence and Internet of Things Engineering. doi.org/10.1109/ICBAIE52039.2021.9389849
  • Jayatilleke, A., Thelijjagoda, S. & Pathirana, P. (2019). Security awareness among smart speaker users [Conference paper]. Proceedings of the 2019 National Information Technology Conference. doi.org/10.1109/NITC48475.2019.9114497 

  • Der bestmögliche Schutz besteht darin, überhaupt erst keine Daten preiszugeben. Bei sensiblen Gesprächen sollte daher das Mikrofon des Smartphones oder Smart Speakers ausgeschaltet werden. Auch ist es ratsam, bewusst abzuwägen, welche Dienste tatsächlich mit dem Sprachassistenten verbunden werden sollen. Wer nicht vor hat, seine Termine oder E-Mails über den Sprachassistenten abzurufen, sollte diese Konten gar nicht erst über den Sprachassistenten einrichten.
  • Da Transkripte oder gar Audioaufzeichnungen der Sprachassistenteninteraktionen auf den Anbieterservern gespeichert werden, empfiehlt sich eine regelmäßige Kontrolle der Interaktionsdaten. Eingaben in Folge unbeabsichtigter Aktivierungen sollten genauso gelöscht werden wie sensible Informationen oder Eingaben von anderen Personen wie Kindern oder Gästen, die einer Datenverarbeitung nicht zugestimmt haben (Malkin et al., 2019). Darüber hinaus ist es oftmals möglich, Interaktionsdaten automatisch in regelmäßigen Abständen löschen zu lassen oder Audioaufzeichnungen gar nicht erst zu speichern.
  • Generell kann es dazu kommen, dass fremde Personen bei der Nutzung von Sprachassistenten in der Öffentlichkeit persönliche Informationen mit hören. Dies sollte den Nutzenden bewusst sein. Zudem können auch einige private Informationen mit allgemeinen Sprachbefehlen abgerufen werden, wenn sie zuvor hinterlegt wurden (Lau et al., 2019). Beispiel: Speicherung der privaten Adresse -> statt „Route zu (vollständige Adresse nennen) starten‘‘ könnte es dann heißen: „Starte Route nach Hause‘‘.  
  •  Befinden sich fremde Personen in Hör- und Reichweite von aktivierten Smart Speakern, dann können sie verbale Abfragen zu den gesammelten Daten stellen. Solch eine Abfrage kann viele personenbezogene Informationen offenlegen. Einige Dienstanbieter bieten für ihre Geräte jedoch eine Funktion an, damit die Stimme der hauptnutzenden Person erkannt wird und fremde Personen somit keinen Zugriff mehr auf das Gerät erhalten (beispielsweise Amazon für Geräte, die den Sprachassistenten Alexa integriert haben) (Furey & Blue, 2019). 
  • Ändern des Wake Words, damit der Sprachassistent auf Personen, die das Wake Word nicht kennen, nicht reagiert und somit keine Daten preisgibt.
  • Furey E. & Blue, J. (2019). Can I trust her? Intelligent personal assistants and GDPR [Conference paper]. Proceedings of the 2019 International Symposium on Networks, Computers and Communications. doi.org/10.1109/ISNCC.2019.8909098
  • Lau, J., Zimmerman, B. & Schaub, F. (2018). Alexa, are you listening? Privacy perceptions, concerns and privacy-seeking behaviors with smart speakers. Proceedings of the ACM on Human-Computer Interaction, 2(CSCW), Article 102. doi.org/10.1145/3274371 
  • Malkin, N., Deatrick, J., Tong, A., Wijesekera, P., Egelman, S. & Wagner, D. (2019). Privacy attitudes of smart speaker user. Proceedings on Privacy Enhancing Technologies, 2019(4), 250-271. doi.org/10.2478/popets-2019-0068