Überprüfung der Fakten

Sind gebärdende Avatare bereit für die reale Welt?

 

Wissenschaftliche Abhandlung von Rosalee J. Wolfe, PhD. ist Professorin an der School of Computing DePaul University in Chicago, Illinois, USA.

 

Fast täglich sehen wir Nachrichten, die begeistert Avatar-Technologien beschreiben, die von sich behaupten, Taubheit "überwinden" zu können. Auf den ersten Blick scheint es eine ermutigende Entwicklung für diejenigen in der Gehörlosengemeinschaft zu sein, die im Alltag regelmäßig mit Herausforderungen im Umgang mit der hörenden Welt konfrontiert sind. Weil es keine zertifizierten GebärdensprachdolmetscherInnen gibt, sind sie oft mit Barrieren in der Bildung und der Arbeitswelt konfrontiert, aber auch bei Ämtern und Behörden.

 

Unternehmen sind ebenso wie medizinische Einrichtungen, Schulen und Verwaltungsbehörden immer auf der Suche nach Wegen, um höhere Kosten für den Zugang zu Kommunikation und Information für gehörlose Menschen zu vermeiden. Für diese Institutionen scheint es so, als ob die automatische Übersetzung zwischen gebärdeten und gesprochenen Sprachen unmittelbar vor der Tür steht und die neue Technologie die Kosten für Barrierefreiheit auf ein Minimum beschränkt.

 

Die Frage ist also: „Ist die Avatar-Technologie so weit fortgeschritten, dass sie für den praktischen Einsatz bereit ist?“ Eine klare Diskussion dieser Frage ist unerlässlich, um die bestmögliche Nutzung der knappen Ressourcen zu ermitteln. Der Versuch, eine Technologie einzusetzen, bevor sie ausgereift ist, kann zu einer Zeit- und Geldverschwendung werden. Noch schlimmer ist, dass dadurch andere Errungenschaften gefährdet sind, wie z.B. Dolmetschdienste und Ausbildungsprogramme für DolmetscherInnen. Das Ergebnis kann frustrierend sein, z.B. eine Verringerung und nicht eine Erhöhung der Barrierefreiheit.

 

Die Diskussion in meiner Abhandlung konzentriert sich auf zwei Themen. Erstens soll folgende Frage erläutert werden: „Was ist die Avatar-Technologie der Gebärdensprache und was ist ihr Potenzial?“. Das zweite Thema ist eine Checkliste mit Fragen, wenn man auf eine Nachricht trifft, die einen technologischen Durchbruch bei Barrierefreiheit für gehörlose Menschen freudig versprechen.

 

Der Begriff „Gebärdende Avatare“ bezieht sich auf drei große Bereiche:

 

Es muss zwischen diesen drei Forschungsbereichen unterschieden werden, um die Wahrscheinlichkeit einer praxistauglichen Entwicklung zu verstehen.

 

1. Erkennen der Gebärdensprache. Dabei geht es um die Umwandlung von Gebärdensprache in schriftlichen Text in einer gesprochenen Sprache. Diese Methode verwendet eine Kamera und/oder eine 3D-Sensorik, um die Bewegungen einer gebärdenden Person aufzuzeichnen. Die Video- oder 3D-Daten werden in eine Darstellung der Gebärdensprache umgewandelt und von dort aus in eine schriftliche Form einer gesprochenen Sprache.

 

2. Gesprochene Sprache zur Übersetzung der Gebärdensprache. Dabei werden Techniken der natürlichen Sprachverarbeitung angewendet, um eine schriftliche Form einer gesprochenen Sprache in eine Textdarstellung einer Gebärdensprache umzuwandeln. Leider gibt es keine allgemein akzeptierte schriftliche Form von Gebärdensprachen, so dass es für diesen Schritt nicht möglich ist, lesbare Gebärden zu erzeugen.

 

3. Avatar-Darstellung der Gebärdensprachen. Das Ziel dieser Forschung ist es, die unleserliche Textdarstellung zu übernehmen und sie als animiertes Video mit einem Avatar darzustellen. Es sollen Gebärdenanimationen erstellt werden, die einen natürlichen Fluss haben und leicht verständlich sind.

 

Betrachten wir diese Bereiche nacheinander, um ihre Praxistauglichkeit zu analysieren.

 

1. Erkennen und Umwandeln der Gebärdensprache

 

Beim ersten Bereich müssen die vielen Variationen der Gebärdenstile berücksichtigt werden. Darüber hinaus können Gebärden ihre Form ändern, je nachdem, wie sie eingesetzt werden.

 

Weil die Gebärdensprachproduktion fließend variabel ist, beschränkte sich diese Technologie ursprünglich auf das Erkennen einer extrem kleinen Anzahl von Wörtern (Starner, Weaver, & Pentland, 1998).

 

Oft musste eine gebärdende Person spezielle Ausrüstung wie Datenhandschuhe oder einen Motion Capture-Anzug tragen. (Abhishek, Qubeley, & Ho, 2016). Andere Ansätze schränken das physische Erscheinungsbild und die Umgebung der gebärdenden Person ein (Koller, Zargaran, Ney, & Bowden, 2016). Derzeit liegt die Genauigkeit der besten Systeme zur Erkennung von kontinuierlichen Gebärden bei weniger als 70 Prozent. Sie können dies mit Google Voice vergleichen, das eine Genauigkeitsrate von 95 Prozent aufweist. (Protalinski, 2017). Aus diesen Erkenntnissen lässt sich schließen, dass das Erkennen von Gebärdensprachen eine nach wie vor zu erledigende Forschungsarbeit ist und für die praktische Anwendung nicht ausgereift ist.

 

2. Gesprochene Sprache zur Übersetzung der Gebärdensprache

 

Bei der mündlichen Übersetzung geht es hier um eine Umwandlung, jedoch in die umgekehrte Richtung der Gebärdenspracherkennung. Seit 25 Jahren werden Anstrengungen unternommen, um geschriebene Texte in Gebärdensprache umzuwandeln. Bei früheren Versuchen wurden Grammatikregeln verwendet, um eine syntaktische Struktur der Amerikanischen Gebärdensprache (ASL) zu konstruieren (Zhao, et al., 2000). Diese konzentrierten sich typischerweise auf sehr vorhersehbare Eingaben, die einem Skript folgten und ein begrenztes und parametrisiertes Vokabular verwendeten. Beispiele sind automatisierte Wetterberichte und Interaktionen mit einem Postbeamten oder Flughafensicherheitspersonal (Grieve-Smith, 2001) (Cox, et al., 2002) (Lancaster, et al., 2003).

 

Von da an gibt es Anstrengungen, die nach tiefer gehenden Konstrukten zur Darstellung von Sprache suchen, wie z.B. die Verwendung einer Interlingua zwischen gesprochener und gebärdeter Sprache. (Veale, Conway, & Collins, 1998) (Huenerfauth, Marcus, & Palmer, 2006). In jüngster Zeit scheint dieser Ansatz an Bedeutung verloren zu haben, da das Feld der automatischen Übersetzung korpusbasierte Techniken umfasst. Ein Korpus ist eine Sammlung von Texten, die zuvor von erfahrenen menschlichen ÜbersetzerInnen in mehrere Sprachen übersetzt wurden. Es kann dann ein neuer Text von einer Sprache in eine andere umgewandelt werden, indem der Korpus durchsucht wird. Beispiele für diesen Ansatz sind Google Translate (Johnson, et al., 2017) und DeepL Translator (DeepL GmbH, 2019).

 

Korpusbasierte Techniken können Übersetzungen mit einer Genauigkeit von 80-90 Prozent erzeugen (Popescu-Belis, 2019). Ihr Erfolg hängt davon ab, dass riesige Mengen an Text zu analysieren sind (Maucec, Brest, & Kacic, 2005). So hat beispielsweise Europarl, ein historischer Korpus von elf gesprochenen Sprachen, über 300 Millionen Wörter (Koehn, 2005). Solche großen Unternehmen gibt es jedoch noch nicht für Gebärdensprachen. Das größte Gebärdensprachkorpus beträgt derzeit weniger als 0,5 Prozent von Europarl (Konrad, 2018). Es wird noch viele Jahre dauern, bis die Größe der Gebärdensprachkorpora mit der Größe der gesprochenen Korpora konkurrieren kann und gebärdete bzw. gesprochene Übersetzungen die gleichen Genauigkeitsraten ergeben wie derzeit bei automatischen Übersetzungen zwischen zwei gesprochenen Sprachen.

 

Diese Methode ist jedoch nur für einen begrenzten Bereich bis zur Praxistauglichkeit ausgereift. Es ist praktisch in Situationen, in denen die Kommunikation in eine Richtung erfolgt, d.h. von der gesprochenen Sprache zur Gebärdensprache und der gesprochene Text einem Skript folgt, das sehr vorhersehbar ist. Beispiele dafür sind vorab aufgezeichnete Kundenansagen in Bahnhöfen oder Hotels.

 

Mit dieser eine Ausnahme ist auch der zweite Bereich, und zwar die Übersetzung gesprochener Sprachen in eine Gebärdensprache, noch in Arbeit und bedarf weiterer Forschung. Das entspricht auch der Position des Weltverbandes der GebärdensprachdolmetscherInnen (WASLI) und des Weltverbandes der Gehörlosen (WFD) über die Einsatzmöglichkeiten der Avatar-Technologie (WFD, 2018).

 

3. Avatar-Darstellung der Gebärdensprachen

 

Es ist eine Tatsache,  dass die Technologie der gesprochenen Übersetzung hinter der Übersetzung der gesprochenen Sprache zurückbleibt. Damit wird begründet, dass die Darstellung der Gebärdensprache über den Avatar erforderlich ist. Das ist der letzte der drei Forschungsbereiche. Ein Avatar-Display, das vom Forschungslabor für die praktische Anwendung zugelassen wird, muss die zwei Eigenschaften (Natürlichkeit und Lesefreundlichkeit) garantieren können.

 

Die Darstellung von Avataren ist seit fast 40 Jahren ein aktives Forschungsgebiet (Poizner, Bellugi, & Lutes-Driscoll, 1981). Die Forscher begannen mit einfachen Strichmännchen und haben die realistische Darstellung seitdem weiter verbessert. Obwohl ein einzelnes Abbild von vielen der heutigen Avatare recht ansprechend aussehen kann, ist der Schlüssel zu ihrer Effektivität die Art und Weise, wie sie sich bewegen und wie gut sie nicht-manuelle Gesichtssignale darstellen. Da wesentliche Informationen in Gebärdensprachen über das Gesicht vermittelt werden, sollte ein gebärdender Avatar ein so agiles und ausdrucksstarkes Gesicht haben wie eine gehörlose gebärdende Person. Aktuelle Avatare sind lediglich in der Lage, einige der Mundbewegungen der weltweiten Gebärdensprachen (Brumm, Johnson, Hanke, Grigat, & Wolfe, 2019) zu produzieren. Dieser Mangel an Fähigkeiten begrenzt die Vielfalt der Sätze, die sie produzieren können.

 

Wenn die Bewegungsabläufe eines Avatars – ähnlich den Bewegungsabläufen einer menschlichen gebärdenden Person – natürlich und fließend wären, dann wäre der Avatar leicht verständlich. Das Verständnis der aktuellen Avatare variiert stark, je nachdem, was gebärdet wird. Für einzelne Wörter haben Studien Verständnisraten von über 90 Prozent berichtet (Ebling, et al., 2017), aber für ganze Sätze liegen die Verständnisraten im 60 Prozent-Bereich (Smith & Nolan, 2016).

 

Die allerbesten Avatare von heute sind also in der Lage, extrem kurze Sätze zu produzieren, die gute Chancen haben, verstanden zu werden. Für begrenzte Anwendungen kann diese Technologie für den praktischen Einsatz mit vorab aufgezeichneten Kundenansagen in Bahnhöfen oder Hotels verwendet werden. Damit können auch isolierte Wörter in einem Wörterbuchformat produziert werden, um hörende Schülerinnen und Schüler in der Dolmetschausbildung zu unterstützen.

 

Vor diesem Hintergrund über die Relevanz der drei Aspekte der Technologie der gebärdenden Avatare sind diese wichtigen Fragen zu stellen, wenn man in den Medien eine Erfolgsmeldung liest:

 

1. Wo wird die Technologie derzeit eingesetzt? Geht es nur um einen erfolgreichen Test in einem Forschungslabor oder ist es eine Anwendung, die in einer realen Situation eingesetzt wird?

 

2. Was wird von der Technologie erwartet? Es gibt viele Situationen, wie z.B. Klassenzimmer und Arztbesuche, in denen die automatische Übersetzung einfach nie menschliche DolmetscherInnen ersetzen wird. Ihr Wissen über Kultur, Geschichte und Kontext trägt alle zu einer effektiven Übersetzung bei, und das geht über das hinaus, was eine automatische Übersetzung leisten kann.

 

3. Stimmt die Überschrift des Pressetextes genau mit dem Inhalt des Textes überein? Eine Überschrift kann so spannend sein, um die Aufmerksamkeit auf den Text zu lenken.

 

4. Wie hoch ist die Beteiligung von gehörlosen Menschen bei der Entwicklung der Avatar-Technologie? Wird die Gruppe von einer gehörlosen Forscherin bzw. einem gehörlosen Forscher geleitet? Gibt es gehörlose Forscherinnen und Forscher im Team? Die Perspektive von gehörlosen Menschen ist in jedem Projekt – bei dem es um Barrierefreiheit für gehörlose Menschen geht – von wesentlicher Bedeutung.

 

5. Enthält der Pressetext ein Zitat bzw. eine Meinung von einer gehörlosen Person? Die Meinungen der hörenden Personen sind unerheblich. Wenn es sich bei einer Technologie um eine Technologie handelt, die von der Gehörlosengemeinschaft verwendet wird, dann sollte die Gehörlosengemeinschaft konsultiert werden.

 

Abschließend sei gesagt, dass die Antwort auf die Frage „Sind gebärdende Avatare bereit für die reale Welt?“ „größtenteils noch nicht“ lautet. Wenn jedoch mehr gehörlose Forscherinnen und Forscher an der Entwicklung dieser Technologie beteiligt sind, ist die Wahrscheinlichkeit größer, dass mit Hilfe der neuen Technologie die kleinen, alltäglichen Sprachbarrieren kleiner werden.

 

(Übersetzung: Lukas Huber, Daniela Almer; Quellenangaben im pdf)

 

Text als pdf

Originaltext in englischer Sprache