Drei Fragen an die Projektpartner von IICT

Das Projekt zielt insbesondere auf fünf Anwendungen im Kontext von Barrierefreiheit ab: Textvereinfachung, Gebärdensprachübersetzung, Gebärdensprachprüfung, Audiodeskription und gesprochene Untertitel.

Im Rahmen dieser Interviewreihe haben wir unseren Hauptpartnern drei Fragen zum Innosuisse-Projekt IICT gestellt.

Sarah Ebling, Leiterin der Gruppe «Language Technology for Accessibility» am Institut für Computerlinguistik der Universität Zürich (UZH) und Professorin für Barrierefreie Kommunikation an der Zürcher Hochschule für Angewandte Wissenschaften (ZHAW)

An welchen Themen/Bereichen arbeiten Sie im Rahmen des IICT-Projekts?

Ich bin bei IICT Projektleiterin. Mit meinen Teams an der UZH und der ZHAW bin ich an den Unterprojekten Textvereinfachung, Gebärdensprachübersetzung, Gebärdensprachprüfung und Audiodeskription beteiligt.

Welche Ergebnisse erwarten Sie am Ende des Projekts?

Für jedes der Unterprojekte haben wir versucht, sowohl eine eher unmittelbare als auch eine eher visionäre Innovation zu definieren. Im Bereich der Gebärdensprachübersetzung werden wir beispielsweise schon recht bald in der Lage sein, Warnmeldungen mithilfe eines digitalen Gebärdensprechers anzuzeigen. Dabei stützen wir uns auf das Paradigma der regelbasierten maschinellen Übersetzung und die Arbeit im Bereich der Gebärdensprachproduktion. Deep-Learning-basierte maschinelle Gebärdensprachübersetzung fällt ebenfalls in den Rahmen des Projekts; dieser Forschungszweig ist weitaus anspruchsvoller.

Wo sehen Sie die grössten Herausforderungen?

Da alle Unterprojekte bis zu einem gewissen Grad Deep-Learning-Techniken beinhalten, werden in jedem dieser Projekte grosse Datenmengen benötigt. Die Beschaffung dieser Daten und die Erzeugung künstlicher Daten im Rahmen der Datenerweiterung stellen eine Herausforderung dar.

Julien Torrent,
Head of Innovation am Icare-Institut

An welchen Themen/Bereichen arbeitet das Icare-Institut im Rahmen des IICT-Projekts?

Im Rahmen der Flagship-Initiative IICT arbeitet das Forschungsinstitut Icare am Unterprojekt 1 zur Textvereinfachung und am Unterprojekt 4 zur Audiodeskription und zu L2V.

Bei der Textvereinfachung geht es darum, eine Reihe von Algorithmen zu entwickeln, mit denen die Komplexität eines Textes reduziert werden kann. Dadurch soll er für eine möglichst grosse Zahl von Menschen verständlich werden, insbesondere für Menschen mit kognitiven Einschränkungen. Um Textvereinfachung weiter zu verbreiten, wird dieses Regelsystem sowohl manuelle als auch halbautomatische Korrekturen ermöglichen. Dadurch können die Benutzenden lernen, wie sie einen Text vereinfachen können. Schliesslich soll diese Praxis beim alltäglichen Verfassen von Texten zu einer Selbstverständlichkeit werden.

Bei Audiodeskription und L2V geht es darum, visuelle Inhalte für sehbehinderte oder blinde Menschen zugänglich zu machen. Wir arbeiten hier mit fortschrittlichen Technologien der künstlichen Intelligenz. Beispielsweise ermöglichen Transformatoren es, visuelle Informationen aus Videos zu extrahieren und den Inhalt in Text zu transkribieren. Dieser Text kann dann mithilfe von Sprachsynthese vorgetragen werden. Für den Prozess der Audiodeskription wird ein dynamischer Fluss an Aktivitäten eingerichtet. Dadurch kann der Operator diejenigen Bausteine auswählen, die er je nach den gewünschten Ergebnissen (Beschreibung des Kontexts, der Szenen und/oder der Mimik) aktivieren möchte.

Welche Ergebnisse erwarten Sie am Ende des Projekts?

Das auf angewandte Forschung spezialisierte Icare-Institut will in seine beiden laufenden Projekte fortschrittliche Technologien integrieren, um Fragen der Barrierefreiheit auf nationaler Ebene zu lösen. Ziel ist es, praktische Lösungen für Fachleute und Endverbraucher zu erhalten. Die Ergebnisse sollten so relevant sein, dass sie im Alltag genutzt werden können.

Wo sehen Sie die grössten Herausforderungen?

Eine der grössten Herausforderungen besteht darin, Wege zu finden, wie wir fortschrittliche KI-Technologien in praktische Anwendungen für Endnutzer integrieren können. Dabei müssen wir den richtigen Kompromiss zwischen Genauigkeit und Benutzerfreundlichkeit finden, was nicht immer einfach ist. Darüber hinaus müssen wir sicherstellen, dass der Einsatz von Künstlicher Intelligenz nicht gegen ethische Grundsätze verstösst, insbesondere im Hinblick auf Datenschutz und Privatsphäre der Nutzenden. In Unterprojekt 4 wurde durch eine eingehende Bedürfnisanalyse festgestellt, dass die Nutzenden eine Emotionen vermittelnde Beschreibung von Gesichtsausdrücken und Szenen erwarten. Dazu haben wir einen innovativen Ansatz umgesetzt, der bereits vielversprechende Ergebnisse liefert, mit einer Verbesserung von 15 Prozent gegenüber den bislang führenden Modellen. Diese Ergebnisse müssen noch verbessert und konsolidiert werden, aber die Aussichten sind sehr ermutigend.

Paul Anton Mayer,
Chief Digital Officer bei Capito

An welchen Themen/Bereichen arbeitet Capito im Rahmen des IICT-Projekts?

Capito nutzt Künstliche Intelligenz, um Informationen zu vereinfachen, sodass alle sie verstehen können. Dies ist die Vorarbeit für Unterprojekt 1, das die Grundlage für viele weitere Lösungen bildet.

Welche Ergebnisse erwarten Sie am Ende des Projekts?

Lösungen für eine inklusive Gesellschaft.
Für die folgenden Bereiche erwarte ich nicht nur wahrnehmbare und verständliche Informationen:

öffentlicher Rundfunk
öffentliche Verwaltung
Versicherungen und Bankenwesen

Ich verlange sie sogar. Unsere Gesellschaft braucht solche Lösungen.

Wo sehen Sie die grössten Herausforderungen?

Beim Datenmanagement und der Integration. Wir arbeiten mit künstlicher Intelligenz, wir sind also von Daten abhängig. Und Wertschöpfungsketten in diesem Bereich sind oft schwer zu pflegen und zu kontrollieren. Die Integration ist problematisch, da grosse, skalierbare Dienste sich oft nur schwer in bestehende Infrastrukturen integrieren lassen. Zudem stellt es eine Herausforderung dar, die bestehenden Vorschriften in unserem Tätigkeitsfeld einzuhalten. Aber zum Glück haben wir Strategien, um diese Herausforderungen zu meistern!

Dr. Mathew Magimai Doss,
Senior Researcher bei idiap Research Institute

An welchen Themen/Bereichen arbeitet Idiap im Rahmen des IICT-Projekts?

Im Rahmen des IICT-Projekts ist Idiap an zwei Unterprojekten beteiligt, und zwar

Unterprojekt 3: Gebärdensprachprüfung mit HfH, Idiap und der University of Surrey als Forschungspartnern sowie dem Schweizerischen Gehörlosenbund (SGB-FSS) als Umsetzungspartner. Dieses Unterprojekt befasst sich mit der Verarbeitung von Gebärdensprache mit dem Ziel, ein System zur Gebärdensprachprüfung zu entwickeln und in die Signwise-Plattform des SGB-FSS zu integrieren, das den Lernenden von Gebärdensprache automatische Rückmeldungen liefert. Die Forschungs- und Entwicklungsarbeiten konzentrieren sich auf die Deutschschweizerische Gebärdensprache (DSGS) und isolierte Gebärden.
Unterprojekt 5: gesprochene Untertitel mit Idiap als Forschungspartner und SWISS TXT als Umsetzungspartner. Dieses Unterprojekt befasst sich mit der Sprachverarbeitung. Ziel ist die Entwicklung einer Zusatztechnologie, die natürlich klingende, ausdrucksstarke Sprache für die von SWISS TXT generierten Untertitel erzeugt. Die Forschungs- und Entwicklungsarbeiten konzentrieren sich auf die Entwicklung von Sprachsynthese- und Sprachumwandlungssystemen für Englisch, Deutsch, Französisch und Italienisch.

Welche Ergebnisse erwarten Sie am Ende des Projekts?

In Unterprojekt 3 wollen wir auf der Signwise-Plattform die Bewertung von Gebärdensprachproduktionen auf der Ebene einzelner Gebärden automatisieren und adaptive Tests in einen rezeptiven Gebärdensprachtest einbauen.

Im Unterprojekt 5 erwarten wir eine Technologie zur ausdrucksstarken Sprachsynthese, die sich in Swissinfo (SWI), www.swissinfo.ch, integrieren lässt. So sollen die Videobeiträge von swissinfo.ch (SWI), die oft nur in der Originalsprache verfügbar sind, in anderen wichtigen Sprachen verfügbar werden. Eine zweite Anwendung ist die Zusammenfassung von Nachrichtenartikeln auf SWI. Diese beiden Anwendungen zielen auf eine wirksame Verbreitung von Informationen über die Schweiz ab. Indem sie Sprachbarrieren überwinden, tragen sie dazu bei, die Menschen für verschiedene Kulturen zu sensibilisieren.

Wo sehen Sie die grössten Herausforderungen?

Im Unterprojekt 3 wollen wir eine Gebärdensprachtechnologie nutzen, die im Rahmen der Sinergia-Projekte SMILE und SMILE-II des Schweizerischen Nationalfonds zur Förderung der wissenschaftlichen Forschung entwickelt wurde. Die grösste Herausforderung besteht darin, die Technologie aus kontrollierten Laborumgebungen auf reale Umgebungen zu übertragen, wo Hardware und Umfeld sich unserem Einfluss entziehen, und Lernende und Lehrende von der Technik zu überzeugen.

Mit den Fortschritten im Bereich von Deep Learning ist eine Sprachsynthese, die der Sprache echter Menschen ähnelt, deutlich einfacher geworden. Die Hauptschwierigkeit besteht darin, die Ausgabe solcher Sprachsynthesesysteme so ausdrucksstark wie bei Menschen zu machen. Dazu brauchen wir eine Sprachsynthesetechnologie, die feinstufig gesteuert werden kann und von unbefangenen menschlichen Zuhörern akzeptiert wird. Dies ist die Herausforderung von Unterprojekt 5.

Mehr Infos zu allen 15 Flagship-Initiativen von Innosuisse finden sich hier.

Robin Ribback

Innovation Manager
T +41 58 136 40 32

Florian Maillard

Junior Project Coordinator
T +41 58 136 43 05

Accesskeys

header