Für Eventagenturen, Marketing/HR und die öffentliche Hand

So gelingt die Untertitelung von Videos und Livestreams

Michael Westphal

Michael Westphal

Lesefortschritt

Die Untertitelung von Videos kann manuell und damit mühsam, oder automatisiert stattfinden. Bei der automatisierten Übersetzung von Sprache zu Wörtern wird künstliche Intelligenz (KI) eingesetzt. Je nach System ist die KI bis zu 70 mal schneller als ein Mensch. Während der Mensch bei der Erstellung der Texte Zeile um Zeile schon eine Fehlerkorrektur durchführt, kann es bei der Verwendung der KI notwendig sein, noch einmal ein manuelle Korrektur durchzuführen.
 
Wie die automatische Untertitelung arbeitet
 
Die automatische Untertitelung arbeitet einem Sprache-zu-Text genannten Prozeß. Vereinfacht dargestellt funktioniert das so: Das Gesprochene wird analysiert und eine Art „Audio-Fußabdruck“ erstellt. Diesem Muster wird nur ein Wort zugeteilt. Viele abgespeicherte Muster ergeben den Wortschatz des Systems. Bei der Erkennung überprüft nun das System welche erkannten Audiomuster mit den im Wortschatz vorhandenen übereinstimmen. Dabei wird auch die Logik berücksichtigt, dass gewisse Wörter bestimmte Wörter in ihrer Begleitung haben. Einem Artikel folgt häufig einem Hauptwort. Eher falsch wäre es einem Artikel einen Artikel anzuhängen. Damit diese Systeme optimale Ergebnisse erzielen können, müssen sie trainiert werden. Das geschieht durch die Eingabe von korrigiertem Material.
 
Die Arbeitsschritte
 
1. Video hochladen, Sprache aussuchen, Untertitel erstellen lassen
2. Den Text der Untertitel ggfs. mit einem Online Editor bearbeiten
3. Video mit Untertitel so einbinden, dass dieser sofort angezeigt wird
 
Zielgruppe der Untertitelung
 
Behinderte Menschen
Im Rahmen der Barrierefreiheit haben Zuschauer mit Behinderung Anspruch auf Untertitel. Öffentliche Stellen sind sogar verpflichtet, ihre Inhalte barrierefrei anzubieten, damit den Menschen mit Behinderung keine Informationen vorenthalten werden. In öffentlich-rechtlichen Medien wird ein Großteil der Inhalte inzwischen untertitelt.
 
Mobile Nutzer
Mobile Nutzer sind oft mit ausgeschaltetem Ton unterwegs, hier hilt der Untertitel den Inhalt auch für Hörende zu vermitteln.
 
Grenzen der automatischen Untertitelung
 
Musik
Bei der Erkennung des Gesprochenen sind Nebengeräusche störend. Nahezu unmöglich wird die Erkennung bei Musik als Hintergrundgeräusch. Die Erkennungsrate der Übersetzung von Sprache zu Text kann hier gegen Null gehen, und die Qualität der Untertitel deutlich leiden.
 
Dialekte
Dialekte sind wie eigene Sprache zu sehen. Und auch innerhalb der Dialekte gibt es zahlreiche Varianten, die eine Erkennung erschweren würden. Da die Erstellung von Sprachmodellen sehr aufwendig ist, hat sich die Industrie auf die wichtigsten Sprachen der Welt, immerhin 192 an der Zahl konzentriert. Das ist auch ein Grund, warum Englisch mit ca. 900 Millionen English Verstehenden eine bessere Erkennung bietet als Deutsch mit ca. 130 Millionen Deutsch Verstehenden.
 
Erstes Video untertiteln lassen

de_DEGerman