Im letzten KI-Treff haben wir uns mit dem Thema „Transkribieren mit KI“ auseinandergesetzt. Tabea Rief stellte die Transkriptionsfunktion von Microsoft Word 365 vor, die sich als äußerst nützlich für ansonsten zeitaufwändige, langwierige Arbeiten erweisen kann.

Transkribieren in Word

Wer ein Office 365-Abo hat, kann ganz einfach auf die Transkriptionen in Word zugreifen. Dazu muss die Online-Version von Word aufgerufen werden, indem man sich auf office.com mit den zum Abo gehörenden Nutzer:innendaten einloggt. Dort findet sich dann links in der Seitenleiste Word. Wenn man ein Dokument in dieser Online-Version von Word öffnet, ähnelt die Bedienoberfläche sehr dem gewöhnten Word auf dem eigenen PC. Hier findet man dann in der Menüleiste am oberen Rand das gewohnte Mikrofon, dass die Diktierfunktion bereithält. Die Option zum Transkribieren ist etwas versteckt, sie öffnet sich, wenn man unter dem Mikrofon den Pfeil nach unten anklickt.

Sobald die Transkription angewählt wurde, öffnet sich rechts im Dokument eine Seitenleiste. Dort kann die Sprache des Transkripts eingestellt werden und Nutzer:innen können entscheiden, eine bereits aufgenommene Datei hochzuladen (die erlaubten Dateiformate werden aufgelistet) oder direkt im Programm eine Tonaufnahme zu machen, die dann transkribiert werden soll. Als zeiteffizienter hat es sich herausgestellt, eine bereits fertige Aufnahme zu verwenden, anstatt ad hoc aufzunehmen. Sobald die Datei hochgeladen wurde, beginnt das Programm mit der Verarbeitung. Das kann, je nach Größe der Datei, einige Zeit beanspruchen, bei langen Tonaufnahmen durchaus auch mal 15 bis 20 Minuten – ein wenig Geduld ist also gefragt bei der Verwendung des Tools.

Dafür ist der Ergebnis dann auch entsprechend hochwertig: Word trennt nach Sprecher:innen und lässt die Auswahl, ob die Transkription die Zeitstempel mit anzeigen soll oder nicht. Die Spracherkennung ist beeindruckend gut, selbst die korrekte Einsetzung von Satzzeichen, die teilweise nur schwer an der Intonation der Sprechenden erkennbar werden, funktioniert überwiegend einwandfrei. Wie wir es schon von vielen KI-Tools kennen, bleibt natürlich dennoch Arbeit für uns als Nutzer:innen übrig: Es ist am Ende immer nötig, das Transkript selbst nochmal zu prüfen. Obwohl auch Fachbegriffe und Eigennamen zumeist gut erkannt werden, ist hier beispielsweise eine häufige Fehlerquelle gegeben. Dennoch schrumpft natürlich die Bearbeitungszeit einer langen Audiodatei von mehreren Stunden, die man mit abtippen verbracht hätte, auf die im Verhältnis kurze Zeit, die das Prüfen und Korrigieren einnimmt.

Einige Hinweise zum Gelingen

Vor einigen Wochen haben wir uns im KI-Treff ja bereits mit der Frage nach KI-Protokollen und automatischer Protokollierung von Veranstaltungen auseinandergesetzt. Bei unseren Tests mit Zoom Companion und Fathom AI sprachen wir bereits darüber, dass die KI große Schwierigkeiten hat, ein unstrukturiertes Gespräch zu erkennen und Sprecher:inne zu identifizieren, wenn mehrere Personen zugleich reden. Obwohl unserer Erfahrung nach die Transkriptionsfunktion von Word besser mit solchen Situationen umgehen kann, ist es trotzdem sehr geraten, die eigenen Audios bereits mit dem Gedanken an die automatische Transkription aufzunehmen. Je klarer und geordneter das aufgezeichnete Gespräch oder der aufgezeichnete Vortrag ist, desto weniger muss am Ende in der Transkription korrigiert werden. Eine besondere Herausforderung, die immer gezielt geprüft werden muss, ist auch das Verwenden englischer Begriffe in ansonsten deutscher Konversation. Hier schleicht sich (bei allen transkribierenden KIs) gerne ein Fehler ein, darauf gilt es also bei der Korrektur nochmal gesondert zu achten.

Außerdem gibt es einige technische Besonderheiten zu beachten, die wir beim Testen als Herausforderungen entdeckt haben:

  • Um die Transkriptionsfunktion zu nutzen, muss man office.com in Microsoft Edge oder Google Chrome aufrufen, alle anderen Browser werden nicht unterstützt.
  • Obwohl das M4A-Audioformat (das beispielsweise bei Aufzeichnungen mit dem iPhone) als unterstützt angegeben wird, hatten wir in unseren Tests immer wieder Probleme damit, oft wurden nur die ersten Sätze transkribiert. Wenn man die Datei ins MP3-Format konvertiert (das geht ganz leicht online), gibt es keine Probleme mit der Transkription mehr.

Transkriptionen im Vergleich

Eine andere KI, die natürliche Sprache verarbeiten und in Text verwandeln kann, ist OpenAIs Whisper. Mac User nutzen Whisper beispielsweise in Form der Anwendung MacWhisper. Das Programm kann auch als Protokoll-Werkzeug verwendet werden, indem eine Sprachaufzeichnung direkt im Programm gestartet wird und nach Abschluss der Aufnahme dort in eine Transkription verwandelt wird. Whisper ist praktisch, um die Eckpunkte eines Gesprächs festzuhalten – wir haben Whisper aber direkt gegen die Transkription von Word getestet und hier kann Whisper nicht annähernd mithalten. Whisper erkennt keine verschiedenen Sprecher:innen und gibt ein insgesamt weitaus chaotischeres, viel weniger gut strukturiertes und schlechter interpunktiertes Ergebnis aus.

Dazu gibt es natürlich der Fairness halber zu sagen: Wir haben MacWhisper in der kostenfreien Version getestet (und auch in der Vergangenheit schon oft genutzt). Die kostenpflichtige bietet deutliche leistungsstärkere KI-Modelle. Die Transkriptionsfunktion von Word ist natürlich nicht wirklich kostenlos, ohne kostenpflichtiges Office-365-Abo gibt es hierzu keinen Zugang. Da allerdings ein Office-Abo weit verbreitet und in vielen Zusammenhängen notwendig ist, ist der Vergleich mit einer kostenlosen Anwendung schon sinnvoll. Sicher nutzen viele bereits Office 365 und sicher ist die Bereitschaft, für etwa MacWhisper ein weiteres, nur zur Transkription nutzbares Abo abzuschließen, gering.

Anwendungsfälle und Praxisbeispiele

Besonders spannend sind automatische Transkriptionen sicher für diejenigen unter uns, die beispielsweise mit Interviews zu Forschungszwecken o.Ä. arbeiten. Ein ein-, zweistündiges Interview kann mit Word, auch unserer eigenen Praxiserfahrung nach, in etwas mehr als einer Stunde transkribiert und korrigiert werden. Aber auch Vorträge, eigene oder fremde (mit Zustimmung!) oder Lerngruppensitzungen, die ausgewertet werden sollen, können mit der Unterstützung dieses Tools ohne großen Zeitaufwand als Text zugänglich gemacht werden. In Zukunft wollen wir diese Funktion von Word auch nutzen, um uns nochmal der Frage nach automatisierten oder KI-unterstützten Protokollen zu widmen. Die saubere Übertragung mehrerer Sprecher:innen würde die weitere Verarbeitung durch KI für ein gutes, schnell erzeugtes Protokoll sicher erleichtern.

Im Vergleich von Words Transkribierungsfunktion mit Whisper stellte sich zwar Whispers klare Unterlegenheit in Sachen detaillierte Notation heraus, allerdings bieten auch die kostenfreien KI-Mitschriften von Whisper einen ersten Ansatzpunkt für Protokolle, bei denen es eher auf Eckpunkte und wesentliche Inhalte ankommt als auf genaue Protokollierung aller Sprecher:innen. Das Transkript von Whisper ist als Text nicht gut lesbar, aber aus unserer Praxiserfahrung funktioniert es zum Beispiel sehr gut, den Whisper-Text zu kopieren (oder als .txt-Datei zu exportieren) und an ChatGPT weiterzugeben, mit dem Prompt, aus diesen Gesprächsnotizen ein Stichwortprotokoll zu formulieren oder die wichtigsten Gesprächspunkte herauszuarbeiten. Das gibt Ergebnisse, die mindestens für die eigene Dokumentation absolut ausreichen, oftmals mit wenig Überarbeitung und Ergänzung auch darüberhinaus standhalten.

Im KI-Treff sprachen wir außerdem zu Transkription und Spracherkennung im weiteren Sinne auch über Möglichkeit, sich sozusagen selbst von ChatGPT transkribieren zu lassen. In der Smartphone-App von ChatGPT gibt es, signalisiert durch das übliche Mikrofon-Icon, die Möglichkeit, eine Sprachnachricht an ChatGPT zu senden. Während man spricht, schreibt ChatGPT bereits den Text mit, sodass mit Absenden der Nachricht schon eine sehr gelungene Transkription fertig ist. Diese Funktion hilft nicht nur bei der hands-free-Bedienung von ChatGPT, sondern auch dabei, die eigenen (manchmal unsortierten) Gedanken strukturiert festzuhalten. Als Praxisbeispiel im KI-Treff hatten wir eine Projektidee, die als Sprachnachricht an ChatGPT gegeben wurde – mit der Aufforderung, die Gedanken zu sortieren und einen strukturierten Arbeitsplan, möglichst schon ergänzt durch nächste Schritte, daraus zu erstellen. So entstehen aus dahingeredeten, mäandernden Vorüberlegungen schnell konkrete Handlungsansätze.

Unser Fazit

Während wir von den Funktionen von Zoom Companion vor einigen Wochen noch eher verhalten begeistert waren, überzeugen uns die Word-Transkriptionen vollkommen. Die Geschwindigkeit und Arbeitserleichterung, die hier erreicht werden kann, ist beeindruckend und die Qualität der Spracherkennung geht weit über andere von uns bisher getestete Tools hinaus. Wir sind gespannt, in welchen Zusammenhängen uns in Zukunft lästiges Abtippen von Word abgenommen werden kann! Denn einig waren wir uns alle: Wo solche monotonen Aufgaben wie transkribieren automatisiert werden können, bleibt für uns mehr Zeit, uns auf die Inhalte zu konzentrieren, für die wir das Transkript überhaupt erst anfertigen.