Wie bist du auf die Idee zu deinem Projekt gekommen?
Als ich 2017 das Modul »Gestaltung Kooperativer Systeme« überarbeitet, ergänzt und im Wintersemester zum ersten Mal in die Lehre überführt hatte, überlegt ich wie ich meine Lernangebote mehr an die Lebenssituation der Studierenden (bspw. Berufstätigkeit, Familie/Kinder) anpassen könnte. Eine zeitliche Flexibilisierung bezüglich der Abgabetermine von Einsendeaufgaben war ein erster Schritt in dieser Richtung. Auch den Übungsbetrieb konnte durch ich durch Gestaltungs-, Analyse- und Programmieraufgaben für jede der sieben Kurseinheiten breiter aufstellen. Der Kurstext als zentrale Lernressource blieb in seiner Form als PDF-Dokument von diesen Veränderungen jedoch unberührt. Ergänzend zu den traditionellen Studienbriefen produzierten viele Kollegen bereits Lernvideos und hatten damit Erfolg bei den Studierenden. Aus Sicht der Lernenden würden videografische Ressourcen sehr stark die Aufmerksamkeit binden. Bei der Betrachtung eines Videos sollte der Blick dem Bildverlauf und das Ohr den Ausführungen des Sprechers folgen. Folglich sind parallele Tätigkeiten beim videobasierten Lernen, wie auch bei der Textlektüre, nur sehr eingeschränkt möglich. Die Lernenden müssen entsprechende Zeiträume finden, in denen sie ihre volle Aufmerksamkeit auf das Lernen richten können. Falls der visuelle Kanal jedoch eine untergeordnete Rolle spielt, könnte man auf ihn verzichten. Der Produktionsaufwand würde sich verringern. Es würde genügen, die vorhandenen Studienbriefe zu vertonen und um die wenigen Bildmedien zu ergänzen. Aus Sicht der Lernenden ergeben sich weitere Vorteile:
- Modalität: Lernende haben die Wahl zwischen den Materialien in Textform (gedruckte Studienbriefe sowie PDFs) und den angereicherten Audiodokumenten.
- Parallelität: Auditive Informationen können beiläufig, d.h. parallel zu anderen Tätigkeiten (z.B. beim Sport sowie beim Fahren mit Bus, Bahn oder Auto) rezipiert und im Gehirn verarbeitet werden.
- Entlastung: Die Bespielung des auditiven Kanals kann für die Lernenden eine Entlastung darstellen, wenn sie zuvor sehr viel mit visuellen Informationen (z.B. bei der Bildschirmarbeit) konfrontiert waren.
- Ansprache: Lernende lernen durch die sprachliche Kommunikation ihre Lehrperson besser kennen. Umgekehrt, haben die Lehrenden die Möglichkeit, die Lernenden durch ihre Rhetorik und Betonung zum Lernen zu motivieren.
- Aussprache: Durch die auditive Vermittlung werden Fachtermini und ihre korrekte Aussprache vermittelt (ein häufiges Problem in der Informatik).
Trotz der Popularität von Hörbüchern, Podcasts und anderen sprachbasierten Audiomedien, spielen auditive Lernmedien in der Fernlehre bislang fast keine Rolle. Für mich persönlich war der Umgang mit Audio hingegen ein bekanntes Terrain. In meiner Zeit an der Uni Ulm hatte ich der Leidenschaft zur Produktion von Musik, Hörspielen und Radiosendungen in der Gruppe EMU und bei freeFM viel Zeit eingeräumt.
Welche Überlegungen lagen der Umsetzung des Projekts zugrunde?
Für die Umsetzung gab es drei zentrale Fragestellungen: Erstens die Frage, inwiefern sich die Vertonung mit Hilfe leistungsfähiger Text-to-Speech (TTS) Systeme automatisieren lässt, um einen für andere Lehrende anschlussfähigen Produktionsprozess zu erzeugen. Als zweites stand die Frage im Raum, wie sich die vielfältigen Inhalte der Kurstexte durch Audio und notwendige visuelle Ergänzungen im Sinne von Hyperaudio darstellen lassen. Die dritte Frage betraf die Konzeption und Realisierung eines prototypischen Hyperaudio-Players, der in der Lehre eingesetzt werden könnte.
Welche Herausforderungen sind dir während der Planung und der Durchführung begegnet?
Der Versuch den Text der ersten Kurseinheit vorzulesen und aufzunehmen, scheiterte am hohen zeitlichen Aufwand in der Postproduktion. Ein solches Vorgehen wäre im Kontext der FernUniversität somit kaum anschlussfähig, obwohl es immer noch weniger aufwendig ist als eine Videoproduktion. Sprachsynthesesysteme, insbesondere Text-to-Speech (TTS) stellen hier seit einigen Jahren eine Alternative dar.
Um einen Text in Sprache umwandeln zu können musste zunächst das Textdokument (ODF, LaTeX, Word) in die Synthetic Speech Markup Language (SSML) umgewandelt werden. Dabei galt es die Sprachqualität verschiedener Systeme (Google TTS, Amazone Dolly, Microsoft Azure) und den mannigfaltigen Ausgabestimmen miteinander zu vergleichen. Neben der sprachlichen Qualität unterschieden sich die Systeme in ihrem Vermögen, sprachliche Besonderheiten wie Pausen, Tonhöhe, Betonungen und Sprachwechsel in Form von Auszeichnungen in SSML zu berücksichtigen. Auch die Kodierung von zeitlichen Markern je Wort und Satz erschien wichtig, um später zusätzliche Inhalte anreichern zu können. Mit Hilfe Regulärer Ausdrücke habe ich einen einfachen Konverter programmiert, der LaTeX (und mittelbar auch ODF und Word) nach SSML konvertiert.
Im nächsten Schritt stand die Frage im Mittelpunkt, wie sich strukturierende und inhaltliche Elemente des Kurstextes klanglich repräsentieren lassen. Überschriften und Hervorhebungen konnten relativ einfach durch Pausen und Betonungen hörbar gemacht werden, während besondere Textabschnitte wie Auflistungen, Beispiele, Definitionen sowie Textrepräsentation wie Tabellen, Formeln und Abbildungen schwerer bzw. gar nicht zu übersetzen waren. Auflistungen lassen sich bspw. durch räumlich wirkende PAN-Effekte akustisch verdeutlichen. Für die Kennzeichnung besonderer Textabschnitte eigenen sich vorab definierte akustische Signale – so genannte Audio Cues. Symbole, die nicht durch eine Sequenz von Wörtern darstellbar waren, wurden als Bild aus dem Kurstext gelöst und zur betreffenden Zeit im Audiodokument sichtbar eingeblendet. Für den Hörer werden diese Einlassungen ebenfalls durch Audio Cues deutlich gemacht, so dass die visuellen Inhalte bei Bedarf auf dem Smartphone o.ä. abgerufen werden können. All dies wurde im Konverter berücksichtigt.
Im Ergebnis konnte die Produktion von synthetisch vertonten Kurstexten vollkommen automatisiert werden. Änderungen im Ausgangstext lassen sich somit binnen weniger Minuten in akzeptable Hörbücher umwandeln.
Im nächsten Schritt haben zwei Studierende in ihren Abschlussarbeiten Prototypen für Hyperaudio-Player entwickelt, welche im Stande sind, angereicherte Bildmedien zeitgenau einzublenden. Einer der Prototypen wurde als Moodle-Plugin, der andere als Progressive Web App implementiert. Aufgrund des Umfangs an Audio-Annotationen in Form von Kapitelmarken, Abbildungen, Tabellen, Formeln sowie nutzerseitigen Kommentaren bedarf es für diese Art von Player einer vertikalen Zeitleiste. Dieser Bruch mit der User-Interface-Metapher eines von links nach rechts verlaufenden Zeitstrahls konnte jedoch im Rahmen der Abschlussarbeiten nicht mehr umgesetzt werden.
Wie war die Reaktion der Studierenden?
Im Kurs Gestaltung Kooperativer Systeme konnte ich für jede Kurseinheit ein Tondokument mittels der funktional recht limitierten H5P-Elemente im Moodle-Kurs einsetzen. Im Verlauf der ersten sieben Wochen des Wintersemesters 2020/21 wurden die Tondokumente immer weniger aufgerufen (34, 14, 8, 5, 4, 4, 6). Trotzdem der hier betrachtete Kurs nur von 80 Studierenden belegt und von etwa 40 Studierenden aktiv und kontinuierlich bearbeitet wird, erscheint die Anzahl aktiver Nutzer relativ gering. Aufgrund der Forenmeldung war jedoch zu erkennen, dass das Bedürfnis bestand, die MP3-Dateien herunterzuladen, um sie unabhängig von Moodle ohne große Umstände abspielen zu können. Dies würde erklären, warum die Dateien zu Beginn des Semesters häufig und im Verlauf immer weniger bis gar nicht mehr aufgerufen wurden. Da H5P beispielsweise keine objektbezogenen oder zeitbezogenen Kommentare und Diskussionen unterstützt, gibt es für die Lernenden auch keinen Grund diese Kurskomponente nach dem Download noch einmal aufzurufen. Es ist jedoch davon auszugehen, dass das Angebot der vertonten Kurstexte im Rahmen der Prüfungsvorbereitung stärker in Anspruch genommen wird.
Die FEU-Kurswerkzeuge in Moodle ermöglichen leider keine Aussagen über die Gesamtzahl der aktiven Lernenden pro Woche. Eine genauere Analyse der Ressourcennutzung ist Lehrenden an der FernUniversität aufgrund einer m. E. unverhältnismäßig streng ausgelegten DSGVO nicht möglich. Vorstellbar wäre beispielsweise eine Analyse der einmal oder mehrmals abgespielten Segmente einer Audioressource. Daraus ersichtlich wäre dann, ob und wann die Lernenden die Wiedergaben abbrechen und welche Passagen sie übermäßig häufig nachhören.
Insgesamt begrüßten mehrere Studierende im Kursforum das Angebot der artifiziell vertonten Kurstexte und wünschten sich eine Ausweitung auf das gesamte Kursangebot. Ungeachtet dessen bemängelten einige Personen die Aussprache: „die Betonungen einzelner Silben sowie die Aussprache lassen einen immer wieder schmunzeln“. Die Betonung, Aussprache und rhetorische Gestaltung konnte bislang nur mit Hilfe statischer Regeln im SSML verankert werden. Eine flexible Nachbearbeitung durch Hebung und Senkung des Timbres im Verlaufe des Textes bzw. der Wiedergabezeit ist technisch vorstellbar, jedoch aufgrund der manuellen Arbeit zeitaufwendig. Sprachsynthesesysteme können menschliche Sprecher daher nur ausreichend, nicht jedoch zufriedenstellend ersetzen.
Was planst du noch für die Zukunft im Zusammenhang mit dem Projekt?
Das Lehr-Lern-Projekt hat den Weg für eine Reihe von möglichen Forschungs- Digitalisierungsprojekte geebnet:
- Integration in Textdarstellung in Moodle: Der SSML-Konverter bildete die Grundlage für einen HTML/Bootstrap-Konverter, mit dem aus Word- und LaTeX-Kurstexten Inhalte für ein auf das Lesen am Display optimiertes Moodle-Plugin namens Longpage erzeugt werden können. Dieses Plugin wird aktuell in zwei Moodle-Kursen eingesetzt.
- Hyperaudio-Player: Durch eine Kopplung der Textdarstellung und Audio-Wiedergabe lassen sich die Herausforderungen der Audio-Annotation von Zusatzinhalten auf die Darstellung und Annotation des Textes reduzieren. Während der Wiedergabe der Audioaufzeichnungen müsste dann lediglich die korrespondierende Textpassage hervorgehoben werden.
- Customizing der Stimmen: Synthetische Stimmen und artifizielle Geräusche können beim Hörer einen sehr unpersönlichen Eindruck hinterlassen. Mit bestimmten TTS-Systemen lassen sich charakteristische synthetische Stimmen – so genannten Voice Fonts – anhand von menschlichen Sprachaufzeichnungen erzeugen. Auf diese Weise könnten man individuelle und charakteristische Stimmen der Dozierenden erzeugen oder eine Reihe von Corporate Voices als Teil des Corporate Designs für die FernUniversität definieren. Letztere könnten durch ihren hohen Wiedererkennungswert zu einem Markenzeichen der Hochschule werden. In ähnlicher Weise könnten auch Jingles als Audio Cues produziert werden, anhand derer sich die Hochschule, einzelne Fakultäten und vielleicht auch bestimmte Lehrgebiete akustisch einprägsam darstellen ließen.
Einige dieser Ideen werden ich im Rahmen der laufenden D²L²-Forschungsprojekte APLE und LA DIVA sowie in Abschlussarbeiten weiter verfolgen.