Qualitative deutsche künstliche Sprachausgabe, auch bekannt als Sprachsynthese oder TTS (Text to Speech), also die Umwandlung von Text in Sprache sollte kein Privileg großer Technologiekonzerne sein! Sie sollte kostenlos, Open-Source sein und ohne Internetanbindung funktionieren um die Privatsphäre zu schützen und auch in Regionen ohne stabilen Internetzugang funktionieren.
Vision von Thorsten-Voice
Eine qualitativ hochwertige, KI basierte (künstliche Intelligenz), deutsche, künstliche TTS/Text-to-Speech Sprachausgabe, die offline erzeugt werden kann, sollte jedem Projekt kostenlos und ohne lizenzrechtliche Einschränkungen (Open-Source) zur Verfügung stehen.
An dieser Vision arbeiten Thorsten Müller und Dominik Kreutz seit Oktober 2019.
Die Stimmen.
Die Stimmen wurden mit künstlicher Intelligenz (KI) und tausenden Stimmaufnahmen von Thorsten Müller trainiert. Die künstlichen Sprachausgabe TTS-Stimmen wurden mit den Programmen Coqui TTS und Piper TTS erzeugt. Alle Thorsten-Voice Stimmen stehen unter freigiebigen Open-Source Lizenzen zur Verfügung. Eine Übersicht der Vor- und Nachteile der TTS-Stimmen ist hier zu finden.
Mögliche Anwendungsfälle
Die folgenden Aufzählungen sollen der Inspiration dienen und zeigen nur einige von vielen Einsatzmöglichkeiten von Thorsten-Voice auf.
- Content Creator und Entertainment
- Twitch-Streamer und YouTuber: Automatische Sprachausgabe für Benachrichtigungen, Chatnachrichten oder Rollenspiel-Charaktere
- Podcaster: Generierung von Audiokommentaren oder Einbindung von KI-Stimmen in Storytelling.
- Indie-Spieleentwickler: Vertonung von Charakteren oder Dialogen in Spielen.
- Bildungseinrichtungen und Inklusion
- Einsatz in Schulen und Universitäten, um Lerninhalte zugänglicher zu machen (bspw. im „Lernstick„).
- Unterstützung für Menschen mit Seh- oder Lesebehinderungen (Barrierefreiheit / Screen-Reader).
- Sprachunterstützung in Deutschkursen.
- Öffentliche und soziale Organisationen
- Stadtbibliotheken: Barrierefreie Hörbücher oder Informationsmaterialien für ältere Menschen und Menschen mit Einschränkungen.
- Museen und Kulturvereine: Lokale Audioguides für Ausstellungen oder Veranstaltungen.
- Kommunale Behörden: Erstellung barrierefreier Informationen für Bürger ohne datenschutzrechtliche Bedenken.
- Open Source Projekte und Unternehmen
- Sprachassistenten: Open Source Alternativen zu Amazon Alexa oder Google Home.
- Smarthome: Zur Ausgabe von Sprachansagen und Ankündigungen im eigenen intelligenten Zuhause.
- Vertonung von Werbevideos oder automatisierte Kundenansprache ohne Internetverbindung.
- Gesundheitswesen: Sprachassistenzsysteme in Arztpraxen, Kliniken oder für Patienten mit Beeinträchtigungen.
- Logistik und Industrie: Sprachansagen für Maschinensteuerung oder Arbeitsabläufe (z. B. in Lagerhallen).
- und viele weitere mehr!
Die Aufnahmen.
Keine KI-Modelle ohne gute Trainingsdaten. Für die künstlichen TTS-Stimmen zur Sprachausgabe habe ich über 30.000 Aufnahmen im Wave Format gemacht. Alle Aufnahmen stehen unter der CC0 Lizenz frei auf Zenodo und Huggingface zur Verfügung. Durch die freigiebige Lizenz eignen sie sich auch sehr für Wissenschaft und Forschung.
Thorsten-Voice auf Youtube.
Als Enthusiast für freie Sprachtechnologien betreibe ich seit einigen Jahren den „Thorsten-Voice“ Kanal auf Youtube. Hier veröffentliche ich regelmäßig Schritt-für-Schritt Anleitungen zu Open-Source Sprachtechnologien, News aus dem Bereich sowie gelegentlich Interviews mit faszinierenden Persönlichkeiten aus dem Bereich der freien Sprachausgabe.
Weitere Informationen
finden sich auf Github und auf dem Wikipedia Schwesterprojekt / Marjorie-wiki. Dort findet sich auch eine Liste von wissenschaftlichen Abhandlungen, welche Thorsten-Voice verwenden.
Gerne freue ich mich auch auf den Austausch mit anderen Enthusiasten aus dem Gebiet der künstlichen Intelligenz (KI) TTS Sprachausgabe über das Kontaktformular.