Kategorien
Allgemeines Blabla

Neues „Thorsten“ TTS Modell verfügbar 🥳

Ihr habt abgestimmt und euch für „Variante 2“ entschieden. Das neue Modell ist seit heute per Coqui 🐸 TTS Version 0.8.0 direkt einsetzbar. Danke für eure Rückmeldungen und eure Unterstützung auf dem Weg zu diesem neuen Modell 😊.

Großer Dank gilt natürlich auch meinem mehrjährigen TTS-Weggefährten Dominik und allen weiteren TTS Enthusiasten 👏.

pip install TTS==0.8.0
tts-server --model_name tts_models/de/thorsten/tacotron2-DDC
http://localhost:5002
Kategorien
Allgemeines Blabla

Welches TTS-Modell klingt besser?

Ich bin langsam „betriebstaub“, daher brauche ich etwas hilfe von Dir. Aktuell habe ich zwei neue TTS Modelle trainiert, aber nur einer davon wird es in die Veröffentlichung schaffen.

Daher die Frage – welche Variante gefällt besser?

Variante 1

In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön; aber die jüngste war so schön, daß die Sonne selber, die doch so vieles gesehen hat, sich verwunderte, sooft sie ihr ins Gesicht schien. (Quelle: Der Froschkönig)
Heute ist Sonntag, der vierzehnte August. Die aktuelle Außentemperatur ist einfach nur sehr hoch. Am besten hilft heute ein kühles und leckeres Eis.
Russland will nach britischer Einschätzung seine Truppen in der Südukraine verstärken. Frankreichs Präsident Macron hat das Ratifizierungsprotokoll für den NATO-Beitritt Finnlands und Schwedens unterzeichnet. Die Entwicklungen im Liveblog. (Quelle: Tagesschau)
Das weiß ich nicht, aber ich lerne jeden Tag neue Dinge.

Variante 2

In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön; aber die jüngste war so schön, daß die Sonne selber, die doch so vieles gesehen hat, sich verwunderte, sooft sie ihr ins Gesicht schien. (Quelle: Der Froschkönig)
Heute ist Sonntag, der vierzehnte August. Die aktuelle Außentemperatur ist einfach nur sehr hoch. Am besten hilft heute ein kühles und leckeres Eis.
Russland will nach britischer Einschätzung seine Truppen in der Südukraine verstärken. Frankreichs Präsident Macron hat das Ratifizierungsprotokoll für den NATO-Beitritt Finnlands und Schwedens unterzeichnet. Die Entwicklungen im Liveblog. (Quelle: Tagesschau)
Das weiß ich nicht, aber ich lerne jeden Tag neue Dinge.

This poll is no longer accepting votes

Welche "Thorsten" TTS Variante gefällt Dir besser?
Abstimmen
Kategorien
Allgemeines Blabla

Thorsten-Voice als Fallbeispiel: Neuer Artikel auf Golem.de zur Erstellung eigener TTS-Stimmen

Im Artikel „Die eigene Stimme als TTS-Modell“ von Golem.de wird der Ablauf zur Erzeugung einer eigenen TTS-Stimme beschrieben. Als Vorlage dient die Erzeugung meiner Thorsten-Voice Stimme. Ich möchte diese Gelegenheit nutzen, um tiefer in meine persönlichen Erfahrungen einzutauchen und einige Einblicke zu teilen, die im ursprünglichen Artikel nicht enthalten waren.

Der Anstoß

Meine Faszination für Text-to-Speech (TTS) Technologie begann schon vor einiger Zeit. Als ich von der Möglichkeit hörte, eine eigene, personalisierte Stimme zu erstellen, war ich sofort Feuer und Flamme. Der Gedanke, dass meine eigene Stimme digitalisiert und für verschiedene Anwendungen genutzt werden könnte, war gleichermaßen aufregend wie herausfordernd.

Der Prozess

Der Weg zur Thorsten-Voice war keineswegs einfach. Es begann mit stundenlangen Aufnahmesessions, in denen ich zahlreiche Sätze und Phrasen einsprach. Die Herausforderung bestand darin, konsistent zu bleiben – in Tonlage, Geschwindigkeit und Aussprache. Oft musste ich Passagen wiederholen, weil sich ein Räuspern eingeschlichen hatte oder die Betonung nicht stimmte.

Nach den Aufnahmen folgte die technische Verarbeitung. Hier zeigte sich, wie komplex die Erstellung eines TTS-Modells tatsächlich ist. Das Training des Modells nahm mehrere Tage in Anspruch, währenddessen mein Computer ununterbrochen arbeitete.

Fazit

Die Erstellung der Thorsten-Voice war eine lehrreiche und spannende Erfahrung. Sie hat mir nicht nur technisches Wissen vermittelt, sondern auch einen neuen Blick auf die Einzigartigkeit der menschlichen Stimme gegeben. Ich kann jeden, der sich für TTS-Technologie interessiert, nur ermutigen, sich an einem solchen Projekt zu versuchen. Es ist faszinierend, herausfordernd und überaus lohnend.

Kategorien
Allgemeines Blabla

🗣️ Neue Version der Deutschen „Thorsten“ TTS Stimme veröffentlicht 🎉

JAHRE der Passion für offene Sprachtechnologien,
MONATE Aufnahmesessions am Mikrofon,
WOCHEN Rechenzeit für das Modell Training,
TAGE für die Audio Optimierung,
STUNDEN der Verzweiflung.

All dies, für den EINEN MOMENT, die nächste Version der offenen, künstlichen, deutschen, offline-fähigen „Thorsten-Voice“ mit Euch zu teilen!

Die neue Version basiert auf einem komplett neu aufgenommen Sprachdatensatz (Thorsten-22.05-neutral).

Es wurde mit Coqui 🐸 TTS erstellt und es handelt sich um ein VITS Modell (nur als Info für die TTS-Insider).

tl;dr

- pip install tts==0.7.1
- tts-server --model_name tts_models/de/thorsten/vits
- Open webbrowser on http://localhost:5002

Jetzt wünschen wir euch viel Spaß
🗣️🎉😄

Dominik & Thorsten

Kategorien
Allgemeines Blabla

Vergleich „Thorsten“ aktuell mit dem neuen Modell

Das neue Modell ist noch nicht verfügbar.

Gesprochen wird der Satz:

Dieser Satz dient als Vergleich zwischen dem bestehenden Thorsten Modell und dem Modell, welches aktuell noch erarbeitet wird.

Aktuelles Thorsten Modell (Tacotron2 DCA + Fullband MelGAN Vocoder)
Work-in-progress Thorsten Modell (Tacotron2 DDC + HifiGAN)
Kategorien
Allgemeines Blabla

Hörproben der neuen „Thorsten“ Stimme mit Mycroft Skill Texten

Dominik und ich experimentieren weiterhin um die bestmögliche TTS-Konfiguration zu finden aber so klingt der aktuelle Stand mit Sätzen von Mycroft Skills.

“Bitte warte einen Moment, bis ich fertig mit dem booten bin.”
“Ich bin jetzt bereit.”
“Ich verstehe das nicht, aber ich lerne jeden Tag neue Dinge.”
“Es ist im Moment klarer Himmel bei 18 Grad.”
“Mein Name ist Mycroft und ich bin funky.”
Kategorien
Allgemeines Blabla

Hörproben neues „Thorsten“ Modell

Nachdem ich (erneut) Monate meiner Freizeit für Audioaufnahmen investiert habe (dieses Mal mit gutem Mikrofon und Aufnahmesetup) und Dominik seine „Audio-Magic“ angewendet hat ging es für uns beide richtig los.

Wir haben diverse Konfigurationen ausprobiert (und machen das auch aktuell noch). Dennoch möchten wir euch heute einen aktuellen Stand vorstellen.

  • > 12.000 mono Aufnahmen mit einer Samplerate von 22kHz
  • Trainiert mit Coqui TTS (0.5.0)
  • Tacotron2 DDC (TTS-Modell)
  • HifGAN (Vocoder) – vielen Dank an Olaf, der uns hier mit „Compute Power“ sehr unterstützt hat
  • Ganz viel Liebe 🙂

Natürlich kann auch dieses Modell offline erzeugt werden und steht kostenfrei unter der CC0 Lizenz frei zur Verfügung.

Und so klingt es derzeit

Informationen zu Berlin (Quelle: Wikipedia)

Es gibt noch keinen Zeitpunkt wann das Modell und das zugrundeliegende Dataset veröffentlicht werden, da die „Finetuning“ Arbeiten noch laufen. Allerdings sind wir dem Ziel näher als dem Anfang :-).

Über Feedback zum aktuellen Stand des Modells würden wir uns freuen. Entweder per Kontaktformular oder per eMail an tm@thorsten-voice.de.

Kategorien
Allgemeines Blabla

Endspurt für neues „neutrales“ Dataset

Aber es gibt doch schon ein „neutrales“ Thorsten Dataset – wozu noch eins?

Stimmt. Aber als ich das erste neutrale Dataset aufgenommen habe war ich etwas naiv. So habe ich beispielsweise die Aufnahmen mit einem schlechten Audio Setup begonnen. Das wurde zwar Dank Dominiks Audio-Optimierungsfähigkeiten verbessert, aber war trotzdem etwas ärgerlich. Außerdem wollte ich so klar und deutlich wie möglich lesen. Das ist mir zwar gelungen, aber dadurch ist der natürliche Sprachfluss etwas verloren gegangen. Basierend auf meinen Erfahrungen wollte ich ein „besseres“ neutrales Dataset aufnehmen.

Und wo ist dieses fabelhafte neue Dataset?

Noch in Arbeit.

Ich plane ca. 11 Stunden reines Audio im Dataset zu haben. Aktuell bin ich bei ca. 9 Stunden. Ich bin sicher einige Minuten fallen bestimmt auch der Nachbearbeitung zum Opfer. Also so Pi * Daumen noch gute 2 Stunden Audio fehlen – und da bin ich aktuell dran.

Thorsten Müller, Dezember 2021, bei den Aufnahmen für das neue neutrale „Thorsten“ Dataset.

Ich hoffe, dass ich das neue Dataset dann Anfang 2022 veröffentlichen kann. Weitere Details dazu folgen zu gegebener Zeit.

Bis dahin dürft ihr euch gerne meine beiden bisheren Datasets anschauen, bzw. anhören:

Details zu den veröffentlichten Datasets findet ihr hier: http://www.thorsten-voice.de/datasets/

Kategorien
Allgemeines Blabla

Start der neuen Seite für freies, deutsches, Offline-TTS

Wer meinen Werdegang rund um offene Sprachtechnologien verfolgt weiß – ich habe eine Leidenschaft für das Thema TTS oder auch „Text-to-Speech“.

Ob auf Github, Twitter oder meinem Youtube Kanal dreht sich alles um das Thema von freiem deutschen TTS – getreu dem Motto:

Eine qualititativ hochwertige, deutsche, künstliche Stimme, die offline erzeugt werden kann, sollte jedem Projekt kostenlos und ohne lizenzrechtliche Einschränkungen zur Verfügung stehen.

Nach einiger Überlegung geht heute meine Webseite zu dieser Leidenschaft online. Zugegeben, sie ist ist kein leuchtendes Beispiel beeindruckenden Webdesigns, aber das war auch nicht mein Ziel. Viel mehr hoffe ich, dass ich mit meinen Bemühungen um freies und offenes TTS „punkten“ kann.

Auf dieser Seite plane ich auch Neuigkeiten zu neuen „Datasets“ und neuen trainierten TTS-Modellen zu veröffentlichen.

Mehr Details zu meiner Stimme findest Du auf meiner Github Projektseite.

"Thorsten - Open German Voice Dataset" Logo
This is default text for notification bar