Kategorien
Allgemeines Blabla

Your AI Voice Sounds WRONG! Here’s Why 🤖 → 🗣️

Transform your Text-to-Speech output from robotic to natural-sounding with proper text preprocessing (cleaning / normalization). My Youtube step-by-step tutorial shows you how to handle numbers, abbreviations, and special characters to significantly improve your TTS quality. This works for ANY TTS, not just fancy AI based text-to-speech models, but espeak / mbrola, too.

Video Tutorial

Why Text Cleaning Matters

When feeding text into a TTS system, certain elements can cause unnatural speech patterns:

  • Abbreviations like „Dr.“ or „Mr.“ are interpreted as sentence endings
  • Numbers are read digit by digit instead of naturally
  • Special characters and symbols may cause unexpected pauses
  • Time formats and dates might be misinterpreted

„Bad“ text input to TTS:Dr. Smith paid $1,234 for 2 items at 3pm after waiting outside at 72°F on may, 15th, 2024. While waiting for the train to arrive at 15:45 he called a support hotline at 1-800-555-0123.

Text NOT cleaned / normalized and spoken with Piper TTS.

This is hard for most TTS systems, because it contains lots of special characters that are hard to pronounce correctly for TTS.

„Better“ text input keeping the same sentence: „Doctor Smith paid one thousand two hundred thirty-four dollars for two items at three p m after waiting outside at seventy-two degrees Fahrenheit on May fifteenth, twenty twenty-four. While waiting for the train to arrive at fifteen forty-five he called a support hotline at one eight hundred five five five zero one two three.

Text CLEANED / NORMALIZED and spoken with Piper TTS.

The Solution: Text Preprocessing

Below you’ll find a Python script that handles common text cleaning tasks. It works with any TTS system, including Piper, Coqui, eSpeak, and others.

Features:

  • Converts numbers to words (e.g., „123“ → „one hundred twenty-three“)
  • Expands common abbreviations
  • Handles time formats
  • Processes dates naturally
  • Converts temperatures and units
  • Supports multiple languages (configurable)

Download the Script

The script is on my Thorsten-Voice GitHub repository.

Usage Example

I created a jupyter notebook on Google Colab to show the concept of building your voice processing pipeline including text cleaning / normalization.

It uses NVIDIA NeMo framwork for text cleaning and Piper for text-to-speech.

The notebook can be found here and will be explained in my Youtube tutorial here.

Community & Support

Remember to subscribe to my Thorsten-Voice YouTube channel for more TTS tutorials and updates!

Kategorien
Allgemeines Blabla

#MyYearOnYouTube2024

YouTube Success: Thorsten-Voice Celebrates a Remarkable Year 2024 in AI and Language Technology

2024 has been an exceptional year for my Thorsten-Voice YouTube channel, marking significant growth in our AI and language technology community. With over 355,000 views and 3,738 new subscribers, i’ve seen unprecedented engagement in open-source AI discussions and tutorials.

2024 YouTube Statistics Highlight Community Growth

My channel’s performance reflects the growing interest in AI and language technology:

  • 355K total video views
  • 3,738 new subscribers
  • 34 in-depth uploads
  • 6,708 likes showing content appreciation
  • 898 engaging comments
  • 2,077 shares expanding our reach

Building a Strong AI Technology Community

The numbers tell a story of community engagement and knowledge sharing. Each of the 34 uploads sparked discussions about open-source AI, language models, and their practical applications. The nearly 900 comments represent valuable exchanges and learning opportunities within our community.

Looking Forward to 2025

As we approach 2025, Thorsten-Voice remains committed to providing high-quality content about AI voice technology, open-source developments, and language processing innovations. Our growing community of developers, researchers, and AI enthusiasts continues to drive meaningful discussions and knowledge sharing.

Join my AI Voice Technology Journey

Whether you’re a developer, researcher, or AI enthusiast, we invite you to join our community. Subscribe to Thorsten-Voice on YouTube to stay updated with the latest in AI and language technology developments.

Kategorien
Allgemeines Blabla

Home Assistant Voice Preview Edition

NEW VIDEO SERIES: The smart home community has long awaited a reliable, privacy-focused voice assistant solution. With the release of Home Assistant Voice Preview Edition, this wait might finally be over. I’m excited to present my comprehensive tutorial series that guides you through everything you need to know about this promising new device.

What’s This Series About?

This series walks you through the Home Assistant Voice Preview Edition from unboxing to advanced setup. Whether you’re new to Home Assistant or an experienced user, these tutorials will help you understand and implement voice control in your smart home setup.

Available Episodes

Episode 1: Unboxing & Tech Specs

In this first episode, we dive into the unboxing experience and examine the technical specifications of the Home Assistant Voice Preview Edition. Get your first look at the hardware and learn what makes it tick. Watch Episode 1

Episode 2: First Setup & Connection

The second episode guides you through the initial setup process. Learn how to power on the device and connect it to your Home Assistant installation. We’ll also explore the entities created during setup. Watch Episode 2

Episode 3: Local Setup with Whisper & Piper

In this episode, we tackle local voice processing setup using Whisper for speech recognition and Piper for speech synthesis. Perfect for those who want complete privacy and local control. Watch Episode 3

What’s Next?

I’m committed to creating more content based on community feedback. If you have specific aspects of Home Assistant Voice you’d like to learn more about, please:

  • Subscribe to my Thorsten-Voice Youtube channel
  • Leave your suggestions in the video comments
  • Share your experiences with the device

Stay tuned for more tutorials as we explore the capabilities of Home Assistant Voice!

Want to catch every new episode? Subscribe to my YouTube channel for the latest updates.

Kategorien
Allgemeines Blabla

F5 TTS | Local Voice Cloning

My step by step tutorial on F5 TTS or Text-to-Speech is now available on Youtube.

Containing following chapters:

  1. Overview on license and supported languages
  2. Using a Huggingface space to try things out
  3. Installing F5 TTS locally on your computer
  4. Using F5 locally to do voice cloning with just 10 seconds of audio input

We can not just clone our voice, but we can use multiple emotional inputs to have really fun and enjoy playing around with dialogues.

Here’s a sample that has been created with F5 and just a few seconds of audio input of my personal voice.

Kategorien
Allgemeines Blabla

🎉 Celebrating Thorsten-Voice’s 5th Birthday! 🎙️

Since October 2019, Thorsten-Voice has been supporting the open-source voice technology community. As a birthday gift to our amazing community, I’m releasing all voice datasets (neutral, emotional, and Hessisch) in their original 44kHz sample rate quality – a significant upgrade from the previous 22kHz versions.

🎯 What’s New:

• All recordings now available in pristine 44kHz quality

• Complete collection unified in one place on Hugging Face

• Includes all variants: neutral, emotional, and Hessisch dialects

• Fully structured and transcribed

This consolidated release makes it easier than ever to access and work with the complete Thorsten-Voice collection. As always, everything remains under CC0 license, continuing our commitment to unrestricted open-source voice technology.

🔗 Access the unified dataset: https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full

#OpenSource #AI #SpeechTechnology #TTS #MachineLearning #GermanTTS #VoiceTechnology

Thank you for being part of this journey! Let’s build the future of voice technology together! 🚀

Kategorien
Allgemeines Blabla

Thorsten-Voice im Deutschlandfunk Podcast „KI Verstehen“

Ich bin dankbar dafür, ein Teil des Deutschlandfunk / Deutschlandradio Podcasts „KI Verstehen“ vom 12.09.2024 gewesen sein zu dürfen 😍.

Die Moderator:innen Friederike Walch-Nasseri und Moritz Metz haben sich im Podcast-Beitrag „Open-Source-Modelle demokratisieren Künstliche Intelligenz“ mit der Wichtigkeit von Open-Source im KI-Umfeld beschäftigt. Ein ganz wichtiges Thema, um Vertrauen in die Schlüsseltechnologie KI aufzubauen und beizubehalten.

Ich (Thorsten Müller) durfte nicht nur persönlich mitreden, sondern auch meine künstliche Stimme „Thorsten-Voice“ durfte einige ihrer sprachlichen Fähigkeiten (ach uff Hessisch) unter Beweis stellen 😊.

Hört gerne in diese und auch die anderen absolut hörenswerten Folgen rein und abonniert den Podcast „KI Verstehen“. Ihr findet ihn überall, wo es Podcasts gibt, oder direkt auf der Deutschlandfunk-Website.

„In dem Sinn, mer hört sich, gell.“

(LinkedIn Post)

Kategorien
Allgemeines Blabla

„Frankfurt.de“ als Beispiel für künstliche hessische TTS-Sprachausgabe

Einfach aus privatem Spaß (nicht abgestimmt) habe ich, wegen meinem Lokalpatriotismus, einen Text von der Internetseite der Stadt Frankfurt genommen und mit meiner (süd) hessisch babbelnden, cloud- und kostenfreien, künstlichen „Thorsten-Voice“ TTS als Sprachausgabe „babbeln“ lassen. Und das klingt so.

In Frankfurt wohnen mehr als 750 Tausend Menschen. Frankfurt liegt mitten in Deutschland und ist in der ganzen Welt bekannt. Dabei ist Frankfurt nicht so groß wie Hamburg oder Berlin. Man kann in Frankfurt gut leben! Viele Menschen kennen Frankfurt, weil es hier viele Banken gibt. Die Banken machen auch Geschäfte mit Firmen und Menschen im Ausland. Viele Menschen kommen nach Frankfurt, weil hier große Messen stattfinden. Zum Beispiel die Musikmesse. Auch aus dem Ausland kommen viele Besucher und Besucherinnen zu diesen Messen. Frankfurt hat auch viele Hochhäuser. Und der Flughafen ist einer der größten in Europa. Nicht weit von den Hochhäusern finden Sie gemütliche Apfelweinkneipen und in der ganzen Stadt gibt es viele Ausflugsziele. Manche dieser Ausflugsziele sind schon sehr alt. Zum Beispiel der Kaiserdom oder die Paulskirche. Ein sehr berühmter Frankfurter war Johann Wolfgang von Goethe. Das spricht man so: Göte. Er hat vor etwa 300 Jahren hier gelebt und war ein berühmter Dichter. Dichter bedeutet: Er hat viele Geschichten geschrieben. Die sind in der ganzen Welt berühmt. Man lernt die Geschichten sogar in der Schule. Göte ist in Frankfurt geboren. Aber das ist viele hundert Jahre her. Er lebt schon lange nicht mehr. Trotzdem kennen ihn viele Menschen. Weil er so berühmt ist. Darauf ist Frankfurt besonders stolz. Sie können das Haus besichtigen in dem Johann Wolfgang von Goethe geboren wurde. Frankfurt ist eine sehr grüne Stadt. Es gibt viele Parks und den großen Stadtwald. Am Mainufer können Sie die schöne Aussicht genießen. Zum Beispiel beim spazieren gehen, beim joggen, beim Radfahren oder Picknicken. Und dort sind auch viele bekannte Museen wie zum Beispiel das Kunst-Museum Städel oder das Deutsche Film Museum. Hier finden Sie noch mehr zu den Museen in Frankfurt in Leichter Sprache. Hier haben wir auch noch ein paar Ausflugs-Tipps für Sie rund um Frankfurt im sogeannten Grün-Gürtel Was das alles ist erfahren Sie wenn Sie auf das Wort Grün-Gürtel klicken. Möchten Sie die Stadt Frankfurt besichtigen? Sie finden bestimmt viele interessante Orte und haben Spaß dabei!

Textquelle: https://frankfurt.de/leichte-sprache/informationen-ueber-frankfurt/so-ist-frankfurt
Kategorien
Allgemeines Blabla

Thorsten-Voice auf Mastodon

Guude! Da ich bereits viel Gutes über die sogenannte Twitter oder „X“ Nachfolge „Mastodon“ gelesen und gehört habe und grundsätzlich für neue Technologien empfänglich bin, habe ich es einfach mal ausprobiert.

Da das ganze so zwei Stunden her ist, ist es wohl noch zu früh für eine Prognose, aber es hat mich schonmal nicht verschreckt 😉. Wer mich bei meinen ersten tollpatschigen Schritte beobachten will, der findet mich auf dem techhub.social Server unter dem (wenig überraschenden) Namen „thorstenvoice“.

Kategorien
Allgemeines Blabla

Freier hessischer Sprachdatensatz veröffentlicht

Ei guude wie! Ewig langes, kostenloses „hessisches Gebabbel“ zum anhören, genießen oder zum trainieren von KI Sprachmodellen? Ei sicher!

Ich habe meinen (süd)hessischen Thorsten-Voice Sprachdatensatz unter der freien CC0 Lizenz auf Zenodo veröffentlicht 🥳. Über 2.000 Aufnahmen im Wave Format mit passender Textdatei zur Zuordnung der darin gesprochenen Texten. Kann für KI/AI, Machine Learning, Wissenschaft, Forschung, etc. verwendet werden.

Das klingt so:

Wenn du eigene Texte damit babbeln lassen magst, dann geht das auf Huggingface direkt und kostenlos hier im Browser.

Mehr Infos gibt’s hier.

Kategorien
Allgemeines Blabla

„ei guude wie“ – Hessisch TTS

Es ist soweit 🎉🥳!

Die erste Version meiner kostenlosen (Süd-)Hessisch babbelnden künstlichen Sprachausgabe (Text to Speech / TTS) ist verfügbar 😊.

Beispiel der künstlichen Sprachausgabe

Weitere Audio-Beispiele, Anwendungs- und Nutzungsmöglichkeiten, eine Video Anleitung zur Einrichtung und Nutzung findest Du auf der „Guude!“ Seite.

Egal ob Content-Creator mit Voice Over Sprachausgabe (Instagram, Insta Reel, Insta Story, Youtube, Shorts, …), Schulprojekt mit TTS ohne Cloud und kostenfrei, und, und, und – die hessische TTS Stimme ist für euch alle da.

https://www.Thorsten-Voice.de/guude

Das Video zur Einrichtung und Nutzung auf deinem Computer (Windows, Linux und Raspberry Pi) findest Du hier:

Hochdeutsche und kostenlose Thorsten-Voice Stimmen gibt es hier natürlich auch 😊.

This is default text for notification bar