Forschung & Wissenschaft

Freie Daten (in freigiebiger Open-Source Lizenz) sind wichtig für Forschung und Wissenschaft.

Alle „Thorsten-Voice“ Sprachdatensätze stehen unter der CC0 Lizenz zur Verfügung (auf Zenodo und Huggingface). Weitere Informationen, DOIs (Digital Object Identifier) und Downloadinformationen folgenden im weiteren Verlauf der Seite. Sprachdatensätze, auch bekannt als „Voice Datasets“ bestehen aus einer Kombination von:

  • WAVE-Audioaufnahmen einzelner Sätze.
  • Einer CSV Datei welche die gesprochenen Texte der Audiodatei zuordnet.

Es stehen mehrere Thorsten-Voice Sprachdatensätze mit insgesamt über 30.000 Aufnahmen und einer Laufzeit von 30+ Stunden zur Verfügung.

Universitäten und Forschungseinrichtungen rund um den Globus verwenden meine Thorsten-Voice Sprachdatensätze in ihren Forschungen und wissenschaftlichen Abhandlungen.

Die folgende Liste zeigt einige der Forschungsarbeiten, welche meine Sprachdatensätze verwenden.

VeröffentlichungsdatumHochschuleTitel
11.06.2021Hochschule HofSprachsynthese — State-of-the-Art in englischer und deutscher Sprache
15.10.2021Universität Augsburg (Institut für Software & Systems Engineering)Scribosermo: Fast Speech-to-Text models for German and other Languages
31.10.2021Buch Springer Verlag (ISBN 978-3030876258)KI 2021: Advances in Artificial Intelligence
22.04.2022Universität MaastrichtLibriS2S: A German-English Speech-to-Speech Translation Corpus
05.06.2022Yıldız Technical UniversitIs it possible to train a Turkish text-to-speech model with English data?
24.06.2022Universität StuttgartExact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech
15.07.2022IEEE Engineering in Medicine & Biology SocietyLanguage-Independent Sleepy Speech Detection
17.07.2022Hochschule HofNeural Speech Synthesis in German
18.10.2022Universität StuttgartPoeticTTS – Controllable Poetry Reading for Literary Studies
21.10.2022Universität StuttgartLow-Resource Multilingual and Zero-Shot Multispeaker TTS
08.11.2022University of Seoul, University of Southern CaliforniaExploring the Community of Model Publishers on TensorFlow Hub
27.01.2023Universität StuttgartExact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech
27.04.2023Universität MagdeburgCROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS
03.05.2023Hochschule HofASR Bundestag: A Large-Scale political debate dataset in German
03.07.2023Adıyaman-Universität, Technische Universität Ostim, Gazi-UniversitätTürkçe TTS Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama
11.09.2023Gesellschaft für Informatik, BonnShared listening experience for hyperaudio textbooks
11.10.2023MIT, TTIC, UT Austin, UC Santa Barbara, MIT-IBM Watson AI LabAudio-Visual Neural Syntax Acquisition
14.01.2024Hochschule HofAutomatic Speech Recognition in German: A Detailed Error Analysis
17.01.2024Fraunhofer InstitutMLAAD: The Multi-Language Audio Anti-Spoofing Dataset
20.02.2024University of Texas at AustinTextless Low-Resource Speech-to-Speech Translation With Unit Language Models
14.04.2024POSTECH, Republic of KoreaLeveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation
25.04.2024Universitat Politècnica de Catalunya, Barcelona, SpanienSpeechAlign: a Framework for Speech Translation Alignment Evaluation
19.06.2024TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGOLearning Language Structures through Grounding
14.08.2024Virginia Commonwealth UniversitySER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition
06.10.2024University of BucharestA Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition
29.11.2024Virginia Commonwealth UniversityBENCHMARKING AND ENHANCING GENERALIZATION IN MULTILINGUAL SPEECH EMOTION RECOGNITION

Thorsten-Voice Dataset 2021.02 (Neutral)

Anzahl Aufnahmen22.668
Audiodauer23+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Satzlänge (min/avg/max)2 / 52 / 180 Zeichen
Sprechgeschwindigkeit
(Durchschnitt)
14 Zeichen / Sekunde
Fragesätze2.780
Ausrufesätze1.840
Beispiel #1 – „Sie klettert auf einen Stein und nimmt eine Denkerpose ein.“
Beispiel #2 – „Das Teilen eines Benutzerkontos ist strengstens untersagt.“
Beispiel #3 – „Jede gute Küchenwage hat eine Tara-Funktion.“

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_thorsten_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Neutral) Dataset},
  month        = feb,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

Thorsten-Voice Dataset 2021.06 (Emotional)

Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.

  • Neutral
  • Angewidert
  • Wütend
  • Amüsiert
  • Überrascht
  • Schläfrig
  • Flüsternd
  • Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)
Anzahl Aufnahmen2.400
Samplerate
KanäleMono
Normalisierung-24dB
Satzlänge (min/max)59 / 148 Zeichen
Neutrale Aussprache – „Mist, wieder nichts geschafft.“
Angewiderte Aussprache – „Mist, wieder nichts geschafft.“
Wütende Aussprache – „Mist, wieder nichts geschafft.“
Amüsierte Aussprache – „Mist, wieder nichts geschafft.“
Überraschte Aussprache – „Mist, wieder nichts geschafft.“
Schläfrige Aussprache – „Mist, wieder nichts geschafft.“
Flüsternde Aussprache – „Mist, wieder nichts geschafft.“
Betrunkene Aussprache – „Mist, wieder nichts geschafft.“

Download: https://zenodo.org/record/5525023

@dataset{muller_thorsten_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Emotional) Dataset},
  month        = jun,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

Thorsten-Voice Dataset 2022.10 (Neutral)

Anzahl Aufnahmen12.432
Audiodauer11+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Sprechgeschwindigkeit
(Durchschnitt)
17,5 Zeichen / Sekunde
@dataset{muller_thorsten_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {ThorstenVoice Dataset 2022.10},
  month        = oct,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

Hier gibt’s mein Releasevideo zum neuen Dataset.

Mehr Infos und Download: https://zenodo.org/record/7265581

Thorsten-Voice Dataset 2023.09 (Hessisch)

Anzahl Aufnahmen2.108
Audiodauerca. 2 Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_2024_10511260,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2023.09 Hessisch},
  month        = jan,
  year         = 2024,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.10511260},
  url          = {https://doi.org/10.5281/zenodo.10511260}
}

 

Thorsten-Voice Dataset
(TV-44kHz-Full)

Dieses Dataset steht auf Huggingface bereit. Hightlights 🎉 sind:

  • ALLE AUFNAHMEN in einem Dataset
  • Aufnahmen in der original Samplerate von 44kHz
  • Logisch aufgeteilt in verschiedene Subsets (gemäß den oben genannten Aufteilungen)
  • Dauert pro Aufnahme
  • Sprechgeschwindigkeit
  • Monat der Aufnahme
  • Qualität der Aufnahme
@misc {thorsten_müller_2024,
    author       = { {Thorsten Müller} },
    title        = { TV-44kHz-Full (Revision ff427ec) },
    year         = 2024,
    url          = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
    doi          = { 10.57967/hf/3290 },
    publisher    = { Hugging Face }
}
This is default text for notification bar