Freie Sprachdatensätze für TTS, Forschung & Wissenschaft

Einsatz in Wissenschaft & Forschung

Die Thorsten-Voice Sprachdatensätze werden mittlerweile in über 20 wissenschaftlichen Abhandlungen von internationalen Forschungseinrichtungen verwendet.

Hochschule Hof – University of Applied Sciences

11.06.2021: Sprachsynthese — State-of-the-Art in englischer und deutscher Sprache (Link)
17.07.2022: Neural Speech Synthesis in German (Link)
03.05.2023: ASR Bundestag: A Large-Scale political debate dataset in German (Link)
14.01.2024: Automatic Speech Recognition in German: A Detailed Error Analysis (Link)

Universität Stuttgart

24.06.2022: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech (Link)
18.10.2022: PoeticTTS – Controllable Poetry Reading for Literary Studies (Link)
21.10.2022: Low-Resource Multilingual and Zero-Shot Multispeaker TTS (Link)
27.01.2023: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech (Link)

Universität Magdeburg

27.04.2023: CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS (Link)

Universität Maastricht

22.04.2022: LibriS2S: A German-English Speech-to-Speech Translation Corpus (Link)

Weitere Hochschulen

Fraunhofer-Institut für Angewandte und Integrierte Sicherheit

17.01.2024: MLAAD: The Multi-Language Audio Anti-Spoofing Dataset (Link)
Thorsten Müller ist hier Co-Autor.

11.09.2023: Shared listening experience for hyperaudio textbooks (Link)

Universität Augsburg

15.10.2021: Scribosermo: Fast Speech-to-Text models for German and other Languages (Link)

IEEE Engineering in Medicine & Biology Society

15.07.20222: Language-Independent Sleepy Speech Detection (Link)

08.11.2022: Exploring the Community of Model Publishers on TensorFlow Hub (Link)

Yıldız Technical Universit

05.06.2022: Is it possible to train a Turkish text-to-speech model with English data? (Link)

Adıyaman-Universität

03.07.2023: Türkçe TTS Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama (Preparing a Balanced Dataset for the Development of Turkish TTS Systems) (Link)

11.10.2023: Audio-Visual Neural Syntax Acquisition (Link)

20.02.2024: Textless Low-Resource Speech-to-Speech Translation With Unit Language Models (Link)

Universitat Politècnica de Catalunya

25.04.2024: SpeechAlign: a Framework for Speech Translation Alignment Evaluation (Link)

TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO

19.06.2024: Learning Language Structures through Grounding (Link)

14.08.2024: SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition (Link)

29.11.2024: BENCHMARKING AND ENHANCING GENERALIZATION IN MULTILINGUAL SPEECH EMOTION RECOGNITION (Link)

06.10.2024: A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition (Link)

14.04.2024: Leveraging the Interplay Between
Syntactic and Acoustic Cues for Optimizing
Korean TTS Pause Formation (Link)

Thorsten-Voice Sprachdatensätze

Freie Daten (in freigiebiger Open-Source Lizenz) sind wichtig für Forschung und Wissenschaft.

Alle „Thorsten-Voice“ Sprachdatensätze stehen unter der CC0 Lizenz zur Verfügung (auf Zenodo und Huggingface). Weitere Informationen, DOIs (Digital Object Identifier) und Downloadinformationen folgen im weiteren Verlauf der Seite.

Es stehen mehrere Thorsten-Voice Sprachdatensätze mit insgesamt über 30.000 Aufnahmen und einer Laufzeit von 30+ Stunden zur Verfügung.

Thorsten-Voice Dataset 2021.02 (Neutral)

Anzahl Aufnahmen	22.668
Audiodauer	23+ Stunden
Samplerate	22.050Hz
Kanäle	Mono
Normalisierung	-24dB
Satzlänge (min/avg/max)	2 / 52 / 180 Zeichen
Sprechgeschwindigkeit (Durchschnitt)	14 Zeichen / Sekunde
Fragesätze	2.780
Ausrufesätze	1.840

Beispiel #1 – „Sie klettert auf einen Stein und nimmt eine Denkerpose ein.“

Beispiel #2 – „Das Teilen eines Benutzerkontos ist strengstens untersagt.“

Beispiel #3 – „Jede gute Küchenwage hat eine Tara-Funktion.“

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_thorsten_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Neutral) Dataset},
  month        = feb,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

Thorsten-Voice Dataset 2021.06 (Emotional)

Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.

Neutral
Angewidert
Wütend
Amüsiert
Überrascht
Schläfrig
Flüsternd
Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)

Anzahl Aufnahmen	2.400
Samplerate
Kanäle	Mono
Normalisierung	-24dB
Satzlänge (min/max)	59 / 148 Zeichen

Neutrale Aussprache – „Mist, wieder nichts geschafft.“

Angewiderte Aussprache – „Mist, wieder nichts geschafft.“

Wütende Aussprache – „Mist, wieder nichts geschafft.“

Amüsierte Aussprache – „Mist, wieder nichts geschafft.“

Überraschte Aussprache – „Mist, wieder nichts geschafft.“

Schläfrige Aussprache – „Mist, wieder nichts geschafft.“

Flüsternde Aussprache – „Mist, wieder nichts geschafft.“

Betrunkene Aussprache – „Mist, wieder nichts geschafft.“

Download: https://zenodo.org/record/5525023

@dataset{muller_thorsten_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Emotional) Dataset},
  month        = jun,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

Thorsten-Voice Dataset 2022.10 (Neutral)

Anzahl Aufnahmen	12.432
Audiodauer	11+ Stunden
Samplerate	22.050Hz
Kanäle	Mono
Normalisierung	-24dB
Sprechgeschwindigkeit (Durchschnitt)	17,5 Zeichen / Sekunde

@dataset{muller_thorsten_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {ThorstenVoice Dataset 2022.10},
  month        = oct,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

Hier gibt’s mein Releasevideo zum neuen Dataset.

Mehr Infos und Download: https://zenodo.org/record/7265581

Thorsten-Voice Dataset 2023.09 (Hessisch)

Anzahl Aufnahmen	2.108
Audiodauer	ca. 2 Stunden
Samplerate	22.050Hz
Kanäle	Mono
Normalisierung	-24dB

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/55 25342

@dataset{muller_2024_10511260,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2023.09 Hessisch},
  month        = jan,
  year         = 2024,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.10511260},
  url          = {https://doi.org/10.5281/zenodo.10511260}
}

Thorsten-Voice Dataset
(TV-44kHz-Full)

Dieses Dataset steht auf Huggingface bereit. Hightlights 🎉 sind:

ALLE AUFNAHMEN in einem Dataset
Aufnahmen in der original Samplerate von 44kHz
Logisch aufgeteilt in verschiedene Subsets (gemäß den oben genannten Aufteilungen)
Dauert pro Aufnahme
Sprechgeschwindigkeit
Monat der Aufnahme
Qualität der Aufnahme

@misc {thorsten_müller_2024,
    author       = { {Thorsten Müller} },
    title        = { TV-44kHz-Full (Revision ff427ec) },
    year         = 2024,
    url          = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
    doi          = { 10.57967/hf/3290 },
    publisher    = { Hugging Face }
}