Einsatz in Wissenschaft & Forschung
Die Thorsten-Voice Sprachdatensätze werden mittlerweile in über 20 wissenschaftlichen Abhandlungen von internationalen Forschungseinrichtungen verwendet.

- 11.06.2021: Sprachsynthese — State-of-the-Art in englischer und deutscher Sprache (Link)
- 17.07.2022: Neural Speech Synthesis in German (Link)
- 03.05.2023: ASR Bundestag: A Large-Scale political debate dataset in German (Link)
- 14.01.2024: Automatic Speech Recognition in German: A Detailed Error Analysis (Link)

- 24.06.2022: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech (Link)
- 18.10.2022: PoeticTTS – Controllable Poetry Reading for Literary Studies (Link)
- 21.10.2022: Low-Resource Multilingual and Zero-Shot Multispeaker TTS (Link)
- 27.01.2023: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech (Link)

27.04.2023: CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS (Link)

- 22.04.2022: LibriS2S: A German-English Speech-to-Speech Translation Corpus (Link)
Weitere Hochschulen

17.01.2024: MLAAD: The Multi-Language Audio Anti-Spoofing Dataset (Link)
Thorsten Müller ist hier Co-Autor.

11.09.2023: Shared listening experience for hyperaudio textbooks (Link)

15.10.2021: Scribosermo: Fast Speech-to-Text models for German and other Languages (Link)

IEEE Engineering in Medicine & Biology Society
15.07.20222: Language-Independent Sleepy Speech Detection (Link)

08.11.2022: Exploring the Community of Model Publishers on TensorFlow Hub (Link)

05.06.2022: Is it possible to train a Turkish text-to-speech model with English data? (Link)

Adıyaman-Universität
03.07.2023: Türkçe TTS Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama (Preparing a Balanced Dataset for the Development of Turkish TTS Systems) (Link)

11.10.2023: Audio-Visual Neural Syntax Acquisition (Link)

20.02.2024: Textless Low-Resource Speech-to-Speech Translation With Unit Language Models (Link)

25.04.2024: SpeechAlign: a Framework for Speech Translation Alignment Evaluation (Link)

TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO
19.06.2024: Learning Language Structures through Grounding (Link)


06.10.2024: A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition (Link)

POSTECH, Republic of Korea
14.04.2024: Leveraging the Interplay Between
Syntactic and Acoustic Cues for Optimizing
Korean TTS Pause Formation (Link)
Thorsten-Voice Sprachdatensätze
Freie Daten (in freigiebiger Open-Source Lizenz) sind wichtig für Forschung und Wissenschaft.
Alle „Thorsten-Voice“ Sprachdatensätze stehen unter der CC0 Lizenz zur Verfügung (auf Zenodo und Huggingface). Weitere Informationen, DOIs (Digital Object Identifier) und Downloadinformationen folgen im weiteren Verlauf der Seite.
Es stehen mehrere Thorsten-Voice Sprachdatensätze mit insgesamt über 30.000 Aufnahmen und einer Laufzeit von 30+ Stunden zur Verfügung.
Thorsten-Voice Dataset 2021.02 (Neutral)
Anzahl Aufnahmen | 22.668 |
Audiodauer | 23+ Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Satzlänge (min/avg/max) | 2 / 52 / 180 Zeichen |
Sprechgeschwindigkeit (Durchschnitt) | 14 Zeichen / Sekunde |
Fragesätze | 2.780 |
Ausrufesätze | 1.840 |
Wenn ihr dieses Dataset verwendet, dann referiert es bitte.
Download: https://zenodo.org/record/5525342
@dataset{muller_thorsten_2021_5525342,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten - Open German Voice (Neutral) Dataset},
month = feb,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {3.0},
doi = {10.5281/zenodo.5525342},
url = {https://doi.org/10.5281/zenodo.5525342}
}
Thorsten-Voice Dataset 2021.06 (Emotional)
Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.
- Neutral
- Angewidert
- Wütend
- Amüsiert
- Überrascht
- Schläfrig
- Flüsternd
- Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)
Anzahl Aufnahmen | 2.400 |
Samplerate | |
Kanäle | Mono |
Normalisierung | -24dB |
Satzlänge (min/max) | 59 / 148 Zeichen |
Download: https://zenodo.org/record/5525023
@dataset{muller_thorsten_2021_5525023,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten - Open German Voice (Emotional) Dataset},
month = jun,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {2.0},
doi = {10.5281/zenodo.5525023},
url = {https://doi.org/10.5281/zenodo.5525023}
}
Thorsten-Voice Dataset 2022.10 (Neutral)
Anzahl Aufnahmen | 12.432 |
Audiodauer | 11+ Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Sprechgeschwindigkeit (Durchschnitt) | 17,5 Zeichen / Sekunde |
@dataset{muller_thorsten_2022_7265581,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {ThorstenVoice Dataset 2022.10},
month = oct,
year = 2022,
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.7265581},
url = {https://doi.org/10.5281/zenodo.7265581}
}
Hier gibt’s mein Releasevideo zum neuen Dataset.
Mehr Infos und Download: https://zenodo.org/record/7265581
Thorsten-Voice Dataset 2023.09 (Hessisch)
Anzahl Aufnahmen | 2.108 |
Audiodauer | ca. 2 Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Wenn ihr dieses Dataset verwendet, dann referiert es bitte.
Download: https://zenodo.org/record/5525342
@dataset{muller_2024_10511260,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2023.09 Hessisch},
month = jan,
year = 2024,
publisher = {Zenodo},
doi = {10.5281/zenodo.10511260},
url = {https://doi.org/10.5281/zenodo.10511260}
}
Thorsten-Voice Dataset
(TV-44kHz-Full)
Dieses Dataset steht auf Huggingface bereit. Hightlights 🎉 sind:
- ALLE AUFNAHMEN in einem Dataset
- Aufnahmen in der original Samplerate von 44kHz
- Logisch aufgeteilt in verschiedene Subsets (gemäß den oben genannten Aufteilungen)
- Dauert pro Aufnahme
- Sprechgeschwindigkeit
- Monat der Aufnahme
- Qualität der Aufnahme
@misc {thorsten_müller_2024,
author = { {Thorsten Müller} },
title = { TV-44kHz-Full (Revision ff427ec) },
year = 2024,
url = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
doi = { 10.57967/hf/3290 },
publisher = { Hugging Face }
}