Freie Daten (in freigiebiger Open-Source Lizenz) sind wichtig für Forschung und Wissenschaft.
Alle „Thorsten-Voice“ Sprachdatensätze stehen unter der CC0 Lizenz zur Verfügung (auf Zenodo und Huggingface). Weitere Informationen, DOIs (Digital Object Identifier) und Downloadinformationen folgenden im weiteren Verlauf der Seite. Sprachdatensätze, auch bekannt als „Voice Datasets“ bestehen aus einer Kombination von:
- WAVE-Audioaufnahmen einzelner Sätze.
- Einer CSV Datei welche die gesprochenen Texte der Audiodatei zuordnet.
Es stehen mehrere Thorsten-Voice Sprachdatensätze mit insgesamt über 30.000 Aufnahmen und einer Laufzeit von 30+ Stunden zur Verfügung.
Universitäten und Forschungseinrichtungen rund um den Globus verwenden meine Thorsten-Voice Sprachdatensätze in ihren Forschungen und wissenschaftlichen Abhandlungen.
Die folgende Liste zeigt einige der Forschungsarbeiten, welche meine Sprachdatensätze verwenden.
Veröffentlichungsdatum | Hochschule | Titel |
---|---|---|
11.06.2021 | Hochschule Hof | Sprachsynthese — State-of-the-Art in englischer und deutscher Sprache |
15.10.2021 | Universität Augsburg (Institut für Software & Systems Engineering) | Scribosermo: Fast Speech-to-Text models for German and other Languages |
31.10.2021 | Buch Springer Verlag (ISBN 978-3030876258) | KI 2021: Advances in Artificial Intelligence |
22.04.2022 | Universität Maastricht | LibriS2S: A German-English Speech-to-Speech Translation Corpus |
05.06.2022 | Yıldız Technical Universit | Is it possible to train a Turkish text-to-speech model with English data? |
24.06.2022 | Universität Stuttgart | Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech |
15.07.2022 | IEEE Engineering in Medicine & Biology Society | Language-Independent Sleepy Speech Detection |
17.07.2022 | Hochschule Hof | Neural Speech Synthesis in German |
18.10.2022 | Universität Stuttgart | PoeticTTS – Controllable Poetry Reading for Literary Studies |
21.10.2022 | Universität Stuttgart | Low-Resource Multilingual and Zero-Shot Multispeaker TTS |
08.11.2022 | University of Seoul, University of Southern California | Exploring the Community of Model Publishers on TensorFlow Hub |
27.01.2023 | Universität Stuttgart | Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech |
27.04.2023 | Universität Magdeburg | CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS |
03.05.2023 | Hochschule Hof | ASR Bundestag: A Large-Scale political debate dataset in German |
03.07.2023 | Adıyaman-Universität, Technische Universität Ostim, Gazi-Universität | Türkçe TTS Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama |
11.09.2023 | Gesellschaft für Informatik, Bonn | Shared listening experience for hyperaudio textbooks |
11.10.2023 | MIT, TTIC, UT Austin, UC Santa Barbara, MIT-IBM Watson AI Lab | Audio-Visual Neural Syntax Acquisition |
14.01.2024 | Hochschule Hof | Automatic Speech Recognition in German: A Detailed Error Analysis |
17.01.2024 | Fraunhofer Institut | MLAAD: The Multi-Language Audio Anti-Spoofing Dataset |
20.02.2024 | University of Texas at Austin | Textless Low-Resource Speech-to-Speech Translation With Unit Language Models |
14.04.2024 | POSTECH, Republic of Korea | Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation |
25.04.2024 | Universitat Politècnica de Catalunya, Barcelona, Spanien | SpeechAlign: a Framework for Speech Translation Alignment Evaluation |
19.06.2024 | TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO | Learning Language Structures through Grounding |
14.08.2024 | Virginia Commonwealth University | SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition |
06.10.2024 | University of Bucharest | A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition |
29.11.2024 | Virginia Commonwealth University | BENCHMARKING AND ENHANCING GENERALIZATION IN MULTILINGUAL SPEECH EMOTION RECOGNITION |
Thorsten-Voice Dataset 2021.02 (Neutral)
Anzahl Aufnahmen | 22.668 |
Audiodauer | 23+ Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Satzlänge (min/avg/max) | 2 / 52 / 180 Zeichen |
Sprechgeschwindigkeit (Durchschnitt) | 14 Zeichen / Sekunde |
Fragesätze | 2.780 |
Ausrufesätze | 1.840 |
Wenn ihr dieses Dataset verwendet, dann referiert es bitte.
Download: https://zenodo.org/record/5525342
@dataset{muller_thorsten_2021_5525342,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten - Open German Voice (Neutral) Dataset},
month = feb,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {3.0},
doi = {10.5281/zenodo.5525342},
url = {https://doi.org/10.5281/zenodo.5525342}
}
Thorsten-Voice Dataset 2021.06 (Emotional)
Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.
- Neutral
- Angewidert
- Wütend
- Amüsiert
- Überrascht
- Schläfrig
- Flüsternd
- Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)
Anzahl Aufnahmen | 2.400 |
Samplerate | |
Kanäle | Mono |
Normalisierung | -24dB |
Satzlänge (min/max) | 59 / 148 Zeichen |
Download: https://zenodo.org/record/5525023
@dataset{muller_thorsten_2021_5525023,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten - Open German Voice (Emotional) Dataset},
month = jun,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {2.0},
doi = {10.5281/zenodo.5525023},
url = {https://doi.org/10.5281/zenodo.5525023}
}
Thorsten-Voice Dataset 2022.10 (Neutral)
Anzahl Aufnahmen | 12.432 |
Audiodauer | 11+ Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Sprechgeschwindigkeit (Durchschnitt) | 17,5 Zeichen / Sekunde |
@dataset{muller_thorsten_2022_7265581,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {ThorstenVoice Dataset 2022.10},
month = oct,
year = 2022,
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.7265581},
url = {https://doi.org/10.5281/zenodo.7265581}
}
Hier gibt’s mein Releasevideo zum neuen Dataset.
Mehr Infos und Download: https://zenodo.org/record/7265581
Thorsten-Voice Dataset 2023.09 (Hessisch)
Anzahl Aufnahmen | 2.108 |
Audiodauer | ca. 2 Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Wenn ihr dieses Dataset verwendet, dann referiert es bitte.
Download: https://zenodo.org/record/5525342
@dataset{muller_2024_10511260,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2023.09 Hessisch},
month = jan,
year = 2024,
publisher = {Zenodo},
doi = {10.5281/zenodo.10511260},
url = {https://doi.org/10.5281/zenodo.10511260}
}
Thorsten-Voice Dataset
(TV-44kHz-Full)
Dieses Dataset steht auf Huggingface bereit. Hightlights 🎉 sind:
- ALLE AUFNAHMEN in einem Dataset
- Aufnahmen in der original Samplerate von 44kHz
- Logisch aufgeteilt in verschiedene Subsets (gemäß den oben genannten Aufteilungen)
- Dauert pro Aufnahme
- Sprechgeschwindigkeit
- Monat der Aufnahme
- Qualität der Aufnahme
@misc {thorsten_müller_2024,
author = { {Thorsten Müller} },
title = { TV-44kHz-Full (Revision ff427ec) },
year = 2024,
url = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
doi = { 10.57967/hf/3290 },
publisher = { Hugging Face }
}