Wissenschaft & Forschung

Einsatz in Wissenschaft & Forschung

Die Thorsten-Voice Sprachdatensätze werden mittlerweile in über 20 wissenschaftlichen Abhandlungen von internationalen Forschungseinrichtungen verwendet.

Hochschule Hof – University of Applied Sciences
  • 11.06.2021: Sprachsynthese — State-of-the-Art in englischer und deutscher Sprache (Link)
  • 17.07.2022: Neural Speech Synthesis in German (Link)
  • 03.05.2023: ASR Bundestag: A Large-Scale political debate dataset in German (Link)
  • 14.01.2024: Automatic Speech Recognition in German: A Detailed Error Analysis (Link)
Universität Stuttgart
  • 24.06.2022: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech (Link)
  • 18.10.2022: PoeticTTS – Controllable Poetry Reading for Literary Studies (Link)
  • 21.10.2022: Low-Resource Multilingual and Zero-Shot Multispeaker TTS (Link)
  • 27.01.2023: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech (Link)
Universität Magdeburg

27.04.2023: CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS (Link)

Universität Maastricht
  • 22.04.2022: LibriS2S: A German-English Speech-to-Speech Translation Corpus (Link)

Weitere Hochschulen

Fraunhofer-Institut für Angewandte und Integrierte Sicherheit

17.01.2024: MLAAD: The Multi-Language Audio Anti-Spoofing Dataset (Link)
Thorsten Müller ist hier Co-Autor.

Gesellschaft für Informatik

11.09.2023: Shared listening experience for hyperaudio textbooks (Link)

Universität Augsburg

15.10.2021: Scribosermo: Fast Speech-to-Text models for German and other Languages (Link)



IEEE Engineering in Medicine & Biology Society

15.07.20222: Language-Independent Sleepy Speech Detection (Link)

University of Southern California

08.11.2022: Exploring the Community of Model Publishers on TensorFlow Hub (Link)

Yıldız Technical Universit

05.06.2022: Is it possible to train a Turkish text-to-speech model with English data? (Link)


Adıyaman-Universität

03.07.2023: Türkçe TTS Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama (Preparing a Balanced Dataset for the Development of Turkish TTS Systems) (Link)

Massachusetts Institute of Technology (MIT)

11.10.2023: Audio-Visual Neural Syntax Acquisition (Link)

University of Texas at Austin

20.02.2024: Textless Low-Resource Speech-to-Speech Translation With Unit Language Models (Link)

Universitat Politècnica de Catalunya

25.04.2024: SpeechAlign: a Framework for Speech Translation Alignment Evaluation (Link)



TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO

19.06.2024: Learning Language Structures through Grounding (Link)

Virginia Commonwealth University

14.08.2024: SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition (Link)

29.11.2024: BENCHMARKING AND ENHANCING GENERALIZATION IN MULTILINGUAL SPEECH EMOTION RECOGNITION (Link)

06.10.2024: A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition (Link)



POSTECH, Republic of Korea

14.04.2024: Leveraging the Interplay Between
Syntactic and Acoustic Cues for Optimizing
Korean TTS Pause Formation (Link)

Thorsten-Voice Sprachdatensätze

Freie Daten (in freigiebiger Open-Source Lizenz) sind wichtig für Forschung und Wissenschaft.

Alle „Thorsten-Voice“ Sprachdatensätze stehen unter der CC0 Lizenz zur Verfügung (auf Zenodo und Huggingface). Weitere Informationen, DOIs (Digital Object Identifier) und Downloadinformationen folgen im weiteren Verlauf der Seite.

Es stehen mehrere Thorsten-Voice Sprachdatensätze mit insgesamt über 30.000 Aufnahmen und einer Laufzeit von 30+ Stunden zur Verfügung.

Thorsten-Voice Dataset 2021.02 (Neutral)

Anzahl Aufnahmen22.668
Audiodauer23+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Satzlänge (min/avg/max)2 / 52 / 180 Zeichen
Sprechgeschwindigkeit
(Durchschnitt)
14 Zeichen / Sekunde
Fragesätze2.780
Ausrufesätze1.840
Beispiel #1 – „Sie klettert auf einen Stein und nimmt eine Denkerpose ein.“
Beispiel #2 – „Das Teilen eines Benutzerkontos ist strengstens untersagt.“
Beispiel #3 – „Jede gute Küchenwage hat eine Tara-Funktion.“

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_thorsten_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Neutral) Dataset},
  month        = feb,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

Thorsten-Voice Dataset 2021.06 (Emotional)

Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.

  • Neutral
  • Angewidert
  • Wütend
  • Amüsiert
  • Überrascht
  • Schläfrig
  • Flüsternd
  • Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)
Anzahl Aufnahmen2.400
Samplerate
KanäleMono
Normalisierung-24dB
Satzlänge (min/max)59 / 148 Zeichen
Neutrale Aussprache – „Mist, wieder nichts geschafft.“
Angewiderte Aussprache – „Mist, wieder nichts geschafft.“
Wütende Aussprache – „Mist, wieder nichts geschafft.“
Amüsierte Aussprache – „Mist, wieder nichts geschafft.“
Überraschte Aussprache – „Mist, wieder nichts geschafft.“
Schläfrige Aussprache – „Mist, wieder nichts geschafft.“
Flüsternde Aussprache – „Mist, wieder nichts geschafft.“
Betrunkene Aussprache – „Mist, wieder nichts geschafft.“

Download: https://zenodo.org/record/5525023

@dataset{muller_thorsten_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Emotional) Dataset},
  month        = jun,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

Thorsten-Voice Dataset 2022.10 (Neutral)

Anzahl Aufnahmen12.432
Audiodauer11+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Sprechgeschwindigkeit
(Durchschnitt)
17,5 Zeichen / Sekunde
@dataset{muller_thorsten_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {ThorstenVoice Dataset 2022.10},
  month        = oct,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

Hier gibt’s mein Releasevideo zum neuen Dataset.

Mehr Infos und Download: https://zenodo.org/record/7265581

Thorsten-Voice Dataset 2023.09 (Hessisch)

Anzahl Aufnahmen2.108
Audiodauerca. 2 Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_2024_10511260,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2023.09 Hessisch},
  month        = jan,
  year         = 2024,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.10511260},
  url          = {https://doi.org/10.5281/zenodo.10511260}
}

 

Thorsten-Voice Dataset
(TV-44kHz-Full)

Dieses Dataset steht auf Huggingface bereit. Hightlights 🎉 sind:

  • ALLE AUFNAHMEN in einem Dataset
  • Aufnahmen in der original Samplerate von 44kHz
  • Logisch aufgeteilt in verschiedene Subsets (gemäß den oben genannten Aufteilungen)
  • Dauert pro Aufnahme
  • Sprechgeschwindigkeit
  • Monat der Aufnahme
  • Qualität der Aufnahme
@misc {thorsten_müller_2024,
    author       = { {Thorsten Müller} },
    title        = { TV-44kHz-Full (Revision ff427ec) },
    year         = 2024,
    url          = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
    doi          = { 10.57967/hf/3290 },
    publisher    = { Hugging Face }
}
This is default text for notification bar