Dataocean AI hat in Zusammenarbeit mit der Shanghai Jiao Tong University, der Chinese University of Hong Kong, der Tsinghua University, dem Pengcheng Lab, AISpeech, Birch AI und Seasalt AI erfolgreich GigaSpeech 2 entwickelt. Die Entwicklungs- und Test-Sets von GigaSpeech 2 werden von einem professionellen Team von Dataocean AI beschriftet.

GigaSpeech 2 Überblick

GigaSpeech 2 ist ein sich ständig erweiterndes, groß angelegtes, mehrsprachiges und mehrdomäniges Spracherkennungskorpus, das die Forschung und Entwicklung im Bereich der ressourcenarmen Spracherkennung fördern soll. GigaSpeech 2 raw enthält 30.000 Stunden automatisch transkribiertes Audio in den Sprachen Thailändisch, Indonesisch und Vietnamesisch. Nach mehreren Runden der Verfeinerung und Wiederholung bietet GigaSpeech 2 refined Angebote von 10.000 Stunden Thai, 6.000 Stunden Indonesisch und 6.000 Stunden Vietnamesisch. Die von Dataocean AI für Thai und Indonesisch gekennzeichneten Schulungssets umfassen jeweils 10 Stunden, während die Entwicklungssets für Thai und Indonesisch ebenfalls 10 Stunden umfassen. Das Team hat außerdem mehrsprachige Spracherkennungsmodelle auf Open-Source-Basis entwickelt, die mit den GigaSpeech 2-Daten trainiert wurden und eine Leistung erzielen, die mit kommerziellen Spracherkennungsdiensten vergleichbar ist.

Datensatzkonstruktion

Der Konstruktionsprozess von GigaSpeech 2 wurde ebenfalls als Open Source zur Verfügung gestellt. Dies ist ein automatisierter Prozess zur Erstellung umfangreicher Spracherkennungsdatensätze aus riesigen Mengen unmarkierter Audiodateien, die im Internet verfügbar sind. Der automatisierte Prozess umfasst das Durchsuchen von Daten, die Transkription, die Ausrichtung und die Verfeinerung. Zunächst wird Whisper für die vorläufige Transkription verwendet, gefolgt von einer erzwungenen Ausrichtung mit TorchAudio, um GigaSpeech 2 raw durch mehrdimensionales Filtern zu erzeugen. Der Datensatz wird dann iterativ mithilfe einer verbesserten Noisy-Student-Training-Methode (NST) verfeinert, wodurch die Qualität der Pseudo-Labels durch wiederholte Iterationen verbessert wird, was letztendlich zu GigaSpeech 2 refined führt.

GigaSpeech 2 umfasst eine Vielzahl von Themenbereichen, darunter Landwirtschaft, Kunst, Wirtschaft, Klima, Kultur, Wirtschaft, Bildung, Unterhaltung, Gesundheit, Geschichte, Literatur, Musik, Politik, Beziehungen, Einkaufen, Gesellschaft, Sport, Technologie und Reisen. Darüber hinaus deckt es verschiedene Inhaltsformate wie Hörbücher, Dokumentationen, Vorträge, Monologe, Filme und Fernsehsendungen, Nachrichten, Interviews und Videoblogs ab.

Details zum Schulungsset

GigaSpeech 2 bietet ein umfassendes und vielfältiges Schulungsset, das sorgfältig darauf ausgelegt ist, die Entwicklung robuster und leistungsstarker Spracherkennungsmodelle zu unterstützen. Die Details des Schulungssets sind wie folgt:

Thai: Die Rohfassung besteht aus 12.901,8 Stunden Sprachdaten, während die überarbeitete Fassung 10.262,0 Stunden umfasst.

- Indonesisch: Die Rohdaten belaufen sich auf 8.112,9 Stunden und die verfeinerten Daten umfassen 5.714,0 Stunden.

- Vietnamesisch: Der Rohdatensatz umfasst 7.324,0 Stunden Sprachaufzeichnungen, der verfeinerte Datensatz insgesamt 6.039,0 Stunden.

Details zu Entwicklungs- und Schulungsset

Ke Li, COO von Dataocean AI und einer der Autoren des Artikels, hat das Projekt "GigaSpeech 2 Test Sets" geleitet. Mit fast 20 Jahren Projekterfahrung hat das Team in Thai und Indonesisch mit einer Wortgenauigkeit von über 97 beigetragen. Neben diesen beiden ostasiatischen Sprachen kann das Team von Dataocean AI auch über 200 Sprachen und Dialekte auf der ganzen Welt abdecken. Das Unternehmen bietet über 1600 hochwertige Standard-Datensätze an, die für verschiedene Szenarien wie Generative KI, autonomes Fahren, Smart Home, Kundenservice usw. geeignet sind und die sich entwickelnden Anforderungen der KI-Branche erfüllen.

Versuchsergebnisse

Wir haben eine vergleichende Bewertung von Spracherkennungsmodellen durchgeführt, die auf dem GigaSpeech 2-Datensatz trainiert wurden, und diese mit branchenführenden Modellen verglichen, darunter OpenAI Whisper (large-v3, large-v2, base), Meta MMS L1107, Azure Speech CLI 1.37.0 und Google USM Chirp v2. Der Vergleich wurde in thailändischer, indonesischer und vietnamesischer Sprache durchgeführt. Die Leistungsbewertung basierte auf drei Testsätzen: GigaSpeech 2, Common Voice 17.0 und FLEURS, wobei die Zeichenfehlerrate (CER) oder die Wortfehlerrate (WER) als Metrik verwendet wird. Die Ergebnisse zeigen:

Thai: Unser Modell zeigte eine außergewöhnliche Leistung und übertraf alle Konkurrenten, einschließlich der kommerziellen Schnittstellen von Microsoft und Google. Bemerkenswert ist, dass unser Modell dieses signifikante Ergebnis erzielte, obwohl es im Vergleich zu Whisper large-v3 nur ein Zehntel der Parameter aufwies.

Indonesisch and Vietnamesisch: Unser System zeigte sowohl in der indonesischen als auch in der vietnamesischen Sprache eine wettbewerbsfähige Leistung im Vergleich zu bestehenden Basismodellen.

Ressourcenlinks

Der GigaSpeech 2-Datensatz steht jetzt zum Download bereit:

https://huggingface.co/datasets/speechcolab/gigaspeech2

Der automatisierte Prozess zur Erstellung umfangreicher Spracherkennungsdatensätze ist verfügbar unter:

https://github.com/SpeechColab/GigaSpeech2

Das Vorabdruckpapier ist verfügbar unter:

https://arxiv.org/pdf/2406.11546

Website von Dataocean AI:

https://www.dataoceanai.com

