Baoueb, Ms Teysir (2023) SpecDiff-GAN: A spectrally-shaped noise diffusion GAN for speech and music synthesis PFE - Projet de fin d'études, ENSTA.

Fichier(s) associé(s) à ce document :

[img]
Prévisualisation
PDF
773Kb

Résumé

Les réseaux générateurs antagonistes (GAN) peuvent synthétiser des signaux audio de haute qualité tout en garantissant une génération rapide d’échantillons. Cependant, ils sont difficiles à entraîner et sont sujets à plusieurs problèmes, notamment l’effondrement de mode et la divergence. Dans ce travail, nous présentons SpecDiff-GAN, un vocodeur neuronal basé sur HiFi-GAN, qui a été initialement conçu pour la synthèse vocale à partir d’un mel-spectrogramme. Dans notre modèle, la stabilité de l’apprentissage est améliorée au moyen d’un processus de diffusion qui consiste à injecter du bruit provenant d’une distribution gaussienne à la fois dans les échantillons réels et dans les échantillons générés avant de les introduire dans le discriminateur. Nous améliorons encore le modèle en exploitant une distribution de bruit de forme spectrale dans le but de rendre la tâche du discriminateur plus difficile. Nous démontrons ensuite les mérites du modèle proposé pour la synthèse de la parole et de la musique sur plusieurs ensembles de données. Nos expériences confirment que notre modèle se compare favorablement à plusieurs lignes de base en termes de qualité audio et d’efficacité.

Type de document:Rapport ou mémoire (PFE - Projet de fin d'études)
Mots-clés libres:réseaux générateurs antagonistes (GAN), processus de diffusion, synthèse audio profonde, enveloppe spectrale, inversion du mel-spectrogramme
Sujets:Sciences et technologies de l'information et de la communication
Mathématiques et leurs applications
Code ID :9751
Déposé par :Teysir BAOUEB
Déposé le :02 oct. 2023 17:27
Dernière modification:02 oct. 2023 17:27

Modifier les métadonnées de ce document.