VoxWave answers #1 : Détails sur le développement des banques vocales d’ALYS

TBK
By

[ENGLISH VERSION AVAILABLE HERE]

Aujourd’hui nous présentons les coulisses du développement des banques vocales françaises et japonaises d’ALYS. Découvrez tous les détails ci-dessous.

Préambule :
Pour répondre clairement, il est nécessaire de rappeler actuellement le contexte de développement qui a présidé au développement d’ALYS : très peu de moyens financiers (l’entreprise a été fondée avec nos fonds personnels), une toute petite équipe faite de talents fortement polyvalents (nous n’étions que trois personnes, étudiants alors), et surtout d’énormes attentes de la part du public.

Quelle interface utilisez-vous pour ALYS ?

Tout d’abord, pour bien comprendre les enjeux de notre démarche, il est nécessaire de rappeler qu’il existe deux grandes familles de moteurs de synthèse vocale : les moteurs de synthèse vocale par échantillonnage (compatibles avec des interfaces type VOCALOID, Cadencii, NiaoNiao, UTAU), qui reposent sur l’exploitation d’ensembles d‘échantillons de voix (banques vocales), et les moteurs de synthèse vocale reposant sur l’apprentissage et recréation de la voix (CeVIO, Sinsy), qui ont la particularité de se fonder sur des réseaux de neurones artificiels.

Chaque technologie a ses avantages et ses inconvénients : les banques vocales compatibles avec le premier type de logiciels peuvent être développées rapidement avec un bon ordinateur de bureau, là où le second type de moteur nécessite l’emploi d’ordinateurs très puissants (super-ordinateurs), ce qui nécessite un investissement bien supérieur aux fonds dont nous disposions (plusieurs centaines de milliers d’euros).

Notre choix s’est donc naturellement porté sur le premier type de technologies, d’autant qu’il en existe en libre accès ou sous licence. Il était donc possible d’améliorer rapidement ALYS en modifiant le moteur de synthèse vocale, sans pour autant changer radicalement notre façon de procéder, en améliorant nos processus internes. Il s’agissait ainsi de donner une forme concrète au projet en devenant capables de proposer rapidement une voix au public.

Étant depuis plusieurs années utilisateur de différentes solutions gratuites, mon choix d’interface s’est porté sur UTAU (après comparaison avec d’autres logiciels comme Cadencii ou NiaoNiao). En effet, aujourd’hui, UTAU est à mes yeux l’interface gratuite la plus stable, bien qu’elle soit optimisée pour le japonais et pas pour le français. C’est pourquoi dans ce contexte, la banque vocale d’ALYS reste très difficile d’utilisation, et c’est également la raison pour laquelle nous choisissons de ne pas la publier pour le moment.

Cette interface présente également l’intérêt de permettre de choisir soi-même son moteur de synthèse vocale (ou resampler, comme le dénomment les utilisateurs d’UTAU). De cette façon nous pouvions dès le début du projet utiliser un ensemble le plus large possible de technologies en libre accès. C’est d’ailleurs pour cette raison que le timbre de la voix d’ALYS s’est modifié entre Dans mon monde et Avenir : le moteur a été mis à jour après publication de la première chanson.

Comment a été enregistrée la banque vocale d’ALYS ? Qu’avez vous utilisé ?

Nous avons enregistré les banques vocales d’ALYS en juillet 2014. J’ai, pour cette occasion, utilisé mon matériel personnel : un microphone AKG Perception 220 et une interface audio Focusrite Saffire USB 6.0.
L’enregistrement s’est par ailleurs fait en deux temps, au début et à la fin du mois, ce qui explique les légères différences entre la banque vocale japonaise d’ALYS et sa banque vocale francophone. La voix d’une personne connaît en effet de multiples fluctuations, qui peuvent, même à l’échelle d’un mois, entraîner de nombreuses distorsions dans le résultat final (et avec de très faibles moyens de contrôle au préalable).
Concernant le processus en lui-même : j’ai réalisé dans les mois précédents deux scripts d’enregistrement permettant d’obtenir tous les échantillons nécessaires à la synthèse du français et du japonais (un par langue donc), et une fois dans le lieu d’enregistrement, nous avons demandé à Poucet de prononcer les sons dans l’ordre indiqué par le script, à différentes hauteurs.
Pour la petite anecdote, il existe une autre banque vocale francophone d’ALYS qui n’a jamais été utilisée à ce jour pour une chanson. Pourquoi ? Tout simplement car nous avions sous-estimé le temps d’installation dans le lieu d’enregistrement, et que celui-ci n’était par ailleurs pas parfaitement insonorisé — l’absence de bruit extérieur étant indispensable pour une bonne qualité d’enregistrement.
Pour cette raison, nous avons préféré privilégier l’enregistrement de la banque vocale japonaise, et avons planifié de nouveaux enregistrements fin juillet pour pouvoir avoir quelque chose de plus qualitatif, qui permettait vraiment d’atteindre la meilleure qualité de voix possible avec nos moyens de l’époque.

Cela étant, nous avons récemment initié des travaux qui visent à améliorer drastiquement la qualité de voix d’ALYS en reprenant ce travail d’enregistrement depuis le début, cette fois dans des conditions bien meilleures (script parfaitement finalisé, enregistrements dans d’excellentes conditions sonores et bien travaillés avec Poucet). Nous ne vous en dirons pas plus pour le moment mais vous devriez être convaincus du résultat ! Les choses évoluent, et pour le mieux ! 😉

Vous dites que l’environnement des premiers enregistrements était bruyant, les banques vocales ont-elles été post-traitées ?

Oui et pas qu’un peu ! Nous avons dû dans un premier temps séparer tous les enregistrements dans différents fichiers, puisque nous avions enregistré de longs fichiers audio directement dans IL Edison. Ces fichiers ont ensuite été segmentés dans SoundForge 10, les échantillons obtenus étant renommés d’après une charte spécifique élaborée par mes soins. Après cela, j’ai fait des améliorations audio et réparé ce qui avait besoin de l’être. Pour les deux banques vocales, certaines consonnes de Poucet étaient un peu trop longues, j’ai donc dû les raccourcir, lorsque c’était possible. Cela concernait surtout les consonnes sourdes comme /t/ et /s/. Évidemment, cela n’était pas aussi facile pour les consonnes voisées comme /d/ et /z/, et celles-ci sont donc restées des consonnes longues. Il est également arrivé (très rarement, mais tout de même) que certaines consonnes (en particulier le /t/ et le /p/) soient mal prononcées (voire pas prononcées du tout dans de très rares cas). Le dernier cas en date était un /t/ prononcé comme un /d/ dans la banque vocale japonaise, ce que j’ai dû corriger.

J’ai aussi dû supprimer tous les bruits de lèvres et de salive des enregistrements.

Le plus gros travail a toutefois consisté à supprimer le bruit de fond statique lié au lieu de l’enregistrement, et ce, enregistrement par enregistrement, c’est-à-dire pas moins de 790 fichiers audios pour la banque vocale japonaise d’ALYS, et 802 fichiers audios pour la banque vocale française, qui ont dû être édités dans iZotope RX !

Il y avait aussi des bruits divers qui n’ont pas été détectés pendant l’enregistrement, comme de faibles bruits de chaise pendant des voyelles, ce que j’ai également dû supprimer.
Les personnes qui m’ont suivi sur Twitter pendant cette partie du développement de la banque vocale japonaise ont pu voir énormément de screenshots des spectres audio des enregistrements montrant l’état du fichier avant et après le nettoyage.

Comment sont construites les banques vocales d’ALYS, de quel type de banques vocales s’agit-il ?

La banque vocale japonaise d’ALYS a été enregistrée en suivant mon propre script d’enregistrement japonais (aussi appelé reclist par les utilisateurs UTAU) écrit en VCV (Voyelle-Consonne-Voyelle), avec des voyelles supplémentaires comme le /I/, ou une différenciation entre le /z/ et le /dz/. Cette banque vocale inclut également des entrées en VC (Voyelle-Consonne) afin de permettre de “bricoler” de l’anglais (ce que certains appellent Engrish : de l’anglais produit à partir d’une banque vocale japonaise) plus facilement. Par exemple dans Hajime Ni, une note [ak] a été utilisée pour le “dark” du vers “a shot in the dark”. Cette banque vocale a été enregistrée sur trois hauteurs principales. Pour les voyelles et les transitions voyelle-voyelle, nous avons également enregistré des hauteurs supplémentaires afin de rendre la tessiture d’ALYS plus importante, et les transitions entre les hauteurs principales plus fluides.

Nous avons également remarqué après coup que la banque vocale avait été enregistrée dans un style « kire » : la voix est douce, presque soufflée dans ses graves, tandis que ses notes hautes sont plus puissantes.

Sa banque vocale française, en revanche, a été enregistrée en CVVC (Consonne-Voyelle et Voyelle-Consonne). Il y a deux hauteurs principales et trois hauteurs supplémentaires. Par manque de temps, j’ai eu recours à une aide extérieure afin de réaliser le script d’enregistrement (que j’ai par la suite complété). Bien que le script japonais puisse être généré par un algorithme, le script français a dû être réalisé à la main.
Je me suis rendu compte lors de l’utilisation du prototype que des enregistrements et transitions supplémentaires auraient été nécessaires, et j’ai donc dû m’adapter aux lacunes du prototype.

J’ai également fait le choix de ne pas utiliser les outils de développement intégrés au logiciel UTAU, que j’ai déjà eu l’occasion d’utiliser mais qui me semble trop limitants. J’ai donc utilisé le logiciel setParam pour paramétrer les oto.ini (écrits au Notepad) des deux banques vocales. setParam permet non seulement un développement de banque vocale rapide, mais propose aussi des outils qui permettent de vérifier la qualité des oto.ini. Rappelons d’ailleurs qu’à cette époque, nous voulions absolument sortir une chanson pour le mois de septembre. setParam m’a ainsi permis de suffisamment développer la banque vocale francophone d’ALYS pour Dans mon Monde, qui était pourtant encore en alpha lors de sa publication !

J’ai également utilisé le FRQ Editor de Masao pour générer avec world4utau les tables de fréquence des enregistrements d’ALYS, puisque ce moteur et celui qui possède l’outil d’estimation de hauteur le plus puissant et le plus précis. J’ai ensuite converti ces tables de fréquence au format utilisé par le moteur d’ALYS, après avoir corrigé les divers problèmes que je pouvais détecter avec le FRQ Editor.

Comment la banque vocale d’ALYS fonctionne-t-elle ? Comment l’utilisez-vous ?

Les banques vocales d’ALYS — en particulier la française — sont très complexes d’utilisation.
Étant donné que la banque vocale japonaise est enregistrée en VCV, je n’ai besoin que d’une ou deux notes par syllabe. J’en utilise deux quand j’ai besoin d’une hauteur supplémentaire pour les voyelles : je fais une première note longue de 100 ms, et le reste de la voyelle est une autre note utilisant une voyelle enregistrée sur une hauteur supplémentaire. Cette technique est utilisée lorsqu’une note est entre deux hauteurs principales, ou au-delà de la plus haute hauteur principale, ou en dessous de la hauteur la plus basse.

Mais le plus amusant reste le français.

Tout d’abord je dois faire en sorte qu’ALYS prononce correctement les CVVC, et ça ne peut être fait facilement sans une certaine expérience sous ce mode particulier d’enregistrement.
À l’époque de Dans mon monde, j’avais déjà eu l’occasion de travailler sur des banques vocales anglophones (notamment avec Tashi, mon propre UTAU), mais je n’étais pas assez expérimenté pour faire des transitions fluides, et cela s’entend sur Dans mon Monde.
Cependant, après avoir utilisé ALYS quotidiennement durant de nombreuses heures, et depuis plus d’un an, j’ai enfin réussi à maîtriser sa banque vocale. C’est avec Sous cette Pluie que cette maîtrise se manifeste le plus évidemment.

Ainsi, chaque syllabe nécessite au moins 2 notes, une en CV (Consonne-Voyelle), et une en VC (Voyelle-Consonne). Mais dans la pratique, cela vaut quasiment uniquement pour des syllabes courtes.
Pour des syllabes longues, j’utilise une troisième note pour la voyelle médiane entre le CV et le VC. Cette dernière est une voyelle stationnaire d’une hauteur principale ou d’une hauteur supplémentaire.

Comment tunez-vous la voix d’ALYS ?

Je chante tout simplement moi-même la chanson et j’essaye de recréer la hauteur et les variations de volumes que je fais ou qui pourrait sonner correctement d’après moi.
Il m’arrive également d’appliquer des filtres (appelés flags) à la voix d’ALYS. Dans le cas d’Avenir, j’ai estimé que la voix originale d’ALYS ne correspondrait pas bien à la chanson, et c’est pour cela que j’ai fait en sorte qu’elle sonne plus adulte. Dans une future chanson d’ALYS, vous pourrez découvrir qu’en poussant plus loin ce même filtre, on peut suffisamment modifier la voix d’ALYS pour la faire sonner plus « androgyne ». Mais je ne vous en dis pas plus !

La prononciation d’ALYS est basée sur ma propre prononciation du français.
Certaines personnes ont remarqué qu’ALYS avait un accent… C’est vrai ! En effet, elle a le mien. Parfois, j’ai tendance à inverser le /O/ ouvert et le /o/ fermé. Il en va de même pour le /E/ ouvert et le /e/ fermé. Enfin, « inversé », si l’on part du principe qu’il existe un français « standard ». Mais les gens qui ont le même accent que moi trouveront qu’ALYS n’a pas d’accent. Un français sans aucun accent est une chimère.

En définitive, c’est pour cela qu’il y a autant d’ALYS que de créateurs : chaque dessinateur peut redessiner ALYS à sa guise sur le plan visuel, mais sur le plan musical, chaque compositeur insuffle à ALYS un certain nombre de spécificités, et notamment son propre accent !

 

Nous espérons que cet article a su apporter les réponses à vos questions ou les confirmations que vous attendiez. La banque vocale d’ALYS n’est qu’à ses balbutiements et sa qualité augmentera drastiquement au cours des prochains mois. Par ailleurs ALYS demeurera bien plus qu’une banque vocale, puisqu’elle ne s’y est jamais limitée et ne s’y limitera jamais. Nous souhaitons créer autour d’elle un univers beaucoup plus vaste et vertueux pour tous ses utilisateurs et fans.

 

Merci à Drak-pa pour ces réponses. 🙂

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Vous pouviez déjà nous envoyer vos créations et vos candidatures afin de créer les contenus originaux autour d’ALYS. Nous vous confirmons cela et vous donnerons plus de détails sur les étapes à suivre afin de soumettre vos propositions à l’équipe ; que vous soyez compositeur, parolier, illustrateur ou animateur.

TBK
About


Related articles