Utiliser le numérique pour transformer les voix

 

Ayant récemment eu une conversation avec une personne doublant des personnages dans les films et les jeux vidéos, j’ai voulu me pencher sur les problèmes posés par l’évolution de la voix des doubleurs (chose auquel nous ne faisons pas attention mais qui nous gène pourtant en cas disfonctionnement) et les réponses qu’y apportait le numérique.

Le volume de texte d’un gros jeu vidéo représente 20 fois celui d’un long métrage (différents scénarios en fonction des chois du joueur…). De plus, pour éviter le piratage, les concepteurs doivent traduire les dialogues des jeux en 14 langues ce qui représente un travail de localisation énorme (traduction, doublage). Le volume de texte total d’un jeu vidéo équivaudrait donc à 280 fois celui d’un long métrage.

Les problématiques de transformation de voix font parties des problèmes majeurs dans la conception de jeux vidéo. Pourquoi transformer une voix est t’il intéressant dans la conception de jeux vidéo ? Comment le numérique peut-il permettre cette transformation ?

 

Quelles sont les problématiques liées à la transformation des voix ? (pourquoi ?)

  • Rajeunir une voix : les jeux à succès font fréquemment l’objet de suites. Par exemple, le jeu hallo est sorti en 2001 et ça suite en 2012. Il faut conserver les mêmes acteurs dans le but d’assurer la cohérence du jeu. Or, sur une période de plusieurs années, la voix se transforme et sur certain personnages, cette modification est problématique (intelligence artificielle, qui par définition ne vieillit pas…).
  • Vieillir la voix : les comédiens de doublage sont des acteurs expérimentés qui peuvent sans difficulté passer d’une voix d’homme/femme mature à une voix de vieillard. En revanche, il est quasi impossible pour eux de vieillir la voix de quelques années seulement.
  • Ré-enregistrer des petits nombres de séquences : en fin de production, il est fréquent d’avoir à enregistrer ou ré-enregistrer quelques séquences. Il est alors nécessaire de faire revenir les comédiens pour quelques phrases, ce qui engendre des coûts et des délais supplémentaires ce qui est parfois impossible. Faire enregistrer les dialogues par un même comédien et appliquer informatiquement la signature sonore des comédiens originaux apporte une solution efficace au problème.
  • Voix multiples : des soldats discutant ensemble dans une salle de garde, par exemple, ne prononcent que quelques répliques chacun, mais doivent pouvoir être clairement distingués les uns des autres. Recourir à plusieurs acteurs, chacun prenant en charge plusieurs voix est très couteux. Cette situation est optimisée en déclinant la voix de tous les soldats par transformation de voix unique.
  • Nécessité de reproduire des voix d’enfants. Faire enregistrer des enfants pose des contraintes et entraine des difficultés particulières : contrainte légale de faire approuver le script du jeu et les dialogues par la DASS, capacité de concentration des enfants limitée, difficulté à mémoriser les dialogues longs ou complexes, à diriger le jeu d’acteur, manque d’expérience, etc. De ce fait, il est fréquent d’avoir recours à des actrices capables d’imiter des voix enfantines, mais celle disposant de cette capacité sont peut nombreuse.

Que faut-il changer pour modifier une voix grâce à des filtres numériques ?(comment ?)

Les voix humaines sont définies par 4 caractéristiques physiques :

  • Hauteur
  • durée – tenue des sons
  • intensité
  • timbre

On peut appliquer sur ces caractéristiques des algorithmes fréquentiels (filtres paramétrables) afin de les transformer. Par exemple, pour transformer une voix de femme en voix d’enfant, il faut en augmenter le débit et la faire monter dans les aiguës.

Quels sont les outils numériques utilisés?

Un outil numérique très utilisé est Antares Vocal Toolkit de la société AVOX composé de deux plugins :

THROAT Physical Modeling Vocal Designer : ce module très innovant s’appuie sur une modélisation de l’appareil vocal humain et permet de traiter la voix en simulant une modification des paramètres physiologique de la gorge et de la cavité buccale (possibilité d’étirer, de raccourcir, d’élargir ou de rétrécir les voies modélisée en 5 points : conduit vocal, cordes vocales, gorge, bouche et lèvres). Ce plugin permet également d’ajouter à fréquence variable des effets vocaux de type bruits de souffle, sons rauques, effets de chuchotement, etc. Le module peut être paramétré pour modifier les caractéristiques vocales d’une voix humaine, ou pour travailler dans des registres inaccessibles à l’anatomie humaine (création de voix synthétique pour personnages robots ou animaux, par exemple).

PUNCH Vocal Impact Enhancer : un processeur qui permet de donner plus « d’impact » et plus de dynamique à une voix, ce qui lui permet de ressortir d’un ensemble de voix, plus dense, plus claire et plus puissante.

 

Exemple de résultats obtenus avec ces logiciels

5 comédiens et 5 comédiennes situés dans différents registres et possédant une excellente diction sont enregistrés. En utilisant les différents plugins Antares et en combinant leurs effets, les voix source peuvent être déclinées en montant dans les aigus, en descendant dans les graves, en ajoutant des variations (souffle, sons rauques, ajout de sifflante), etc.

Cela montre combien de voix peuvent êtres déclinées d’une voix source, sur la base des règles suivantes :

  • Chaque voix doit être suffisamment différente de la précédente pour qu’on ne puisse l’associer au même personnage.
  • La voix issue de la transformation doit conserver un caractère naturel et être clairement intelligible.

 

Sexe

Acteur / trice

Registre

Déclinaisons
bonnes ou limites

Déclinaisons
+ haute

Déclinaison+ basse

Femme

SIMON Emmanuelle

Alto

3

2

1

Femme

DUHAMEL Céline

Mezzo-soprano

5

2

3

Femme

BRAILLON Delphine

Soprano

2

1

1

Femme

MOREAU Adeline

Mezzo-soprano

6

3

3

Femme

GERRITSEN Natacha

Mezzo-soprano

5

2

3

Homme

FISCHER Christian

Baryton

7

3

4

Homme

LEMARIE Sylvain

Basse

3

2

1

Homme

OMNES Hervé

Baryton

7

3

4

Homme

ROULLIER Philippe

Baryton

6

3

3

Homme

BRETONNIERE Marc

Ténor

5

2

3

 

Les cas limites apparaissent assez vite lorsqu’on rehausse le ton en raison d’une accentuation des sifflantes qui devient vite désagréable. Seule une moitié environ des voix déclinées est de qualité suffisante pour pouvoir être utilisée sur des scènes dépourvues de fond sonore.


 

Ces logiciels permettent donc de déformer une voix au point qu’on ne puisse plus reconnaître la voix d’origine, créer des voix artificielles, les rajeunir ou les vieillir… Mais ces outils ont leurs limites et sont actuellement les sujets de recherche de développeurs informatiques qui cherchent à les améliorer. En effet, ce qui caractérise une voix est extrêmement complexe et varié : le phrasé, le timbre, l’accent (déformation des phonèmes), le rythme, la dynamique, le débit, le volume d’air, les bruits de bouche, etc. Les résultats obtenus peuvent souffrir d’un défaut de réalisme. Si la tonalité est à peu près correcte, le rendu manque nettement de naturel, sans qu’il soit précisément possible de savoir à quoi imputer ce défaut de réalisme.

 

 

 

Une réflexion au sujet de « Utiliser le numérique pour transformer les voix »

  1. Ping : red meizitang

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*