Sophie Bernard nous parle de la vocalisation de vos projets sur VTS Editor

Les questions qui reviennent souvent

Dois-je vocaliser mon projet ?

Après tout, les textes des personnages étant sous-titrés par défaut dans VTS, cela est-il vraiment nécessaire ?

D’une manière générale, nous vous conseillons de vocaliser vos modules, que vous choisissiez d’utiliser des voix de studio ou de synthèse. Cela favorise l’immersion, la compréhension et la mémorisation des contenus.

Vocaliser permet également une meilleure accessibilité. Les sous-titres ayant une durée d’affichage dépendant de leur longueur, un apprenant n’ayant pas eu le temps de lire la totalité des textes peut se trouver un peu perdu. Leur diffusion auditive permettra une transmission complète.

Vais-je utiliser des voix de synthèse ou des voix de studio ?

Différents paramètres peuvent être pris en compte pour choisir entre voix de synthèse ou de studio. Voici quelques pistes qui pourront vous aider à prendre votre décision :

– Le budget : La voix de synthèse reste la solution la moins coûteuse.
Attention toutefois à la qualité de ces voix et à la pertinence de leur utilisation car un projet mal vocalisé peut s’avérer contre-productif.

– Le type de projet : Le secteur d’activité, le domaine d’expertise visé et le concept de votre projet peuvent avoir une influence sur votre choix. Des contenus très descendants et formels prononcés par des personnages exprimant très peu d’émotions, pourront être vocalisés aisément en voix de synthèse. À l’inverse, des modules très narratifs et immersifs, avec des personnages hauts en couleur devant exprimer des modulations de voix ou des projets d’entraînement à la communication, aux relations interpersonnelles plus poussées, pourront plus difficilement faire l’impasse sur des voix enregistrées en studio. Des textes joués par de véritables acteurs studio généreront d’autant plus d’émotions favorables à l’engagement et à la rétention d’information.

– Le public cible : Interrogez-vous sur la capacité de votre public à accueillir des voix de synthèse. Ce choix peut-il avoir un impact négatif sur l’apprentissage ?

– L’évolution possible des textes de votre projet : Si vous pensez que les textes de votre projet sont amenés à évoluer et que le contexte est adapté, le choix des voix de synthèse peut s’avérer intéressant. Ce peut être le cas si vous souhaitez modifier et re-vocaliser rapidement à moindre coût le nom d’un produit, d’un terme que vous ne souhaitez plus employer. Une fois que les textes à remplacer sont modifiés, vous n’aurez plus qu’à générer les sons manquants sans qu’aucune différence de ton ne puisse être constatée.

Quelques mots sur les voix de synthèse

Leur qualité a beaucoup évolué ces dernières années, notamment grâce aux technologies d’Intelligence Artificielle développées par Google et Microsoft. VTS Editor offre une grande variété de voix de synthèse via ses 4 partenaires et permet de générer en un clic des vocalisations de qualité en différentes langues.

Astuce : Vous avez la possibilité d’améliorer la prononciation du texte lu par la voix de synthèse en modifiant la ligne « texte prononcé » de VTS. Cela peut se faire de deux manières qui peuvent être combinées :
1/ En écrivant le mot tel que vous souhaitez l’entendre prononcé
Exemple : « La communication doit être courtoise. »
Vous souhaitez que le personnage fasse la liaison entre les mots sur « doit être » ? Il vous suffit d’écrire « doit têtre » dans la ligne « texte prononcé » comme dans l’exemple ci-dessous :

2/ En utilisant le langage de balisage de synthèse vocale (SSML) pour les voix Google (commençant par GW) ou les balises proposées par Acapela (AC).

Dois-je vocaliser les voix de tous les personnages ?

La question implicite derrière celle-ci est souvent : ”Dois-je vocaliser le personnage de l’apprenant si je suis en vue à la première personne ?”

Certains préféreront ne pas vocaliser la voix de l’apprenant lorsque la scène est vue au travers des yeux de la personne qui joue le module pour différentes raisons :
Ce peut être pour des raisons budgétaires si tout le module doit être réalisé en voix de studio.

Autre argument parfois mis en avant : cela permet à l’apprenant de mieux se projeter à la première personne et de contourner la question que se posent certains clients : « Les utilisateurs pourront-ils bien entrer dans la peau du personnage si la voix de l’apprenant est vocalisée par une personne du sexe opposé ? ». Nous avons tendance à penser que l’identification à un personnage ne se résume pas à son identité de genre, elle est aussi liée à d’autres facteurs beaucoup plus nombreux et subtils.

L’ouverture d’esprit de chacun et la culture vidéoludique peuvent aussi entrer en ligne de compte. En effet, les personnes ayant l’habitude d’incarner des rôles très divers et des personnages parfois éloignés de leur représentation d’eux-mêmes dans des jeux vidéo ne se posent pas cette question la plupart du temps.

Vocaliser la voix de l’apprenant rendra votre module plus immersif et vivant. Vous éviterez ainsi la sensation de ne pas avoir de répartie lors des conversations avec les autres personnages.

Si votre module est court, vous pouvez aussi envisager de faire choisir à vos apprenants d’incarner le rôle d’un homme ou d’une femme.
Il suffit pour cela de dupliquer le rôle de l’apprenant et de le remplacer par deux personnages qui n’apparaissent jamais à l’écran puis de proposer de choisir entre une voix féminine ou masculine au début de votre projet.

Cette opération peut aussi être réalisée sur un module plus conséquent. Nous vous conseillons cependant de prêter attention aux points suivants avant de vous lancer :
1/ le coût de la vocalisation sera plus élevé puisque vous devrez générer la voix de l’apprenant en double pour le cas de la voix de synthèse ou la faire enregistrer par 2 acteurs différents.
2/ Si des changements sont à réaliser par la suite, il vous faudra à chaque fois effectuer les modifications de texte en double et réaliser les accords de genre. Cela concerne les textes de l’apprenant mais aussi ceux des autres personnages s’adressant à lui/elle ou se référant à sa personne.
3/ Enfin, ce dédoublement des fichiers sons aura un impact plus ou moins important sur le poids de votre module.

Si vous choisissez cette option, veillez bien à effectuer le dédoublement des textes une fois que ceux-ci auront été définitivement validés afin de vous éviter des modifications en double à chaque phase de retour sur votre projet.

Puis-je mixer voix de studio et voix de synthèse ?

Vous rêviez de faire vocaliser votre module par des acteurs studio mais votre budget ne permet pas de prendre en compte l’ensemble des enregistrements ?

Une solution mixte voix de synthèse / voix de studio peut être choisie dans certains cas. Veillez toutefois à ce que le contraste entre les deux ne soit pas trop perturbant pour vos apprenants.

Si vous avez besoin de vocaliser tous les textes de votre projet, non seulement ceux des personnages mais également les blocs « message » et « quiz » pour des questions d’accessibilité, cela peut vite représenter une quantité importante de mots.

Il peut être judicieux dans ce cas de réserver la synthèse vocale à la lecture des consignes ou tout autre texte ne nécessitant pas de faire passer des émotions ou un phrasé particulier.

Puis-je enregistrer les voix moi-même ?

Vous pouvez bien sûr réaliser vous-même ces enregistrements si vous possédez des talents d’acteurs et du matériel offrant une bonne qualité audio. Cela peut aussi être une option si vous avez un budget restreint ainsi que le temps et l’envie de réaliser cette tâche. Toutefois, elle peut s’avérer chronophage si vous n’êtes pas déjà aguerri aux techniques de production sonore, voire contre-productive si votre voix n’est pas adaptée au rôle joué ou si vous ne parvenez pas à trouver la bonne intention.

Conseils pour l’enregistrement de voix de studio

La préparation des enregistrements de voix

La préparation des enregistrements de voix d’acteurs avant l’envoi au studio ne doit pas être négligée par manque de temps ou parce que vous considérez que la direction d’acteur n’est pas de votre ressort.
Votre contribution à cette étape est primordiale afin de faciliter l’enregistrement et d’obtenir un résultat à la hauteur de vos espérances : chaque rôle sera joué par une voix adaptée au personnage afin de permettre à l’apprenant une immersion facile par identification.

De plus, un professionnel vous garantira un rendu de qualité et vous permettra de gagner beaucoup de temps en déléguant ces différentes étapes :
Appropriation des textes et du jeu d’acteur de chaque personnage, enregistrement et écoute des pistes, réenregistrement des prises non satisfaisantes, découpage et nommage des fichiers audio.
À réception de ces sons, vous pourrez les intégrer très rapidement dans VTS Editor et procéder à la relecture.

Dernières relectures avant l’enregistrement

– Relisez les textes à vocaliser à haute voix. Cela permet de vérifier le rythme, de repérer des phrases trop longues ou qui « sonnent mal ».

– Faites aussi relire les textes à des personnes possédant une bonne orthographe et n’ayant pas participé à la conception afin de chasser les dernières fautes qui auraient pu échapper à votre vigilance. Nous avons beau relire avec attention plusieurs fois, il arrive malgré tout que des coquilles se glissent car nous connaissons trop les textes et ne voyons plus certains détails.

– Nous vous conseillons également de faire relire votre projet à des personnes appartenant à votre cible finale afin de vous assurer que l’ensemble des mots sont bien compris de tous. Dans le cas contraire, le recours à un synonyme plus simple ou des explications complémentaires peuvent être nécessaires.

Idéalement, cette relecture aura été réalisée plus tôt lors de tests utilisateurs mais si ce n’est pas le cas, c’est le moment de réaliser les ultimes changements ! Après l’enregistrement, une modification s’avère plus compliquée. Cela n’est pas impossible bien sûr, mais elle retardera votre projet et sera plus coûteuse car il faudra à nouveau mobiliser les acteurs concernés et traiter les nouveaux fichiers son.

Comment travaillons-nous avec le studio d’enregistrement ?

Chez Serious Factory, nous fournissons divers éléments au studio afin qu’il puisse établir un devis et enregistrer les voix des personnages en ayant le maximum d’informations utiles à sa disposition :

Pour cela, nous réalisons une fiche récapitulative comprenant les renseignements essentiels à fournir. Il est recommandé que celle-ci contienne :
– La langue d’enregistrement.
Vous pouvez aussi préciser le type d’accent souhaité si cela est nécessaire. Par exemple, faut-il un accent anglais américain, britannique, australien ?
– Le nombre de mots prononcés au total et par chaque personnage et le nombre de fichiers son que représentent ces textes. Cela permettra au studio d’établir un devis précis en fonction des comédiens retenus, du nombre de fichiers à découper et des exigences propres à votre projet.

Astuce : Grâce à VTS Editor, il est très facile de connaître le nombre de mots et de fichiers sons utilisés par personnage et pour l’ensemble du casting en vous rendant dans le gestionnaire de texte ( cliquer sur « Textes & voix » dans le menu) :

Dans cet exemple, nous voyons qu’en cliquant sur « Personnages » dans la partie située à gauche de l’écran, nous visualisons le nombre total de fichiers sons (en haut à gauche des textes) : 536, d’autre part le nombre de mots prononcés par l’ensemble des personnages (en haut à droite) : 4148

– Une brève description du contexte du module et la tonalité générale :
De quel type de module et de format s’agit-il ? : S’inscrit-il au sein d’une formation blended learning, est-ce un format long ou au contraire très court type capsule micro learning, un escape game digital… ? Le ton est-il très didactique, avec un contexte formel ou au contraire informel ?

– Quelques explications sur la nature du public cible :
Par exemple, a-t-on affaire à des apprenants novices pour un onboarding ou déjà expérimentés sur le sujet ?

– Une présentation de chaque personnage :
Vous ferez figurer sa photo, son âge approximatif, son rôle dans le scénario. Vous pouvez donner des indications sur le type de personnalité, la voix, l’interprétation générale souhaitée et vous appuyer sur de courts extraits audio ou vidéo pour préciser votre demande. Sur des projets assez conséquents et requérant un niveau de précision élevé, des tests de voix préalables peuvent être fournis par le studio.

Par exemple :
Jean, 55 ans : Commercial senior de la société X. Il est sympathique et assez blagueur, voix chaleureuse et affirmée.

– Des indications sur le comportement non verbal du personnage peuvent également aider les comédiens à l’incarner au mieux :
Par exemple : « le personnage est blessé et souffre beaucoup. Il est recroquevillé et se tient l’épaule »

N.B. : Si le jeu d’acteur demandé comporte un certain degré de complexité, veillez à transmettre votre demande au studio dans un délai raisonnable afin de laisser suffisamment de temps aux comédiens pour s’approprier leurs rôles.

Lorsque cela est possible, nous partageons temporairement au studio l’expérience vocalisée en voix de synthèse ainsi que l’export général des textes afin que la personne en charge de la direction des acteurs saisisse pleinement le contexte et puisse guider au mieux les comédiens.

Nous exportons ensuite les fichiers de textes à enregistrer pour chacun des personnages.

N.B : Si vous réalisez vous-même l’export des fichiers, pensez à bien paramétrer la voix des personnages sur « voix de studio » dans le casting de VTS Editor pour tous ceux dont les textes sont à vocaliser.

Une fois le descriptif général du module effectué via la fiche récapitulative, nous allons pouvoir entrer dans le détail des textes en fournissant des informations complémentaires sur les phrases à interpréter par le comédien quand cela est nécessaire.

Afin d’apporter toutes ces précisions, utilisez la colonne « notes » présente dans l’extraction de textes :

Voici plusieurs points auxquels vous devez prêter attention :

– La prononciation de termes spécifiques :
Vérifiez qu’il n’y ait pas de termes sur lesquels il pourrait y avoir des doutes quant à la prononciation. Il peut notamment s’agir :

d’acronymes : Indiquez pour chacun si vous souhaitez qu’il soit prononcé comme un mot ou lettre à lettre :
Par ex. « CPAM » : « cépame » ou au contraire « C-P-A-M » en utilisant des tirets pour une prononciation de chaque lettre ?
de termes relatifs à un champ d’activité particulier : vocabulaire spécialisé d’ordre technique, médical, etc
Par ex. : Les HBPM rapport d’activité anti-Xa/anti-IIa > 1,5 : Xa se dit « 10 activé » ; « anti Iia » se dit anti 2 activé
du nom d’un produit, d’une marque, d’une personne :
Par ex : « Hyundai » : “H’youn-dé” (et non “H’youn-daï”) ; « Taibi » à prononcer « té-bi », …
de termes étrangers pour lesquels vous préférez une prononciation dans la langue native du terme ou une prononciation francisée par exemple si l’enregistrement se fait en français.
Nous avons un bel exemple dans le films « La cité de la peur » des nuls avec deux personnages qui ne se comprennent pas en raison d’une prononciation différente du terme anglais « serial killer ».
Alors pour vous, ce sera plutôt « Sérial killeur » ou « seeuh·ree·uhl ki·luh » ? 😉

Vous pouvez écrire de manière phonétique entre crochet un mot comportant une difficulté de prononciation ou trouver tout autre système clair permettant de guider l’acteur, par exemple en fournissant un fichier audio du mot tel qu’il doit être prononcé ou en utilisant des analogies de prononciation avec d’autres mots connus sans équivoque.

– L’intonation et le rythme : Ils peuvent aussi servir l’efficacité de votre scénario, en installant une ambiance : suspens, confiance, malaise, ironie, etc. Ils génèrent des émotions auprès de vos apprenants qui vont aider à ancrer le savoir ou peuvent au contraire le desservir s’ils sont mal utilisés.

Si un niveau de précision extrême est nécessaire quant au rythme, à l’intonation de certaines phrases, vous pouvez aussi, dans certains cas, réaliser un enregistrement audio pour retranscrire l’intention à l’acteur (sensibilisation à un milieu professionnel, par exemple).
Ces indications sont cruciales dans les secteurs de la communication ou du soin, et cela reste important dans tous les secteurs puisque le module que vous enregistrez sera un outil de communication.
Les pauses peuvent aussi servir à accompagner le rythme visuel du module et favoriser la compréhension ou encore souligner l’importance de certains termes.

– Les voix « bruit de fond »
Si le cas se présente, n’oubliez pas de les inclure en tant que textes additionnels ( à ajouter au comptage de mots) afin que le studio puisse réaliser ces enregistrements.
Nous ne parlons pas ici d’ambiances que vous pouvez facilement trouver sur des banques de sons spécialisées ( bruit de foule, etc) mais de sons d’arrière-plan qui pourraient être spécifiques à votre projet car ils incluent vos personnages ou des textes particuliers qui doivent être entendus mais qui n’ont pas été nécessairement écrits dans le module et ne vont donc pas apparaître dans l’extraction automatique des textes.

Nous avons par exemple rencontré ce cas lors de l’enregistrement d’un jeu sérieux où une situation d’urgence devait être traitée : toute la scène se passait au téléphone, l’apprenant ne voyait pas l’appelant et il était donc d’autant plus important de simuler une ambiance sonore réaliste pour comprendre l’urgence et la tension dramatique rencontrée dans pareille situation. Le studio a pu proposer un son correspondant à un homme violent proférant des insultes et tentant de défoncer la porte de la pièce où s’était réfugiée sa victime.

Que faire après l’enregistrement studio ?

Une fois les voix de studio enregistrées, elles seront réintégrées très facilement dans VTS Editor (vous pouvez consulter l’article « Importer des voix » de la documentation VTS pour plus d’information).
Vous pourrez ainsi les écouter en contexte dans votre module finalisé et une à une, par personnage ou par scène en utilisant le gestionnaire de texte de VTS Editor pour une lecture approfondie.
Vous pouvez tout d’abord faire une première visualisation en contexte puis une lecture minutieuse via le gestionnaire des textes pour repérer les éventuelles coquilles.

Nous espérons que ces quelques conseils vous auront été utiles !
Chaque projet étant unique, vous pouvez aussi nous consulter pour obtenir une expertise plus approfondie et réagir à cet article pour nous raconter comment vous vous organisez pour vocaliser vos modules.

De plus, un document actionnable pour vous aider dans votre démarche de vocalisation sera bientôt disponible sur notre plateforme de ressources et d’aide à la conception pédagogique VTStack. En attendant nous vous invitons à aller la découvrir, ainsi que l’ensemble de ses ressources disponibles, ici :