Le dixième de seconde, seuil fatidique pour les bandes sonores

En dépit de tout le soin que je prends, il m’arrive encore de constater des problèmes de synchronisation avec les vidéos où j’effectue des coupes et des montages. A la louche, j’ai le sentiment qu’un problème de synchronisation peut être constaté dès que le décalage entre le son et l’image atteint un dixième de seconde, ce qui est vraiment très peu.

Pour donner un exemple concret et réel, si un montage met bout à bout sans les retravailler des séquences tournées à 29.97 et à 30 images/seconde en unifiant tout à l’une de ces deux valeurs (il s’agit de deux cadences hélas réellement employées, et de façon très courante, dans le monde de la vidéo informatisée; ça s’explique par des raisons historiques que je ne vais pas développer ici), alors le décalage avec le son deviendra insupportable 100 secondes seulement après l’apparition de la cadence erronée, c’est-à-dire au bout de seulement 1 min 40 sec de diffusion; vous imaginez l’effet désastreux sur une vidéo de vingt minutes — et j’ai déjà vu ça dans le petit monde du logiciel libre, quand des libristes intégristes tiennent absolument à diffuser leurs vidéos au format Ogg Theora: il n’est alors pas rare du tout qu’au bout de cinq minutes de vidéo le commentaire n’ait plus aucun rapport avec l’image; et personnellement, ça me rend fou.

Dans le cas des vidéos que je prends avec ma tablette Lenovo de bas de gamme, la cadence de 30 images/seconde est remplacée par une cadence bâtarde de 29.7 images/seconde (à peu près, j’ai déterminé ça empiriquement et je ne tombe jamais exactement sur la même valeur); ne me demandez pas pourquoi, j’ignore la raison de cette bizarrerie; soit c’est en rapport avec la vitesse du processeur, soit c’est une limitation volontaire imposée par le fabricant pour justifier des écarts de prix avec des modèles de haut de gamme sortis des mêmes usines (le marketing est très capable d’inventer de telles ignominies).

Bref. Si je diffuse à 30 images/seconde, sans la retravailler, une séquence capturée avec ma tablette à 29.7 images/seconde, le décalage entre le son et l’image va devenir sensible au bout de… seulement une dizaine de secondes.

Cela dit, tant que ce décalage est inférieur ou égal à 1/10e de seconde, on peut le considérer comme supportable: on constate certes qu’il y a un petit problème de synchronisation, mais dans la plupart des cas on est incapable de dire si le son arrive en avance ou en retard; ça irrite un peu mais ça n’exaspère pas, ça déconcentre un peu mais pas au point de rendre le commentaire audio inaudible ou inintéressant: après tout, de tels problèmes sont systématiques sur les films doublés, et on en fait quand même très vite abstraction.

Hélas, le stade où ces imperfections techniques deviennent insupportables existe aussi, il est placé un peu plus haut mais il est quand même très bas: je le crois inférieur à deux dixièmes de seconde: vraiment, ce n’est pas beaucoup. Je pense qu’il est atteint dès que le spectateur anticipe sans jamais se tromper que le son va arriver après ce qu’il voit, ou que l’image va correspondre au son après qu’il aura été entendu; car alors, le caractère absolument systématique et omniprésent du décalage donne un sentiment d’artificialité vraiment trop fort et fait mécaniquement décrocher l’attention.

C’est comme ça! Pas la peine de se lamenter sur le caractère superficiel de l’attention humaine, notre cerveau fonctionne ainsi. Donc, à défaut de parvenir à une synchronisation parfaite, il faut maintenir le caractère décelable du décalage au-dessous du seuil du dixième de seconde où le cerveau est capable d’assurer que le son arrive en avance ou en retard; ou, pour le dire autrement, dès qu’on se rend compte en visionnant la vidéo que le son arrive en avance, il faut retravailler la bande sonore (sous Audacity) pour le retarder de deux dixièmes de seconde; et symétriquement, dès qu’on se rend compte que le son arrive en retard, il faut le faire arriver deux dixièmes de seconde plus tôt, grâce à l’édition de la bande sonore.

Supposons que le son arrive en avance de 0.12 seconde. L’idéal, bien sûr, serait de le retarder exactement de cette durée, mais il est excessivement difficile de la mesurer, et la corriger par tâtonnements serait épuisant voire impossible. Donc, une fois que l’on a acquis la certitude que le son arrive en avance (donc en avance de plus du « seuil de décelabilité », si j’ose dire, lequel seuil vaut presque 0.1 seconde), on retarde l’arrivée du son, arbitrairement, de 0.2 seconde exactement. Calculons: 0.12 – 0.20 = – 0.08, et on aboutit donc à un décalage dont la valeur absolue redevient inférieure au seuil de décelabilité d’un dixième de seconde — de sorte que, même si on remarque encore son existence (hélas), il n’est plus possible d’assurer s’il se produit en avance ou en retard; alors le cerveau oublie ce problème (d’ailleurs totalement inintéressant) et peut à nouveau se concentrer sur le fond.

En l’état actuel de la technique, je ne crois pas possible de faire mieux, et ça devrait être suffisant pour éviter que le spectateur-auditeur « décroche ».