Cologne, Allemagne, 24 novembre 2014

Procédés et systèmes d'enregistrement et de reproduction sonores en trois dimensions


<— CHAPITRE 2 / CHAPITRE 4 —>


CHAPITRE 3 : LES SYSTÈMES ÉLECTROACOUSTIQUES BINAURAUX


La distinction entre un système stéréophonique conventionnel et un système binaural n'est pas évidente, puisqu'il y a souvent confusion entre les deux 28, quand ce n'est pas une totale ignorance du second procédé. Un système suivant le modèle binaural commande obligatoirement l'utilisation de deux canaux, puisqu'il se veut un procédé de simulation du système auditif humain. La production d'un signal audio binaural par captation acoustique s'effectue donc avec une tête de mannequin 88. Les traits généraux de celle-ci peuvent être réduits à leur plus simple expression à l'exception cependant des oreilles qui doivent, pour atteindre une qualité respectable de résultats, être une réplique exacte du pavillon de l'oreille humaine non seulement au niveau de la forme, mais aussi de la texture et de la consistance 82. Les microphones sont placés généralement au début de ce qui serait le canal auditif. Étant donné que les modifications de l'oreille externe seront déjà incluses dans le signal audio capté par le procédé binaural, l'utilisation d'un casque d'écoute est obligatoire. En effet, le signal audio serait modifié une seconde fois par le pavillon de l'oreille, si l'enregistrement binaural était écouté avec des enceintes acoustiques.


Figure 3.1 Le capteur binaural Neumann KU 100 et le capteur binaural Brüel & Kjaer 4128.


Les performances de ce système peuvent être stupéfiantes, mais elles dépendent beaucoup de l'intégrité spectrale de toute la chaîne d'enregistrement et de reproduction. Puisque l'inclusion de la fonction de transfert du pavillon de l'oreille apporte des modifications spectrales qui servent à positionner les sons, le filtrage non désiré peut résulter en des aberrations spatiales 82. Par ailleurs, l'utilisation du casque d'écoute constitue un problème connu en ce qui regarde la reproduction des basses fréquences, la petite surface des diaphragmes et leur zone d'excursion plutôt limitée étant les principales raisons d'un manque d'amplitude dans ces fréquences. De plus, les transmissions mécaniques du son sur les autres parties du corps sont absentes 21: le claquement de certaines enveloppes de sons aux attaques très rapides, comme certains instruments de percussion, détectables de façon tactile, ou encore la transmission des basses fréquences par la structure interne du corps 82.



3.1 La simulation binaurale et la conversion transaurale


Dans le cas des meilleures démonstrations, il semble y avoir un consensus sur la qualité de l'illusion tridimensionnelle obtenue avec un bon enregistrement binaural, lorsque celui-ci est écouté avec un casque. Ce succès obtenu, mais aussi ses frustrantes limitations, amènent deux questions fondamentales sur les systèmes binauraux: peut-on encoder des signaux sonores monophoniques, provenant d'une bande multipistes ou d'une prise polymicrophonique par exemple, pour leur donner un caractère binaural et deuxièmement, peut-on traiter un signal binaural pour rendre son écoute compatible avec les enceintes acoustiques?


En analysant la littérature sur le sujet, on constate d'abord que les recherches sur ces deux questions ont vu le jour de façon indépendante et apparemment sans avoir pour but éventuel de combiner les résultats dans un quelconque produit commercial. Force est de constater que certaines entreprises ont vu l'intérêt d'unir ces deux aspects de la recherche sur l'enregistrement binaural, pour développer des produits répondant aux besoins créés par les méthodes de travail actuelles que l'on retrouve dans l'industrie de la musique. Le mixage stéréophonique de bandes maîtresses multipistes existe depuis déjà un certain temps, et il devenait naturel de vouloir savoir si le mixage de ces mêmes bandes pourrait se faire de façon binaurale. Les mesures déjà existantes sur la performance du système auditif humain dans la localisation sonore et le développement des capacités de traitement d'information par les ordinateurs laissaient entrevoir la possibilité de la mise au point d'appareils pouvant imposer sur des sons monophoniques un certain nombre de modifications paramétriques aptes à simuler la captation binaurale.


Il fallut d'abord déterminer la précision avec laquelle ces machines allaient opérer, puisque ceci allait déterminer la précision des mesures de références. À ce chapitre, la documentation publiée par les différentes compagnies reste assez silencieuse, quoiqu'on note qu'une équipe de recherche de la NASA en Californie détaille la sphère de perception en 144 positions 91. Quoiqu'il en soit, la méthode courante pour prendre ces mesures de références est relativement simple, mais aussi fastidieuse et répétitive. On diffuse en condition anéchoïque des impulsions de bruit rose dans des positions prédéterminées. Ces impulsions seront captées par un système de microphones binauraux bâti sur un modèle statistique moyen des mensurations des oreilles, de la tête et probablement aussi du torse supérieur. Pour chaque position, on mesure la différence interaurale d'amplitude acoustique et du moment de captation, ainsi que la modification spectrale absolue constatée dans chaque oreille.


Ces mesures sont emmagasinées dans un ordinateur qui pourra, le moment venu, selon ses capacités et l'interface employée, appliquer les modifications binaurales à des sons monophoniques. Idéalement, ces modifications doivent s'opérer en temps réel et permettre des modifications dynamiques dans la localisation des sons, c'est-à-dire des déplacements des sons. Il semblerait qu'il soit même préférable que les sons se déplacent, du moins au moment où ils apparaissent dans le champ sonore. Les déplacements, en permettant à l'auditeur des comparaisons de positions en temps réel par l'analyse de la différence interaurale de temps et d'amplitude et de la signature spectrale, vont renforcer la certitude dans l'impression de localisation. Lorsque l'on désire simuler un son donné, sans déplacement du son ou présence préalable du même son dans une autre position, il ne peut plus y avoir de comparaisons des caractéristiques indiquant la position du son. Il en résulte une augmentation du flou de localisation, ou même une direction complètement erronée. Ceci est d'autant plus vrai s'il n'y pas de différence interaurale de temps ou d'amplitude et que la signature spectrale est le seul indicateur de direction sonore 16. Déjà sérieux pour des sons naturels ou, du moins, existants depuis une certain temps et établis dans une sorte de culture sonore collective, ce problème prend encore plus d'acuité pour des sons nouveaux, créés et imaginaires, où le peu de références que l'on pouvait avoir disparaît complètement.


Rappelons que la condition, implicite aux systèmes binauraux, est que l'entière chaîne de transmission de l'information soit neutre quant à l'intégrité de la réponse en fréquences des différents sons. Le fait est qu'on ne peut garantir cette neutralité et, comme nous l'avons déjà dit, certaines modifications spectrales, voulues ou non, peuvent résulter en un positionnement spatial non désiré 9. Une façon de régler ce problème serait de prendre comme point de départ les mesures individuelles de positionnement spatial. L'équipe de recherche de la NASA exploite un simulateur binaural, mais pour chaque sujet qui est testé, des mesures binaurales individuelles sont d'abord prises. Ceci explique l'efficacité du système, mais aussi pourquoi sa commercialisation sera à toutes fins utiles impossible dans sa forme actuelle. Cette équipe espère toutefois obtenir avec le temps un modèle statistique moyen satisfaisant.


La question de l'adaptation d'une captation binaurale pour l'écoute sur enceintes acoustiques implique en quelque sorte une démarche inverse à celle que nous venons de décrire. La caractéristique principale du signal binaural est que ce signal inclut la fonction de transfert du système auditif extérieur (les oreilles, la tête et le thorax). La conséquence évidente est que ce signal binaural ne doit pas se voir réappliquer cette fonction de transfert en le soumettant une fois de plus au système auditif extérieur lorsqu'il est finalement reproduit. Voilà qui en explique l'incompatibilité pour l'écoute sur enceintes acoustiques. Puisque le signal binaural doit stimuler directement les tympans, il ne tolère aucune forme de diaphonie: quand un signal binaural est écouté sur des enceintes acoustiques, une partie de l'information destinée exclusivement à l'oreille gauche sera entendue par l'oreille droite et vice-versa. Il y a donc, au niveau acoustique, de la diaphonie entre les canaux. Nous venons donc de cerner les deux problèmes majeurs expliquant l'incompatibilité des enregistrements binauraux pour l'écoute sur enceintes acoustiques: la réinterprétation par un système binaural d'un signal qui a déjà passé par cette fonction de transfert, et la diaphonie acoustique propre à l'écoute sur enceintes acoustiques. Le traitement qui visera à rendre compatible le signal binaural avec l'écoute sur enceintes acoustiques est appelé «conversion transaurale» 20. Ce terme a été formulé par Duane Cooper de l'Université de l'Illinois et semble déjà avoir été adopté par la communauté scientifique, si on en juge par sa présence dans différentes communications.


La solution au problème de la réinterprétation est relativement facile à réaliser. L'écoute sur enceintes acoustiques se fait toujours à peu près de la même façon: les enceintes sont écartées d'environ 30° de chaque côté de l'axe d'écoute, elles sont idéalement élevées à environ un mètre du sol et elles sont écoutées de face par l'auditeur. Le son provenant des enceintes est interprété par le système binaural comme deux sources discrètes à position fixe. En mesurant les modifications binaurales, particulièrement au chapitre de la réponse spectrale, pour les positions usuelles d'enceintes acoustiques en écoute stéréophonique, on peut tracer une fonction de transfert binaurale moyenne de cette écoute stéréophonique sur enceintes acoustiques. On peut alors appliquer l'inverse de cette fonction au signal binaural avant sa diffusion par les enceintes acoustiques. La fonction de transfert inverse et la fonction de transfert de l'auditeur s'annulent et le son regagne sa neutralité fréquentielle. David Griesinger de la compagnie Lexicon suggère pour sa part d'utiliser une fonction de transfert moyenne beaucoup plus globale et parle de «rendre linéaire la réponse en fréquence moyenne pour l'hémisphère frontal» 55. Quoiqu'il en soit, les résultats des expériences menées chez Lexicon ont été intégrés dans la conception de certains modèles de processeurs numériques audios produits par cette compagnie.


La solution au problème de la diaphonie acoustique n'est pas théoriquement plus complexe, mais l'application de la solution nécessite un traitement d'information en temps réel beaucoup plus important. Comme nous l'avons expliqué plus haut, le signal destiné exclusivement à une oreille en particulier est aussi entendu par l'oreille opposée. Cependant, il sera entendu par l'oreille opposée avec un certain délai et une certaine diminution d'amplitude. Si on diffuse dans l'enceinte acoustique équivalente à l'oreille opposée un signal identique à celui de la diaphonie, c'est-à-dire avec un délai et une diminution d'amplitude, mais en opposition de polarité, ce nouveau signal devrait éliminer la diaphonie. Évidemment le signal d'annulation sera entendu par l'oreille opposée à celle à laquelle il est destiné; nous avons un nouveau problème de diaphonie et un nouveau signal d'annulation doit être généré pour annuler le premier signal d'annulation. Ce procédé doit être répété le nombre de fois nécessaire et de façon continue en temps réel sur les canaux gauche et droit pour fonctionner adéquatement.


Cette description du procédé rend bien compte de la puissance de traitement nécessaire. Il va de soi que la position d'écoute est critique. Aux fréquences aiguës, un déplacement de quelques centimètres détruit l'effet, puisque la symétrie du rapport entre les enceintes et l'auditeur n'est plus assurée. Il est à noter que les basses fréquences sont beaucoup moins sensibles à la position d'écoute: leur grande longueur d'onde assurent cette tolérance. À partir d'expériences menées aux États-Unis 55et en Europe 72, on semble s'entendre sur le fait que plus la salle d'écoute est réverbérante, plus la puissance de traitement doit être grande. Pour des conditions d'écoute anéchoïques, on peut limiter la puissance de traitement et d'excellents résultats ont été obtenus durant les années quatre-vingts 56.


Le défi de la simulation binaurale et de la conversion transaurale s'articule maintenant autour de deux points: trouver un modèle statistique moyen satisfaisant de la fonction de transfert du système auditif humain et augmenter la puissance de traitement informatique pour permettre une plus grande résolution dans la définition de la sphère d'audition et une meilleure élimination de la diaphonie. Depuis quelques années il y a une apparition croissante des systèmes de simulation binaurale: le CAP-340M de AKG, le QSound de QSound Corporation, le Roland Sound Space (RSS) de Roland et les différents appareils de Spatializer Audio Laboratories, pour ne nommer que ceux-là. La qualité de la performance de ces systèmes dépend de la satisfaction des conditions que l'on vient de décrire. Chez Roland, on rappelle que les mécanismes de fonctionnement du RSS sont basés sur les résultats de recherches en psychoacoustique; les performances de l'appareil peuvent être mises à jour à la lumière des résultats de nouvelles expérimentations sur l'audition directionnelle 66. Ceci dit, il est intéressant de constater que l'appareil est schématiquement conçu en deux blocs: le simulateur binaural et le convertisseur transaural. La révision d'une seule des deux sections sera toujours possible et améliorera sans aucun doute la performance globale du système.



3.2 Les systèmes électroacoustiques hybrides


Depuis quelques années, de nouveaux instruments de captation voient le jour et leur classification s'avère difficile. En effet, leurs principes d'opération ou leurs méthodes d'utilisation relèvent à la fois du modèle binaural et du modèle géométrique. Sur les deux modèles commerciaux de capteurs hybrides dont nous allons parler, la Sphère KFM6 de la compagnie allemande Schoeps et le Stereo Ambient Sampling System (SASS) de la compagnie américaine Crown (fig. 3.2), nous pouvons remarquer l'inclusion d'un baffle de forme assez complexe ou de volume assez important pour rappeler certaines caractéristiques de la tête humaine. La présence de ce baffle répond à la première exigence du modèle binaural. Cependant, l'absence de filtres acoustiques (pavillons) adjacents aux transducteurs fait que ces deux capteurs vont suivre aussi le modèle géométrique.


Figure 3.2 Le SASS de Crown et la Sphère KFM6 de Schoeps


La Sphère a été développée suite à l'élaboration du «modèle d'association» de Günther Theile 83, qui stipule que l'on doit insérer dans une captation stéréophonique des modifications de signaux correspondantes à celles apportées par le système auditif humain, en particulier celles conséquentes aux effets acoustiques de la tête. La Sphère est donc constituée d'un baffle sphérique de 200 mm de diamètre sur lequel sont montées aux antipodes deux capsules omnidirectionnelles. On obtient donc un encodage quasi-binaural; en évitant volontairement les modifications spectrales et temporelles du pavillon de l'oreille, le signal stéréophonique produit par la Sphère ne montre pas les problèmes de compatibilité des enregistrements binauraux avec l'écoute sur enceintes acoustiques. Par ailleurs, le baffle atténue suffisamment les hautes fréquences des stimuli sonores opposés (captées directement par une des capsules et par diffraction pour l'autre) pour que le problème du filtrage en peigne (comb filtering) des ondes en opposition de phase soit grandement atténué. Par contre, toutes les autres particularités importantes d'encodage directionnel produit par la tête sont aussi produites par la Sphère. Par ailleurs, les caractéristiques physiques de la Sphère la rendent conforme au modèle Spectral Stereo, de Cooper, qui est aussi un modèle d'audition basée sur un baffle sphérique 18.


On ne peut prétendre produire une information spatiale complète avec la Sphère; sa captation est symétrique dans les axes X (avant/arrière) et Z (haut/bas) tels qu'apparaissant dans la figure 1.1. La captation de la Sphère étant discriminante uniquement sur l'axe Y (gauche/droit), elle est ainsi unidimensionnelle. Mais, puisque cet encodage directionnel sur l'axe Y se fait en respectant le modèle d'association, on prétend qu'il produit un signal stéréophonique plus satisfaisant au niveau de l'impression spatiale, sans perdre les attributs des prises de sons coïncidentes. Notons que la Sphère a un ancêtre français dans le capteur que l'ingénieur Charlin a développée à la fin des années cinquante 13. En effet, cette boule recouverte de fourrure comportait aussi deux micros omnidirectionnels placés de manière identique à la Sphère. Pour les raisons que nous avons expliquées au paragraphe précédent, la compatibilité mono/stéréo fut la grande réussite de ce système qui ne rendait pas désuètes les platines monophoniques. Ce n'est donc que plus récemment, avec les recherches de Theile, qu'un capteur avec baffle sphérique a trouvé ses justifications théoriques et une incarnation commerciale plus viable.


Les qualités de captation de la Sphère se retrouve aussi dans le SASS4. Développé avec l'inclusion de certains mécanismes binauraux pour contrer les défauts des prises de son stéréophoniques coïncidentes, mais avec le souci de compatibilité monophonique et d'écoute sur enceintes acoustiques, le SASS est un véritable système de captation hybride. Ses concepteurs ont remarqué après coup que le SASS répondait parfaitement aux exigences des modèle de Cooper et de Theile. La façon dont le SASS répond à ces exigences est toutefois légèrement différente de celle de la Sphère. C'est au niveau du baffle que la différence est la plus remarquable. De forme plus complexe, l'analyse visuelle de la symétrie des trajectoires des rayons colinéaires sur le baffle nous fait remarquer que le SASS permet un encodage directionnel sur l'axe Y (gauche/droit) mais aussi sur l'axe X (avant/arrière). L'efficacité de l'encodage sur l'axe Y est documentée, mais on ne peut savoir a priori si l'encodage sur l'axe X sera de qualité adéquate pour qu'il soit appréciable à l'écoute sur enceintes acoustiques ou au minimum au casque d'écoute.


Malgré leur construction différente, la Sphère et le SASS utilisent donc les mêmes mécanismes pour l'encodage sur l'axe Y. Les deux systèmes utilisent des capsules omnidirectionnelles; à basses fréquences, le baffle ne sera pas efficace et la diffraction aura pour conséquence une pression acoustique relativement égale aux deux diaphragmes, peu importe la direction du son. C'est plutôt la distance entre les deux capsules, et la différence de phase qui sera ainsi introduite, qui permettra d'encoder la direction à basses fréquences. Au-delà d'une certaine zone de fréquence (environ 1000 Hz), conséquente à la présence du baffle, la directionnalité des capsules augmentera et la différence d'amplitude entre les canaux assurera l'encodage directionnel. Dans les fréquences aiguës, la taille du baffle est assez importante pour prévenir le filtrage en peigne dans la sommation monophonique. L'absence totale de discrimination directionnelle dans l'axe Z assure une écoute compatible avec les enceintes acoustiques.


Parlons finalement d'un autre système, non commercialisé, qui peut être rajouté à cette catégorie de capteurs stéréophoniques hybrides. Il s'agit du Matrixed Pressure Triplet (MPT) du belge André Defossez 24. Trois capsules omnidirectionnelles sont disposées de façon équidistante sur la surface courbée d'un baffle cylindrique, avec ainsi une différence de 120° entre elles. La capsule A pointe à 0°, la capsule B à 120° à gauche et la capsule C à 120° à droite. Les signaux pour enceintes acoustiques sont produits par matriçage, c'est-à-dire mixage préétabli de canaux discrets, dans une console. La capsule A alimente conjointement le canal gauche et droit, la capsule B alimente le canal gauche et, avec une atténuation de 18 dB et une inversion de polarité, le canal droit. On fait de même pour la capsule C qui alimentera directement le canal droit et, avec l'atténuation de 18 dB et l'inversion de polarité, le canal gauche.


Voulant se démarquer de ce qui s'est fait jusqu'à maintenant, l'inventeur du MPT place son invention dans un créneau jusque-là resté libre: capteur stéréo non coïncident avec matriçage. C'est effectivement vrai. Si le matriçage d'un capteur non coïncident peut paraître téméraire, rappelons que le baffle assure une atténuation suffisante des hautes fréquences et contrôle ainsi le filtrage en peigne. Le MPT répond sûrement à un certain nombre de critères du modèle d'association de Theile, mais nous devons croire que le respect du modèle serait sûrement plus complet si le baffle était de forme sphérique plutôt que cylindrique. Le cylindre, en posant un obstacle acoustique passablement différent de la sphère ou de la tête, peut apporter des modifications spectrales pouvant être faussement interprétées lors de la reproduction. Ceci dit, l'information spatiale est encodée sur deux axes, X et Y, et le MPT pourrait donc être considéré comme un capteur bidimensionnel.



3.3 Les limites des systèmes basés sur le modèle binaural


Pour prétendre à une véritable commercialisation, les systèmes basés sur le modèle binaural font face à d'importantes embûches technologiques. Notre toute première observation sur les systèmes binauraux, que l'enregistrement soit réel ou simulé et qu'il soit écouté avec un casque ou sur enceintes acoustiques, est qu'ils produisent une expérience médiatique individuelle. Des recherches récentes 21 ont développé des modèles théoriques de reproduction binaurale sur plus de deux enceintes acoustiques et pour plus d'un auditeur, mais il n'y a pas encore eu de résultats d'expérimentation publiés. On ne peut donc, pour l'instant, qu'extrapoler sur l'application de la transauralité pour plusieurs auditeurs.


Autre problème, la reproduction binaurale ne peut être interprétée que d'une position fixe. C'est spécialement vrai avec un casque d'écoute: même si l'auditeur tourne la tête, tout le champ sonore suit le mouvement. Dans une situation acoustique réelle, quand on tourne la tête, les sons changent de positions dans notre champ de perception. Il serait toutefois injuste ici de ne pas mentionner que le système de la NASA 91 permet les déplacements de l'auditeur à l'intérieur de l'espace de l'événement. En effet, l'enregistrement original est multipistes et chaque élément sonore constituant l'événement se fait assigner une position absolue dans l'espace de l'événement et relative à la position de l'auditeur. Ce dernier peut donc, avec son casque d'écoute, se déplacer à l'intérieur de cet espace sonore virtuel, l'ordinateur tenant compte de ces déplacements et ajustant les signaux en conséquence.


Cette philosophie de la reproduction binaurale est similaire au concept de réalité virtuelle en développement à l'heure actuelle dans le monde informatique. On ne peut être qu'admiratif devant l'exploit technologique, mais on peut s'interroger aussi devant les possibilités d'exploitation commerciale d'un tel système. Les méthodes d'enregistrement exigées conviennent assez bien à ce qui se fait en musique populaire, mais ne correspondent pas vraiment aux pratiques courantes en musique orchestrale ou, du moins, pour des événements musicaux acoustiques. De plus, l'enregistrement multipistes ne peut être mixé: chaque élément sonore doit rester discret pour pouvoir y appliquer le traitement binaural adéquat lors de l'écoute. On parle alors d'un format pour consommateur d'au moins une vingtaine de pistes! Il est vrai qu'avec les développements de l'audionumérique, tous les espoirs sont permis, mais un tel format ne serait pas envisageable avant au moins une dizaine d'années.


Le problème principal de tout système basé sur le modèle binaural est qu'il doit tendre vers la formulation d'un archétype de l'audition directionnelle. Cet archétype, en définissant les caractéristiques standards physiques de la tête et des oreilles, nie les caractéristiques physiques individuelles des auditeurs. Au-delà des variations qui se constatent dans les particularités de la tête, les variations dans les particularités du pavillon de l'oreille sont encore plus grandes d'un individu à l'autre. Il est permis de croire, d'après les études sur l'audition directionnelle, que l'audition avec les oreilles d'une autre personne aurait un effet dévastateur sur la qualité de la perception spatiale.


Le modèle binaural est généralement aussi un modèle binaural adulte. La forme et la grosseur de la tête et des oreilles changent tout au long de notre croissance vers le stade adulte. La progressivité du changement permet l'adaptation graduelle de l'interprétation directionnelle par le cerveau 82. Mais la présentation soudaine d'un signal binaural adulte à un auditeur enfant résulterait sans aucun doute en un très mauvais décodage du signal. Non seulement les modifications spectrales apportées par le pavillon de l'oreille seraient inexactes, les différences interaurales de temps et d'amplitude seraient aussi difficilement interprétables. Par ailleurs, devrait-on avoir un modèle binaural droitier ou gaucher? En effet, la sensibilité à l'amplitude sonore n'est pas symétrique entre l'oreille gauche et droite. Cette différence de sensibilité est d'autre part renversée chez les gauchers par rapport aux droitiers 82. En favorisant un modèle standard qui ne conviendra pas nécessairement à tous les individus 12, on brime donc ce que l'on pourrait appeler une certaine liberté d'audition.


<— CHAPITRE 2 / CHAPITRE 4 —>