Cologne, Allemagne, 23 novembre 2014

Procédés et systèmes d'enregistrement et de reproduction sonores en trois dimensions

 

CHAPITRE 1 : LE SON, L'ESPACE ET L'AUDITION DIRECTIONNELLE

 

L'univers qui nous entoure présente des stimuli sonores pouvant venir de toutes les directions. Même dans l'espace sonore limité et contrôlé d'une salle de concert, les stimuli sonores, provenant directement de la source et des réflexions de parois diverses, présentent aux auditeurs un ensemble de directions, d'amplitudes et de fréquences variées, de telle sorte qu'ils constituent ainsi un espace véritablement tridimensionnel 71. D'ailleurs, la littérature scientifique sur l'audition directionnelle, ou spatiale, concorde à dire que l'audition spatiale chez les humains peut être représentée par un champ de perception sphérique dont le centre est la tête; c'est-à-dire qu'à des degrés divers de précision, nous pouvons identifier la position d'une source sonore n'importe où autour de nous 92. Il est évident que la réalité n'est pas aussi simple, mais avec cette affirmation, nous obtenons une synthèse assez juste sur les capacités d'audition de l'humain. Même si ce n'est pas le but de cette recherche de tester comme telles les capacités humaines d'audition spatiale, la justification de la création d'un système de reproduction sonore tridimensionnelle passe d'abord par une revue des capacités de perception sonore spatiale de l'humain.

 

 

1.1 Les mécanismes de l'audition directionnelle

 

L'audition directionnelle chez l'humain dépend de plusieurs mécanismes qu'il est difficile de combiner en un seul modèle: c'est pourquoi l'audition directionnelle est toujours modélisée en deux ou trois mécanismes principaux qui contribuent dans la plus grande proportion au processus de localisation sonore. Nous allons décrire en détails ces principaux mécanismes. Le système de référence spatiale qui sera utilisé dans cette description, et pour tout le mémoire, est illustré par la figure 1.1. Nous y voyons que les trois dimensions dans le positionnement spatial par rapport à la tête sont les suivantes: l'axe X décrit les positions du devant à l'arrière, l'axe Y décrit les positions de gauche à droite et l'axe Z décrit les positions du haut au bas. Dans ce système, les directions des sons par rapport à la tête seront données en coordonnées polaires.

 

 

 

Figure 1.1 Système de représentation sphérique de l'espace par rapport à la tête,

où r est la distance, d est l'élévation et j est l'azimut. [D'après Blauert 7]

 

 

1.1.1 La différence interaurale de temps

 

La distance entre les deux oreilles, en contournant la tête, est le facteur physique principalement responsable de la différence dans le moment de captation par les oreilles d'un son donné. Cette différence temporelle variera selon l'azimut de la source sonore. Il n'y aura pas de différence temporelle pour une source situé à 0° ou 180° d'azimut, c'est-à-dire directement devant ou derrière l'auditeur. Si la source se déplace dans le plan horizontal (figure 1.1) à partir de l'azimut 0° ou 180°, la différence temporelle apparaîtra, augmentera progressivement et atteindra son maximum à l'azimut 90° ou 270°, donc vis-à-vis les oreilles. Pour ces azimuts, en établissant la distance entre les oreilles à 21,5 cm et la vitesse du son à 344 m/s, la différence temporelle maximale sera approximativement de 630 microsecondes (ms) 7. Cette indication n'est pas absolue, puisque la distance entre les deux oreilles varie d'un individu à l'autre et la vitesse du son change avec la température de l'air.

 

La différence interaurale de temps aura un impact plus ou moins important dans la qualité de la localisation selon l'enveloppe du son et les fréquences qui le composent. Ainsi, pour les sons ayant des attaques rapides, la différence de temps peut être directement interprétée pour la localisation spatiale. Mais dans le cas de son continu ou avec attaque lente, c'est la différence de phase, conséquente à la différence de temps, qui sera interprétée pour localiser les sons. Il a été remarqué que seulement les différences de phase variant entre 0° et 180° peuvent être interprétées adéquatement. La qualité de l'interprétation de la différence de phase décroît rapidement à partir de 180° jusqu'à 360°. Ainsi, par exemple, pour un déphasage de 360°, on ne peut plus savoir s'il s'agit d'une différence de 0°, 360° ou 720°. Ce type d'erreur existera pour tout les déphasages supérieurs à 360°.

 

Le déphasage maximum efficace de 180° existera seulement avec la plus haute fréquence utile déterminée par sa demi-longueur d'onde correspondant à la distance entre les deux oreilles ou encore par sa demi-période correspondant à la différence temporelle maximale entre les deux oreilles. Donc, pour les fréquences dont la demi-longueur d'onde est de 21,5 cm ou plus (ou la demi-période est de 630 ms ou plus), soit 800 Hz en descendant, il y aura conséquemment différence interaurale de phase variant entre 180° et 0°, pouvant ainsi être interprétée pour le positionnement horizontal des sources sonores. Au-delà de cette fréquence de 800 Hz, pour des déphasages variant entre 180° et 360°, l'efficacité de la différence interaurale de temps décroît rapidement, pour devenir complètement inutile pour les fréquences dont la longueur d'onde est égale ou inférieure à la distance entre les oreilles, soit au-dessus de 1600 Hz 7.

 

 

1.1.2 La différence interaurale d'amplitude

 

Pour les fréquences de 2000 Hz en montant, la tête présente graduellement un obstacle acoustique majeur et l'absence de diffraction pour ces fréquences donne lieu à des différences d'amplitude, entre les deux oreilles, variant avec l'azimut de la source sonore 7. Comme dans la différence interaurale de temps, la différence interaurale d'amplitude sera nulle quand la source sonore sera située aux azimuts 0° ou 180°. De même, la différence d'amplitude atteindra son maximum quand la source sera située aux azimuts 90° ou 270°. Il est toutefois beaucoup plus difficile de donner des chiffres précis sur ces différences d'amplitude, pour la bonne et simple raison que la distance de la source par rapport à l'auditeur devient elle aussi un facteur. La loi du carré-inverse, qui stipule que l'amplitude d'une source sonore sphérique décroît de 6 dB pour chaque doublement de distance (pour une source plus physiquement assimilable à un cylindre infini, l'amplitude ne décroira que de 3 dB pour chaque doublement de distance), aura un impact direct sur la différence interaurale d'amplitude. Il y aura en effet, pour un même azimut, beaucoup moins de différence interaurale d'amplitude pour une source éloignée que pour une source rapprochée. Il a toutefois été remarqué qu'une différence d'environ 15-20 dB donnera l'impression d'un déplacement latéral complet 7, correspondant aux azimuts 90° ou 270°. Ce chiffre représente un cas extrême obtenu en laboratoire avec des ondes sinusoïdales de fréquences élevées. Il semblerait aussi qu'en différence interaurale d'amplitude, la durée de la source sonore ait une incidence proportionnelle sur la qualité de la localisation.

 

La plupart des recherches sur l'audition directionnelle ont été faites à partir de l'audition de sons purs à des fréquences fixes, ce qui représente, nous l'avons déjà dit, un cas extrême pour le système d'audition. La vie courante ne présente que très peu de cas où l'on dépend uniquement de la différence interaurale de temps ou de la différence interaurale d'amplitude pour évaluer la direction d'un son. La majorité des sons forment des ondes complexes, dont l'ensemble des fréquences les composant les fait dépendre à la fois des différences interaurales de temps et des différences interaurales d'amplitude pour leur localisation spatiale. Toutefois, même dans les meilleures conditions, ces deux mécanismes ne suffisent pas pour expliquer notre capacité à détecter l'élévation d'une source sonore.

 

 

1.1.3 Les modifications de l'oreille externe

 

Depuis la deuxième moitié du XXe siècle, les recherches sur l'audition directionnelle ont accordé une attention particulière à la fonction de l'oreille externe dans l'évaluation directionnelle du son.

«Acoustiquement, le pavillon de l'oreille fonctionne comme un filtre linéaire dont la fonction de transfert dépend à la fois de la direction et de la distance de la source sonore. En apportant des modifications linéaires aux signaux sonores incidents, variant selon la direction et la distance, le pavillon encode les caractéristiques spatiales du champ sonore en caractéristiques temporelles et spectrales.» 7

 

Ainsi, pour les fréquences supérieures à environ 2000 Hz, chaque variation angulaire d'une source sonore dans le plan médian résulte en une modification par les creux et les bosses du pavillon de l'oreille de la réponse en fréquence. Par exemple, dans le cas où le son se situerait directement devant ou derrière l'auditeur (0° ou 180° d'azimut) avec une élévation arbitraire, il n'y aurait aucune différence interaurale de temps ou d'amplitude, ce qui ne laisserait que les modifications de l'oreille externe pour donner les informations sur la position dans le plan médian de la source sonore. Puisque l'information utilisée est uniquement d'ordre spectral, un son du type bruit blanc ou bruit rose sera plus facile à localiser. Toutefois, les sons naturels n'affichant pas ce type de signature spectrale très riche, exception faite peut-être de l'eau en mouvement rapide, il peut persister une incertitude dans la localisation de la source sonore.

 

Pour saisir de manière plus visuelle le fonctionnement du pavillon de l'oreille dans la localisation sonore, nous avons imaginé un processus basé sur la symétrie des trajectoires des rayons colinéaires dans le plan médian (fig. 1.1). Nous remarquons d'abord qu'il peut y avoir un nombre infini de droites passant par le centre du plan médian. Si ces droites sont assimilées à des directions de sources sonores, nous constatons que, pour chacune de ces droites, les obstacles qu'elle rencontrera sur le pavillon, de part et d'autre du centre, ne seront pas symétriques. La discrimination angulaire se fait de cette façon sur 360° et il n'y aura pas de confusion entre l'élévation d'une source sonore donnée et son élévation colinéaire correspondante, 180° plus loin. C'est pourquoi nous pensons que de traiter séparément la question de la discrimination angulaire en élévation et la discrimination avant/arrière en localisation horizontale, comme le font souvent les études, devient un peu redondant. Puisque ces deux types de discrimination angulaire relèvent des modifications apportées par le pavillon de l'oreille, nous pensons qu'il est préférable de traiter globalement de la discrimination angulaire dans le plan médian.

 

 

1.1.4 Autres facteurs

 

Nous nous contenterons de mentionner rapidement que d'autres facteurs entrent en ligne de compte en ce qui concerne l'audition directionnelle. On parle entre autres des mouvements de la tête 7. Ces mouvements auront pour fonction de re-situer la source sonore dans un secteur de perception spatiale où la précision directionnelle sera plus grande et de diminuer ainsi l'incertitude quant à la localisation de cette source. Les mouvements de la tête sont donc normaux et même, jusqu'à un certain point, de l'ordre des réflexes.

 

Il faut mentionner aussi la question de la conductivité de la structure osseuse du corps, spécialement de la tête, et des réflexions sonores causées principalement par le thorax 7. Les indices de localisation fournis par ces mécanismes ne sont pas nécessairement de très bonne qualité: par exemple, les différents vêtements que nous portons affectent probablement la performance réflexive du thorax, allant ainsi d'une bonne capacité de réflexion à l'absorption totale de certaines fréquences aiguës. De tous les mécanismes de l'audition directionnelle, ils sont les plus vulnérables aux variables extérieures.

 

 

1.1.4.1 La loi du premier front acoustique

 

Mentionnons rapidement un phénomène qui a été observé lorsque deux sources sonores fixes et identiques, mais non simultanées, sont entendues. Si la différence temporelle entre les deux sources n'est pas supérieure à 37 millisecondes (ms), notre système auditif interprétera la direction du phénomène acoustique comme étant celle de la première source entendue 7. Au delà de cette limite de 37 ms, le deuxième son ne fusionnera plus avec le premier et sera clairement perçu comme un écho. Soulignons ici qu'il s'agit bien d'un procédé d'interprétation mentale indépendant de la différence interaurale de temps. En effet, en faisant abstraction de l'élévation, deux sources sonores pourraient être dans des positions azimutales miroirs par rapport au plan frontal (45° et 135° par exemple) et créer de cette manière une différence interaurale de temps identique pour chacune d'elle. Dans ce cas, la loi du premier front acoustique s'appliquerait et la source ayant la priorité temporelle serait la seule perçue dans l'évaluation directionnelle.

 

 

1.2 Précision directionnelle du système auditif

 

La performance dans la précision directionnelle de notre système auditif dépend généralement de la largeur de la bande spectrale de la source sonore. Plus cette bande sera étendue, plus la direction de «l'événement auditif» 7, c'est-à-dire notre interprétation perceptuelle de la source sonore, correspondra à la direction réelle de la source sonore. Ainsi, les sons complexes couvrant plusieurs octaves, et idéalement avec des enveloppes aux attaques rapides, seront toujours aisément localisables 82. Par leurs caractéristiques, ces sons feront appel à la différence interaurale de temps, la différence interaurale d'amplitude et aux modifications du pavillon de l'oreille pour permettre la localisation. Cette conjugaison des mécanismes apportera une redondance des indices de localisation et créera un événement auditif dont la correspondance spatiale à la source sonore originale sera très élevée. Par contre, pour les sons simples comme une onde sinusoïdale sans attaque précise, un seul mécanisme de localisation sera sollicité. L'absence de redondance dans les indices de localisation contribuera à augmenter l'imprécision résiduelle de localisation, le «flou de localisation» 7, de l'événement auditif par rapport à la source originale.

 

Le flou de localisation n'est pas uniforme sur toute la sphère de perception et varie en fonction des mécanismes de localisation qui seront sollicités. La localisation dans le plan horizontal (fig. 1.1) fera appel à la différence interaurale de temps et la différence interaurale d'amplitude. Mesuré avec des impulsions de 100 ms de bruit blanc, le flou de localisation dans le plan horizontal est de 8° pour une source directement devant l'auditeur, de 20° pour une source vis-à-vis les oreilles et de 11° pour une source directement derrière l'auditeur 7. Le flou de localisation variera de façon graduelle et continue entre ces azimuts.

 

On peut s'attendre à ce que le flou de localisation dans le plan médian (fig. 1.1), où seules les modifications du pavillon de l'oreille donnent l'information nécessaire, soit plus grand que dans le plan horizontal. Comme le mentionne Blauert, l'expérience auditive préalable des sujets devrait alors jouer un rôle important dans la diminution du flou de localisation dans le plan médian. Cela a effectivement été vérifié. Mesuré avec la voix d'une personne connue comme source sonore, le flou de localisation dans le plan médian est, pour la partie se situant devant la tête, de 18° pour une source à 0° d'élévation, de 20° pour une source à 30° d'élévation et de 26° pour une source à 75° d'élévation 7. Pour la partie du plan médian se situant derrière la tête, le flou de localisation est de 30° pour une source à 27° d'élévation et de 44° pour une source à 68° d'élévation 7. On peut extrapoler sur le fait que le flou de localisation aurait été probablement moins grand si les tests dans le plan médian avaient été menés avec du bruit blanc. Même si, a priori, le bruit blanc n'est pas une source sonore qui fait partie de l'expérience auditive courante, un peu d'entraînement auditif aurait sûrement pu changer cela. Toutefois, même la reconnaissance de la source sonore ne peut contrer les situations où cette source présente une largeur de bande très réduite: à moins de 2/3 d'octave, l'évaluation de la direction dans le plan médian devient impossible.

 

Quoiqu'il en soit, la zone critique de fréquences où le flou de localisation est le plus grand, et ce peut importe l'azimut ou l'élévation de la source, est aux alentours de 2000 Hz. Puisque la différence interaurale de phase diminue graduellement d'efficacité à partir de 800 Hz et que la différence interaurale d'amplitude n'est pas vraiment fonctionnelle avant 2000 Hz, il y a un manque de chevauchement des zones couvertes efficacement par ces mécanismes de localisation. Notre manque de discrimination directionnelle autour de 2000 Hz explique aussi, en partie, que notre plus grande sensibilité à l'amplitude acoustique se situe dans ce secteur de fréquences, tel que confirmé par les courbes d'isosonie adopté par le International Organization for Standardization (ISO) en 1987 88.