Cologne, Allemagne, 23 novembre 2014

Procédés et systèmes d'enregistrement et de reproduction sonores en trois dimensions

 

CHAPITRE 5 : LE SYSTÈME AMBISONIC

 

La majorité des montages tétraédriques proposés en Angleterre à la fin des années soixante présentaient des distorsions spatiales évidentes favorisant le quadrant avant. Seul le montage de Gerzon ne présentait aucune distorsion spatiale pour quelque direction que ce soit. Ce montage présentait cependant un inconvénient majeur: tel quel, il fallait alimenter un assemblage d'enceintes acoustiques peu flexible. Il a donc fallu repenser certains principes qui alourdissaient l'utilisation du modèle tétraédrique. La première étape pour un développement subséquent de ce modèle était de mettre de côté l'obligatoire analogie de position entre les capteurs à l'enregistrement et les émetteurs à la reproduction. Pour cela, il fallait trouver un format de signal intermédiaire qui allait permettre d'adapter une prise de son tétraédrique à n'importe quelle disposition d'enceintes acoustiques.

 

 

Figure 5.1 Les quatre capsules du format A du système Ambisonic. [D'après Craven et Gerzon 23]

 

Ce principe est le coeur du système Ambisonic 35. Ce système se schématise en quatre sections appelées «format A, format B, format C et format D» 33. À partir des quatre signaux issus d'un montage tétraédrique régulier de microphones cardioïdes, appelé le format A et illustré à la figure 5.1, il est possible d'obtenir, en additionnant et soustrayant ces signaux entre eux, quatre nouveaux signaux de microphones virtuels correspondant à trois harmoniques sphériques simples de premier ordre, orientées à 90° les unes par rapport aux autres, plus une harmonique sphérique d'ordre zéro. Ces micros ont tous le même centre de gravité et les signaux de premier ordre correspondent aux trois axes X, Y, et Z de la figure 1.1, définissant l'espace en trois dimensions. Illustré dans la figure 5.2, ce format intermédiaire, qui ne peut alimenter directement des enceintes acoustiques, s'appelle le format B et serait en quelque sorte une extension tridimensionnelle d'une captation M-S. Les signaux de premier ordre du format B sont assez justement désignés «X» pour celui qui pointe vers l'avant, «Y» pour celui qui pointe vers la gauche, «Z» pour celui qui pointe vers le haut et «W» pour l'omnidirectionnel 31. La figure 5.1 nous montre qu'en attribuant aux capsules du tétraèdre d'origine les désignations C1, C2, C3 et C4, la conversion du format A au format B se fait selon les combinaisons suivantes:

 

(4) C1 + C2 + C3 + C4 = W

(5) C1 + C2 - C3 - C4 = X

(6) C1 - C2 + C3 - C4 = Y

(7) C1 - C2 - C3 + C4 = Z

 

Par ailleurs, le format B permet de créer n'importe quel microphone correspondant à une harmonique sphérique simple ou complexe de premier ordre et ce, pointant dans n'importe quelle direction. C'est aussi le format dans lequel toutes les manipulations prémixage de signal doivent intervenir.

 

 

Figure 5.2 Représentation sphérique des quatre canaux du format B du système Ambisonic. [D'après Farrar 31]

 

Le format de signal choisi pour la transmission ou l'inscription sur un support donné destiné à la consommation est le format C. Ce format peut être de quatre, trois ou deux canaux: le format C à quatre canaux contient l'information tridimensionnelle complète, le format à trois canaux contient l'information bidimensionnelle horizontale complète, en enlevant le signal Z, sans perte de séparation entre les canaux, alors que le format C à deux canaux contient l'information bidimensionnelle (X, Y et W) encodée, donc avec une certaine perte de séparation entre les canaux 46. C'est une matrice 3:2:3 et la séparation entre les canaux est de 6 dB puisqu'ils sont tous spatialement adjacents 78. Toutes les équations matricielles d'encodage ont été déterminées de façon définitive et ce mode d'encodage du format C est employé commercialement sous l'appellation «Ambisonic UHJ» 37. Le UHJ a emprunté son appellation, et une partie de ses équations, à d'autres systèmes de matriçage. La lettre U, qui vient du système UMX (commercialement UD-4) développé par Cooper et la compagnie Nippon Columbia 99, signifie Universal. La lettre H, qui vient du système Matrix H ou HJ de la British Broadcasting Corporation (BBC), signifie Hierarchical. La lettre J vient du système 45J de la National Research Development Corporation (NRDC). La signification exacte du J n'est pas très claire, mais un document interne de la NRDC stipule que c'était le numéro du projet de laboratoire 100. D'un autre côté, peut-être une pure coïncidence, la lettre J est employé comme constante dans toutes les équations de tous les systèmes matriciels pour désigner un déphasage de 90°.

 

Le système UHJ, tout comme le format B, comporte quatre signaux pour définir l'information tridimensionnelle complète. Toutefois, le format UHJ, contrairement au format B, peut être directement écouté. Voyons comment cela est possible. Les quatre signaux UHJ ont les désignations suivantes: S, D, T et Q 46. Le signal S est une combinaison des signaux W et X du format B. Le signal D est une combinaison des signaux W, X et Y, mais avec des modifications de gain, de polarité et de phase. Le signal T est une combinaison différente des mêmes signaux de format B que l'on retrouve dans le signal D. Le signal Q est essentiellement le signal Z du format B. Pour l'encodage UHJ à deux canaux, les canaux S et D sont combinés sur le support (CD, cassette) d'une façon similaire à une matrice M-S: «S+D» donnant le canal gauche et «S-D» donnant le canal droit. Pour simplifier, on peut dire qu'en format UHJ deux canaux, les positions sur l'axe Y sont encodées par différences d'amplitude (comme dans toute prise de son stéréophonique coïncidente) et les positions sur l'axe X sont encodées par différences de phase 35. Bien que le format UHJ se compose des signaux S, D, T et Q, il pourra être inscrit, sur les différents supports, Gauche, Droit, T et Q. La combinaison des canaux S et D sur les supports conventionnels assurera ainsi la compatibilité avec une écoute stéréophonique non décodée. Étant donné que le canal D est assimilable à une sommation monophonique d'un enregistrement stéréophonique conventionnel, il sera donc le signal écouté lors d'une réception radio MF mono. On peut imaginer des supports (disque numérique) ou des canaux de transmissions (radio MF) incluant les quatre canaux UHJ, mais dont les possibilités de lecture pourraient être d'un canal (S), de deux canaux (Gauche et Droit ou S et D), de trois canaux (S, D, T) ou de quatre canaux.

 

Finalement, le signal combiné qui servira à alimenter l'installation d'enceintes acoustiques sera le format D. Ce signal ne vient pas directement du format C (format de transmission), mais plutôt du format B (format de manipulation) reconstruit à partir du format C. Rappelons-le, c'est le format B qui permet la synthèse de microphones, donc de synthétiser des micros dont l'azimut, l'élévation et les caractéristiques directionnelles correspondent au nombre et à la disposition des enceintes acoustiques utilisées.

 

Comme nous pouvons le constater, autant pour le format B que pour le format UHJ, l'emploi de ce qui est appelé un décodeur Ambisonic est obligatoire. Présentement, il n'y a, pour autant que nos informations soient à jour, que trois compagnies, AGM Digital, Audio Design et Minim Electronics, manufacturant les décodeurs Ambisonic. Ces décodeurs permettent de décoder tant le format C UHJ que le format B de studio. Au début des années quatre-vingts par contre, plusieurs compagnies britanniques produisaient des décodeurs domestiques ou professionnels en plus d'autres appareils de traitement permettant la synthèse du format B à partir de bandes multipistes. Nous en reparlerons plus loin dans la section 5.3. Trois compagnies japonaises, Hitachi, Mitsubishi et Onkyo, incorporent des décodeurs Ambisonic UHJ deux canaux dans leurs processeurs d'ambiances ou dans leurs récepteurs hauts-de-gamme aux côtés d'un décodeur Dolby Surround. Les consommateurs ne se trouvent donc pas dans la délicate position de choisir un système ambiophonique* au détriment d'un autre. Détail technique intéressant, les décodeurs incorporés dans les appareils de Mitsubishi et Onkyo fonctionnent complètement dans le champ d'activité numérique. On peut donc y alimenter directement le signal numérique d'un disque compact encodé UHJ. Cette façon de procéder assure en principe une conversion beaucoup plus précise du format C vers le format B reconstruit et une meilleure synthèse du format D. Rappelons que, puisque le format B est essentiellement un assemblage de microphones coïncidents, l'encodage UHJ deux canaux est tout à fait compatible avec une écoute stéréophonique ou monophonique conventionnelle.

 

De nombreux titres en disque compact sont disponibles en format Ambisonic UHJ par les compagnies Nimbus et Collins Classics. Notons toutefois que ces compagnies utilisent des techniques différentes de production Ambisonic. La compagnie Nimbus utilise un assemblage de microphones qui produit directement le format B: deux micros figure-huit de marque Schoeps, pour les axes X et Y, et un omni Brüel & Kjaer disposés de façon à être coïncidents dans le plan horizontal 30. Cette façon de procéder produit toutefois un format B qui ne contient pas l'information du micro Z, soit l'information verticale. Ce montage a été baptisé Nimbus-Halliday. Chez Collins Classics, on a adopté une technique moins puriste en utilisant la polymicrophonie sur multipistes et en produisant un mixage Ambisonic avec les appareils qui seront décrits dans la section 5.230. En fait, les seuls instruments sur le marché permettant de capter l'ensemble de l'information acoustique tridimensionnelle originale sont les microphones de type Soundfield, dont nous parlerons au point suivant. Rappelons ici que le Matrixed Pressure Triplet24pourrait être une alternative au montage Nimbus-Halliday pour la production de format B bidimensionnel. Le matriçage pour produire les signaux X, Y et W serait simple. Ce serait toutefois un format B qui incluerait les caractéristiques du modèle d'association de Theile. Dans ce sens, on peut extrapoler que le décodage de ce format B en format D ne devrait pas nécessairement inclure les modifications de signal basées sur des algorithmes psychoacoustiques que l'on retrouve dans les décodeurs standards.

 

 

5.1 Le microphone de type Soundfield 

 

Le microphone Soundfield a été développé au cours des années 70 à partir des recherches de Gerzon 42. La National Research Development Corporation en Angleterre, a soutenu financièrement la mise au point du Soundfield, tout comme le projet Ambisonic d'ailleurs. La compagnie britannique Calrec a été responsable de la mise en marché initiale du Soundfield en 1979. À la fin des années 80, Calrec a été absorbée par une autre compagnie britannique, Advanced Music Systems, mieux connu maintenant sous le nom AMS-Neve. Quelques années après son acquisition, la technologie du Soundfield a été revendu par AMS-Neve et appartient maintenant à la compagnie Soundfield Research. Il y a trois modèles actuellement disponible, le Soundfield Mk V et ST250, introduits en 1992, et le SPS422, introduit en 1996. Depuis 1993 toutefois, AGM Digital fabrique un autre système de type Soundfield, entièrement numérique cependant, le MR2 .

 

 

Figure 5.3 Montage tétraédrique des quatre capsules du microphone Soundfield Mk V.

 

Comme nous pouvons le voir dans les figures 5.3 et 5.4, le micro de type Soundfield est constitué de quatre capsules sous-cardioïdes ou cardioïdes disposées comme sur les faces d'un tétraèdre régulier 23. La sortie de ce microphone est en format A. Avec le Soundfield Mk V, ce signal de format A est envoyé à une unité de contrôle pour y être tout d'abord préamplifié. L'unité de contrôle 94 comporte donc une entrée de micro de type DIN 12 tiges, ainsi que quatre entrées et quatre sorties de ligne de type XLR 3 tiges pour chaque canal de format B, une sortie de ligne stéréophonique comportant deux prises de type XLR 3 tiges et une sortie de casque d'écoute de type 1/4 de pouce. Une fois que le signal du microphone est préamplifié, il est converti en format B et corrigé de ses irrégularités de fréquences.

 

 

Figure 5.4 Montage tétraédrique des quatre capsules du microphone AGM MR2.

 

L'unité de contrôle du Soundfield permet un ensemble de modifications du champ sonore en apportant des variations au format B autant en temps réel (à la captation) qu'en différé (en postproduction). La commande Azimuth permet de faire une rotation horizontale (axes X et Y) virtuelle complète du microphone sur 360°, la commande Elevation permet de faire pivoter le microphone dans le plan médian (axes X et Z) de +/- 45° et la commande Dominance introduit une distorsion frontale ou arrière dans le champ sonore en transformant graduellement le signal W d'un omnidirectionnel à un sous-cardioïde aligné sur l'axe X. Selon la polarité de ce signal, il pointera à l'avant ou à l'arrière.

 

Comme nous venons de le voir, la conjugaison des commandes Azimuth et Elevation permet de modifier la sphère de perception en faisant pivoter de façon virtuelle les trois axes du microphone. La commande Dominance serait en quelque sorte l'équivalent avant/arrière du contrôle de balance gauche/droit que l'on retrouve sur les préamplificateurs domestiques conventionnels. Toutes ces corrections de champ sonore se font en temps réel à la captation, avec la possibilité que le champ sonore modifié ne soit fonctionnel qu'au monitoring sans être enregistré, et en postproduction si le format B a été complètement sauvegardé sur quatre pistes.

 

La dernière section de l'unité de contrôle du Soundfield permet de produire une sortie stéréophonique coïncidente. L'écartement des micros est variable de façon continue entre 0° et 180° et le caractère sphérique peut être ajusté de façon continue entre l'omnidirectionnel et le figure-huit. Puisque ces micros sont créés à partir du format B, on peut aussi les recréer en postproduction toujours si la bande maîtresse est en format B. Même si la section de préamplification de l'unité de contrôle est appairée à un micro avec un numéro de série en particulier, les autres commandes peuvent traiter n'importe quel format B, qu'il soit produit par un autre micro ou qu'il soit synthétisé. Par exemple, le micro ST 250 comporte une unité de contrôle beaucoup moins axée sur le système Ambisonic. Bien que comportant une sortie en format B, les commandes du ST 250 sont réduites à une section de production de microphones stéréo coïncidents. Tout contrôle en temps réel du champ sonore est impossible. Il faut donc le réserver à la postproduction avec l'unité de contrôle du Soundfield.

 

Comme nous l'avons noté plus haut, le système MR2 de AGM Digital93 est basé sur la même théorie que le Soundfield. Il faut donc maintenant parler du Soundfield comme un type ou une technique de captation plutôt que comme un modèle d'une compagnie en particulier. Le MR2 comporte en effet quatre capsules cardioïdes coïncidentes disposées en tétraèdre. Cependant, AGM n'a pas développé ses propres capsules, mais a utilisé des capsules déjà existantes de Brüel & Kjaer. Comme nous l'avons indiqué, la nouveauté du MR2 réside dans le traitement entièrement numérique de l'information sonore tridimensionnelle; le signal de format A est converti numériquement avec 20 bits de résolution dynamique et la transformation au format B et ses manipulations potentielles subséquentes se font dans le champ d'activité numérique. Une interface-usager graphique utilisant le système d'exploitation Windows sur plate-forme IBM-PC permet les mêmes manipulations (Azimuth, Elevation et Dominance) que l'unité de contrôle du Soundfield. La sortie deux canaux standard du MR2 est aussi identique à la sortie stéréophonique que l'on retrouve sur l'unité de contrôle du Soundfield. Toutefois, lorsqu'un processeur numérique de signal est rajouté au système MR2, ce dernier permet d'encoder directement en format deux pistes UHJ 101.

 

 

5.1.2 Cueillette d'échantillons avec le microphone Soundfield 

 

Après avoir pris connaissance de l'existence du Soundfield, il nous apparaissait important de nous en faire une opinion pour nous-mêmes, malgré les commentaires positifs qu'on retrouve dans la littérature spécialisée. L'idée était de mener une série d'enregistrements dans des environnements présentant de nombreux stimuli sonores de toute direction et d'en faire le monitoring de postproduction sur des assemblages bidimensionnels d'enceintes acoustiques et, si le temps et l'argent le permettaient, sur des assemblages tridimensionnels. Ces essais n'avaient pas un véritable caractère scientifique, quoique nous aurions recueilli les commentaires et les impressions du plus grand nombre de personnes possible, quant au réalisme spatial de la reproduction sonore des différents environnements.

 

En juin 1990, nous avons eu à notre disposition pour une période de deux semaines un micro AMS Soundfield Mk IV. Il nous a été prêté par la compagnie Adcom Electronics de Toronto, qui en était le distributeur au Canada. Pour faciliter le prêt, le micro était officiellement sous la responsabilité de l'Office national du film du Canada à Montréal. L'ONF avait loué un magnétophone analogique Studer C274 quatre pistes sur 1/4 de pouce avec Dolby HX Pro et une unité de réduction de bruit de fond DBX. Le micro venait avec sa caisse, contenant aussi l'unité de contrôle, dix mètres de câble et une prise mâle et une prise femelle XLR 5 tiges. En effet, l'unité de contrôle du modèle IV ne comportait qu'une entrée et une sortie de format XLR 5 pour le format B. Il fallait donc fabriquer nos propres adaptateurs pour raccorder la sortie et l'entrée de format B de l'unité de contrôle avec le magnétophone. Le microphone étant fourni sans suspension, il fallut aussi adapter une suspension de Neumann U87. Par contre, le Soundfield était fourni avec une mousse anti-vent couvrant l'ensemble du grillage. Le technicien de l'ONF jugea toutefois sa performance comme étant peu efficace et rajouta une housse Rycote à l'équipement, pour les enregistrements extérieurs.

 

Le premier enregistrement fut le concert de l'Ensemble vocal Arts-Québec pour la Fête Nationale, le 24 juin 1990. Le concert, qui avait lieu à l'église Saint-Jean-Baptiste de Montréal, comportait un répertoire varié avec des pièces de chorale a capella, avec orchestre, des pièces pour orchestre seul, pour piano solo et pour piano avec orchestre. Le micro était installé à quelques mètres de la première rangée de l'orchestre et surélevé d'environ trois mètres. Le format B fut enregistré sans modification de champ sonore sur le magnétophone quatre pistes et le signal stéréo sur un magnétophone DAT, comme c'est l'habitude pour les concerts de l'Ensemble. Puisque cette captation avait une double fonction, nous n'avions pas le temps d'expérimenter sur place les modifications de champ sonore, on le ferait plus tard en postproduction, mais les contrôles de la sortie stéréo se sont avérés un outil des plus intéressants. Pendant la générale avant le concert, nous avons longuement testé les différents microphones virtuels pour constater que cette flexibilité et ce contrôle à distance sont un progrès notable même quand on les compare à une commande de micro M-S.

 

Pour la deuxième séance d'enregistrement, le 26 juin, nous nous sommes rendus à Huntingdon pour cueillir des sons de la nature. Nous avons commencé par nous installer au bord d'une petite rivière au débit assez rapide. Ce ne fut pas nécessairement des plus captivant, ce genre de son a le fâcheux résultat de ressembler à du bruit blanc ou rose. Nous avons aussi enregistré un avion en vol. Détail anecdotique, le technicien de l'ONF gardait son vieux réflexe de vouloir pointer le microphone vers la source principale: il fallait lui rappeler constamment que le Soundfield captait le son de toutes les directions et qu'on pourrait le réorienter en postproduction. La journée s'est terminée avec l'enregistrement des chants des oiseaux au coucher du soleil. C'est sûrement l'environnement sonore le plus intéressant que nous avons capté durant cette séance. Il y avait plusieurs chants différents provenant de directions, d'élévations et de profondeurs variées, ainsi que la courbe d'une route secondaire qui apportait une ponctuation technologique occasionnelle à cette prise de son au caractère autrement bucolique.

 

Pour l'ensemble des prises de son de cette journée, nous avons expérimenté en temps réel et en différé les modifications de champ sonore. Le monitoring se faisait au casque et nous arrêtâmes notre choix de signal stéréo sur des microphones cardioïdes virtuels écartés à environ 100°, 110°. De façon systématique, nous avons vérifié chaque commande de modification. Compte tenu des limites dans notre capacité de monitoring, c'est évidemment la commande de rotation horizontale qui produisait les effets les plus remarquables. C'est effectivement comme si nous tournions sur nous-mêmes, ce qui permettait entre autre de suivre l'avion dans son passage: après avoir ajusté la commande d'inclinaison vers le haut, la commande de rotation créait un panoramique qui gardait l'avion dans le centre du champ sonore.

 

La séance suivante du 28 juin marqua notre retour à la civilisation: nous allions capter l'ambiance et les manèges du parc La Ronde, sur l'île Sainte-Hélène à Montréal. Cet environnement sonore fournissait une occasion idéale de capter des bruits de machines occupant un volume important, c'est à dire avec des informations en quantité, distribuées sur les trois axes. De plus, les réaction humaines en faisaient aussi des échantillons sonores avec une certaine charge émotive. Nous avons enregistré cinq manèges, dont deux avec quelques positions alternatives de microphone. Encore une fois, nous testions de façon systématique, durant les enregistrements, si toutes les modifications du champ sonore étaient fonctionnelles. C'était toujours, en regard de nos possibilités restreintes de monitoring, la meilleure façon de procéder pour vérifier l'intégrité du format B. Deux des manèges que nous avons enregistrés produisaient une rotation dans le plan frontal définie par les axes Y et Z avec, comme nous le confirmait les vumètres de l'unité de contrôle, peu d'informations sur l'axe X. On pouvait donc déjà envisager de tricher, lors d'une écoute ultérieure, et de changer l'axe X pour l'axe Z à l'entrée format B de l'unité de contrôle, pour donner un résultat impressionnant avec un décodeur bidimensionnel horizontal qui ne décoderait pas, en configuration normale, l'axe Z.

 

La dernière séance d'enregistrement d'échantillons sonores constitua encore un environnement très tridimensionnel, mais aussi une occasion de vérifier les capacités dynamiques du microphone Soundfield. Le feu d'artifices de la fête du Canada, tenu le 1er juillet par la ville de Beaconsfield en banlieue de Montréal, allait sûrement pousser le microphone au bout de ses 140 dB de pression sonore maximale admissible. À une hauteur de deux mètres, nous avions installé le Soundfield à mi-chemin entre les artificiers et la foule, qui était retenue par un cordon de sécurité. Cet emplacement allait donner une bonne perspective avant/arrière avec de l'information au sol, lors du départ des fusées et les réactions de la foule, et en élévation et profondeur variées avec, évidemment, les explosions. Contrairement aux autres séances, où nous pouvions ajuster les niveaux de modulation avant l'enregistrement, il n'y avait pas de répétition avant la mise à feu, et il fallait, au meilleur de notre jugement, évaluer les niveaux qui seraient acceptables. Par trois fois durant le feu, il a fallu baisser ces niveaux pour éviter la surmodulation, car nous avions sans aucun doute sous-évalué la pression sonore de l'événement d'au moins 15 dB. Quoiqu'il en soit, le microphone a encore une fois répondu à nos attentes avec une performance irréprochable, et les tests de champ sonore ont permis d'attester de l'intégrité du format B.

 

 

5.1.3 Écoute des échantillons 

 

La prochaine étape, après la cueillette d'échantillons sonores, était l'écoute avec un système de monitoring adéquat. Le studio de mixage IMAX de l'ONF était un choix naturel, puisque la disposition des enceintes acoustiques constituait un ensemble que les décodeurs Ambisonic couramment fabriqués pouvaient alimenter. Cependant, les techniciens de l'ONF voulaient décoder le format B avec des matrices M-S, et j'ai donc décidé d'acquérir personnellement un décodeur Ambisonic. La commande fut passée à la compagnie Minim Electronics, de Burnham en Angleterre, au mois d'août 1990. Au moment d'écrire ces lignes, nous n'avons toujours pas reçu le décodeur malgré nos rappels nombreux, voire désespérés, et les résultats de l'écoute ne peuvent donc pas être inclus dans ce mémoire.

 

 

5.2 Manipulation de signal dans le système Ambisonic 

 

Compte tenu des méthodes de travail courantes dans l'industrie de la musique enregistrée, le système Ambisonic n'aurait qu'un intérêt limité s'il était impossible de créer (à l'opposition de reproduire) un champ sonore Ambisonic à partir de matériel multipistes ou polymicrophonique conventionnel. Étant donné que le format B est constitué de micros virtuels (ou réels dans le cas de la compagnie Nimbus) répondant à des fonctions mathématiques précises 46, il devient relativement facile de concevoir des équipements qui répondront à ces fonctions. Notons encore que l'ordre de conception des équipements Ambisonic s'est fait à l'inverse de ce qui s'est produit avec le Dolby Stereo/Surround, où il faut maintenant imaginer des assemblages de micros qui imitent un équipement de mixage ne répondant pas à un ensemble intégré de fonctions mathématiques.

 

Depuis le début des années 80, période où les personnes impliquées dans le projet Ambisonic n'étaient pas encore trop découragées, la compagnie britannique Audio Design fabrique un certain nombre d'appareils permettant le mixage dans le système Ambisonic 29. Manufacturés en petite quantité, ces appareils, contrairement au micro Soundfield, n'ont pas fait l'objet de beaucoup de tests et d'essais documentés. À notre connaissance, il y a très peu d'articles publiés au sujet du mixage Ambisonic. De plus, le matériel le plus intéressant détaillant avec précision la conception et le fonctionnement de ces appareils reste sans aucun doute les rapports de recherches internes de la NRDC et de la BBC en Angleterre.

Quoiqu'il en soit, on peut quand même se faire une idée assez juste de ce qu'est un studio Ambisonic.

 

Mentionnons tout d'abord que les appareils de traitement Ambisonic appartiennent à deux catégories: les appareils qui manipulent individuellement des sons monophoniques à l'intérieur d'un champ sonore et les appareils qui manipulent des champs sonores complets, telle l'unité de contrôle du microphone Soundfield. Dans le studio Ambisonic, on retrouve donc quatre appareils de traitement de signal analogique: le B-format converter (convertisseur), le encoder/transcoder (encodeur/transcodeur), le decoder (décodeur) déjà mentionné et finalement le pan/rotate system (module de panoramique/rotation) 5.

 

Le convertisseur permet d'utiliser le contrôle de panoramique d'une console conventionnelle (dont le contrôle de panoramique suit de près une fonction sinusoïdale) pour générer un signal de format B. On retrouve ainsi sur le convertisseur deux ensembles identiques de quatre entrées, auxquelles on assigne deux ensembles de quatre groupes de la console. Dans un ensemble, chaque paire de groupes (1-2, 2-3, 3-4, 4-1 par exemple) couvre un quadrant de 90°; la circonférence complète de 360° est couverte par chaque ensemble de quatre groupes. Ce procédé ne résulte toutefois qu'en des signaux X et Y; il faudra alimenter un cinquième signal au convertisseur, pour que ce dernier puisse produire à sa sortie un signal W. Celui-ci sera produit par la sommation monophonique de tous les sons assignés aux groupes de la console alimentant le convertisseur. La meilleure méthode pour générer un tel signal est d'envoyer chaque son en post-fader dans un bus d'auxiliaire. Le signal de ce bus devient alors le signal W. Toutes ces opérations peuvent se répéter, puisqu'on pourra assigner au deuxième ensemble du convertisseur quatre autres groupes pour obtenir ainsi en bout de ligne deux ensembles indépendants de «localisation statique» 29, c'est-à-dire pour des sons ne demandant pas une rotation de 360° en temps réel. Dans le cas d'un mixage de musique pop, ces limites ne sont pas réellement contraignantes.

 

Si le besoin se fait sentir de donner des effets plus frappants, le module de panoramique/rotation comporte huit entrées où il est possible de produire pour chaque signal une rotation continue complète sur 360°: on peut leur assigner des entrées ou des groupes de consoles. Le type de manipulation spatiale ainsi offerte est appelé «localisation dynamique» 29. Chaque entrée sur le module permet aussi de varier l'étendue spatiale du son d'un point précis à un arc diffus: en effet, les sons ne sont pas nécessairement tous concentrés en des points précis dans l'espace. Notons que le module de panoramique/rotation est le seul appareil permettant à la fois la manipulation de sons individuels et du champ sonore complet. Effectivement, la fonction de rotation permet une rotation dynamique complète de 360° du champ global: en ce sens, c'est une commande assimilable à celle d'azimut sur l'unité de contrôle du micro Soundfield.

 

L'encodeur/transcodeur est un appareil à deux fonctions: la première est l'encodage du format B horizontal trois canaux en format C deux canaux, désigné comme nous l'avons déjà noté plus haut Ambisonic UHJ. C'est ce format, pour l'instant du moins, qui est destiné à la diffusion grand public. La deuxième fonction est la conversion de format quadriphonique en format 2 canaux UHJ. Dans les expériences menées en 1983, la fonction de transcodage servait en fait à inclure la réverbération au mixage final 29. Cette façon de procéder suit les recommandations proposées par Audio Design dans sa documentation sur le Ambisonic Mastering Package (AMP) 5. Le décodeur est le chaînon final, permettant le monitoring du mixage en format B ou en UHJ deux canaux. Les décodeurs les plus courants peuvent alimenter quatre enceintes acoustiques et disposent d'une commande pour s'ajuster aux proportions de l'installation d'enceintes (largeur/profondeur de 1:2 à 2:1) et d'une compensation de distance si le rayon de l'installation est supérieur à trois mètres. La littérature sur le système Ambisonic mentionne couramment un décodeur pour six enceintes 46, mais il ne semble jamais avoir dépassé le stade de prototype. Audio Design propose toutefois deux adaptateurs se fixant à leur décodeur: le Ambi-5 et le Ambi-8 97. Conçu pour l'utilisation en auditorium, ces adaptateurs produisent un signal convenant, par exemple, aux installations déjà courantes du type Dolby Stereo dans les cinémas et peuvent ainsi sonoriser adéquatement de grandes surfaces.

 

Les appareils de la compagnie Audio Design ne représentent toutefois qu'une partie des possibilités de manipulations initialement prévues dans le système Ambisonic. L'objectif premier était en effet la réalisation d'une console Ambisonic qui incluerait bien plus que ce qui est possible avec les appareils de traitement qui sont actuellement manufacturés. Un document interne de la NRDC 44 établit une liste des manipulations possibles sans toutefois entrer dans les détails techniques ou les formules mathématiques permettant ces manipulations. Il y aurait tout d'abord le panoramiqueur (pan-pot) sphérique: celui-ci permet de manipuler les sons sur les trois axes spatiaux. Un manche à balai (joystick) contrôle les axes X et Y, tout en permettant aussi des effets de perception sonore vers l'intérieur du champ sonore en plaçant le manche vers le centre de sa course. Le contrôle de l'axe Z se ferait par un potentiomètre linéaire divisé au centre de sa course. Le panoramiqueur sphérique est donc un localisateur dynamique; à cet égard, on remarque que la catégorisation de localisation statique et localisation dynamique est inexistante dans le document de la NRDC. Cette catégorisation est probablement issue des limites technologiques et financières qui existaient à la fin des années soixante-dix. Il est en effet discutable, au niveau du design industriel et de ses conséquences sur l'utilisation du produit, d'avoir des catégories de qualité pour une technologie avancée qui n'est de toute façon pas destinée au marché domestique. Ainsi, le panoramiqueur sphérique est en soi complet et n'est secondé que par un autre manipulateur en ce qui a trait au positionnement des sons monophoniques dans l'espace.

 

L'étireur (spreader) est une variation du panoramiqueur sphérique qui pourra étirer un son à partir de sa position principale. L'étireur divise le son en différents secteurs de fréquences qui seront plus ou moins distribués de part et d'autre de la position principale déterminée par le pan-pot sphérique. L'étireur standard pourrait distribuer le son jusqu'à former un arc de 180° ou, dans sa version wrap around, distribuer le son sur une spirale qui ferait plusieurs fois le tour du champ sonore pour l'ensemble des fréquences audibles.

 

Reste la manipulation globale de champ complet. Préférablement, celle-ci est possible sur les trois axes et doit être continue: le contrôleur par quadrant de 90° de champ horizontal du micro Soundfield qu'on a vu jusqu'en 1991 était donc une matérialisation fort incomplète des idées initiales dans la conception du système Ambisonic. Encore une fois, les développements technologiques récents commencent seulement à permettre d'exploiter toutes les possibilités de manipulation. Avec un contrôleur continu de champ sphérique, les effets de zoom, qui sont possibles à l'horizontale en corrompant le signal W avec du signal X dans l'unité de contrôle du micro Soundfield, seraient possibles dans tous les azimuts et élévations.

 

 

5.2.1 Manipulation numérique des champs sonores Ambisonic 

 

L'équipement que nous venons de décrire est constitué d'appareils effectuant des traitements de signaux purement analogiques et ce, sans aucune forme d'automatisation ou de support informatique. Il est facilement envisageable, dans le contexte d'un mixage Ambisonic horizontal complexe ou même d'un mixage Ambisonic tridimensionnel relativement simple, que la capacité de manipulation de l'opérateur se révèle rapidement insuffisante. La conception d'équipement informatique permettant une manipulation de signal sous forme numérique, comportant une certaine forme d'automatisation et une interface-usager plus conviviale, devient une obligation. Rien qu'au chapitre de l'interface-usager, on n'a qu'à penser à la crainte qu'inspire souvent aux novices une console de studio le moindrement élaborée. Compte tenu de ce besoin pressant, toute la question de la manipulation numérique Ambisonic a été abordée par des membres du Studio de musique électronique de l'Université de York en Angleterre. Après s'être familiarisés avec le système Ambisonic, ceux-ci ont toujours cru qu'il était idéal pour la performance en concert et la diffusion d'enregistrements de musique électroacoustique 68.

 

Dave Malham a d'abord travaillé à partir de 1981 sur un contrôleur de champ Ambisonic programmable numériquement 67; l'équivalent automatisé du contrôleur de champ sur l'unité de contrôle du micro Soundfield. À partir du milieu des années 80, ses recherches se sont axées davantage vers la deuxième catégorie d'appareils telle que définie plus haut, c'est-à-dire l'automatisation de la manipulation de sons individuels dans le champ Ambisonic 68. Le prototype issu de ces expériences a résulté en un certain nombre d'observations sur la manipulation numérique spatiale des sons. La première inconnue concernait la puissance des convertisseurs analogique/numérique employés, et leur impact sur la résolution du champ sonore simulé. Si des restrictions budgétaires ont initialement limité les convertisseurs à n'avoir que 15 bits, les tests semblent avoir démontré que 12 bits par canal de format B étaient suffisants et ne produisaient pas de «granulation» 68 (son qui saute d'une position à l'autre plutôt que de décrire un mouvement continu) audible du champ sonore. Même que dans l'éventualité d'un champ sonore statique, des convertisseurs 8 bits seraient adéquats. L'explication semble résider dans le fait que les canaux du format B sont reliés entre eux (un son donné sera toujours défini par un minimum de deux canaux) et qu'ainsi la résolution de chaque canal s'additionne aux résolutions des autres canaux impliqués dans le positionnement d'un son.

 

Une deuxième question concernait la vitesse à laquelle un son pouvait se déplacer, avant que ce déplacement ne soit perçu comme une modulation spectrale de la source sonore. Nous présumons que les mesures ont été effectuées pour des rotations complètes sur 360° dans le champ sonore puisque cette vitesse a été évaluée entre «10 et 15 Hz» 68: lorsque la vitesse d'une source sonore en rotation dépasse environ dix rotations de 360° par seconde, il se produirait une modulation spectrale de la source sonore. La référence n'est pas très claire à ce chapitre. Quoiqu'il en soit, ce type d'expérience aurait été impossible avec les appareils de manipulation analogique originaux, dans ce cas-ci le module de panoramique/rotation. La dernière observation documentée concerne la résolution nécessaire pour définir adéquatement un mouvement qui suit un arc. Ayant trébuché sur un bogue de programmation, Malham dut se contenter de programmer une suite de mouvements successifs en ligne droite pour définir un arc. Il fut constaté que le système auditif humain était, à toutes fins utiles, incapable de faire la différence dans le système Ambisonic entre un mouvement vraiment circulaire et une suite de segments droits échantillonnant un mouvement circulaire. On peut s'interroger à savoir s'il s'agit d'une limite de notre système auditif ou du système Ambisonic.

 

Ces expériences, rappelons-le, manipulaient des signaux analogiques. Idéalement, les signaux, tout comme le contrôleur, devraient être entièrement numériques. De cette manière, le traitement numérique ne toucherait pas seulement la position et le déplacement des sources sonores, mais aussi la simulation de réflexions et de réverbération pour générer un champ sonore Ambisonic plus réaliste, et moins sujet aux variations de reproduction conséquentes aux irrégularités des installations d'enceintes acoustiques. Il va en effet de soi que, pour égaler la performance du micro Soundfield au chapitre du réalisme sonore, le champ Ambisonic artificiellement généré doit inclure l'ensemble des indices acoustiques, de direction et de distance des sources sonores, retrouvés dans la réalité.

 

Le besoin de traitement entièrement numérique est maintenant satisfait par la carte TMS-320c30 de AGM. C'est la carte que l'on retrouve dans l'unité de contrôle du MR2 de AGM 95et plusieurs cartes de ce type ont été installées avec une console Neve VRP Legend au studio Touchdown de Munich 73. On peut donc, avec cette console, faire des manipulations de champs sonores de format B ou, si nécessaire, en Dolby Stereo. L'avantage est que le hardware est intégré et que l'utilisation gagne une certaine transparence.

 

 

5.3 Le système Ambisonic dans la production et la postproduction sonores au cinéma 

 

Une des raisons qui avait poussé les gens de l'Office national du film sur la voie d'une collaboration avec nous, était qu'eux-mêmes manifestaient depuis un certain temps un intérêt pour le micro Soundfield et qu'ils espéraient l'utiliser éventuellement pour enregistrer les trames sonores d'ambiance pour les films de format IMAX produits par l'ONF. Étant donné que la série d'enregistrements de l'été 1990 avait donné de bons résultats, il ont acquis le Soundfield et ont décidé de l'utiliser en grande première pour le film Momentum, qui allait être présenté à l'Eition universelle de Séville en Espagne à l'été 1992. Fait surprenant cependant, la décision d'acquérir le Soundfield a été prise à la suite de séances d'écoute où le format B avait été décodé avec deux matrices M-S **. Un tel décodage peut fonctionner; il faut toutefois réaliser que les signaux ainsi produits ne peuvent être destinés à des canaux spatialement adjacents. Parce que le canal W est un omnidirectionnel, on obtiendra, par la combinaison dans une matrice M-S des canaux W et X ou W et Y, des signaux qui doivent alimenter des enceintes acoustiques séparées par un angle de 180°. Toute autre disposition résultera en une distorsion spatiale de l'acoustique originale. Quoiqu'il en soit, un décodage approprié serait la règle en cours de production.

 

Pour la cueillette des ambiances, un magnétophone analogique Studer C278 huit pistes sur demi-pouce avec unité de réduction de bruit de fond Dolby SR allait être utilisé pour enregistrer le format B du micro Soundfield ***. Les caméras IMAX ont la réputation d'être très bruyantes, mais la nouvelle caméra IMAX à 48 images/secondes employée en première pour le tournage de Momentum était pire encore. Ce qui devenait évident était l'impossibilité d'enregistrer les ambiances sonores simultanément avec les images. Par suite de contraintes d'horaires, certaines ambiances ont même été enregistrées à des endroits différents de ceux des images qu'elles devaient accompagner. On devait ainsi s'assurer que les ambiances ne comportaient pas de sons ponctuels pouvant être associés à des actions particulières sur l'image. La bande fut montée et ensuite transférée sur une bande multipistes pour le mixage final. Jusqu'ici, rien de bien nouveau comparé aux techniques habituelles, si ce n'est qu'avec le format B, on travaillait toujours quatre pistes à la fois. C'est au mixage que ça se corse.

 

Il fallait d'abord produire un signal de format D (pour les enceintes acoustiques) particulier à la disposition des cinémas IMAX. On retrouve dans ces cinémas un ensemble d'enceintes acoustiques alimenté par six canaux discrets. Il y a bien sûr l'enceinte centrale derrière l'écran, pour la narration et les dialogues, et les enceintes avant-gauche et avant-droit, aussi derrière l'écran. Dans la salle proprement dite, plutôt qu'une ceinture d'enceintes acoustiques comme en Dolby Stereo, deux enceintes à large dispersion se retrouvent dans les coins arrières. En oubliant l'enceinte centrale, qui de toute façon est alimentée par un canal qui lui est propre, la disposition décrite d'enceintes dessinant un rectangle convient parfaitement au format D produit par les décodeurs Ambisonic disponibles à cette époque. Reste un canal qui alimente une autre enceinte centrale derrière l'écran, mais installée au sommet de celui-ci. On constate donc que la disposition des enceintes acoustiques dans les salles IMAX peut reproduire un espace sonore tridimensionnel selon les critères établis au troisième chapitre. Cependant, puisque la majorité des enceintes sont au-dessus de l'auditoire, l'impression auditive du champ sonore tridimensionnel n'est pas optimale.

 

Comme nous l'avons écrit plus haut, il n'y avait pas de décodeur sur le marché utilisant le format B dans sa totalité: le signal Z est éliminé et on ne traite qu'un champ bidimensionnel. Pour la disposition IMAX, il est relativement facile de contourner le problème en alimentant le format B à un deuxième décodeur, mais en prenant soin de substituer le signal Y par le signal Z. On obtient alors un plan sonore vertical correspondant au plan médian de la figure 1.1. Dans ce plan sonore, l'enceinte acoustique du sommet de l'écran correspond au signal avant gauche du format D. Le double décodage bidimensionnel constitue alors ce que nous appellerons le format D IMAX. Ce signal à cinq canaux peut être alors mixé, de manière habituelle au mixage sonore pour les films IMAX, avec les autres éléments de la trame sonore comme les dialogues, les sons ponctuels et la musique. Il serait important de souligner ici que les cinq canaux du format D IMAX doivent être considérés comme un tout. Durant le mixage, toute modification du ratio du format D IMAX dans le mixage total doit se traduire par un changement simultané et identique des cinq canaux constituant le format D IMAX, pour éviter la distorsion spatiale du champ sonore.

 

Mais avant même de mixer le format D IMAX avec le reste de la trame sonore, il fallait trouver une méthode pour mixer les champs sonores Ambisonic entre eux. Pour certaines scènes, il pouvait y avoir un fondu enchaîné entre deux champs sonores et même, dans certains cas, qui se superposaient complètement le temps de la scène. L'équipe de mixage de l'ONF a choisi de mixer les champs sonores après leur conversion en format D IMAX ****. Concrètement, ceci voulait dire l'utilisation simultanée de jusqu'à quatre décodeurs. Ces quatre décodeurs permettaient en fait plusieurs scénarios de mixage.

 

D'après ce qu'on a décrit plus haut, le mixage de deux format D IMAX complet avec deux décodeurs pour chaque champ est ce qui paraît immédiatement évident. Cependant, certains champs sonores présentent peu d'information verticale: il n'est donc plus nécessaire de monopoliser un décodeur pour produire le format D de l'enceinte produisant cette dimension. On peut alors mixer trois champs sonores, un complet et deux bidimensionnels, ou encore quatre champs bidimensionnels. Il va de soi que la remarque faite au paragraphe précédent sur l'intégrité des champs sonores tient toujours: les quatre ou cinq signaux de chaque format D forment un tout qu'il faut mixer de façon globale. Pour Momentum, toutes les combinaisons de décodeurs ont été exploitées. Une fois la trame sonore finale à six pistes terminée, elle est transférée sur trois disques compacts numériques qui seront reproduits simultanément lors du visionnement: chaque disque ne comportant en effet que deux pistes audio et une piste de synchronisation.

D'après les réactions initiales des différents intervenants de l'Office national du film qui ont eu à travailler avec la technologie du microphone Soundfield et du système Ambisonic, les résultats sont très encourageants *****. Pour ce qui est de la reproduction des ambiances, les performances d'Ambisonic sont autrement supérieures à celles du système Dolby Stereo standard et même du système Dolby Stereo à six canaux. Les responsables de la compagnie IMAX se sont aussi montrés très intéressés et satisfaits. Tout ce qu'on peut espérer maintenant, c'est que IMAX adopte Ambisonic comme système standard de production et de diffusion sonores.

 

À la lumière de cette expérience d'intégration du système Ambisonic au cinéma IMAX, deux recommandations nous viennent immédiatement à l'esprit, afin que les expériences subséquentes soient encore plus fructueuses. La technique de mixage Ambisonic employé à l'ONF illustre de manière assez claire l'incompréhension de ce système. Le mixage normal en stéréophonie fait que l'on manipule toujours un signal qui peut être directement écouté; il est normal de vouloir perpétuer ces méthodes même si le système Ambisonic est foncièrement différent de la stéréophonie conventionnelle. En Ambisonic, tout le traitement de signal s'opère au niveau du format B qui, nous l'avons déjà dit, ne peut être directement écouté. Le mixage des différentes ambiances entre elles aurait dû se faire en format B. Le mixage en format D pour le film Momentum est-il le résultat de limitations techniques? Les responsables l'ont peut-être crû, mais dans les faits il n'en n'est rien. Comme ils l'ont fait pour mixer le format D, ils auraient pu se servir d'une console conventionnelle pour mixer le format B et décoder en une seule fois le résultat du mixage en format D. Les précautions que les techniciens de mixage ont prises dans la production de Momentum auraient été les mêmes, c'est-à-dire traiter les quatre canaux constituant chaque ambiance en format B comme un signal unique. En appliquant le mixage de format B, et compte tenu de la disposition des enceintes acoustiques des salles IMAX et des limitations des décodeurs disponibles, seulement deux décodeurs auraient été nécessaires pour obtenir un format D tridimensionnel en tout temps.

 

La deuxième recommandation concerne plus la compagnie IMAX proprement dite. Si elle venait à adopter le système Ambisonic comme standard sonore, il faudrait mettre de côté le principe d'enregistrer sur le support sonore final des signaux prêts à être diffusés par les enceintes acoustiques. En termes Ambisonic, cela veut dire que le support final devrait y voir inscrit le format C et non le format D. Comme nous l'avons indiqué plus haut, le format C est le format de transmission du système Ambisonic. Dans le cas de IMAX, le format C pourrait être en fait une copie exacte du format B du mixage final ou une conversion UHJ à quatre canaux. On pourrait toujours laisser une piste indépendante pour l'enceinte acoustique des narrations et dialogues, ce qui combiné au format C donnerait cinq pistes. Ainsi, avec une piste de moins que le standard actuel de six pistes, les résultats seraient identiques sinon meilleurs. Ceci impliquerait toutefois, comme le veut la philosophie derrière Ambisonic, que chaque salle IMAX ait son propre décodeur. L'avantage serait que les décodeurs seraient ajustés aux variations de dispositions que l'on peut retrouver d'une salle à l'autre et signifierait même qu'un seul mixage final pourrait être utilisé autant dans les salles IMAX que dans les salles Omnimax, qui ont une installation sonore passablement différente des salles IMAX.

 

 

5.4 Performances du système Ambisonic 

 

John Vanderkooy et Stanley Lipshitz, de l'Université de Waterloo en Ontario, ont procédé à une analyse du système Ambisonic 84. Leur constat de base était qu'en reproduction stéréophonique conventionnelle à deux enceintes acoustiques, la relation entre la pression acoustique et la vélocité des particules est généralement faussée. C'est que «la pression acoustique totale est la somme scalaire des pressions produites par les deux enceintes acoustiques, tandis que la vélocité des particules est la somme vectorielle des vélocités produites par les deux enceintes» 84. En d'autres termes, le déplacement d'une source sonore fantôme entre les enceintes acoustiques produira une augmentation de pression, mais la vélocité des particules n'augmentera pas. Une source sonore fantôme située entre les deux enceintes produira une pression sonore supérieure à celle qui serait produite si la source sonore venait strictement de l'enceinte gauche ou droite. En situation réelle, dans la mesure où l'émission acoustique est stable dans tous ses paramètres, le déplacement d'une source sonore ne produira pas d'augmentation de pression. On remarquera ainsi que la seule prise de son stéréophonique qui est exempte de ce défaut est la captation Blumlein, où deux micros figure-huit se croisent à 90°.

Puisque l'information directionnelle du format B dans le système Ambisonic est constituée de trois figure-huit à 90° les uns par rapport aux autres, le système permet de rétablir une relation adéquate entre la pression acoustique et la vélocité des particules. Cependant, selon la méthode employé par Vanderkooy et Lipshitz, la décomposition en harmoniques sphériques du signal acoustique reproduit par le système Ambisonic permet de constater que la forme de l'onde acoustique reproduite sera une copie de l'originale seulement dans une position d'écoute située au centre de l'installation d'enceintes acoustiques et pour des fréquences inférieures à 700 Hz.

 

Dans une autre opinion sur le système Ambisonic, Cooper fait remarquer les mêmes limitations, mais tout en soulignant que Ambisonic est le seul système, à l'intérieur de ces limites, à pouvoir reproduire un espace acoustique vraiment tridimensionnel 19. Comme le font remarquer Vanderkooy et Lipshitz, à partir du moment où la position d'écoute n'est pas optimisée au centre, des distorsions importantes dans la forme de l'onde parvenant à l'auditeur se remarquent. À l'instar de Malham 68, Vanderkooy et Lipshitz suggèrent fortement l'implantation d'un système Ambisonic de deuxième génération qui incorporerait dans le format B des micro virtuels correspondants à l'harmonique sphérique de deuxième ordre.

 

En 1973 et 1974, Gerzon 42 et Peter Fellgett 32 évoquaient déjà cette possibilité. L'avantage d'un tel système Ambisonic serait une plus grande séparation directionnelle entre les canaux, ayant comme conséquence directe une reproduction tridimensionnelle fidèle dans un plus grand volume. La nécessité d'un tel système devient évidente lorsque l'on connaît les utilisations pour lesquelles on destine maintenant le système Ambisonic: les trames sonores de cinéma ou de théâtre, les représentations publiques de musique électroacoustique, le support sonore pour eitions de tout genre. Ce sont en fait toutes des applications qui exigent une performance adéquate sur une plus grande surface ou dans un plus grand volume. Malham fait cependant remarquer que lors de tests de périphonie (terme choisi par Gerzon pour désigner la reproduction tridimensionnelle 42 et repris par Malham dans son texte) menés dans une salle de cinéma en Angleterre en 1985 par la compagnie Calrec, la distorsion remarquée n'était pas nécessairement désagréable et ne nuisait pas de façon excessive à la crédibilité de la reproduction tridimensionnelle 68.

 

Plus récemment, des membres du département de micro-électronique et ingénierie électrique du Trinity College de Dublin en Irlande ont procédé à un test comparatif entre trois systèmes de spatialisation sonore, dont Ambisonic bidimensionnel sur quatre enceintes acoustiques 65. Les deux autres systèmes testés étaient le Knowles Electronics Manikin for Acoustic Research (KEMAR), un système de captation binaural et le Spectral Stereo. Ce dernier est un modèle binaural simplifié utilisant une sphère sans pavillon d'oreille: la reproduction se fait aussi sur deux enceintes. L'article fait référence aux expérimentations de Cooper 18 aux débuts des années quatre-vingts en ce qui concerne la paternité du modèle, mais il est clair que le modèle d'association de Theile 83, qui a abouti à la commercialisation de la sphère Schoeps, est identique, pour la base théorique, au Spectral Stereo.

 

Pour les trois systèmes, le test a consisté à positionner un son monophonique de large bande (5 kHz) dans différentes positions à l'aide des procédés propres à chaque technologie 65. Pour le KEMAR, des algorithmes binauraux, générés préalablement par le KEMAR, ont été induits numériquement au signal test original. Pour le Spectral Stereo, les auteurs ont développé eux-mêmes des algorithmes induits, eux aussi, numériquement au signal test. Pour le système Ambisonic, ils ont utilisé un pan-pot bidimensionnel de format B, probablement celui de Audio Design. Avec un mannequin, ils ont mesuré les différences interaurales de temps résultant de chaque position virtuelle, pour chaque système, et les ont comparées avec les résultats obtenus par une source sonore dans les positions réelles. Après l'évaluation de ces comparaisons, pondérée avec le coût de chaque système, le Spectral Stereo a été préféré au KEMAR et à Ambisonic. La démarche amenant à cette conclusion est sérieuse, mais nous la croyons certainement incomplète. Comme nous l'avons indiqué au chapitre 2, notre système auditif utilise principalement trois mécanismes pour la localisation sonore: la différence interaurale d'amplitude et la différence interaurale de temps dans les axes X et Y et les modifications spectrales et temporelles dans les axes X et Z. Évaluer les résultats obtenus par un seul de ces mécanismes peut amener à une mauvaise interprétation de la performance des différents systèmes. Dans le contexte de l'étude dont nous parlons, l'omission de la mesure des différences interaurales d'amplitude a défavorisé Ambisonic qui, rappelons-le, ne fonctionne que sur des variations d'amplitude de signal, dans les différentes composantes du format B, pour positionner les sons. De plus, l'omission de mesurer les modifications apportées par l'oreille externe n'a pas permis d'évaluer la capacité des différents systèmes à placer les sons à l'arrière du mannequin. Ainsi le rejet d'Ambisonic, et de KEMAR d'ailleurs, nous semble prématuré, et partiellement justifié par le besoin qu'avaient les auteurs de valider leurs expérimentations précédentes portant sur des algorithmes de spatialisation basées sur le Spectral Stereo.

 

En contrepoint avec cette étude, un commentaire sur Ambisonic publié dans Audio, mais qui n'a pas réellement de poids scientifique, est on ne peut plus élogieux 86. Malgré quelques erreurs factuelles dans la description du système et de l'encodage UHJ, les sessions d'écoute de disques compacts Nimbus décodés par un appareil Audio Design se sont avérées extrêmement révélatrices pour le chroniqueur. Il a remarqué comment Ambisonic réussissait à reproduire de façon crédible les informations acoustiques du lieu de captation. Ce commentaire est malheureusement exempt de mesures objectives pour évaluer le système.

 

* Nous reprenons avec ambiophonie le terme français qui semble avoir été adopté par les manufacturiers pour désigner le surround sound. Remarquons toutefois que c'est un hybride boîteux du latin et du grec. Les termes ambiosonie du latin ou périphonie du grec seraient plus adéquats au niveau de l'étymologie. Étant donné que ambiosonie (Ambisonic) est maintenant une marque de commerce, il reste périphonie.

** Yves Gendron, preneur de son à l'ONF, conversation privée.

*** Jacques Drouin, preneur de son à l'ONF, conversation privée.

**** Shelley Craig, mixeure sonore à l'ONF, conversation privée.

***** André Galbrant, ONF, conversation privée.