Ressources

Spatial

Retour

ADM (Audio Definition Model​)

Le format ADM est un format ouvert de description d’informations audio 3D (channel basedobject based et scene based). Ce format se propose comme standard ouvert et totalement gratuit.

L’audio devient plus complexe de nos jours et continuera à se complexifier à l’avenir.

Dans le passé, nous avons commencé avec le mono, et tout était simple. La stéréo est ensuite arrivée et nous avons commencé à nous soucier de positionner les canaux gauche et droit au bon endroit, mais c’était quand même assez simple.

Puis le son surround est arrivé et ça a commencé à devenir plus délicat. Le système 5.1 semblait avoir plus d’une convention pour ordonner les chaînes, générant de la confusion. Mais cela ne s’est pas arrêté là, car le 6.1, le 7.1, etc. ont commencé à apparaître et obtenir le bon signal vers le haut-parleur approprié s’est transformé en un gâchis déroutant.

Ainsi, à mesure que le son devenait plus immersif, la complexité augmentait. En plus de tout cela, nous avons commencé à voir le potentiel de diffusion de contenu de manière plus personnalisée, où des canaux supplémentaires tels que la description audio ont été introduits, ou des mélanges alternatifs ont été proposés (comme le sport avec des commentaires différents). Il a commencé à devenir évident que pour gérer tous ces canaux supplémentaires et la complexité de chaque canal audio il y aurait besoin d’un étiquetage clair. Si nous pouvions attacher cette étiquette au canal audio, alors tout ce qui la manipule saurait quoi en faire. Nous n’aurions pas à être liés à un ordre de chaîne particulier ou à des configurations fixes.

Cela nous amène à définir le terme « audio basé sur des objets ». Ces étiquettes de canal sont des métadonnées, et lorsque nous attachons ces métadonnées à un son, cela devient un son basé sur des objets.

Ainsi, tant que nous gardons ces métadonnées liées à l’audio qu’elles décrivent, nous devrions être en mesure de gérer correctement cet audio. Cependant, cela signifie que nous devons transporter les métadonnées avec l’audio.

Les experts audio ont commencé à proposer d’autres techniques (ou à faire revivre des techniques plus anciennes) pour représenter l’audio immersif. Higher Order Ambisonics (HOA), plus généralement appelé scene-based, a été relancé et affiné et les canaux audio pour ces formats ont nécessité un étiquetage. Une autre approche est apparue, appelée object-based, où chaque canal audio a des propriétés de position qui lui sont attachées.

Ces propriétés de position peuvent ensuite être interprétées par un moteur de rendu qui tente de positionner les sons dans l’espace dans les limites de l’emplacement des haut-parleurs.

Ces approches ont également supprimé la nécessité pour les haut-parleurs d’être situés dans des emplacements liés à des canaux particuliers. Par conséquent, les métadonnées attachées à la scène et à l’audio basé sur des objets sont vitales pour qu’elles soient gérées correctement.

Channel-based​

Ce fonctionnement pourrait presque être considéré comme le type d’audio par défaut, le type que nous utilisons depuis longtemps. Un signal audio est transmis à un haut-parleur sans qu’il soit nécessaire de le modifier. Mono, stéréo, 5.1, 7.1 et 22.2 sont tous des exemples de formats basés sur des canaux, où chaque canal alimente un haut-parleur.

En étiquetant chaque canal avec un identifiant approprié, nous pouvons nous assurer qu’il finit par aller au bon haut-parleur. Il existe des situations où les canaux audio channel-based peuvent être traités et convertis en d’autres configurations. Une application courante est le sous-mixage de 5.1 en stéréo.

Dans la terminologie ADM, l’audio basé sur les canaux est appelé « DirectSpeakers », afin de ne pas être confondu avec le mot « canal » ailleurs.

Scene-based​

L’audio basé sur la scène est un terme plus général qui inclut Ambisonics et Higher Order Ambisonics (HOA). Au lieu que chaque canal représente une seule enceinte, les canaux représentent une restitution du champ sonore indépendante des haut-parleurs. Plus il y a de canaux utilisés, meilleure est la résolution.

L’ambisonique de premier ordre se compose de 4 canaux composants. Le 1er représente un signal omnidirectionnel, et les 3 composantes suivantes représentent les dimensions X, Y et Z du son. Comme l’Ambisonics de 1er ordre n’offre pas une très bonne résolution spatiale (les sons ne sont pas très bien localisés), alors des ordres supérieurs (HOA) peuvent être utilisés pour améliorer cela. Pour le 2ème ordre, il y a 5 composants supplémentaires en plus de ceux du 1er ordre, et pour le 3ème ordre, 7 composants supplémentaires (donc 16 canaux de composants au total).

Pour convertir le HOA en signaux de haut-parleur (c’est-à-dire convertir en canal), un ensemble de décodage d’équations est utilisé. Ceux-ci peuvent être adaptés à n’importe quelle disposition d’enceintes choisie, bien que les calculs soient plus faciles et que leurs performances aient tendance à être meilleures lorsque la disposition des enceintes est symétrique en 3 dimensions.

Objet​-based

Dans l’audio orienté objet, chaque canal audio a des métadonnées de position (et éventuellement d’autres propriétés spatiales ou liées au signal) qui lui sont attachées.

Chaque canal (ou objet) représente un seul son dans une scène entière, il peut donc y avoir de nombreux objets différents qui existent pour constituer une scène sonore entière. Certains de ces objets peuvent n’exister que pendant une durée indéfinie, et peuvent également se déplacer et changer leurs propriétés au fil du temps.

Les signaux audio réels dans l’audio orienté objet peuvent être lus sans métadonnées en tant que simples signaux mono, et peuvent donc être traités de manière conventionnelle. Les objets peuvent en grande partie être traités independamment les uns des autres.

Les métadonnées fournissent au moteur de rendu suffisamment d’informations pour tenter de positionner spatialement le son à l’emplacement correct, parallèlement à toutes les autres caractéristiques spatiales qu’il peut avoir (telles que la directivité et la taille). Il s’agit donc d’un modèle adaptable qui ne fait référence à aucune position de haut-parleur particulière.

Binaural-based

L’audio binaural est le procédé où l’audio spatial est destiné à être diffusé sur des écouteurs (bien que des solutions basées sur des haut-parleurs aient été développées). L’audio binaural utilise la réponse de l’oreille humaine pour donner l’impression d’un son immersif sur deux canaux (les oreilles gauche et droite).

L’audio binaural peut être généré à l’aide d’un moteur de rendu binaural capable d’interpréter n’importe lequel des autres types d’audio, ou peut être généré directement à l’aide d’un microphone binaural (soit une tête factice, soit des microphones intra-auriculaires). Un inconvénient avec un signal audio binaural est qu’il est très difficile de le convertir pour une lecture immersive multi-haut-parleurs.

Sources EBU ADM Guidelines