Immersive Audio

Startseite
Immersive Audio

Was bedeutet Immersive Audio?

Immersive Audio bezeichnet verschiedene 3D-Surround-Formate, die ein räumliches Klangerlebnis erzeugen und dem Zuhörer das Gefühl gibt, in den Sound dreidimensional einzutauchen.

Es wird das zweidimensionale Hören (Stereo, 5.1: Achsen x.y.) um eine dritte Klangebene erweitert: Die Höhe (bspw. 5.1.4, 7.1.4: Achse .z). Der stark gestiegene Bedarf nach einem intensiveren Hörerlebnis jenseits der üblichen Stereo- oder Surround-Anordnung in Ohrhöhe erfordert neue Formate, und entsprechend erscheinen auf dem Markt neue Software- und Hardware-Lösungen für x.y.z. Die folgenden Zeilen bringen Klarheit hinsichtlich der unterschiedlichen Formate und verfügbaren Produkte für einen 3D-Audio-Workflow.

Weiterlesen ▾

Surround war gestern - Immersive Audio ist die Zukunft
Bis zum heutigen Tag hat sich weitläufig der Zweikanalton (Stereo) als beständigste Lösung zum Hören von Musik durchgesetzt. Dass dieses Format längst nicht mehr alle Anforderungen abdecken kann wird deutlich da nun Video- und Audio-Streaming-Dienste wie Netflix, Apple Music, Amazon Music oder Tidal verstärkt auf 3D-Audio setzen. Weiterhin sind Gaming, Virtual Reality, Kino, Home Cinema oder Live Sport-Broadcasting als Medienformate zu nennen. Zukünftig wird auch immer mehr der Automotive-Sektor in den Fokus rücken, denn die Umgebung des Autos ist für Mehrkanalton nahezu prädestiniert.

Alle hier genannten Formate haben eine Gemeinsamkeit: Die dreidimensionale Anordnung von Klangquellen. Doch auch bei Musikproduktionen, die auf künstlerische Darbietung ausgerichtet sind, finden sich immer mehr Veröffentlichungen, die für Immersive Audio-Formate gemastert werden. Dies passiert nicht ohne Grund: Der Streaming-Dienst Apple Music fordert von der Musikindustrie mehr Produktionen in Immersive-Format-konformen Mischungen und Master abzuliefern, um den stark ansteigenden Bedarf Musik über Kopfhörer zu hören bedienen zu können. Unser Gehör hört unter natürlichen Bedingungen bekanntlich immer dreidimensional, somit kommt das Hören von Immersive Audio-Mischungen auf Kopfhörern der natürlichen Hörgewohnheit am Nächsten. Ebenso ist die stark ansteigende Nutzung von für Immersive Audio konzipierten Soundbars für den privaten Gebrauch ein starker Motor für die Forderung nach Immersive Audio-konformen Mischungen und Masters.

Surround - Formate, Codecs und Unterschiede
Um sicher durch das Dickicht der Formate manövrieren zu können sollte man wissen, dass Surround nicht zwingend auch gleich 3D-Audio/Immersive Audio bedeutet. Weitläufig ist Surround-Sound im Zusammenhang mit 5.1-Home-Cinema-Format bekannt, und hier sind lediglich 2 der 3 Achsen im Spiel. Prinzipiell unterscheidet man bei Surround zwischen Kanal-, Objekt- und Schallfeld-basierten Formaten. Bei einem kanalbasierten Format (Stereo oder 5.1) haben Signalquellen eine feste Platzierung innerhalb der Kanäle (L/R/C/LH/RH). Diese hängt von der Lautsprecheranzahl und Anordnung ab, bleibt dabei aber immer zweidimensional (Ausnahme: Auro-3D).

Bei der Bearbeitung von objektbasiertem Surround (Dolby Atmos Music, Sonys 360 Reality Audio, DTS:X, MPEG-H Audio) ist die Darstellung nicht mehr strikt an eine zweiachsige Anordnung in den Kanälen gebunden. Signale (Objekte) können auf nahezu unbegrenzter Kanalanzahl via Software-Panning frei im 3D-Raum positioniert werden, wobei das klangliche Hauptgeschehen, oder Musik auch weiterhin LCR und im 7.1-Format anliegen kann, und Effekte/Sounds im 3D-Raum positioniert werden. Als schallfeldbasiertes Format ist Ambisonics zu nennen.

Ambisonics
Der Begriff "Ambisonics" taucht im Zusammenhang mit Immersive Audio immer wieder auf. Es handelt sich hierbei um ein bereits in den 70er Jahren entwickeltes, schallfeldbasiertes Format, das auf 2 Stufen basiert: Encoding und Decoding. Im Gegensatz zur Stereoaufnahme wird hier sowohl die Punktschallquelle als auch Richtung der Schallquelle inkl. der Höhenachse (z) von einem omnidirektionalen Mikrofon aufgezeichnet. Im Anschluss kann die Aufnahme für ein entsprechendes Lautsprecher-Array oder Kopfhörer in 360 Grad decodiert werden.

Unterschieden wird zwischen sogenannten First Order-, 2nd Order und 3rd Order-Ambisonics, wobei eine höhere Order für eine bessere Ortbarkeit der Signale steht. Vorteil des Ambisonics-Formats ist, dass es verhältnismäßig kostengünstig umzusetzen ist. Für 3D-Tonaufnahmen geeignete, kostengünstige Mikrofone liefern Hersteller wie Sennheiser oder RØDE.

Auro-3D
Dieses kanalbasierte Format wurde von den Betreibern des belgischen Galaxy-Tonstudios entwickelt, und wird von Ihnen auch vertrieben. Auro 3D arbeitet dank eines En-/Decoding-Verfahrens (Auro-Codec) in 3 Layern auf allen 3 Achsen, wobei Signale in unkomprimiertem Format (PCM) vorliegen. Typische Monitor-Setups sind 7.1.2 bis 7.1.6.

Dolby Atmos Music
Hierbei handelt es sich um ein objektbasiertes Format, das 2019 vorgestellt wurde und den AC-4 Immersive Stereo Codec (AC-4 IMS) für das Abspielen auf Kopfhörern durch die Streaming-Dienste verwendet, und Dolby Digital Plus Joint Object Coding (DD+JOC) für das Abspielen auf Lautsprechern. Üblicherweise besteht die Anordnung der Inhalte aus einem kanalbasierten, sogenannten Bed, welches durch Objekte ergänzt wird. Um eine Atmos-zertifizierte Mischung in einer DAW zu erstellen, wird zwingend ein Surround-fähiges Panning-Tool benötigt, sowie der Dolby Atmos Renderer.

Das für Atmos typische Studiomonitor-Setup ist 7.1.4, 9.1.4 and 9.1.6, aber das Format kann ebenso über Kopfhörer vollständig bearbeitet und gehört werden. Für eine Zertifizierung einer Studioregie zur Bearbeitung dieses Formats hingegen gibt es vom Hersteller Empfehlungen zur Raumgröße, Raumhöhe, Raumakustik, Lautsprecher-Anforderung (Minimum 5.1.4, bevorzugt wird 7.1.4 und höher). Ebenso zur Platzierung und Kalibrierung der Lautsprecher. Um den Vorgaben für ein optimiertes System zu entsprechen, spielt neben der richtigen Kalibrierung der LCR-Lautsprecher, der Seiten-Lautsprecher (Ls/Rs/Lrs/Rrs) und oberen Satelliten (Ltf/Rtf/Ltr/Rtr) auch das Bass-Management eine Rolle: So empfiehlt Dolby Laboratories Inc. Frequenzen ab 80Hz und tiefer über einen LFE-Subwoofer wiederzugeben (+10 dB im Vergleich zum Center-Speaker).

Dessen Wiedergabe sollte bis mindestens 31,5 Hz reichen. Empfohlener SPL in der Regie für die Wiedergabe: Zwischen 79 dB und 85 dB. Für Messungen hinsichtlich des Noise Floor sowie Nachhallzeit (im Frequenzbereich 125Hz/250Hz/500Hz/1kHz/2kHz/4kHz/8kHz) uvm. können die Spezifikationen gemäß RT60-Messung direkt vom Hersteller angefordert werden. Quelle: Dolby Atmos Home Entertainment Studio Technical Guidelines 2021-5.

MPEG-H Audio
Der Codec des Fraunhofer Instituts, der weltweit bei Rundfunk/Broadcast und Streaming zum Einsatz kommt. MPEG-H Audio bietet immersives Audio auf bis zu 128 Kanälen oder 64 Lautsprechern, und liefert sowohl dem Streaming-Dienst-Betreiber Metadaten zur Nutzung, als auch Anwender*in ein größeres Maß an Flexibilität: Mit MPEG-H kann Nutzer*in beispielsweise die Dialoglautstärke und Audiodeskription selbständig anpassen. Die entsprechende Loudness-Norm für MPEG-H Audio richtet sich nach EBU R-128, ITU-R BS.1770.4, ATSC A/85 etc.

3D-Mikrofone

Mit Weitblick auf die finale Stufe, der Postproduktion, spielt bereits beim Aufnahmeprozess die Wahl des richtigen Mikrofons eine entscheidende Rolle. Das Einfangen von Surround-Klang stellt nicht nur für Field Recording, Dubbing, Film oder Gaming/VR ein zentrales Thema dar. Auch Podcasts und Musikproduktionen profitieren von der hohen räumlichen Abbildung eines Ambisonic-Mikrofons. Beispielsweise als Raummikrofone für einen insgesamt größeren, realistischeren Klang mit höherer Plastizität.

Das aufgezeichnete A-Format muss im Anschluss erst decodiert werden (B-Format), klassischer Weise liegt der Output dann an als "Classic FuMa"- und "ambiX"-Format. Die Unterschiede liegen in der Anordnung und dem Level der Ambisonics-Kanäle: "...Ihre Wahl hängt vom Workflow ab und ggf. von anderen Ambisonics-Signalen und/oder -Tools, die alle das gleiche Format haben müssen. Für den Upload zu YouTube 360 wählen Sie immer "ambiX", um mit der räumlichen Klangbearbeitung, die im Browser stattfindet, kompatibel zu sein..." (Quelle: Sennheiser).

3D-Software

DAWs wie Steinberg Nuendo oder Avid Pro Tools haben einen Workflow für Immersive-Audio implementiert. Neben einem Surround-fähigen Panning-Plug-In, welches in der DAW Ihrer Wahl bereits integriert ist, ist die Verwendung des optionalen Dolby Atmos Renderer Voraussetzung für ein Arbeiten in Atmos. Signale von virtuellen Klangerzeugern in der DAW finden erst in der Postproduktion ihren finalen Schliff. Genau wie binaurale Aufnahmen, die dank geeigneter Mikrofone und Field Recorder aufgenommen wurden.

Vom simplen Decodieren des A-Formats, über das Bearbeiten und Ergänzen von Signalen jeglicher Art mit Rauminformationen, vom Platzieren und Bewegen der Signale als Objekte in Kanälen bis hin zur Aufbereitung der binauralen Tonspuren für das Dolby Atmos-Format und Streaming-Plattformen gibt es für jede dieser Phasen geeignete Softwarespezialisten. So ist beispielsweise zu beachten, dass die Lautstärke bei Tonmischungen für Dolby Atmos -18 LKFS (Integrated) grundsätzlich nicht übersteigen darf, deshalb ist ein zuverlässiges Echtzeit-Monitoring des Pegels unabdingbar. Wir haben für Sie einige der wichtigsten Tools hier zusammengestellt:

Audio Interfaces

Wenngleich man Tonmischungen für Surround oder Atmos auch auf Kopfhörern erstellen kann lassen sich die Vorzüge eines Aufbaus mit Studiomonitoren nicht von der Hand weisen. Grundsätzlich bietet Dolby Atmos Mastering Suite und Dolby Atmos Production Suite die Ausgabe von Mehrkanalton auf bis zu 22 Kanälen (Studiomonitoren).

Als Ausgabegeräte kommen daher DA-Wandler oder Audio Interfaces in Frage, welche über eine entsprechende Anzahl an physikalischen Ausgängen und Routing-Optionen verfügen. Grundsätzlich ist ein modularer Aufbau und Erweiterbarkeit des Systems ein wesentlicher Vorteil für Plansicherheit, da dadurch bestehende Setups zukünftig schnell ergänzt und ausgebaut werden können. Im Folgenden finden Sie Empfehlungen für geeignete Schnittstellen zwischen Monitoren und Ihrem Immersive Audio-Workflow im Studio, sowie Live.

Mobile Recorded

Field-Recorder neuerer Generation ermöglichen Aufnahmen in 32Bit Floating Point. Durch den erweiterten Headroom sind Verzerrungen aufgrund zu hoch ausgepegelter Mikrofonaufnahmen praktisch nicht mehr möglich, denn diese können nur im analogen Signalpfad durch Übersteuerung der Mikrofonkapseln anfallen.

In diesem Zusammenhang muss erwähnt werden, dass auch rauscharme Vorverstärker für eine perfekte Tonaufnahme eine gewichtige Rolle spielen, denn Rauschen tritt bei Mehrkanalsystemen entsprechend mehrfach auf, und ist somit bei Surround-Monitoring oder auf Kopfhörern sehr präsent. Berücksichtigt man, dass digitales Fernsehen mit Dolby Digital eine Dynamik von bis zu 105 dB ermöglicht wird schnell klar, dass Störungen während der Aufnahme wesentlich deutlicher hörbar werden als früher, als Störgeräusche im Grundrauschen des Übertragungsweges untergingen (65 dB Dynamik bei Antennenübertragung). Wer vor-Ort einen Mehrspur-Recorder in Betrieb nehmen möchte kommt aktuell nicht vorbei am Hersteller Sound Devices, dessen hochwertige Verabeitung den teilweise extremen Bedingungen bei Außenaufnahmen trotzt, und dessen sehr rauscharme Kashmir-Vorverstärker transparente, qualitativ hochwertige Aufnahmen ermöglichen.

Monitoring

Tonmischungen und Masters für Immersive Audio lassen sich auch über Kopfhörer bequem erstellen. Für ein Kopfhörer-Monitoring benötigen Sie Software, die Ihnen Kalibrierungsdateien für Ihr eigenes Kopfhörermodell liefert. Hierfür bieten wir die Softwarelösung der Immersive Audio-Spezialisten DearReality. Eine virtuelle 7.1-Soundkarte liefert der Hersteller New Audio Technology.

Wer hingegen als Zulieferer für Dolby Atmos oder Apple Digital Masters (Apple Digital Masters studio approval) seine Masters qualifizieren möchte kommt um eine Studioregie mit Studiomonitoren nicht herum. Dolby Atmos Mastering Suite und Dolby Atmos Production Suite ermöglichen eine Ausgabe auf bis zu 22 Kanälen (Monitoren). Empfohlen wird mindestens 7.1.4, besser ist 9.1.4 oder höher. Für die Ausgabe benötigen Sie ein Surround-fähiges Audio Interface, Monitor Controller und idealerweise Room Optimizer-Lösungen, die sowohl Bass- und Monitor-Delay-Mangement übernehmen, sowie eine Gruppenlaufzeit- und Phasenkorrektur gewährleisten. Hierfür verweisen wir auf Hersteller wie Avid, Dangerous Music, SPL und Trinnov Audio.