Die Verbesserungen der nächsten Generation im Audiobereich bedeuten „Ray-Tracing für Audio“ in Echtzeit

Youssef Maguid

Wie du vielleicht bereits weißt, ist Ubisoft Massive das Studio, das hinter Produktionen wie The Division 2 und dem [bevorstehenden Star Wars] (/article/1NuKtLdz0qhUg3zgvpLqhL/ubisoft-and-lucasfilm-games-announce-new-storydriven-star-wars-game) steht, sowie für die Avatar-Spiele verantwortlich zeichnet. Darüber hinaus sind sie die Schöpfer der Snowdrop Engine. Als eine der vielseitigsten hausinternen Engines half Snowdrop bei der Entwicklung von Spielen wie The Division 2, Mario + Rabbids Kingdom Battle, Starklink: Battle for Atlas und South Park: Die rektakuläre Zerreißprobe, abgesehen von den bereits zuvor erwähnten bevorstehenden Projekten.

Um herauszufinden, wie sich die Engine mit der neuen Konsolengeneration entwickelt und ändert, haben wir mit Snowdrop Audio Architekt Robert Bantin gesprochen. Seine Präsentation „Snowdrop Audio: Latest Tech Developments“ (aktuelle technische Entwicklungen) auf der Ubisoft Developer’s Conference beleuchteten einige Aspekte, wie Spiele in der Zukunft noch beeindruckender klingen können.

Du machst einige spannende Dinge mit dem Sound in der Snowdrop Engine, aber was genau macht eine Game Engine für den Laien ausgedrückt eigentlich? Worin liegen die Vorzüge, eine eigene Engine zu haben?

RB: Am besten kann ich es wohl so beschreiben: Eine gute Game Engine ist wie ein Satz Legosteine. Legos sind so entworfen worden, dass sie perfekt zueinander passen. Du kannst jemandem einen Haufen Legosteine in die Hand drücken und er kann sie auf vielfältige Weise zusammensetzen. Mit einer eigenen Engine kannst du nicht nur den Entwicklern diese Legosteine in die Hand legen, um Spiele damit zu erschaffen, sondern ihnen auch besondere Legosteine entwerfen, die dann wieder zurück in das Snowdrop-System gelangen, damit sie jeder verwenden kann.

Häufig können eigene Engines dabei helfen, genau diese Art von Spiel zu erschaffen und am Ende hat man dann eine anpassbare Version eben dieses Spiels. Snowdrop wurde gegen diese Tendenz entwickelt. Die Engine soll absolut vielseitig einsetzbar sein. Spieler würden wohl kaum erraten, dass die Engine, mit der The Division 2 entwickelt wurde, auch in Die Siedler, Starlink: Battle for Atlas oder Mario + Rabbids Kingdom Battle steckt. Die Ästhetik des Spiels lässt sich mit Assets ändern, das geht ganz einfach, aber Elemente wie das Durchqueren, der Kampf und die Navigation können Strukturen darstellen, die in der Engine Bestand haben und von Spiel zu Spiel weitergeführt werden. Auf diese Weise müssen wir nicht immer wieder alles neu aufbauen. Das wäre kein sinnvoller Einsatz unserer Ressourcen.

Haben die Konsolen der aktuellen Generation etwas daran geändert, wie Snowdrop Audios produziert und verarbeitet?

RB: Designer müssen immer gewisse Budgets einhalten. Wie viel Rechenlast können wir verwenden? Wie viel Speicher steht uns zur Verfügung? Die Erhöhung dieser Parameter gewährt uns natürlich einen größeren Spielraum, aber die vermutlich wichtigste Änderung bringen die SSDs, die sowohl in PlayStation 5 wie auch in Xbox Series X|S verwendet werden. Bei der vorherigen Konsolengeneration mussten wir, wenn der Spieler einen neuen Bereich betritt, zunächst einmal profilaktisch Assets in den Speicher laden und während der Ladezeit wanderten die Audios und Sound-Effekte in den Systemspeicher, damit schnell darauf zugegriffen werden konnte. Dabei handelt es sich um Dinge, die sofort präsent sein müssen, wie Einschläge, Schüsse und so weiter. Die einzigen Dinge, die wir sicher von der Disk streamen konnten, waren Sounds, bei denen es nicht auf die Verzögerung ankommt, wie Musikstücke und Hintergrundgeräusche.

Wenn man nun, wie bei diesen Konsolen, eine SSD zur Verfügung hat, stellt man fest, dass man die meisten Dinge gar nicht mehr in den Systemspeicher laden muss, weil die Laufwerke so schnell sind. Am Ende kann man ganz viele Sounds von einer SSD streamen, die man gerade benötigt. Natürlich werden Sounds, die permanent verwendet werden, wie Schüsse oder Schritte immer noch vollständig in den Systemspeicher geladen, denn sie werden wirklich andauernd verwendet, doch viele andere Sounds werden nicht mehr vollständig geladen.

Das kannst du dir wie bei Netflix vorstellen: Statt den gesamten Film herunterzuladen, bevor du ihn ansehen kannst, kannst du den Film streamen und musst nur wenig davon tatsächlich gerade im Speicher vorhalten. Der große Unterschied in unserem Fall ist, dass die Sound-Assets einzelne Bestandteile des gesamten Sounds sind und diese Bestandteile müssen nicht mehr vollständig geladen werden.

[UN] [News] Die Verbesserungen der nächsten Generation im Audiobereich bedeuten „Ray-Tracing für Audio“ in Echtzeit

„Ray-Tracing“ bezieht sich normalerweise darauf, wie Licht an Oberflächen im Spiel reflektiert und abgelenkt wird, aber wenn es um deine Arbeit geht, habe ich auch schon oft den Begriff „Ray-Tracing Audio“ gehört. Was genau bedeutet dies? Wie wirkt sich das auf das Spielerlebnis aus?

RB: In der Vergangenheit haben wir Ray-Tracing für physikalisch korrekten Hall in Innenräumen verwendet. Davon gibt es tausende von Beispielen in The Division 2. Ich glaube, wir haben das Spiel mit 2200 ausgeliefert, aber uns schon auf 5000 davon vorbereitet. Das gesamte akustische Ray-Tracing wurde in einem eigenen Prozess, der nicht in Echtzeit lief, innerhalb der Snowdrop-Entwicklungsumgebung entwickelt und dann in die Spieldaten geschrieben, die wir dann den Spielern geliefert haben. Diese Räume verfügten also über einen Fingerabdruck der Nachhall-Impusdaten und der einzige Echtzeitteil daran war unsere angepasste Hall-Engine, die lokale und angeschlossene Raumnachhhalldaten unter die sauberen Sounds mischte, die in diesem Räumen abgespielt wurden.

In der letzten Zeit haben wir aber Zugang zu den Echtzeit-Ray-Tracing-Daten erhalten, die von den aktuellen Grafikkarten berechnet werden. Die Qualität reicht noch nicht ganz für den Nachhall, aber ist ausreichend für die Prüfung auf Klangabschirmungen oder der Durchdringung von Fenstern/Türen. Die Daten sind nahezu kostenlos, denn die benötigten Informationen wurden ja bereits vom Grafik-Renderer berechnet. Wir verrichten also einen Großteil der Arbeit, ohne die CPU damit zu belasten.

Außerdem gibt es audiospezifische Technologie in Snowdrop, wie das „Slapback“-System. Derzeit funktioniert es so, dass Strahlen über die CPU berechnet werden, wo die Sounds des Spielers hinreichen und abprallen. Damit können wir Echos von der Umgebung berechnen, so dass die gleichen Aktionen völlig unterschiedlich klingen, je nachdem, wo du dich gerade befindest.

Aber das wird nicht nur für den „Produktionswert“ durchgeführt. Es gibt auch wichtige Gründe, warum wir einzigartige optische Umgebungen auch akustisch einzigartig erleben möchten.

Bei uns dreht sich gerade viel um Filme. Sagen wir mal, unsere Helden müssen sich über eine lange Kluft schwingen. Meistens sieht man, aufgrund der Art und Weise, wie die Szene gedreht ist, gar nicht den gesamten Schauplatz, aber man gewinnt den Eindruck, dass der Sturz tief hinabreichen würde, weil man das Echo in den Stimmen hört. Das Audio reagiert auf die Umgebung und gibt diese Informationen in diesem Fall auch an den Zuschauer weiter, damit dieser erfährt, dass dies eine gefährliche Situation ist. Man kann sich vorstellen, wie das in einem weit geöffneten Bereich oder in einem dichten Dschungel klingen mag.

Der Unterschied für uns, die wir mit Spielen arbeiten, ist, dass der Spieler die Kamera lenkt. Wir müssen also viel mehr zusätzliche Arbeit verrichten, damit das was du siehst auch mit dem übereinstimmt, was du hörst. Wenn die Verbindung zwischen diesen beiden sensorischen Eindrücken abreißt, sagt dir dein Gehirn, dass die Information nicht hilfreich ist und schenkt der weniger dominanten keine Aufmerksamkeit mehr. Dann können wir den Sound nicht mehr zur Unterstützung des Bildmaterials heranziehen.

Braucht man hierfür Surround-Sound oder Kopfhörer, um das schätzen zu lernen?

RB: Es gibt natürlich Verbesserungen durch einen besseren Kopfhörer oder ein vollständiges Surround-Lautsprecherset, aber solange du dich nicht auf die eingebauten Lautsprecher deines Monitors verlässt, sollte das meiste dieser Klangverarbeitung dennoch deutlich hörbar sein. Was in letzter Zeit viel gebracht hat, ist das 3D-Audio-Encoding für Kopfhörer (HRTF). Sowohl Sony wie auch Microsoft bieten das von Hause aus an. Damit erhält der Spieler einen sehr beeindruckenden 3D-Sound zu einem sehr attraktiven Preis. Für uns fügt sich diese Technologie nahtlos in das ein, was wir gerade machen.

Worin lag das Ziel, diese Präsentation mit anderen Ubisoft-Entwicklern auf der UDC zu teilen?

RB: Da wir nun eine gewisse Anzahl an Teams haben, die Snowdrop bei Ubisoft verwenden, ist es wichtig für uns, diese Informationen intern zu verbreiten, damit andere Audio-Teams sehen, dass wir weiterhin an Verbesserungen arbeiten, die sie verwenden können, um sie direkt in ihren eigenen Projekten zu verwenden. Genau dafür ist die UDC da!

Was findest du am aufregendsten bei den Möglichkeiten des Sound-Designs der Zukunft?

RB: Wenn du dir ansiehst, wie die neuen Konsolen aufgebaut sind, dann hat jede auf ihre Art dafür gesorgt, dass wir bessere Audio-Möglichkeiten erhalten.

Auf der Xbox Series X ist dies mit der Übernahme der Microsoft Spatial Audio API (die zum Beispiel Dolby Atmos unterstützt) gelöst, die im Verlauf der Xbox One hinzugefügt wurde, nur dass sie nun viel mehr Leistung im Rücken hat. Und diese Audio-Technik auf Xbox Series X|S funktioniert unter Windows 10 genauso. Wir decken also einen ziemlich großen Bereich mit relativ geringem Aufwand ab.

Auf der PlayStation 5 hat Sony fast eine Kopie der Audio-Processing-Pipeline, die wir für The Division 2 entwickelt haben, eingebaut, nur das diese in Hardware gegossen ist, die Tempest Engine heißt. Das bedeutet, dass wir wahrscheinlich eine Menge CPU-lastiger Audioverarbeitung an dieses System übergeben können. Damit hat die CPU mehr Zeit, um sich mit anderen Dingen zu beschäftigen. Zunächst fiel mir auf, dass ein Verarbeitungsblock in der Mitte nicht von Tempest verarbeitet wurde, nämlich der Ray-Casting-Teil, und das verwirrte mich. Aber als ich dann sah, dass die Ray-Tracing-Daten zur Verfügung stehen, ergab das plötzlich einen Sinn. Sony zwingt dich nicht, Ray-Tracing-Daten zu verwenden. Du kannst immer noch die Physik auf der CPU berechnen lassen und jeder Entwickler kann nun entscheiden, welchen Weg er von Fall zu Fall gehen möchte.

Auf allen Plattformen der aktuellen Generation haben wir mehr Möglichkeiten für Audio und es liegt an uns, sie sinnvoll einzusetzen. Und davon träume ich.

Wenn du mehr über die UDC erfahren möchtest, dann schau dir unsere Ubisoft Intern-Website an und besuche die Karriere-Seite, um offene Stellen bei Ubisoft zu finden.

Die Verbesserungen der nächsten Generation im Audiobereich bedeuten „Ray-Tracing für Audio“ in Echtzeit

teilen:

More From Ubisoft

Just Dance 2025 Edition & Just Dance VR: Welcome to Dancity Available Now

Check out the full Just Dance 2025 song list and find out more about dancing in VR with Meta Quest headsets.

Wie man die Assassin's Creed-Spiele in der richtigen Reihenfolge spielt

Ob du wissen willst, wo sich dein Lieblings-Assassine einfügt oder wo man in der die Menschheitsgeschichte umspannenden Story anfangen sollte – hier ist ein kurzer Überblick über die Reihe:

Prince of Persia 35th Anniversary - A Look Back at the Original Game

Series creator Jordan Mechner and others share stories from the creation of 1989's Prince of Persia and what it means to them.

Star Wars Outlaws™ Post-Launch Roadmap Revealed

Learn more about the open-world Star Wars game’s Season Pass content, including two story packs, an exclusive mission, and cosmetic items.

Star Wars Outlaws™ Post-Launch Roadmap Revealed