Sonntag, 21. Dezember 2014

High-Res Audio Reboot

Die letzte AES-Convention fand im Oktober in Los Angeles statt, was ein bißchen zu weit weg für mich war. Ich reise nicht so gern in die USA wenn ich nicht unbedingt muß. Teuer, anstrengend, und ehrlich gesagt auch angesichts der "Immigration"-Prozedur nicht unbedingt angenehm. Ein großes Thema auf besagter Veranstaltung was offenbar "High Resolution Audio (HRA)", mit diversen Diskussionsveranstaltungen und Vorträgen, für die inzwischen auch die Texte auf der AES-Webseite zugänglich sind. Für die meisten leider nur gegen Geld.

Es wäre aber vielleicht interessant gewesen, hinzugehen, wie sich jetzt herausstellt. Gerade weil ich dieses Hi-Rez Thema für eine riesen Portion Bullshit halte, wie ich ja schon verschiedentlich deutlich gemacht habe. Hier schreibt einer seine Eindrücke davon. Nach allem was man so mitkriegt, rüsten sich größere Teile der Audiobranche, die Hi-Rez-Formate in den Massenmarkt zu drücken. Die Marketing-Bullshit-Welle zu dem Thema rollt ja erkennbar schon eine Weile, und wird wohl weiter an Schwung aufnehmen.

HRA wird interessanterweise als mögliche Lösung für den Lautheitskrieg angepriesen, z.B. entnehme ich aus obigem Link folgende Passage:
Ulyate commented that HRA "lets us hit the reset button on the loudness wars," referring to the fact that most recorded popular music on CDs is heavily compressed to encompass a very narrow dynamic range, which makes it sound loud all the time. (I'm not talking about data compression like MP3, but dynamic compression.) By contrast, HRA recordings are often untouched by dynamic compression.
Ryan Ulyate ist ein Produzent und Toningenieur, und ich frage mich ob er wirklich glaubt was er da verkündet. Wieso sollte es bei den HRA-Formaten anders laufen als bei der CD selbst?

Ulyate ist alt genug um sich zu erinnern wie das zu den Anfangszeiten der CD war. Anfang der 80er war die CD das audiophile Medium, das teuer war und daher nur bei den Audiophilen mit Qualitätsanspruch zu finden war. Die Wandlertechnik war zwar noch nicht auf dem heutigen Stand, aber das hat nicht verhindert, daß die Aufnahmen auf CD als weithin qualitativ überlegen angesehen wurden. Wer damalige Pressungen hat und sie mit heutigen CDs vergleicht, wird mir in vielen Fällen recht geben.

Die CD von heute ist nicht deswegen "heavily compressed", weil das bei der CD aus irgendeinem Grund technisch nötig wäre. Sie ist deswegen so heftig komprimiert, weil das die Produzenten, und durchaus auch die Musiker, so wollen. Also genau solche Leute wie Ulyate selbst einer ist.

Die Situation bei HRA wird nur dann anders aussehen, wenn diese Leute es da anders wollen als bei der CD. Wenn Ulyate will, daß die HRA weniger komprimiert werden als die CD, dann kann er das natürlich machen. Er könnte es aber genauso gut auch bei der CD selber, wenn er wollte. Die Entscheidung hat mit dem Format nichts zu tun. Jedenfalls nicht aus technischer Sicht. Was meint er also mit dem "reset button"?

Ich interpretiere das so: Er ist sich im Klaren, daß die Marktsituation von HRA im Moment so ähnlich aussieht wie zu Beginn der CD. HRA okkupiert einen Nischenmarkt für Anspruchsvolle, bei dem man sich gerade anschickt, die Nische zum Mainstream zu machen. Insofern ist es im Moment noch nicht nötig, bei HRA heftig zu komprimieren, so wie das auch bei der CD anfangs war. Das Spielchen mit dem Lautheitskrieg geht also einfach in eine neue Runde.

Um die Reset-Knopf-Analogie etwas weiter zu bemühen: Das Programm "Audio Distribution" ist auf einen Bug gelaufen und gecrasht. Man drückt auf den Reset-Knopf und bootet neu. Das Problem: HRA behebt keines der Probleme, die zum Lautheitskrieg geführt haben. HRA doesn't fix the bug. Was ist also zu erwarten wenn man neu bootet? Richtig: Man läuft auf den gleichen Bug, und derselbe Crash passiert erneut. Man kann sich allenfalls streiten wie lange es bis dahin dauern wird.

HRA macht gegenüber der CD zwei Dinge: Die Wortlänge wird von 16 of 24 Bit vergrößert, und die Abtastfrequenz wird von 44,1kHz auf 88,2kHz oder mehr erhöht. Die erste Maßnahme senkt das Ruherauschen des Formates, und die zweite Maßnahme vergrößert den Frequenzbereich des Audiosignals, das wiedergegeben werden kann. Keine der Maßnahmen hat irgend etwas mit dem Lautheitskrieg zu tun. Der wird nämlich an der Aussteuerungsgrenze ausgefochten. Und die bleibt bei allen HRA-Formaten die gleiche wie schon bei der CD.

Das Ruherauschen ist schon jetzt bei der CD kein Problem. Wer eine heutige CD abspielt, der kann das kaum lauter tun als sagen wir 110 bis 120 dB(SPL) für 0dBFS. Da fliegen einem schon tendenziell die Ohren weg, und der Nachbar ruft die Polizei. Von den womöglich endgültigen Auswirkungen auf das Gehör ganz zu schweigen. Das Ruherauschen der CD läge dann um die 20 dB(SPL) herum, auf ein paar dB soll's nicht ankommen, zumal man an diesem Wert mittels verschiedener Sorten von Dither noch herumoptimieren kann. Das ist leiser als der Hörraum der allermeisten Leute. Da hört man das Grundrauschen bloß, wenn man nahe an den Lautsprecher geht. Wozu also noch tiefere Rauschwerte? Wer hat etwas davon?

Bei den Frequenzen ist es genauso: Daß man die Ultraschallfrequenzen über 20 kHz irgendwie hört wird zwar immer wieder behauptet, aber nicht wirklich nachgewiesen. Im Gegenteil, Studien, die es nachgewiesen haben wollen, erweisen sich immer wieder als fehlerhaft. Und Monty argumentiert einigermaßen plausibel, daß die höheren Frequenzen sich unter dem Strich eher negativ als positiv auswirken.

Eine weithin beachtete Studie dazu stammt aus dem Jahr 2007, als Brad Meyer und David Moran in Boston eine Versuchsreihe durchführten, bei der sie per ABX-Hörtest einige Beispiele hochauflösender Quellmedien gegen die auf CD-Format konvertierte Version des gleichen Materials antreten ließen. Ein statistisch signifikanter Unterschied war nicht festzustellen. Das Ergebnis wurde im September 2007 im AES Journal vorgestellt.

Daß das seither ein Stachel im Fleisch der HRA-Befürworter war, ist klar. Es hat daher natürlich prompt zahlreiche Versuche gegeben, diese Studie zu diskreditieren. Auf besagter AES Convention im Oktober diesen Jahres gab es dann einen Vortrag (P14-3) dreier Mitarbeiter von Meridian Audio in England, der über eine neue Versuchsreihe berichtet, die im Widerspruch zu der von Meyer und Moran stehen soll. Das hat noch vor dem eigentlichen Vortrag eine gewisse Aufregung in der audiophilen Szene verursacht, und in der Folge sind diverse Artikel in Foren, Blogs etc. entstanden, die davon reden, Meyer und Moran seien endlich nach allen Regeln der Kunst widerlegt ("debunked") worden. Gelegentlich beschleicht einen dabei der Verdacht, daß da ein paar Leute alte Rechnungen begleichen, siehe z.B. diesen Gesellen hier.

Leider ist der Artikel zum Vortrag für Außenstehende bisher nicht umsonst zu kriegen, was eine Beschäftigung damit etwas schwierig macht. Wer ihn hat (wie ich z.B.) darf ihn nicht legal weitergeben oder veröffentlichen. Das ist insbesondere deswegen schade, weil der Artikel auch noch von der AES mit einem "paper award" ausgezeichnet wurde. Angesichts des Zirkusses, der darum veranstaltet wird, werde ich aber trotzdem versuchen, auszuloten was da dran ist, und kann nur darauf hinweisen, daß ihr den Artikel auf der AES-Seite käuflich erwerben könnt, wenn Ihr es aus erster Hand lesen wollt.

Bevor ich über den neuesten Artikel schreibe, ist es aber angebracht wenn ich den Kontext ein bißchen beleuchte. Der Artikel aus dem Hause Meridian nimmt ausdrücklich Bezug auf den früheren Artikel von Meyer und Moran, aber das ist noch nicht der Anfang. Meyer und Moran wurden selbst zu ihrer Untersuchung motiviert durch einen noch früheren Artikel von Robert Stuart aus dem Jahr 2004. Zu diesem Artikel schrieben Meyer, Moran und Allison einen Kommentar im AES-Journal, und ein weiterer kam von Hadaway. Diese und die Antwort von Stuart gibt's gegen Geld von der AES.

Die Sache hat also eine mindestens 10-jährige Geschichte, und wenn man den Artikel von Meyer und Moran als Reaktion auf den Artikel von Stuart ansieht, dann kann man auch den neuesten von Stuart und Kollegen als Retourkutsche auf Meyer und Moran lesen. Das "Debunking" ist also gegenseitig, und man darf gespannt sein ob das in dieser Sache schon der letzte Streich war. Es sitzen jedenfalls jede Menge Leute am Ring und kommentieren die Auseinandersetzung.

Nun könnte man bereits zu Stuart's altem Artikel aus 2004 einiges sagen, aber dann würde ich hier nicht mehr fertig. Ihr könnt Euch das selber ansehen und Eure Gedanken dazu machen. Meyer und Moran haben in ihrem Kommentar darauf den Verdacht geäußert, daß es bei Stuart um "Commercialism" gehe, was mit dem Ideal des AES-Journals nicht recht vereinbar sei, in dem der Artikel von Stuart erschien. Sie kritisierten in diesem Zusammenhang, daß Stuart seine Schlüsse aus "Anekdoten" ziehe, die möglicherweise durch Vorurteile auf Seiten der Hörer geprägt und verfälscht seien. Hadaway hat in seinem Kommentar im Grunde das Verfahren vorgeschlagen, das danach von der Boston Audio Society in die Tat umgesetzt wurde, woraus schließlich der Artikel von Meyer und Moran in 2007 resultierte. Dieses Verfahren war, wie man im Artikel nachlesen kann, ein ABX-Test von hochauflösenden Quellen gegen ihre auf 44,1kHz/16-bit konvertierte Version.

In der Folge wurde das Meyer/Moran-Papier von verschiedenen Seiten angegriffen. Zum Einen fand man das ABX-Verfahren selbst ungeeignet. Diese Kritik reiht sich ein in eine generelle Blindtest-Skepsis, wo immer wieder behauptet wird, solche Tests seien derart unnatürlich, daß sie keine gültige Aussage erlauben. Der Testablauf verursache Stress, die Umschaltung erfolge zu schnell, und dergleichen mehr. Zum Anderen kritisierte man die Auswahl der Teststücke und bezweifelte die Eignung der verwendeten Anlage. Das sollte uns allen bekannt vorkommen.

Was ist jetzt vom neuesten Artikel zu halten, der angeblich Meyer/Moran widerlegt?

Es fällt zunächst auf, daß sich der Artikel auf etwas ganz anderes bezieht, wenigstens vom Titel her. Warum das eine Widerlegung von Meyer/Moran sein soll wird nicht unmittelbar klar. Es geht danach darum, die Hörbarkeit digitaler Filter in einer Wiedergabekette zu untersuchen. In der Tat ist das auch das, was die Meridian-Leute gemacht haben. Sie haben eine Blindtestreihe durchgeführt, in der untersucht wurde, inwiefern die Auswirkungen digitaler Tiefpassfilter, wie sie z.B. als Teil der D/A-Wandlung auftreten, gehörmäßig bemerkbar machen. Dabei muß man dazu sagen daß diese Filter rein im Digitalen arbeiten. Die Signalkette war durchgängig digital und arbeitete mit 192 kHz und 24-bit, bis in den digital angeschlossenen Lautsprecher hinein. In dieser Signalkette wurden wahlweise digitale Tiefpassfilter und Quantisierer auf 16-bit eingefügt, um deren Auswirkungen zu testen.

Dabei fällt auf, daß die Quantisierung einmal ohne Dither, und einmal mit RPDF-Dither ausgeführt war. Wie die Autoren selbst einräumen, wäre eigentlich TPDF-Dither erforderlich, um komplett neutrales Verhalten zu erzielen. Angeblich war diese Entscheidung getroffen worden, um Unvollkommenheiten realer Systeme besser abzubilden. Zudem wurden Tiefpassfilter benutzt, die steiler sind als bei üblichen D/A-Wandlern anzutreffen, vermutlich aus einem ähnlichen Grund.

Für den Hörtest wurde nicht das ABX-Verfahren benutzt, sondern ein "AX"-Verfahren. Beim ABX-Verfahren bekommt man zwei unterschiedliche Proben A und B, und muß sich entscheiden mit welcher der beiden die Probe X übereinstimmt. Beim AX-Verfahren bekommt man eine Probe A, und muß entscheiden ob sich X von A unterscheidet oder nicht. Dabei ist X manchmal identisch mit A, manchmal nicht. Bei jedem Durchgang kann man sich A und X beliebig oft und lange anhören, bis man sich entscheidet. Man bekommt dann gesagt ob die Entscheidung falsch oder richtig war, und es beginnt ggf. der nächste Durchlauf mit anderen A und X. Bevor die Sache im Ernst losgeht, gibt's aber eine Trainingsphase, bei der die Leute ohne Bewertung üben können.

Das Ergebnis war positiv, das heißt eine Hörbarkeit des Unterschiedes wurde festgestellt, allerdings mit nur knapp erreichter statistischer Signifikanz. Eine von 6 unterschiedlichen Einstellungen (Dither und Filter) hat die statistische Signifikanz verfehlt. Das heißt im Großen und Ganzen war der Unterschied mit knapper Not hörbar.

Der Artikel enthält etliche Details mehr, aber das soll uns mal für eine Bewertung reichen. Ist das nun eine Widerlegung dessen was Meyer/Moran vorgestellt haben?

Der Artikel der Meridian-Kollegen erweckt zwar diesen Eindruck ziemlich klar, aber sie gehen nicht so weit daß sie das ausdrücklich folgern. Es wäre auch ungerechtfertigt, denn sie haben damit gezeigt, daß Filter und Dither der Art wie sie sie in ihrem Versuch benutzt haben, hörbar sein können. Das sind auch die ersten beiden ihrer 5 "Conclusions", die sie am Ende ihres Artikels anbieten. Das heißt noch nicht, daß andere Filter ebenfalls hörbar sein müssen. Ich habe schon darauf hingewiesen, daß sowohl Dither als auch Filtercharakteristik in ihrem Versuch etwas unrealistisch gewählt wurden, was durchaus die Wahrscheinlichkeit ihrer Hörbarkeit erhöht haben kann. Es gibt keinen Grund anzunehmen, daß die von Meyer/Moran benutzte Anlage mit ihrer Filtercharakteristik ebenso hörbare Artefakte hätte erzeugen müssen. Es können also die Ergebnisse beider Studien zugleich stimmen, einen behaupteten Widerspruch kann ich nicht erkennen.

Wenn ich selbst das Fazit ziehen würde, dann würde das in etwa so ausfallen:

Meyer/Moran zeigen, daß das CD-Format transparent sein kann, wenn man's richtig macht. Jackson/Capp/Stuart zeigen, daß man bei Dithering und Filterung aufpassen muß, weil man sonst ggf. hörbare Effekte bekommt.

Könnten die beiden Teams also beste Freunde sein? Ich fürchte nein. Das liegt weniger daran, was sie konkret rausgefunden haben, sondern daran, wie sie sich gegenseitig behandeln. Das wird besonders deutlich an der relativ langen "Introduction" im Artikel von Jackson/Capp/Stuart, und an seinem "Abstract". Was da zu lesen ist, steht nämlich in einem auffallenden Mißverhältnis zu der eigentlichen Studie.

Im Abstract werden zwei Schlüsse aus der Studie angeboten, die auch am Ende der "Introduction" auftauchen, und es sind nicht die gleichen wie am Ende des Artikels. Beide Schlüsse sind zudem nicht aus der Studie zu begründen.

Der erste Schluß behauptet, damit sei gezeigt, daß es hörbare Signale gebe, für die das CD-Format nicht transparent sei. Das wurde deshalb nicht gezeigt, weil man nicht von einem Satz an verwendeten Filtern und Dither auf die allgemeine Situation schließen kann. Andere Filtercharakteristiken könnten sehr wohl transparent sein. Die verwendeten Charakteristiken sind ohnehin ein bißchen auf der extremen Seite, verglichen mit dem was viele praktische Wandler verwenden. Wenn sie die Grenzen des Formates selbst hätten ausloten wollen, dann hätten sie die negativen Einflüsse der Filter minimieren sollen, und solche Arten von Dither einsetzen sollen, von denen bekannt ist daß sie transparent sind, wie z.B. TPDF-Dither. Ihr Schluß schießt also über's Ziel hinaus.

Der zweite Schluß behauptet, für solche Experimente müsse die verwendete Anlage eine hohe Klangtreue aufweisen. Das hört sich an wie eine Selbstverständlichkeit und ist es auch, es ist aber insofern falsch als es kein Schluß aus ihrer Untersuchung ist. Sie haben nicht untersucht, welchen Einfluß die Qualität der Anlage auf das Ergebnis hat. Die Anlage war für die ganze Untersuchung immer die gleiche. Es werden auch keine konkreten Richtwerte angegeben, anhand derer man beurteilen könnte ob die Qualität einer Anlage ausreicht oder nicht.

Die eigentlichen Ergebnisse der Untersuchung kommen interessanterweise im Abstract und der Introduction gar nicht vor, so daß man den Eindruck bekommt, Abstract und Introduction dienten einem anderen Zweck als der Rest des Artikels und die Untersuchung auf der er basiert. Das wird durch den Inhalt der Introduction noch bestätigt. Dort wird nämlich eine ziemlich ausführliche Liste von Argumenten und Literaturverweisen geboten, die allesamt Spekulationen darüber enthalten ob die CD als transparentes Medium ausreicht oder nicht. Sodann wird der Artikel von Meyer/Moran aufs Korn genommen, und wieder in Form von Spekulationen werden diverse mögliche Zweifel an deren Vorgehen vorgestellt, ohne daß der Versuch unternommen würde, sie zu substanziieren. Schließlich findet man eine Attacke auf die ABX-Testmethode, bei der angeblich die "cognitive load", also die Wahrnehmungslast, hoch sei, weil man drei Proben im Gedächtnis halten müsse, A, B und X, um einen Vergleich zu machen. Die Darstellung ist falsch, weil es diesen Zwang nicht gibt. Der Hörer entscheidet beim ABX-Test selbst, was er anhört und wann er umschaltet. Die Testmethode macht ihm diesbezüglich keine Vorschriften, und wenn er möchte kann er sich auf das Abhören von A und X beschränken, wodurch das Verfahren identisch wird mit dem was Jackson/Capp/Stuart selbst anwenden.

Ich kann auch nicht erkennen inwiefern sie ihre Vermutungen bzgl. der Wahrnehmungslast verifiziert haben. Ob ABX tatsächlich zu einer höheren Belastung in irgend einer Form führt oder nicht, ist erst einmal Spekulation. Es könnte ebenso gut anders herum sein: Es könnte sein daß das Vorhandensein einer dritten Probe beim Vergleich die Last verringert, weil man sich den Unterschied zwischen A und B, von dem man sicher weiß daß er vorhanden sein muß, zunächst einprägen kann, und sich erst dann der unbekannten Probe X widmet.

Es ist diese "Introduction", in der sich die Meridian-Gruppe ausführlich mit Meyer/Moran beschäftigen, und man muß leider sagen daß die Absicht, sie herunterzumachen, deutlich erkennbar ist. Die Art und Weise wie sie das tun gehört nicht in einen wissenschaftlichen Beitrag, denn es werden lediglich Zweifel gesät und mit falschen Argumenten hantiert, ohne daß das durch die dann präsentierten Versuchsergebnisse untermauert würde.

Es wird nicht verwundern, daß diejenigen, die nun im Internet auftreten und Meyer/Moran für widerlegt erklären, sich gerade auf den Abstract und die Introduction beziehen. Manche haben den Artikel nicht gelesen und zitieren nur aus dem Abstract. Selbst bei Hydrogenaudio ist ein Thread über den Artikel entgleist und wurde geschlossen. Pikant auch, daß eingefleischte Blindtest-Kritiker kein Problem mehr damit haben, daß man bei Meridian ebenfalls blind testet. Und schließlich fällt auch gerne unter den Tisch, daß es sich bei den angeblich offensichtlichen und für jeden gesunden Menschen hörbaren Vorteilen von HRA gegenüber der CD wohl kaum um das handeln kann, was bei Meridian gerade mal mit knapper Not hörbar war.

Was mir bei der Sache aber besonders aufstößt ist, daß der Artikel einen AES-Award bekommen hat. Der Artikel war zudem "peer-reviewed". Wenn man sich den Kopftext ansieht, der den Artikel ziert, dann steht da:
Winner of the AES 137th Convention Best Peer-Reviewed Paper Award
und
This Convention paper was selected based on a submitted abstract and 750-word precis that have been peer reviewed by at least two qualified anonymous reviewers. The complete manuscript was not peer reviewed. This convention paper has been reproduced from the author's advance manuscript without editing, corrections, or consideration by the Review Board. The AES takes no responsibility for the contents.
Wenn ich das nicht völlig falsch interpretiere, dann wurde da also gar nicht der Artikel selbst "peer-reviewed", sondern ein "precis", also eine gekürzte Vorversion, zusammen mit dem "abstract". Wenn das so ist, dann stehen die Türen für den Mißbrauch weit offen, denn wer stellt sicher, daß sich precis und Artikel nicht wesentlich unterscheiden? Welchen Sinn hat es, ein precis zu bewerten und auszuzeichnen, das dann niemand zu sehen bekommt?

In der Form wie er dann erschienen ist hätte meiner bescheidenen Meinung nach der Artikel keine Auszeichnung erhalten dürfen. Die darin vorgestellte Untersuchung mag seriös sein, aber die Form in der sie vorgestellt wird, besonders wie da mit Beiträgen anderer Leute umgegangen wird, ist keiner Auszeichnung würdig.

Als Rechtfertigung für High Resolution Audio ist die Sache jedenfalls in die Hose gegangen, würde ich sagen. Die Fronten werden dadurch sicher eher noch verfestigt.