Der österreichische Informatiker Gerhard Widmer gehört zu den international profiliertesten Forschern im Bereich der computergestützten Musikanalyse. Im Gespräch erläutert er, wie Künstliche Intelligenz uns helfen kann, Musik und ihre Wirkung auf die Menschen besser zu verstehen.
Interview: Peter Payer
„Musikalische“ Maschinen
Mo 03. Mai 2021
Herr Widmer, Sie beschäftigen sich seit mehr als zwei Jahrzehnten mit dem Einsatz von Künstlicher Intelligenz in der Musik. Was genau sind Ihre Forschungsfragen?
Ich will versuchen, es auf zwei Hauptebenen zu reduzieren. Einerseits geht es um (akustische) Wahrnehmung: Kann man einer Maschine beibringen, Musik zu „hören"? Kann also eine Maschine in akustischen Signalen, Schallwellen und Audiostreams abstraktere musikalische Muster erkennen, so wie wir Menschen es beim Musikhören tun? Wir erkennen quasi automatisch Beat, Takt, Rhythmus, Tempo, Melodien und Akkorde, wir können Musikstücke Stilrichtungen und Genres zuordnen. All diese Dinge versuchen wir Computern beizubringen. Das zugehörige wissenschaftliche Forschungsgebiet wird üblicherweise Music Information Retrieval (MIR) genannt, und das ist inzwischen ein sehr großes weltweites Forschungsgebiet.
Eine zweite Hauptrichtung unserer Forschung, die auch enger mit meinem Namen verbunden ist, begreift den Computer samt KI-Methoden als Hilfsmittel zum Studium musikalischer Fragen. Hier geht es um die ausdrucksvolle Musikinterpretation und ihre Analyse und Modellierung im Kontext der sogenannten klassischen Musik. Wie „muss“ man eine Komposition spielen, damit sie lebendig wird, einen bestimmten musikalischen Charakter annimmt, bestimmte Affekte zum Ausdruck bringt? Wie spiegelt sich das in technischen Parametern und Entscheidungen der Interpret_innen wider?
Spannende Fragen. Wie gehen Sie da genau vor?
Unser Zugang ist ein computer- und datenbasierter. Wir vermessen Interpretationen im Detail – also die genauen Verläufe von Tempo, Timing, Dynamik, Artikulation in Aufnahmen vor allem von Pianist_innen – und suchen in den Daten nach Mustern, nach systematischen Zusammenhängen zwischen bestimmten Aspekten der geschriebenen Musik und der Art, wie sie gespielt wird. Dazu trainieren wir zum Beispiel Machine-Learning-Modelle, die lernen sollen, Interpretationsmuster für ein gegebenes Stück vorherzusagen und damit auch neue Stücke selbst „musikalisch“ zu spielen („ausdrucksvoll“ wäre wohl ein zu großes Wort). Diese gelernten Computermodelle kann man dann analysieren, und in kontrollierten Experimenten kann man bestimmte Hypothesen empirisch testen. Analyse via Modellierung würde ich diesen Zugang nennen.
Ich will versuchen, es auf zwei Hauptebenen zu reduzieren. Einerseits geht es um (akustische) Wahrnehmung: Kann man einer Maschine beibringen, Musik zu „hören"? Kann also eine Maschine in akustischen Signalen, Schallwellen und Audiostreams abstraktere musikalische Muster erkennen, so wie wir Menschen es beim Musikhören tun? Wir erkennen quasi automatisch Beat, Takt, Rhythmus, Tempo, Melodien und Akkorde, wir können Musikstücke Stilrichtungen und Genres zuordnen. All diese Dinge versuchen wir Computern beizubringen. Das zugehörige wissenschaftliche Forschungsgebiet wird üblicherweise Music Information Retrieval (MIR) genannt, und das ist inzwischen ein sehr großes weltweites Forschungsgebiet.
Eine zweite Hauptrichtung unserer Forschung, die auch enger mit meinem Namen verbunden ist, begreift den Computer samt KI-Methoden als Hilfsmittel zum Studium musikalischer Fragen. Hier geht es um die ausdrucksvolle Musikinterpretation und ihre Analyse und Modellierung im Kontext der sogenannten klassischen Musik. Wie „muss“ man eine Komposition spielen, damit sie lebendig wird, einen bestimmten musikalischen Charakter annimmt, bestimmte Affekte zum Ausdruck bringt? Wie spiegelt sich das in technischen Parametern und Entscheidungen der Interpret_innen wider?
Spannende Fragen. Wie gehen Sie da genau vor?
Unser Zugang ist ein computer- und datenbasierter. Wir vermessen Interpretationen im Detail – also die genauen Verläufe von Tempo, Timing, Dynamik, Artikulation in Aufnahmen vor allem von Pianist_innen – und suchen in den Daten nach Mustern, nach systematischen Zusammenhängen zwischen bestimmten Aspekten der geschriebenen Musik und der Art, wie sie gespielt wird. Dazu trainieren wir zum Beispiel Machine-Learning-Modelle, die lernen sollen, Interpretationsmuster für ein gegebenes Stück vorherzusagen und damit auch neue Stücke selbst „musikalisch“ zu spielen („ausdrucksvoll“ wäre wohl ein zu großes Wort). Diese gelernten Computermodelle kann man dann analysieren, und in kontrollierten Experimenten kann man bestimmte Hypothesen empirisch testen. Analyse via Modellierung würde ich diesen Zugang nennen.
Gerhard Widmer
© FWF/Ethan Vincent
Was können wir aus solchen Analysen lernen, das ohne KI nicht möglich wäre?
Wahrscheinlich nichts – also zumindest rein theoretisch betrachtet. Alles, was wir quantitativ, mit Computerhilfe analysieren, ist ja da, in den Daten, in der Musik. Und das müsste man daher auch ohne Computer finden, wenn man genug Zeit und Konzentration zur Analyse der Daten hätte. Was Computer tun können, ist, uns beim Messen helfen, bei der Suche nach Mustern in großen Mengen von Messdaten. Und sie erlauben uns auch, alternative Szenarien zu simulieren, um verschiedene Annahmen zu testen.
Arbeiten Sie dabei hauptsächlich mit Klavierwerken?
Ja, fast ausschließlich, und zwar auch aus ganz praktischen Gründen. Einerseits ist es eine Frage der Komplexität. Die Freiheitsgrade für Interpret_innen auf dem Klavier sind relativ eng eingegrenzt und definiert: zeitliche Faktoren (Tempo, Timing), Anschlag (Lautstärke, Artikulation), Pedal. Dazu kommt das Messproblem: Um an solche Daten zu kommen, brauchen wir spezielle Instrumente, die diese Spieldetails tatsächlich messen und aufzeichnen. Und da gibt es im Bereich des Klaviers diese wunderbaren Computerflügel wie den Bösendorfer CEUS, die uns solche Daten liefern können. Bei anderen Instrumenten ist das nicht so einfach möglich.
Wenn Sie den Computer ein Klavierstück spielen lassen, nach Vladimir Horowitz oder Glenn Gould beispielsweise: Wie sehr können Sie sich hier den Originalinterpreten annähern? Ist das nur mehr eine Frage der Technik und der Rechenleistung?
Also, der Computer ist noch ganz weit davon entfernt, wie Horowitz oder Gould spielen zu können. Technisch natürlich schon: Ein Computerflügel kann schneller und präziser spielen als sogar ein Horowitz. Aber musikalisch ... Wir könnten vielleicht sogar, wenn wir alle Gould-Aufnahmen präzisest[SS1] vermessen und maschinelle Lernprogramme auf diesen Daten ganz speziell trainieren würden, Modelle lernen, die bestimmte Aspekte des Gould-„Stils“ reproduzieren könnten, zum Beispiel im Bereich der Artikulation. Aber wir könnten nicht vorhersagen, wie Gould ein Stück gespielt hätte, das er nie gespielt hat. Und dann: Ein Gould hätte ein Stück auch sehr verschieden spielen können, je nach Raum, nach geistiger Disposition, nach affektiver und intellektueller Absicht, je nachdem, was er mit einem Stück und einer Interpretation sagen wollte.
Das ist also keine Frage der Technik oder Rechenleistung, sondern schlussendlich eine Frage der Grenzen der Modellierbarkeit. Musik zu verstehen und zu interpretieren ist eine intellektuelle Leistung des ganzen Menschen, mit all seinen persönlichen Erfahrungen, Wissen, emotionalen und künstlerischen Ausdrucksintentionen. Kein mathematisches Modell der Welt kann das alles einbeziehen. Und das ist auch schön so.
Wahrscheinlich nichts – also zumindest rein theoretisch betrachtet. Alles, was wir quantitativ, mit Computerhilfe analysieren, ist ja da, in den Daten, in der Musik. Und das müsste man daher auch ohne Computer finden, wenn man genug Zeit und Konzentration zur Analyse der Daten hätte. Was Computer tun können, ist, uns beim Messen helfen, bei der Suche nach Mustern in großen Mengen von Messdaten. Und sie erlauben uns auch, alternative Szenarien zu simulieren, um verschiedene Annahmen zu testen.
Arbeiten Sie dabei hauptsächlich mit Klavierwerken?
Ja, fast ausschließlich, und zwar auch aus ganz praktischen Gründen. Einerseits ist es eine Frage der Komplexität. Die Freiheitsgrade für Interpret_innen auf dem Klavier sind relativ eng eingegrenzt und definiert: zeitliche Faktoren (Tempo, Timing), Anschlag (Lautstärke, Artikulation), Pedal. Dazu kommt das Messproblem: Um an solche Daten zu kommen, brauchen wir spezielle Instrumente, die diese Spieldetails tatsächlich messen und aufzeichnen. Und da gibt es im Bereich des Klaviers diese wunderbaren Computerflügel wie den Bösendorfer CEUS, die uns solche Daten liefern können. Bei anderen Instrumenten ist das nicht so einfach möglich.
Wenn Sie den Computer ein Klavierstück spielen lassen, nach Vladimir Horowitz oder Glenn Gould beispielsweise: Wie sehr können Sie sich hier den Originalinterpreten annähern? Ist das nur mehr eine Frage der Technik und der Rechenleistung?
Also, der Computer ist noch ganz weit davon entfernt, wie Horowitz oder Gould spielen zu können. Technisch natürlich schon: Ein Computerflügel kann schneller und präziser spielen als sogar ein Horowitz. Aber musikalisch ... Wir könnten vielleicht sogar, wenn wir alle Gould-Aufnahmen präzisest[SS1] vermessen und maschinelle Lernprogramme auf diesen Daten ganz speziell trainieren würden, Modelle lernen, die bestimmte Aspekte des Gould-„Stils“ reproduzieren könnten, zum Beispiel im Bereich der Artikulation. Aber wir könnten nicht vorhersagen, wie Gould ein Stück gespielt hätte, das er nie gespielt hat. Und dann: Ein Gould hätte ein Stück auch sehr verschieden spielen können, je nach Raum, nach geistiger Disposition, nach affektiver und intellektueller Absicht, je nachdem, was er mit einem Stück und einer Interpretation sagen wollte.
Das ist also keine Frage der Technik oder Rechenleistung, sondern schlussendlich eine Frage der Grenzen der Modellierbarkeit. Musik zu verstehen und zu interpretieren ist eine intellektuelle Leistung des ganzen Menschen, mit all seinen persönlichen Erfahrungen, Wissen, emotionalen und künstlerischen Ausdrucksintentionen. Kein mathematisches Modell der Welt kann das alles einbeziehen. Und das ist auch schön so.
Bösendorfer CEUS
© Ars Electronica/Robert Bauernhansl
Ist es nach wie vor einfach zu erkennen, ob ein Musikstück von einer Maschine gespielt wird oder von einem Menschen?
Ja, der Unterschied ist immer noch groß, vor allem bei komplexer Musik. Die offensichtlichsten Unterschiede liegen in der Art der Fehler, die Maschinen machen, nämlich Fehler einer unmusikalischen Art, die Menschen in dieser Form nie machen würden, wie sie eine bestimmte Passage nie spielen würden. Und diese Fehler weisen auf tieferliegende Probleme hin, die Maschinen mit Musik haben: Es fehlt an einem Verständnis von abstrakten Konzepten wie Struktur, musikalischer Fluss, dramatischer Bogen, der Unterscheidung, was wichtig und was unwichtig ist. Und einem Verständnis dafür, wie Zuhörer_innen das alles wahr- und aufnehmen. Das sind Aspekte, die noch schwer formal zu fassen sind.
Es gibt ja auch den berühmten „Turing-Test“.
Ja, mit „Turing-Test“ – benannt nach dem britischen Logiker und Informatiker Alan Turing (1912–1954) – bezeichnet man in der KI-Forschung Experimente, bei denen getestet wird, ob Menschen eine Maschine oder eine maschinelle Leistung noch von einer menschlichen unterscheiden können. In diesem konkreten Fall hat ein australisch-italienisches Forscherteam verschiedene Aufnahmen ein und desselben Musikstücks (einer einfachen Kuhlau-Sonatine) einem Testpanel von 170 Personen vorgespielt. Alle Aufnahmen wurden auf demselben Flügel gemacht; vier davon waren von Computermodellen produzierte Interpretationen (von Forschungsgruppen aus Italien, Schweden, Japan und unserem), eine von einem echten Konzertpianisten. Dann wurden die Testpersonen gefragt, welche Aufnahmen sie für von Menschen gespielt hielten. Und da hat dann offenbar tatsächlich unser Modell einen leicht höheren Score erreicht als sogar der echte Pianist Aber man darf das nicht überbewerten. Das Experiment war sehr, sehr eingeschränkt, mit nur einem Teststück, das noch dazu sehr einfach ist und Interpret_innen wenig Möglichkeiten bietet.
Wenn Sie mittels KI das Rätsel der Musik ergründen, ihrer komplexen Wirkung auf uns Menschen nachgehen: Wieviel Prozent würden Sie sagen, haben sie gelöst?
... < 0.01 Prozent ...
Ist Musik überhaupt (be)rechenbar?
Die Frage ist in dieser Form zu allgemein, als dass ich sie beantworten könnte. Was könnte man mit „Berechenbarkeit“ in der Musik meinen? Können wir berechnen, wie ein Stück an einer bestimmten Stelle weitergehen „muss“? Nein; aber wir können abschätzen, welche Fortsetzungen mehr oder weniger wahrscheinlich sind (und daher auch für Hörer_innen aus unserem Kulturkreis mehr oder weniger vorhersehbar oder überraschend sind). Können wir vorhersagen, welche Stücke jemand mögen wird oder nicht? Nein (trotz gelegentlicher Artikel in den Medien über angeblich „Hit Prediction“-Algorithmen); aber wir können natürlich Präferenzen abschätzen (und werden manchmal danebenliegen), wenn wir Information darüber haben, was eine Person oft gehört hat. Können wir harmonische, rhythmische, melodische Eigenschaften eines Stücks mathematisch beschreiben? Ja, natürlich. Musik ist ja ein hochstrukturiertes Artefakt, nach bestimmten stilistischen Konventionen und Grundregeln komponiert; und die Beziehungen zwischen Tönen, Intervallen, Akkorden in unserer tonalen Musik lassen sich sehr elegant in mathematische Strukturen abbilden.
Ja, der Unterschied ist immer noch groß, vor allem bei komplexer Musik. Die offensichtlichsten Unterschiede liegen in der Art der Fehler, die Maschinen machen, nämlich Fehler einer unmusikalischen Art, die Menschen in dieser Form nie machen würden, wie sie eine bestimmte Passage nie spielen würden. Und diese Fehler weisen auf tieferliegende Probleme hin, die Maschinen mit Musik haben: Es fehlt an einem Verständnis von abstrakten Konzepten wie Struktur, musikalischer Fluss, dramatischer Bogen, der Unterscheidung, was wichtig und was unwichtig ist. Und einem Verständnis dafür, wie Zuhörer_innen das alles wahr- und aufnehmen. Das sind Aspekte, die noch schwer formal zu fassen sind.
Es gibt ja auch den berühmten „Turing-Test“.
Ja, mit „Turing-Test“ – benannt nach dem britischen Logiker und Informatiker Alan Turing (1912–1954) – bezeichnet man in der KI-Forschung Experimente, bei denen getestet wird, ob Menschen eine Maschine oder eine maschinelle Leistung noch von einer menschlichen unterscheiden können. In diesem konkreten Fall hat ein australisch-italienisches Forscherteam verschiedene Aufnahmen ein und desselben Musikstücks (einer einfachen Kuhlau-Sonatine) einem Testpanel von 170 Personen vorgespielt. Alle Aufnahmen wurden auf demselben Flügel gemacht; vier davon waren von Computermodellen produzierte Interpretationen (von Forschungsgruppen aus Italien, Schweden, Japan und unserem), eine von einem echten Konzertpianisten. Dann wurden die Testpersonen gefragt, welche Aufnahmen sie für von Menschen gespielt hielten. Und da hat dann offenbar tatsächlich unser Modell einen leicht höheren Score erreicht als sogar der echte Pianist Aber man darf das nicht überbewerten. Das Experiment war sehr, sehr eingeschränkt, mit nur einem Teststück, das noch dazu sehr einfach ist und Interpret_innen wenig Möglichkeiten bietet.
Wenn Sie mittels KI das Rätsel der Musik ergründen, ihrer komplexen Wirkung auf uns Menschen nachgehen: Wieviel Prozent würden Sie sagen, haben sie gelöst?
... < 0.01 Prozent ...
Ist Musik überhaupt (be)rechenbar?
Die Frage ist in dieser Form zu allgemein, als dass ich sie beantworten könnte. Was könnte man mit „Berechenbarkeit“ in der Musik meinen? Können wir berechnen, wie ein Stück an einer bestimmten Stelle weitergehen „muss“? Nein; aber wir können abschätzen, welche Fortsetzungen mehr oder weniger wahrscheinlich sind (und daher auch für Hörer_innen aus unserem Kulturkreis mehr oder weniger vorhersehbar oder überraschend sind). Können wir vorhersagen, welche Stücke jemand mögen wird oder nicht? Nein (trotz gelegentlicher Artikel in den Medien über angeblich „Hit Prediction“-Algorithmen); aber wir können natürlich Präferenzen abschätzen (und werden manchmal danebenliegen), wenn wir Information darüber haben, was eine Person oft gehört hat. Können wir harmonische, rhythmische, melodische Eigenschaften eines Stücks mathematisch beschreiben? Ja, natürlich. Musik ist ja ein hochstrukturiertes Artefakt, nach bestimmten stilistischen Konventionen und Grundregeln komponiert; und die Beziehungen zwischen Tönen, Intervallen, Akkorden in unserer tonalen Musik lassen sich sehr elegant in mathematische Strukturen abbilden.
Bösendorfer CEUS
© Ars Electronica/Robert Bauernhansl
Wo sehen Sie die praktische Anwendung Ihrer Forschungen im Alltagsgebrauch?
Wir haben in den letzten 15 Jahren Technologien für eine ganze Menge von Anwendungen entwickelt, in Kooperation mit Playern in der Musik- und Audiowelt. Unsere Algorithmen zum Abschätzen musikalischer Ähnlichkeit finden Sie zum Beispiel in der BeoSound 5 von Bang & Olufsen, einer digitalen „Stereoanlage“, die selbst entscheidet, was sie als nächstes spielt. Oder im automatischen Music Recommender im FM4 Soundpark, der Benutzer_innen auf Basis musikalischer Ähnlichkeit neue Songs vorschlägt. Unsere Algorithmen für die Detektion von Musik und Sprache in Audiostreams helfen der Schweizer SWISSPERFORM, die Menge von Musik, die von Radiosendern in einem Jahr ausgestrahlt wird, zu schätzen, zwecks Tantiemenverrechnung.
Im Kontext der Musikinterpretation beschäftigen wir uns derzeit mit interaktiven musikalischen „Partnern“ – „Companions“, wie wir sie nennen –, die mit Menschen gemeinsam Musik spielen. Nicht auf einem wirklich künstlerischen Level natürlich, aber so, dass sie als Partner beim Üben dienen können. So ein automatischer Klavierbegleiter muss in der Lage sein, mir beim Spielen zuzuhören, mir zu folgen, meine Ausdrucksintentionen zu erkennen und sich in seinem Spiel daran anzupassen, damit wir wirklich zusammen spielen. Unseren automatischen Klavierbegleiter namens „ACCompanion“ hoffen wir in ein paar Monaten so weit zu haben, dass wir ihn in einem Konzert präsentieren können.
Herzlichen Dank für das Gespräch!
Univ.-Prof. Dr. Gerhard Widmer: Leiter des Instituts für Computational Perception der Johannes Kepler Universität Linz; stellvertretender Leiter des Artificial Intelligence Labs am Linz Institute of Technology (LIT). 2009 Wittgenstein-Preis, 2015 und 2021 ERC Advanced Grants des Europäischen Forschungsrates.
Peter Payer (TMW): Historiker, Stadtforscher und Publizist.
Literaturhinweise:
Gehard Widmer: Getting Closer to the Essence of Music: The Con Espressione Manifesto. In: ACM Transactions on Intelligent Systems and Technology 8(2), Jan. 2017, Article 19.
Carlos Cancino Chacón, Maarten Grachten, Werner Goebl, Gerhard Widmer: Computational Models of Expressive Music Performance: A Comprehensive and Critical Review. In: Frontiers in Digital Humanities Vol.5/2018, Article 25, 1-23.
Emery Schubert, Sergio Canazza, Giovanni de Poli, Antonio Roda: Algorithms can Mimic Human Piano Performance: The Deep Blues of Music. In: Journal of New Music Research 46(2), Jan. 2017, 1-12.
Wir haben in den letzten 15 Jahren Technologien für eine ganze Menge von Anwendungen entwickelt, in Kooperation mit Playern in der Musik- und Audiowelt. Unsere Algorithmen zum Abschätzen musikalischer Ähnlichkeit finden Sie zum Beispiel in der BeoSound 5 von Bang & Olufsen, einer digitalen „Stereoanlage“, die selbst entscheidet, was sie als nächstes spielt. Oder im automatischen Music Recommender im FM4 Soundpark, der Benutzer_innen auf Basis musikalischer Ähnlichkeit neue Songs vorschlägt. Unsere Algorithmen für die Detektion von Musik und Sprache in Audiostreams helfen der Schweizer SWISSPERFORM, die Menge von Musik, die von Radiosendern in einem Jahr ausgestrahlt wird, zu schätzen, zwecks Tantiemenverrechnung.
Im Kontext der Musikinterpretation beschäftigen wir uns derzeit mit interaktiven musikalischen „Partnern“ – „Companions“, wie wir sie nennen –, die mit Menschen gemeinsam Musik spielen. Nicht auf einem wirklich künstlerischen Level natürlich, aber so, dass sie als Partner beim Üben dienen können. So ein automatischer Klavierbegleiter muss in der Lage sein, mir beim Spielen zuzuhören, mir zu folgen, meine Ausdrucksintentionen zu erkennen und sich in seinem Spiel daran anzupassen, damit wir wirklich zusammen spielen. Unseren automatischen Klavierbegleiter namens „ACCompanion“ hoffen wir in ein paar Monaten so weit zu haben, dass wir ihn in einem Konzert präsentieren können.
Herzlichen Dank für das Gespräch!
Univ.-Prof. Dr. Gerhard Widmer: Leiter des Instituts für Computational Perception der Johannes Kepler Universität Linz; stellvertretender Leiter des Artificial Intelligence Labs am Linz Institute of Technology (LIT). 2009 Wittgenstein-Preis, 2015 und 2021 ERC Advanced Grants des Europäischen Forschungsrates.
Peter Payer (TMW): Historiker, Stadtforscher und Publizist.
Literaturhinweise:
Gehard Widmer: Getting Closer to the Essence of Music: The Con Espressione Manifesto. In: ACM Transactions on Intelligent Systems and Technology 8(2), Jan. 2017, Article 19.
Carlos Cancino Chacón, Maarten Grachten, Werner Goebl, Gerhard Widmer: Computational Models of Expressive Music Performance: A Comprehensive and Critical Review. In: Frontiers in Digital Humanities Vol.5/2018, Article 25, 1-23.
Emery Schubert, Sergio Canazza, Giovanni de Poli, Antonio Roda: Algorithms can Mimic Human Piano Performance: The Deep Blues of Music. In: Journal of New Music Research 46(2), Jan. 2017, 1-12.