Um Ideen für unser nächstes innovatives Tool im Musikbereich zu sammeln, haben wir den State-of-the-Art der Forschung zum Einsatz von KI im Bereich Musik und Audio recherchiert.
Im Vergleich zu NLP oder Computer Vision scheint die Integration von KI und ML in der Musik- und Audiobearbeitung weniger fortgeschritten zu sein. Nichtsdestotrotz deuten die jüngsten Entwicklungen auf ein großes Interesse insbesondere an generativer KI hin. Dies lässt sich an mehreren erfolgreichen Markteinführungen in der letzten Zeit beobachten, wie z.B. stable audio, soundry AI, udio oder suno. Es gibt jedoch noch viele weitere Anwendungen von KI in diesem Bereich. In diesem Blogbeitrag haben wir eine Liste von Anwendungsbereichen zusammengestellt, wo KI bei der Audioverarbeitung eingesetzt werden könnte oder bereits eingesetzt wird.
Einige der folgenden KI-Anwendungsfälle sind bereits vergleichsweise bekannt oder sogar bereits in der Wahrnehmung von der breiten Öffentlichkeit angekommen. Einige davon könnten für Sie neu sein. Wir haben auch nach verfügbarer Software gesucht, die die entsprechenden Aufgaben implementiert, um zu zeigen, welche Bereiche bereits ausgereift sind. Natürlich ist es in vielen Fällen, besonders bei proprietärer Software, nicht klar, ob diese Softwareanwendungen intern KI, manuelle Algorithmen oder eine Mischung aus beidem verwenden.
Hier ist unsere Liste der KI-Anwendungsbereiche, die mit Musik oder Audio zu tun haben:
- Automatische Musik-Transkription / Erkennung: Bei dieser Technologie wird ein Musik-Audiosignal in eine entsprechende symbolische Notation, z.B. MIDI, umgewandelt. Sie verwendet Algorithmen, um Tonhöhen, Rhythmen und manchmal sogar Instrumentarten aus Musikaufnahmen zu identifizieren. Die automatische Musiktranskription ist für verschiedene Anwendungen wie Musikunterricht, Datenbankablage und das Finden von Musik von entscheidender Bedeutung.
Vorhandene Software: Klangio AI, AnthemScore - Sheet Music Difficulty Estimation: Bei diesem Thema geht es um die Entwicklung von Methoden zur Einschätzung des Schwierigkeitsgrads von Notenblättern. Algorithmen analysieren den musikalischen Inhalt, wie z.B. die Notendichte, die rhythmische Komplexität und die technischen Anforderungen, um Pädagogen und Musikern ein objektives Maß für die Schwierigkeit eines Stücks zu geben. Dies hilft bei der Auswahl der richtigen Musikstücke je nach Kenntnisstand.
- Music Structure Analysis / Formal Analysis: Die Musikstrukturanalyse untersucht den Aufbau eines Musikstücks, um seine Form und Struktur zu verstehen und abzubilden. Dazu gehört das Erkennen von wiederholten Abschnitten, Variationen und der Gesamtanordnung der Themen. Es ist für Musikwissenschaftler, Komponisten und Interpreten unerlässlich, um Kompositionen zu interpretieren und Aufführungsstrategien zu verbessern.
- Optische Notenerkennung (OMR): Scannt gedruckte oder handgeschriebene Noten und konvertiert sie in bearbeitbare oder abspielbare Formate wie MIDI oder MusicXML. Dies erleichtert die digitale Aufbewahrung von Partituren, eine einfachere Transposition und die Integration in unterschiedliche Softwareanwendungen im Musikbereich.
Vorhandene Software: z.B. Maestria, Soundslice - (Symbolische) Musikgenerierung / Text-to-Music: Bei der symbolischen Musikgenerierung wird neue Musik in symbolischer Form (wie MIDI) mithilfe von Algorithmen erstellt, die oft auf bestimmten Regeln oder erlernten Musikstilen basieren. Text-to-music erweitert dies, indem es einen beschreibenden Text in Musik umwandelt, die die Stimmung, das Tempo und die Instrumentierung widerspiegelt, die der Text vorgibt.
Vorhandene Software: AIVA, MuseNet - Erzeugung von Chorgesang: Konzentriert sich auf die Synthese von realistischen Chorklängen mit Hilfe digitaler Audiotechnologie. Es kombiniert Elemente der Stimmsynthese und der Akustikmodellierung und erzeugt reichhaltige, mehrschichtige Choreffekte aus einzelnen oder mehreren Vokalinputs.
- Performance Analysis: Die Analyse musikalischer Darbietungen beinhaltet das Analysieren von Audioaufnahmen oder Live-Auftritten, um Timing, Dynamik und Ausdruck zu bewerten. Dies hilft beim Verständnis der Leistungspraxis. Im Bildungsbereich verwenden Entwickler sie, um musikalische Trainings- und Feedbacksysteme zu verbessern.
Vorhandene Software: Practice Birds IPM, Yousician - Music Source Separation: Bei diesem Prozess werden einzelne Klänge oder Instrumente aus einer gemischten Audiospur extrahiert. Sie ist von grundlegender Bedeutung bei der Musikbearbeitung, beim Remixen und auch im Bildungsbereich, wo Schüler mit einzelnen Komponenten einer Komposition üben können.
Vorhandene Software: iZotope RX, lalal.ai - Speaker Diarization ermöglicht es, einen Dialog in Segmente zu unterteilen, je nachdem, wann die einzelnen Sprecher sprechen. Es hat wesentliche Anwendungen in der automatischen Transkription von Dialogen.
Vorhandene Software: z.B. Google Cloud Speech-to-Text - Audio-Klassifizierung / Musik-Klassifizierung / Auto-Tagging von Musik / Erkennung von Musikgenres: Diese Prozesse umfassen die Analyse von Audiotracks, um sie nach Genre, Stimmung, Instrumentierung oder anderen Metadaten zu kategorisieren. Dies ist entscheidend für Musikempfehlungssysteme, digitale Bibliotheken und für die Organisation großer Musiksammlungen.
- Mechanical Fault Diagnosis Based on Audio Signal Analysis (MFDA ) beinhaltet die Erkennung mechanischer Fehler in Geräten durch die Analyse von Audiosignalen. Indem sie ungewöhnliche Geräusche oder Vibrationen erkennt, hilft sie bei der vorbeugenden Wartung und Fehlererkennung ohne Demontage. Daher ist diese Aufgabe ein typisches Problem bei der Erkennung von Anomalien, das mit Hilfe von Autoencoder-basierten Architekturen angegangen werden kann.
- Content-based Retrieval: Diese Technik ermöglicht es Benutzern, Multimedia-Inhalte (wie Audio oder Video) anhand des Inhalts selbst und nicht anhand von Metadaten zu finden. Sie nutzt Merkmale, die aus dem Inhalt extrahiert wurden, wie Tempo, Melodie oder Harmonie in der Musik, um die Suche zu ermöglichen.
Vorhandene Software: SoundHound - Voice Cloning: Mit der Technologie des Stimmenklonens werden digitale Nachbildungen der Stimme einer Person anhand von Audio-Samples erstellt. AI Engineers können diese Technik für personalisierte virtuelle Assistenten, barrierefreie Anwendungen und Unterhaltung nutzen.
Vorhandene Software: Respeecher, Descript - Audio DeepFake-Erkennung: Ziel ist die Erkennung des Stimmenklonens, d.h. die Identifizierung und Entschärfung von künstlich erzeugten oder manipulierten Audioclips, die echte Aufnahmen imitieren sollen. Sie ist entscheidend, um Fehlinformation zu bekämpfen und die Authentizität der Kommunikation sicherzustellen.
Vorhandene Software: Pindrop - Audio-Inpainting: Ähnlich des Wiederherstellens fehlender Teile eines Bildes werden beim Audio Inpainting fehlende oder beschädigte Teile eines Audiosignals wiederhergestellt oder rekonstruiert. Es ermöglicht daher, das Hörerlebnis zu verbessern oder bei Projekten zur Audiorestauration zu helfen.
Vorhandene Software: Udio - Audio Super Resolution verbessert die Auflösung eines Audiosignals. Sie verbessert somit die Klarheit und Detailgenauigkeit von Aufnahmen niedriger Qualität auf höhere Auflösungen.
- Audio-Denoising / Audio-Declipping: Diese Techniken werden verwendet, um Audioaufnahmen zu bereinigen, indem Rauschen entfernt und verzerrte Klänge repariert werden. Sie sind für die Nachbearbeitung von Musik und Film sowie für die forensische Audioanalyse von entscheidender Bedeutung.
- Bei der polyphonen Audiobearbeitung werden Audiodaten bearbeitet, die mehrere Töne oder Stimmen gleichzeitig enthalten. Dies ermöglicht komplexe Anpassungen und Manipulationen, die das gesamte Audioerlebnis verbessern können.
Vorhandene Software: Melodyne Studio - Sprachsynthese & Speech-to-Text: Sprachsynthese, auch bekannt als Text-to-Speech (TTS), wandelt Text in gesprochene Sprachausgabe um, während Speech-to-Text den umgekehrten Weg geht und gesprochene Sprache in geschriebenen Text transkribiert. Diese Technologien sind von grundlegender Bedeutung für Hilfsmittel zur Barrierefreiheit, virtuelle Assistenten und automatische Transkriptionsdienste.
Vorhandene Software: z.B. Google Text-to-Speech - Die Sprachidentifikation identifiziert die in einem Audioclip gesprochene Sprache. Diese Aufgabe ist für mehrsprachige Anwendungen, automatische Übersetzungsdienste und globale Kommunikationsplattformen unerlässlich.
- Emotion Recognition: In diesem Bereich geht es um die Analyse von Stimmausdrücken, um emotionale Zustände zu erkennen. Sie wird im Kundenservice, bei Sicherheitssystemen und in der Gesundheitsdiagnostik eingesetzt, um menschliche Emotionen zu bewerten und effektiv darauf zu reagieren.
Vorhandene Software: Beyond Verbal - Sound Event Localization and Detection lokalisiert und identifiziert bestimmte Geräusche in einer Audioumgebung. Sie sind nützlich für die Überwachung, die Beobachtung von Wildtieren und für Smart-Home-Systeme.
Vorhandene Software: Audio Analytic
Auf der technologischen Seite dominiert, ähnlich wie in anderen Bereichen des maschinellen Lernens, das Deep Learning eindeutig diese Bereiche. Die architekturellen Prinzipien der eingesetzten Modelle ähneln denen, die aus der Computer Vision bekannt sind. VAEs, Transfomer und Diffusions- und Flow-Matching-Modelle werden insbesondere für generative Aufgaben verwendet. Im Gegensatz zu Computer-Vision-Aufgaben verwenden wir im Audiobereich jedoch in der Regel Spektrogrammdarstellungen als Eingaben. Bei Bedarf wird oft eine Phasenrekonstruktion beim Postprocessing genutzt, um ein realistisches Audiosignal zu erzeugen.
Die oben genannten Anwendungsfälle unterscheiden sich beträchtlich hinsichtlich der Menge an Forschungs- und Entwicklungsarbeit, die bereits in sie investiert wurde. So haben zum Beispiel Forscher von Spotify und Magenta (Google AI) kürzlich leistungsstarke Modelle im Bereich AMT entwickelt, um Audioaufnahmen für verschiedenste Instrumente zuverlässig zu transkribieren. Auch in den Bereichen TTS und STT hat es in letzter Zeit bedeutende Fortschritte gegeben. Die Synthese von natürlich klingender Stimme und die zuverlässige Transkription von Sprachaufnahmen (z.B. mit OpenAIs Whisper) werden dadurch möglich.
Wie sieht die Zukunft im Bereich Musik und Audio aus? Einerseits sehen wir, dass die obige Liste eine ganze Reihe von Aufgaben enthält, die generative Techniken verwenden. Generative Musik könnte zu einem wichtigen Anwendungsbereich in Branchen wie der Filmindustrie werden. Wir sehen außerdem eine Konvergenz verschiedener Arten von Modalitäten. Das neueste Modell von OpenAI, GPT-4o, akzeptiert zum Beispiel textuelle, visuelle und akustische Eingaben. Der zunehmende Einsatz von Foundation Models in verschiedenen Bereichen des Deep Learning deutet darauf hin, dass Transfer Learning eine entscheidende Rolle bei der Verbesserung von Prediction Tasks in der Audiotechnik spielen könnte. Selbst bei weniger populären Aufgaben ist es daher wahrscheinlich, dass wir die Modellgenauigkeit verbessern und gleichzeitig den Bedarf an Trainingsdaten minimieren können.