Benutzer-Werkzeuge

Webseiten-Werkzeuge


ss16:musik-erkennung

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
ss16:musik-erkennung [2016/09/20 00:13]
burgshrimps [Datenverarbeitung mittels Short-Time Fourier Transform]
ss16:musik-erkennung [2016/09/30 11:32] (aktuell)
zoppl [Verlauf]
Zeile 1: Zeile 1:
 +===== BEMERKUNGEN ZUR VERBESSERUNG =====
 +
 +Ich würde mir vor der Darstellung der einzelnen Teile
 +des Programms noch einen Abschnitt wünschen, der insgesamt
 +erklärt, was jetzt kommt und wie es zusammengehört,​
 +auch gerne mit einem Bildchen. Man sollte immer an Leser
 +denken, die wenig davon wissen.
 +
 +Im Abschnitt zur STFT fände ich es gut,  die Problemstellung ​
 +aus dem Quest  noch weiter auszuarbeiten,​ um Lesern, die keine Ahnung davon
 +haben, einen Begriff von der Schwierigkeit bekommen, Eigenschaften
 +von Musikstücken zu finden, die relativ robust sind
 +gegen Störungen. ​ (Ein Text, der die Lösungen eines technischen
 +oder wissenschaftliches Problem beschreibt, ist dann besonders
 +lesbar, wenn nicht nur erkennbar ist, dass, sondern auch warum
 +dieses oder jenes zur Lösung beiträgt. Hier wäre etwa STFT
 +(zusammen mit dem nachgelagerten Fingerprinting,​ das ihr 
 +gut dokumentiert habt) als Antwort auf das geschilderte
 +Problem erkennbar. Es ist auch schön, wenn der Leser selbst
 +nachdenkt, um welche Merkmale es gehen könnte, bevor 
 +er die Antwort bekommt. Bzw. die Leserin.)
 +
 +Die Planung und der Verlauf lässt sich gut am Logbuch studieren.
 +Ich wünsche mir aber, wieder für einen Leser, der
 +sich informieren will, eine -- kurze -- Erzählung des Verlaufs ​
 +des Projekts. (Auch: wo es hing.)
 +
 +Und es fehlt noch ein (kurzes) Fazit, z.B. auch eine Skizze,
 +wie es weiter gehen könnte.
 +
 ====== Musik-Erkennung ====== ====== Musik-Erkennung ======
  
Zeile 38: Zeile 68:
 Die Kette würde also so aussehen: Die Kette würde also so aussehen:
 Der Dirigent macht Bewegungen. Aus diesen wird ein Lied abgeleitet. Dieses wird aufgenommen und dann analysiert und der Titel angegeben. Möglicherweise könnte man so aus den Bewegungen des Dirigenten den Namen des Titels ausgeben. Der Dirigent macht Bewegungen. Aus diesen wird ein Lied abgeleitet. Dieses wird aufgenommen und dann analysiert und der Titel angegeben. Möglicherweise könnte man so aus den Bewegungen des Dirigenten den Namen des Titels ausgeben.
 +
 +==== wichtige Bestandteile des Programms ====
 +
 +Im Folgenden werden die Basis-Funktionen des Programms erläutert. Diese bestehen aus:
 +
 +  -  der Umwandlung einer Audiodatei in eine Zahlenfolge,​ mit der dann weiter gearbeitet/ gerechnet werden kann;
 +  -  der weiteren Umwandlung dieser Daten mittels Short-Time-Fourier-Transformation. Dieses Verfahren wird benötigt, um aus dem Song den Frequenzbereich zeitabhängig zu bestimmen;
 +  -  dient der Veranschaulichung und kann sehr hilfreich für das Verständnis der Vorgänge sein: das Erstellen eines Spektrogramms,​ darüber hinaus wird das fingerprinting (wird anschließend vorgestellt) in unserem Programm mit dem Spektrogramm umgesetzt;
 +  -  Audio-fingerprinting,​ d.h. markante/​charakteristische Punkte aus dem fourier-transformierten Datensatz erkennen/ filtern, wird hier mit dem Bild des Spektrogramms erstellt;
 +  -  Erstellen einer Datenbank, Sammeln der Daten für den späteren Vergleich;
 +  -  der Vergleich, letztendlich der entscheidene Schritt, um zu testen, ob ein aktuell abgespieltes Lied mit einem aus der Datenbank übereinstimmt. Hier ist die Vergleichsfunktion aufgetragen,​ vorher durchläuft das abgespielte Lied erstmal die ersten 4 Schritte, dann werden die beiden Datensätze mit der genannten Funktion verglichen
  
 ==== Einlesen von Audio-Dateien ==== ==== Einlesen von Audio-Dateien ====
Zeile 90: Zeile 131:
 ==== Datenverarbeitung mittels Short-Time Fourier Transform ==== ==== Datenverarbeitung mittels Short-Time Fourier Transform ====
  
-Die Short-Time Fourier Transformation ist eine Art der Fourier Transformation,​ um die zeitliche Änderung des Frequenzspektrums eines zum Beispiel Audiosignals darzustellen. Das eingelesene Audiosignal wird hier in einen Datensatz umgewandelt,​ welcher später als Spektrogramm geplottet werden kann.+Die Short-Time Fourier Transformation ist eine Art der Fourier Transformation,​ um die zeitliche Änderung des Frequenzspektrums eines zum Beispiel Audiosignals darzustellen. Das eingelesene Audiosignal wird hier in einen Datensatz umgewandelt,​ welcher später als Spektrogramm geplottet werden kann. Durch ermitteln der Frequenzen können einzelne Instrumente und charakteristische Punkte im Lied gefunden werden. Dies wird im Abschnitt fingerprinting weiter erläutert
 <code python> <code python>
 """​ Short-Time Fourier Transformation """​ """​ Short-Time Fourier Transformation """​
Zeile 127: Zeile 168:
  
 Spektrogramme dienen dem Zweck ein Frequenzspektrum bildlich darzustellen. Bei der Arbeit mit Audiosignalen kann an einem Spektrogramm die jeweilige Intensität der verschiedenen Frequenzen abgelesen werden. ​ Spektrogramme dienen dem Zweck ein Frequenzspektrum bildlich darzustellen. Bei der Arbeit mit Audiosignalen kann an einem Spektrogramm die jeweilige Intensität der verschiedenen Frequenzen abgelesen werden. ​
 +
 +(ein Spektrogramm ist im Abschnitt Audio-fingerprinting zu sehen)
 +
  
 <code python> <code python>
Zeile 160: Zeile 204:
  
 Ein "​Audio-Fingerprint"​ ist, ähnlich wie der Fingerabdruck eines Menschen, eine Möglichkeit einer Audiodatei eine eindeutige Identität zuzuordnen. Zur schlussendlichen Erkennung eines Musikstückes ist daher eine Möglichkeit dieses anhand bestimmter Merkmale zu identifizieren von großer Bedeutung. ​ Ein "​Audio-Fingerprint"​ ist, ähnlich wie der Fingerabdruck eines Menschen, eine Möglichkeit einer Audiodatei eine eindeutige Identität zuzuordnen. Zur schlussendlichen Erkennung eines Musikstückes ist daher eine Möglichkeit dieses anhand bestimmter Merkmale zu identifizieren von großer Bedeutung. ​
-Zunächst werden im Spektrogramm lokale Maxima gesucht, Punkte, welche für die weitere Bearbeitung interessant scheinen. ​+Zunächst werden im Spektrogramm lokale Maxima gesucht, Punkte, welche für die weitere Bearbeitung interessant scheinen. Diese befinden sich dort, wo starke Farbunterschiede zwischen benachbarten Punkten auftreten, wie im Bild zu erkennen. Das heißt also Punkte, an denen ein abrupter Sprung in der Intensität entweder zeitlich (vertikaler Peak) oder die Frequenz betreffend (horizontal) auftritt. An dieser Stelle ist es sehr spannend, wodurch diese Peaks entstehen. Denn diese sollen ein Lied ja anscheinen charakterisieren. Also was könnte an einem Lied so charakteristisch sein und enstprechende Peaks im Spektroskop hervorrufen?​ Vertikale Peaks entstehen durch kurze Impulse mit einem großen Frequenzbereich,​ also vor Allem durch das Schlagzeug, horizontale Peaks sind längere Töne auf einer Frequenz, also durch andere Instrumente hervorgerufen. Diese Charakteristika werden anschließend in Form von ausgewählten charakteristischen Punkten verarbeitet.
 {{ :​ss16:​spectrogram_peaks.png?​nolink&​400 |}} {{ :​ss16:​spectrogram_peaks.png?​nolink&​400 |}}
  
Zeile 174: Zeile 218:
 </​code>​ </​code>​
  
-Jedoch ist es auf Grund der Fülle von Liedern nicht gerade unwahrscheinlich,​ dass zwei oder mehr Lieder gleiche lokale Maxima in ihren Spektrogrammen aufweisen. Mittels einer sogenannten "​Hash-Funktion"​ wird dieses Problem gekonnt umgangen. Eine Hash-Funktion nimmt einen Integer-Wert als Input und gibt einen anderen Integer-Wert als Output zurück. ​+Jedoch ist es auf Grund der Fülle von Liedern nicht gerade unwahrscheinlich,​ dass zwei oder mehr Lieder gleiche lokale Maxima in ihren Spektrogrammen aufweisen. Mittels einer sogenannten "​Hash-Funktion"​ wird dieses Problem gekonnt umgangen. Eine Hash-Funktion nimmt mehrere ​Integer-Werte als Input und gibt einen anderen Integer-Wert als Output zurück. ​
 So z.B. können aus den Frequenzen unserer lokalen Maxima und deren zeitlicher Abstand zueinander als Input ein eindeutiger Audio-Fingerprint erstellt werden. ​ So z.B. können aus den Frequenzen unserer lokalen Maxima und deren zeitlicher Abstand zueinander als Input ein eindeutiger Audio-Fingerprint erstellt werden. ​
 {{ :​ss16:​spectrogram_zoomed.png?​nolink&​300 |}} {{ :​ss16:​spectrogram_zoomed.png?​nolink&​300 |}}
Zeile 202: Zeile 246:
 ==== Eine Datenbank erstellen (lite) ==== ==== Eine Datenbank erstellen (lite) ====
  
-Unser erster Gedanke war es eine kleine Datenbank zu erstellen, welche Informationen zu Song, Album, Künstler, Genre und vor allem den Fingerprint Hash beinhaltet. Diese sollte auf Basis von SQL Lite entstehen. Da wir uns zum Ende des Semesters eingestehen mussten, dass eine Datenbank von mehreren 100 Songs eher unnötig ist, vor allem andere Teile des Programms bedürfen zuerst einer Optimierung,​ werden die aktuell eingelesenen Titelnamen der Fingerprints mittels Pickle in einer Textdatei gespeichert. Die einzelnen Fingerprints jedes einzelnen Songs befinden sich in einer jeweils eigenen Textdatei. Diese können dann später beim Vergleichen von Audiosignalen nacheinander aufgerufen werden.+Unser erster Gedanke war es eine kleine Datenbank zu erstellen, welche Informationen zu Song, Album, Künstler, Genre und vor allem den Fingerprint Hash beinhaltet. Diese sollte auf Basis von SQL Lite entstehen. Da wir uns zum Ende des Semesters eingestehen mussten, dass eine Datenbank von mehreren 100 Songs eher unnötig ist, vor allem andere Teile des Programms bedürfen zuerst einer Optimierung,​ werden die aktuell eingelesenen Titelnamen der Fingerprints mittels Pickle in einer Textdatei gespeichert. Pickle ist eine Funktion, die Dateien mit verschiedenem Inhalt (Zahlen, Buchstaben, Vektoren, ...) deutlich komprimiert speichern kann, und diese auch leicht wieder aufrufen kann. Die einzelnen Fingerprints jedes einzelnen Songs befinden sich in einer jeweils eigenen Textdatei. Diese können dann später beim Vergleichen von Audiosignalen nacheinander aufgerufen werden.
 Momentan besteht unsere Datenbank.txt Datei nur aus den Songs des Albums "​AM"​ von den Arctic Monkeys: Momentan besteht unsere Datenbank.txt Datei nur aus den Songs des Albums "​AM"​ von den Arctic Monkeys:
  
Zeile 220: Zeile 264:
 </​code>​ </​code>​
  
-Ein Fingerprint eines einzelnen Songs sieht in etwa so aus (nur die ersten paar Zeilen, da die komplette Datei den Rahmen dieses Wikis sprengen würde, etwa 6MB an Text):+Ein Fingerprint eines einzelnen Songs ist eine Aneinanderreihung von Zahlenpaaren,​ die die Hash-Zahl und die Zeit enthalten (Hash-Zahl, Zeit), (Hash-Zahl, Zeit),... Nach dem Durchlaufen von Pickle ​sieht das in etwa so aus (nur die ersten paar Zeilen, da die komplette Datei den Rahmen dieses Wikis sprengen würde, etwa 6MB an Text):
  
 <​code>​ <​code>​
Zeile 274: Zeile 318:
 </​code>​ </​code>​
  
 +
 +==== Verlauf ====
 +
 +In den ersten Wochen wurde die grobe Syntax zum Projekt erarbeitet und sich in die Materie eingelesen. Dazu hatten wir unter Anderem einen Auszug aus dem Patent von Shazam. Auch hat uns eine Internetseite (der Fingerprint-Link in den Quellen) geholfen, das Prinzip grundlegend zu verstehen. Danach wurden die Arbeitsschritte definiert und weitgehend nacheinander abgearbeitet. Das lief einigermaßen flüssig. Größere Probleme traten bei der Fourier-Transformation auf, da dieses mathematische Verfahren sehr zeitraubend ist und daher nach einigen Optimierungen gesucht werden musste. Gegen Ende hat sich daher ein Teil der Gruppe mehr mit dem Fingerprinting,​ der andere Teil mehr mit dem Erstellen der Datenbank beschäftigt. Diese parallele Arbeit hat etwas Zeit gespart, die bei der STFT verloren ging. Als letzter Schritt wurde der Vergleich in der letzten Woche und bis in die Vorlesungsfreie Zeit programmiert.
 +
 +Eine genauere Beschreibung der Arbeitsschritte ist im Logbuch enthalten
 ==== Logbuch ==== ==== Logbuch ====
  
 [[Logbuch]] [[Logbuch]]
 +
 +
 +==== Fazit ====
 +
 +Auch wenn die Ziele aus dem Bonus-Bereich offensichtlich (und vorhersehbar) zu hoch gesteckt waren, und es auch nicht zu einer Analyse einzelner Instrumente oder Teile dieser reichte, lässt sich rückblickend doch sagen, dass das Ziel im Kern erreicht wurde und ein sehr zufriedenstellendes Ergebnis entstanden ist. Das Programm funktioniert,​ es macht Spaß, zuzusehen wie es die Lieder erkennt, bisher besteht bei geringen Störgeräuschen eine 100%-Quote. Bei hohen Störgeräuschen gibt es Probleme, diese haben Apps wie Shazam, etc. aber auch! An der Schnelligkeit der Berechnung könnte noch gefeilt werden. Ein Abgleich mit unserer 12 Lieder großen Datenbank dauert an die 2 Minuten, das ist natürlich nicht sher komfortabel. Dies kann mit Verbesserungen der Fourierfunktion und der Vergleichsfunktion noch reduziert werden und ist bereits in Bearbeitung. Daran weiter zu arbeiten ist die Aussicht unseres Projektes.
ss16/musik-erkennung.1474323182.txt.gz · Zuletzt geändert: 2016/09/20 00:13 von burgshrimps