rapport update

Vincent Timofti · Vincent Timofti · commit d1b38bf480c5 · 2014-06-25T16:49:04.000+02:00
diff --git a/build_db_shazam.py b/build_db_shazam.py
@@ -12,7 +12,7 @@
 if os.path.isfile(current_dir + "/database.sqlite"):
 	os.remove(current_dir + "/database.sqlite")
 
-database = Database()
+database = Database('database.sqlite')
 database.create()
 
 for file in os.listdir(music_dir):
diff --git a/db.py b/db.py
@@ -2,8 +2,8 @@
 
 class Database:
 
-	def __init__(self):
-		self.connection = sqlite3.connect('database.sqlite')
+	def __init__(self, filename):
+		self.connection = sqlite3.connect(filename)
 		self.connection.text_factory = str
 		self.cursor = self.connection.cursor()
 
diff --git a/exp1.py b/exp1.py
@@ -17,15 +17,15 @@
 
 # Music library
 current_dir = os.path.dirname(os.path.abspath(__file__))
-music_dir = current_dir + "/music"
+music_dir = current_dir + "/music_modif1"
 music_list = []
 for file in os.listdir(music_dir):
 	if file.endswith(".mp3"):
 		music_list.append(file)
 
 shaz = Shazam(100)
 
-duration = 0.2
+duration = 2
 
 # pour chaque musique de la bdd on prend 3 extraits
 extracts_k = [1./4, 2./4, 3./4]
diff --git a/rapport/images/shazam4.png b/rapport/images/shazam4.png
diff --git a/rapport/images/shazam5.png b/rapport/images/shazam5.png
diff --git a/rapport/rapport.tex b/rapport/rapport.tex
@@ -206,6 +206,7 @@ \subsection{Couplage des pics}
 \subsection{Construction de la base de donn�es}
 
 Pour chaque musique de notre biblioth�que musicale (100 musiques), nous appliquons les m�thodes pr�c�dentes et extrayons les cl�s, que nous enregistrons dans la base de donn�es. Le processus est r�p�t� 5 fois, tout en faisant varier le seuil d (seuil de distance admissible entre les pics). Nous obtenons pour la m�thode Shazam 5 base de donn�es distinctes :
+\vspace{0.4cm}
 
 \begin{tabular}{|c|c|c|}
 \hline
@@ -222,15 +223,44 @@ \subsection{Couplage des pics}
    5 & 100,2 & 102,8  \\
 \hline
 \end{tabular}
+\vspace{0.4cm}
 
-La construction de la base de donn�es pour 100 musique (et pour une dur�e totale de 8,1 heures de musique) prend entre 12 et 15 minutes.
+La construction d'une base de donn�es pour 100 musique (et pour une dur�e totale de 8,1 heures de musique) prend entre 12 et 15 minutes.
 
-%\emph{italique}
-%\textbf{gras}
-%\begin{itemize}
-%	\item �l�ment 1
-%	\item �l�ment 2
-%\end{itemize}
+\subsection{Efficacit� de la m�thode Shazam}
+
+La premi�re exp�rimentation consiste � prendre 3 extraits de dur�e variable  pour chaque musique de notre biblioth�que musicale et de les tester sur chaque base de donn�es.
+
+\begin{figure}[htbp]
+    \center
+    \includegraphics[width=13cm]{shazam4.png}
+    \caption{Exp�rimentation de la m�thode Shazam sur des extraits non modifi�s}
+    \label{test1shaz}
+\end{figure}
+
+On remarque (\ref{test1shaz}) que notre impl�mentation assure un taux de reconnaissance musicale sup�rieure � 99\% lorsque les extraits sont d'une dur�e sup�rieure � 2 secondes. Ce taux est de 100\% pour des extraits de 5 secondes. Les performances entre les diff�rentes bases de donn�es se valent, mais il est �vident que plus le nombre de cl�s par seconde est grand, plus le taux de reconnaissance le sera aussi.
+\vspace{0.4cm}
+
+Pour la deuxi�me exp�rimentation la biblioth�que musicale est modifi�e de la fa�on suivante : on ajoute � chaque musique du bruit blanc ($\sigma^2=0.005$), de la r�verberation et un applique un passe-haut (fr�quence de coupure : 500 Hz) de fa�on � obtenir un effet microphone. Ces modifications sont r�alis�es avec l'outil en ligne de commande SoX : 
+
+\texttt{sox input\_file.wav ouput\_file.wav highpass 500 reverb whitenoise vol 0.005}
+
+Nous effectuons ensuite des tests identifques � la premi�re exp�rimentation mais sur la biblioth�que modifi�e.
+
+\begin{figure}[htbp]
+    \center
+    \includegraphics[width=13cm]{shazam5.png}
+    \caption{Exp�rimentation de la m�thode Shazam sur des extraits modifi�s}
+    \label{test2shaz}
+\end{figure}
+
+Cette fois-ci (\ref{test2shaz}), on assure un taux de reconnaissance de 100\% lorsque les extraits sont d'une dur�e sup�rieur � 10 secondes (sauf pour la base de donn�e n�1).
+\vspace{0.4cm}
+
+De ces deux exp�rimentations nous pouvons choisir un nombre de cl�s par seconde satisfaisant pour la construction de la base de donn�es. La base de donn�es n�1 (22,6 cl�s/seconde) est exclue, car on remarque que sa courbe de taux de reconnaissance se d�marque trop des autres. Les autres bases ont des performances semblables, et comme le poids de la base de donn�es est important (il faut imaginer une application r�elle avec une biblioth�que musicale comportant des millions de titres), on choisit la base la plus l�g�re : la base n�2 (39,6 cl�s/seconde).
+\vspace{0.4cm}
+
+En conclusion, le valeur de \textbf{40 cl�s par seconde} semble �tre un bon compromis pour la construction d'une base de donn�e avec la m�thode Shazam
 
 
 \end{document}
diff --git a/shazam.py b/shazam.py
@@ -11,10 +11,15 @@ def __init__(self, max_distance, window_size = 1024, frame_duration = 5):
 		self.min_real = 0.0000000001
 		self.max_distance = max_distance
 
-	def processTrack(self, wavdata):
+	def processTrack(self, wavdata, forced_lenght = -1):
 
 		fs = wavdata.getframerate()
-		track_size = wavdata.getnframes()
+
+		if forced_lenght == -1:
+			track_size = wavdata.getnframes()
+		else:
+			track_size = forced_lenght
+
 		frame_size = fs * self.frame_duration
 		frame_number = int(track_size / frame_size)
 		total_pairs = []
@@ -39,7 +44,6 @@ def processTrack(self, wavdata):
 
 		return total_pairs
 
-
 	def spectrogram(self, x):
 
 		window_number = int((x.size - self.window_size) / self.hop)