Reconocimiento de voz basado en MFCC, SBC y Espectrogramas

Main Article Content

Guillermo Arturo Martínez Mascorro
Gualberto Aguilar Torres

Palabras Clave

Reconocimiento del hablante con cambios en la voz, coeficientes cepstrales en la frecuencia de Mel, parámetros cepstrales basados en sub-banda, espectrograma, máquina de soporte vectorial.

Resumen

Uno de los problemas en los sistemas de reconocimiento automático de hablante son los cambios en la voz. Comúnmente, una persona puede tener cambios voluntarios e involuntarios (también naturales y artificiales) que provocan confusiones en el sistema, los cambios en la voz también pueden ser naturales y artificiales. En el artículo presente se propone un sistema de reconocimiento a través de una identificación en paralelo, usando tres algoritmos: MFCC, SBC y el espectrograma. Empleando una máquina de soporte vectorial como clasificador, cada algoritmo arroja un grupo de personas con las probabilidades más altas y después de una evaluación, se toma una decisión. El objetivo de este artículo es tomar ventaja de los tres algoritmos.
Abstract 0 | PDF Downloads 217

Citas

I. Mporas, T. Ganchev, M. Siafarikas, and N. Fako- takis, “Comparison of speech features on the speech recognition task,” Journal of Computer Science, vol. 3, no. 8, pp. 608–616, 2007.

B. Logan, “Mel frequency cepstral coefficients for music modeling.” in International Symposium on Music Information Retrieval, 2000.

R. Sarikaya and J. H. Hansen, “High resolution speech feature parametrization for monophone- based stressed speech recognition,” Signal Process- ing Letters, IEEE, vol. 7, no. 7, pp. 182–185, 2000.

G. A. Martínez and G. Aguilar, “Sistema para identificación de hablantes robusto a cambios en la voz,” Ingenius, no. 8, pp. 45–53, 2012.

T. Acharya and A. K. Ray, Image processing: prin- ciples and applications. Wiley, 2005.

R. Solera-Urena, J. Padrell-Sendra, D. Martín- Iglesias, A. Gallardo-Antolín, C. Peláez-Moreno, and F. Díaz-De-María, “Svms for automatic speech recognition: a survey,” Progress in nonlinear speech processing, pp. 190–216, 2007.