Reconocimiento de voz basado en MFCC, SBC y Espectrogramas

Voice recognition based on MFCC, SBC and Spectrograms

Guillermo Arturo Martínez Mascorro, Gualberto Aguilar Torres

Resumen


Uno de los problemas en los sistemas de reconocimiento automático de hablante son los cambios en la voz. Comúnmente, una persona puede tener cambios voluntarios e involuntarios (también naturales y artificiales) que provocan confusiones en el sistema, los cambios en la voz también pueden ser naturales y artificiales. En el artículo presente se propone un sistema de reconocimiento a través de una identificación en paralelo, usando tres algoritmos: MFCC, SBC y el espectrograma. Empleando una máquina de soporte vectorial como clasificador, cada algoritmo arroja un grupo de personas con las probabilidades más altas y después de una evaluación, se toma una decisión. El objetivo de este artículo es tomar ventaja de los tres algoritmos.

Palabras clave


Reconocimiento del hablante con cambios en la voz; coeficientes cepstrales en la frecuencia de Mel; parámetros cepstrales basados en sub-banda; espectrograma; máquina de soporte vectorial.

Texto completo:

PDF

Referencias


I. Mporas, T. Ganchev, M. Siafarikas, and N. Fako- takis, “Comparison of speech features on the speech recognition task,” Journal of Computer Science, vol. 3, no. 8, pp. 608–616, 2007.

B. Logan, “Mel frequency cepstral coefficients for music modeling.” in International Symposium on Music Information Retrieval, 2000.

R. Sarikaya and J. H. Hansen, “High resolution speech feature parametrization for monophone- based stressed speech recognition,” Signal Process- ing Letters, IEEE, vol. 7, no. 7, pp. 182–185, 2000.

G. A. Martínez and G. Aguilar, “Sistema para identificación de hablantes robusto a cambios en la voz,” Ingenius, no. 8, pp. 45–53, 2012.

T. Acharya and A. K. Ray, Image processing: prin- ciples and applications. Wiley, 2005.

R. Solera-Urena, J. Padrell-Sendra, D. Martín- Iglesias, A. Gallardo-Antolín, C. Peláez-Moreno, and F. Díaz-De-María, “Svms for automatic speech recognition: a survey,” Progress in nonlinear speech processing, pp. 190–216, 2007.




DOI: http://dx.doi.org/10.17163/ings.n10.2013.02

Copyright (c) 2016 Universidad Politécnica Salesiana

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.

INDIZACIONES PRINCIPALES

   Resultado de imagen para logo redib logo

   

© 2017, Universidad Politécnica Salesiana del Ecuador