Tese de Doutoramento:

"Modelos do Sistema Auditivo Periférico no Reconhecimento Automático de Fala"

Fernando S. Perdigão
Coimbra, Junho 1998


Resumo

O trabalho de investigação documentado nesta dissertação insere-se no estudo da representação de sinais de fala com base auditória e a sua aplicação em sistemas de reconhecimento automático da fala.
Os primeiros capítulos da tese são dedicados ao estudo e caracterização das várias etapas da sistema auditivo periférico desde o ouvido externo até ao nervo coclear. São assim analisados e desenvolvidos modelos do ouvido externo, da cóclea e das fibras do nervo coclear. Este estudo conduz à definição de um sistema de análise de sinais que inclui as principais características do sistema auditivo. Este sistema de análise é composto por um banco de filtros que simula a cóclea e por modelos das fibras do nervo coclear associados a cada canal do banco de filtros. Vários esquemas de bancos de filtros e modelos de fibras são considerados e integrados num reconhecedor automático de fala, baseado em modelos de Markov não observáveis, a fim de se poder comparar os méritos relativos da representação auditiva face a sistemas de análise de sinais convencionais.
Seguidamente é abordada a representação de sinais de fala ao nível do nervo coclear e do núcleo coclear. São caracterizados aspectos da representação com base na taxa média de disparos que contribuem para uma codificação robusta do espectro acústico face a distorções dos sinais, nomeadamente ruído aditivo e convolucional. É proposto um sistema de análise de sinais de baixa complexidade computacional que integra as características essenciais dos modelos auditivos mais complexos.
Finalmente é definida uma tarefa de reconhecimento de dígitos isolados onde se comparam vários modelos e sistemas de análise e se analisa a capacidade de generalização e de robustez da representação com base auditiva e onde são mostradas as vantagens em utilizar uma representação com base auditória.


Abstract

The aim of this thesis is the study of speech signal representations with an auditory basis and their application in automatic speech recognition systems.
The first chapters address the characterisation of the auditory pathway from the external ear to the cochlear nerve. Models of the external, middle and inner ear (cochlea) as well as models of the functioning of cochlear nerve fibres are analysed and developed.  This study leads to the definition of a signal analysis system that includes the main characteristics of the auditory periphery. This analysis system is composed by a filter bank that simulates the cochlea operation and by models of nerve fibres associated with each filter bank channel. Several filter bank and fibre model schemes are considered and integrated with an automatic speech recognizer, based on hidden Markov models, in order to evaluate the relative advantages of the auditory representation compared with more conventional speech analysis techniques.
Nest, we next address the speech signal representation at the level of cochlear nerve and cochlear nucleus. Several aspects of the representation based on the fibresí mean discharge rate that contribute to a robust coding of acoustical spectrum against distortions, namely additive and convolutional noise, are characterised. A  low computational complexity analysis system is proposed integrating the main characteristics of more complex auditory models.
Finally, an isolated digit recognition task is defined for the comparison of several models and analysis systems. The generalisation capability and robustness of the auditory representation is analysed and the advantages of using such representation are enlightened.


Capítulo 0 - Resumo, Índice, Lista de Figuras (ps / pdf)
Capítulo 1 - Introdução (ps / pdf)
Capítulo 2 - Modelos Cocleares (ps / pdf)
Capítulo 3 - Modelos Auditivos Computacionais (ps / pdf)
Capítulo 4 - Modelos das Células Ciliadas Internas e das Fibras do Nervo Coclear (ps / pdf)
Capítulo 5 - Representação dos sinais de fala no sistema auditivo (ps / pdf)
Capítulo 6 - Experiências com reconhecimento de dígitos (ps / pdf)
Capítulo 7 - Conclusão (ps / pdf)
Apêndice  - (ps / pdf)
Bibliografia (ps /pdf)
 

Voltar à Página Principal