Reconhecimento de Voz
 
 

VOX - Sistema de Reconhecimento de Voz baseado em Redes Neurais

 

Projeto Participante de 13ª MOSTRATEC, Mostra Internacional de Ciência e Tecnologia das Escolas Técnicas de 2º Grau, com o projeto VOX - Sistema de Reconhecimento de Voz Baseado em Redes Neurais, realizada no período de 17 a 21 de novembro de 1998.

Ganhador do prêmio "Intel Excellence in Computer Science Award"
2º Lugar na categoria de Ciência da Computação
 
 

Autores

Francisco Socal
Leandro Motta Barros
Rafael de Figueiredo
 

Resumo

No início de 1998 nos deparamos com algoritmos de inteligência artificial e métodos para implementá-la. Ficamos surpresos com o poder e simplicidade com que sistemas utilizando lógica fuzzy e redes neurais lidam com problemas complexos. Desta maneira percebemos que utilizando inteligência artificial poderíamos desenvolver um sistema controlado pela maneira mais simples e intuitiva: a voz.

É importante lembrar que, de acordo com especialistas, a voz será a melhor maneira dos homens interagirem com máquinas.  Contudo, há um grande desafio atualmente no que diz respeito à implementação de um sistema de reconhecimento de voz que rode em um computador pessoal comum e ao mesmo tempo alcance patamares de qualidade e eficiência. Este projeto busca a pesquisa de um método de tratamento e reconhecimento de voz que possa ser aplicado a um programa para o computador.

 Nossos estudos iniciais nos levaram a dividir o problema em três partes distintas. A primeira é a digitalização da voz através de um microfone conectado à placa de som do computador. A segunda consiste no pré-processamento do sinal de voz a fim de tornar o processo de reconhecimento mais fácil e simples. O processo de reconhecimento em si é feito na terceira e última parte.

O primeiro passo foi o desenvolvimento de rotinas que realizam a aquisição do sinal de voz através de qualquer placa de som corretamente instalada e configurada sob o ambiente Windows.  Na segunda etapa, criamos o algoritmo necessário para a criação de espectrogramas, uma maneira gráfica de representar a voz em função, simultaneamente, do tempo e das freqüências. Quanto à inteligência artificial, responsável pelo reconhecimento propriamente dito, utilizamos redes neurais, uma maneira interessante de representar e simular o funcionamento do cérebro humano.  Através de um algoritmo que, a partir de exemplos de espectrogramas, ajusta corretamente a rede, treinamos a rede neural. Desta maneira a rede foi capaz de reconhecer espectrogramas levemente distorcidos e diferentes dos exemplos obtidos, realizando assim o reconhecimento da voz.

Com a pesquisa que realizamos até o momento percebemos que há muito mais fatores por trás do reconhecimento de voz em relação ao que tínhamos considerado inicialmente. Conseguimos, porém, excelentes resultados, atingindo índices de acerto muito próximos de 100% para um vocabulário pequeno e para um mesmo locutor. O sistema desenvolvido não é perfeito do ponto de vista que pode-se explorar um vocabulário maior ou até mesmo vários locutores, mas esperamos estar contribuindo para que um dia o comando pela voz seja uma realidade.
 



 
 

LaPSI - Laboratório de Processamento de Sinais




Trata-se de um dos laboratórios do Departamento de Engenharia Elétrica (DELET) da Universidade Federal do Rio Grande do Sul (UFRGS). Lá, o reconhecimento de voz foi primeiramente abordado pela tese de mestrado do Engenheiro Joel Augusto Luft, em 1994. Em sua tese, o engenheiro propôs um sistema de reconhecimento de voz, idependente de locutor para palavras isoladas. òtimos resultados foram obtidos, tanto é que de lá para cá  muito já foi desenvolvido pela equipe do laborátorio em base dos algoritmos por ele desenvolvidos.

Atualmente, o laboratório pesquisa o reconhecimente de locutor, visando identificar não o que está sendo dito, mas quem está falando. Como resultado prático, a porta que dá acesso ao laboratório já é comandada pela voz, com um detalhe: ela só é aberta, se apessoa estiver autorizada a entrar.

Para maiores informações, inclusive videos demonstrativos de um elevador comandado pela voz, visite o site do LaPSI. Não há um endereço definido ainda, mas pode-se chegar até ela através do site da instrumentação, www.iee.ufrgs.br, e procurar pelo link. Ou ainda, em breve, pela página do departamento, www.eletro.ufrgs.br.