|

Alex
Soletto
 |
Depois de HAL, o cérebro eletrônico
que atua como personagem no filme 2001: uma odisséia no espaço,
a imagem do que seria o computador do século XXI nunca mais
foi a mesma. Gigantesco ou portátil, ameaçador ou cúmplice,
não importa. No imaginário de quem assistiu à obra-prima de
Stanley Kubrick, ou viu algum episódio da série Jornada nas
estrelas ou ainda o desenho animado Os Jetsons
, as máquinas do futuro têm pelo menos algo em comum:
elas falam ou decifram a voz humana. Os computadores tagarelas
há muito estão presentes nos laboratórios de pesquisa do mundo
inteiro. Seu uso em geral está relacionado à segurança. Por
serem únicas em cada ser humano, a voz, a impressão digital
e a íris do olho funcionam como uma espécie de senha biológica
para acesso a ambientes e documentos de uso restrito. Nos aviões-caça
Mirage alguns dos comandos já são acionados pela voz do piloto,
especialmente nas manobras que demandem o uso das duas mãos.
O maior entrave para que os sistemas de reconhecimento de voz
chegassem ao dia-a-dia dos consumidores sempre esteve no custo
dos equipamentos. É preciso ter uma máquina e tanto para interpretar
os sons emitidos pelas cordas vocais humanas e transformá-los
em sinais elétricos compreensíveis pelos aparelhos digitais.
Tudo em questão de segundos. Cinco anos atrás, um equipamento
desses podia custar até US$ 20 mil. Foi apenas recentemente
que um PC capaz de realizar tamanha montanha de cálculos matemáticos
barateou o suficiente para entrar nas empresas e nas residências.
Era o passo que faltava para os gurus da tecnologia colocarem
em prática suas idéias, lançando produtos para conversar com
o micro, acionar eletrodomésticos e telefones celulares no grito,
literalmente.
As novidades
em aparelhos e serviços acionados pela voz tendem a pipocar
nos próximos meses. Depois de um ano de trabalho, a IBM finalmente
lança este mês o programa para reconhecer palavras em português
e compreender comandos básicos como salvar, imprimir ou abrir
tal documento. O Via Voice ainda tem uma terceira função,
chamada síntese da fala, que é a capacidade de o computador
reproduzir um texto pré-selecionado em linguagem oral. Essa
função é especialmente importante para deficientes visuais,
como é o caso dos correntistas do Bradesco que acessam seu
extrato pelo computador. O programa custa R$ 280, tem um vocabulário
de 60 mil palavras e está adaptado a nove idiomas, entre os
quais inglês americano e britânico, francês, chinês e espanhol.
Resultado de pesquisas conduzidas pela IBM desde a década
de 50, o programa ainda mantém traços arcaicos. Antes de usá-lo,
é preciso treinar o computador com o timbre de sua voz. Significa
passar pelo menos meia hora lendo textos em voz alta, lembrando
de mencionar cada vírgula, parágrafo ou ponto de exclamação.
Além da IBM, outras empresas possuem sistemas semelhantes,
como a Dragon Systems e a Philips. Nenhuma delas tem planos
imediatos de traduzir seus produtos para o português.
Microondas Mas a
idéia não é restringir o uso desse tipo de programa aos computadores e sim estender o
reconhecimento de voz a outros aparelhos eletrônicos. Aí entra tudo aquilo que a
imaginação puder alcançar. "A indústria de tecnologia estuda como tornar
sensíveis aos comandos da voz humana outros aparelhos como o forno de microondas, o
carro, o computador de bolso e o celular", revela Jean-Marc Langé, coordenador da
divisão de voz da IBM para América Latina. A coreana Samsung foi uma das mais ágeis em
oferecer no Brasil um celular que responde aos comandos de voz, desde que antes o aparelho
se acostume com o timbre da voz de seu dono. Depois disso, basta dizer o nome de alguém
que conste da agenda e o celular faz a ligação automaticamente. Incrementos como esse
pouco a pouco devem equipar os aparelhos de uso corriqueiro. Na realidade, o que se
pretende é inverter a cadeia de prioridades da indústria, que demorou tempo demais para
descobrir que não é o homem que deve sucumbir ao funcionamento das máquinas, e sim o
contrário. O primeiro a hastear a bandeira de mea-culpa foi o americano Michael
Dertouzos, que há 25 anos dirige o Laboratório de Ciência da Computação do
prestigiado Instituto de Tecnologia de Massachusetts, o MIT. "Nos primeiros 40 anos
da ciência da computação, estivemos preocupados em adaptar a tecnologia àquilo que as
máquinas querem", escreveu Dertouzos em artigo para a revista Scientific American.
Dertouzos é um dos 30 pesquisadores do MIT responsáveis pela elaboração do Oxygen,
projeto de pesquisa que em cinco anos promete apresentar equipamentos e programas tão
fáceis de acessar quanto "o ar que se respira", nas palavras de Dertouzos.
"A linguagem falada é a forma natural
de o homem interagir com o mundo e a tendência é ter cada vez mais aparelhos
eletrônicos controlados por voz, eliminando assim o mouse e o teclado", diz Plínio
Almeida Barbosa, professor de Linguística do Instituto de Estudo da Linguagem da
Universidade de Campinas, a Unicamp. Mesmo sem o mesmo orçamento e com apenas a sombra da
infra-estrutura do MIT, os pesquisadores da Unicamp debruçam-se desde 1994 sobre as
particularidades da língua portuguesa. Hoje a universidade tem um dos mais elogiados
sistemas de reconhecimento e síntese de fala humana do País. São 239 mil palavras
cadastradas num banco de dados único, incluindo aí as conjugações verbais e mil
exceções gramaticais. Criar um sistema de reconhecimento de voz não é tarefa simples.
Não adianta transferir o conteúdo do dicionário para o computador. "É preciso
repetir as mesmas palavras com diferentes sotaques, dialetos e pronúncias regionais para
que o índice de acerto seja razoável", explica Fábio Violare, professor-titular do
laboratório de processamento digital de fala da Unicamp. "Para ser produtivo, um
sistema de reconhecimento de voz deve acertar pelo menos 95% das palavras ditadas em fala
contínua", alerta Violare. Hoje o maior desafio da indústria de alta tecnologia é
aumentar o índice de acerto e assimilar as variações da voz ora anasalada por
conta de uma gripe, ora afônica depois de uma comemoração na véspera.
Embora ainda tenham falhas, os sistemas de
reconhecimento da fala já foram adotados como atendentes virtuais das companhias
telefônicas e empresas aéreas nos EUA e na Europa. Em vez de digitar o ramal, basta
dizer, no bocal do telefone, o nome do departamento ou da pessoa chamada. Serviços como
esse tendem a proliferar. Quem garante é Craig Barrett, presidente da Intel, maior
fabricante de chips para computadores. Em recente visita ao Brasil, ele apresentou aquilo
que a Intel prevê ser a realidade para 2003. Em vez de teclado, Barrett checou sua caixa
postal e ditou mensagens eletrônicas usando apenas as cordas vocais. O computador, numa
eficiente voz sintetizada de mulher, respondia a tudo, lembrando o atarefado executivo dos
compromissos que teria durante o dia, para quem deveria telefonar ou, last but not
least, não se esquecer de mandar flores para a esposa. |