Sistemas de reconhecimento de voz já são bons o suficiente?

Lamont Wood, para o Computerworld*
25 de maio - 14h56 - Atualizada em 25 de maio - 16h24
Framingham - Empresas admitem que o sistema de reconhecimento de voz Dragon Naturally Speaking não eliminará totaltamente o uso do teclado.

Notícias Relacionadas

“Para mim é um salva-vidas”, diz Paul Langer, advogado de um escritório de Chicago. “Eu nunca aprendi a digitar”, explica. Sua alternativa para o teclado é o sistema de reconhecimento de voz (SR, da sigla em inglês), neste caso o Dragon Naturally Speaking (DNS) da Nuance Communications.

Agora na versão 9.0, o sistema lançado uma década atrás marcou o nascimento dos sistemas de reconhecimento contínuo de voz – antes dele, esse tipo de sistema requeria que o usuário fizesse uma pausa entre as palavras.

Mas os problemas com precisão da transcrição e a necessidade de perder cerca de uma hora no processo de registro para treinar o software na voz do usuário fizeram com que a digitação não se tornasse obsoleta nesse período. Entretanto, é preciso admitir que as coisas mudaram.

“Eu não sei dizer quão preciso eles são, mas se não fossem bons o suficiente, eu teria voltado à digitação”, diz Peter Laipson, usuário da versão 9.0 do DNS que, ao contrário de Langer, digita com bastante rapidez.

“Eu uso esse tipo de software para quase todo o meu trabalho de avaliação de notas”, afirma Laipson, um professor de História de Massachusetts. “Eu dito os comentários em partes relevantes de um ensaio e faço um resumo no final. Com o Dragon, uso cerca de 60% do tempo que teria de gastar com o papel”, afirma.

Ele não diz que o sistema tenha 100% de precisão, mas afirma que funciona mesmo com textos que tenham uma série de gírias, e relembra um período em que esses softwares, ao ouvirem a frase “I really admire your analysis", reproduziam como "I really admire urinalysis."

“Ajuda a manter uma certa dose de bom humor, mas é algo que uma simples revisão pode corrigir”, diz Laipson.
++++
Na verdade, manter o bom humor é importante por uma série de razões quando se trata de sistemas de reconhecimento de voz. Em 1993, dois executivos da Kurzweill Applied Intelligence (que lançaram de forma pioneira o SR no Mercado médico) foram para a prisão por falsificação.

A empresa foi vendida em 1997 para uma companhia belga, a Lernout and Hauspie (L&H), que reportou um crescimento extraordinário das vendas naquele período.

Dragon Systems, que lançou seu primeiro produto naquele ano, apresentava um desempenho ‘anêmico’ em vendas e, por isso, a L&H não  enfrentou dificuldades para comprar a Dragon no início de 2000, por meio de uma troca de ações.

Em um ano uma série de fraudes contábeis veio à tona e a L&H entrou em colapso e foi à falência. Sua tecnologia SR foi vendida no final de 2001 para a ScanSoft, que manteve o desenvolvimento do sistema, hoje na sua versão 6.0. Mais tarde a ScanSoft adquiriu a Nuance  e adotou seu nome.

As promessas começam a ser atendidas
“No lançamento da versão 8.0, em novembro de 2004, o mercado começou a ganhar vigor e a decolar”, diz Chris Strammiello, diretor de gerenciamento de produtos da Nuance.

“Cruzamos uma linha invisível com a versão 8.0, quando o software realmente começou a entregar o que prometia e oferecer uma real utilidade para seus usuários. As vendas passaram a crescer a taxas de 30% ao ano desde então, apesar de esperarmos que seja acima disso neste ano especificamente”.
++++
“Cerca de 60% dos compradores são usuários domésticos ou profissionais liberais”, adicionou Strammiello. Os demais são de mercados verticais, especialmente das áreas de saúde e advocacia, que no passado pagavam para que pessoas transcrevessem seus textos. Cerca de 10% são pessoas que usam o recurso por problemas de acessibilidade, como os portadores de algum tipo de deficiência, e esses cruzam os demais segmentos”, explicou.

A versão 8.0 reduziu o índice médio de erros em cerca de 30% quando comparado à versão anterior, enquanto a versão 9.0 prometeu outros 20% de redução, segundo o executivo. De modo geral, cerca de 25% das melhorias em termos de  precisão podem ser creditadas à maior rapidez do hardware, enquanto o restante provêm de avanços no algoritmo.

A versão pessoal custa cerca de 200 dólares, enquanto a profissional é vendida por algo como 765 dólares e ainda existem versões especializadas na área médica e de Direito. A versão 9.0 também inclui ferramentas para integrar o software na rede da companhia.

Hoje, “uma pessoa pode ter 95% de precisão assim que instala o software e o treinamento é opcional e demora cerca de cinco minutos”, afirma Howard Parks, presidente da Microref Systems Inc., que vende sistemas SR e treina usuários.

Para dar uma idéia de velocidade, Strammiello afirma que o DNS consegue acompanhar uma pessoa que fale em torno de 160 palavras por minuto, o que equivale à média de uma conversa corriqueira. Em termos de velocidade de digitação, Rich Stroud, porta-voz da International Association of Administrative Professionals (IAAP), alega que os anúncios falam em pelo menos 40 palavras por minuto.
++++
Apesar das óbvias vantagens de velocidade, no entanto, não tem havido nenhuma verdadeira corrida pela adoção da tecnologia. Por exemplo, Stroud percebeu que apenas 5% dos membros da IAAP usavam sistemas de reconhecimento de voz no trabalho. Quando questionados quais softwares gostariam que sua empresa adotasse, nenhum membro da associação citou o SR.

Precisão ainda não é suficiente
Essa resistência acontece, pelo menos em parte, porque, em sua experiência, 95% da precisão não foi considerada suficiente para esses usuários, segundo Parks.

“Muitos usuários não se sentem satisfeitos até que tenham 98% de sucesso”, diz ele. “Apenas quando você se torna muito hábil no uso do sistema é que se pode dizer que ele se tornou produtivo, e isso leva de cinco a 20 horas de uso intensivo”, afirma.

Não estar acostumado com ditados pode ser um problema, diz ele, mas as principais armadilhas envolvem a necessidade de uma pronúncia clara e consistente, além do domínio de uma série de procedimentos de correção com os quais o software aprende com os erros e amplia sua média de precisão.

Sem a ajuda desses itens, cerca de três quartos das pessoas que tentam usar sistema de reconhecimento de voz eventualmente colocam-no de lado e voltam ao teclado, afirma Parks. Mesmo entre os que se dispuseram a ‘treinar’ o software, a média dos que desistem de usá-lo ainda é de cerca de 20%.
++++
Tentar outra marca de SR com vocabulário mais amplo é algo raramente mencionado pelos consumidores porque existem poucas alternativas. Depois do fracasso da L&H só aconteceram três novas estréias no setor: a DNS, a ViaVoice da IBM e um software da Philips que não foi ativamente comercializado nos Estados Unidos, explica Parks. Mais tarde, a IBM vendeu os direitos do ViaVoice para a Nuance, que o comercializa como um produto entry-level.

Por outro lado, a forma mais amplamente proprietária de SR é provavelmente a versão da Microsoft, incluída gratuitamente no Office XP – algo que parece ainda ser desconhecido por boa parte dos seus usuários.

“O Office XP tem esse recurso, mas a Microsoft não divulga – foi um beta teste e a companhia não estava confortável com a qualidade da interface com o usuário”, diz Bill Meisel, da TMA Associates, consultoria  do segmento de speech instalada na Califórnia. Diferentemente do DNS, o SR do XP requer que o usuário conte com o mouse para navegar e fazer as correções (a Microsoft preferiu não comentar as informações).

O Vista também tem um sistema de reconhecimento de voz instalado, mas utiliza uma interface de correção similar à usada no DNS, Meisel adiciona. “É boa, mas não tanto quanto o DNS”, afirma Parks, que utilizou os dois sistemas. “Mas nada impede que eles melhorem ao longo dos anos".

De qualquer forma, ele lembra que o centro de pesquisa e desenvolvimento da Dragon "tem centenas de pessoas, o que vai exigir que a Microsoft leve alguns anos para alcançá-los”.
++++
Recurso do Vista pode ajudar rivais
Na Nuance, Strammiello afirma que viu o Vista mais como uma estratégia promocional que como competidor. “Ele vai expor às pessoas o que a tecnologia pode fazer por elas, e aqueles que se interessarem vão procurar um produto premium”, previu.

Mas chegará um dia em que as pessoas deixarão de lado seus teclados por um sistema de reconhecimento de voz, depois de descobrir que em poucos minutos de treinamento é possível obter um rendimento muitas vezes maior que o que tinham depois do curso de seis meses de digitação?

“Se você me fizesse essa pergunta 10 anos atrás (quando o DNS foi lançado) eu provavelmente diria que em três ou quatro anos o mundo estaria convertido”, diz Parks. “Mas cá estamos, 10 anos depois, e eu ainda não sei quando isso vai decolar. Os sistemas ainda são caros, mas não há dúvida de que oferecem grande benefícios. Nossos usuários criam textos, em média, 50% a 100% mais rapidamente do que antes”.

“É um equívoco pensar que um SR vai substituir o teclado para uma pessoa comum”, pondera Meisel. “Onde o teclado é realmente efetivo é na edição. Nesses casos é muito difícil fazer isso com a voz, ele exige outro tipo de aprendizado”.

Strammiello prefere falar sobre o futuro do produto. “Vamos ampliar a curva e conquistar mais e mais usuários com 99% de precisão”, afirmou. Independência do locutor está no horizonte, mas quando isso deve acontecer ainda não está claro. O que podemos esperar, enquanto isso, são comandos mais naturais e uma interface mais adaptada a conversas, assim como maior robustez para lidar com ruídos de forma que você possa falar mesmo em uma sala lotada de pessoas”.

*Lamont Wood é editor do Computerworld em Framingham