Uma nova investigação da Associated Press revelou que a Whisper, uma ferramenta de transcrição de IA usada em Hospitais, apresenta frequentes “alucinações” e erros, com o modelo de IA frequentemente inventando textos completamente fora de contexto.

O mais preocupante, de acordo com a AP, é quem está confiando nessa tecnologia. Embora a OpenAI tenha alertado que seu modelo não deve ser usado em “áreas de alto risco,” mais de 30.000 profissionais de saúde e 40 sistemas de saúde estão utilizando o Nabla, uma ferramenta baseada no Whisper, para transcrever e resumir interações com pacientes — quase certamente com resultados imprecisos.

Em um ambiente médico, isso pode ter “consequências realmente graves,” afirmou Alondra Nelson, professora do Instituto de Estudos Avançados, à AP. “Ninguém quer um diagnóstico errado,” disse Nelson. “Deveria haver um nível de exigência mais alto.”

Martin Raison, diretor de tecnologia da Nabla, disse à AP que o Whisper foi ajustado para linguagem médica. Mesmo assim, ele não consegue escapar da falta de confiabilidade inerente ao modelo base.

Um engenheiro de aprendizado de máquina contou à AP que encontrou alucinações em metade das mais de 100 horas de transcrições que analisou. Outro, que examinou 26.000 transcrições, disse ter encontrado alucinações em quase todas elas.

Em um estudo recente, o Whisper teve desempenho ruim mesmo com amostras curtas e bem gravadas de áudio, e pesquisadores alertaram que, em milhões de gravações, poderiam ocorrer dezenas de milhares de alucinações.

Outro grupo de pesquisadores revelou a gravidade desses erros: o Whisper acrescentava comentários raciais, inventava medicações inexistentes e descrevia atos violentos ou sexuais sem qualquer fundamento na fala original. Em alguns casos, até inseria expressões de youtubers, como “curta e se inscreva,” sem motivo.

No geral, quase 40% desses erros foram classificados como prejudiciais ou preocupantes, pois poderiam facilmente distorcer o que o falante realmente disse.

A extensão do problema é vasta. Segundo a Nabla, seu sistema foi usado para transcrever cerca de sete milhões de visitas médicas, cujas documentações agora podem conter erros prejudiciais.

Ainda mais preocupante é que não há como verificar a precisão das transcrições, já que a ferramenta apaga as gravações originais “por questões de segurança de dados,” segundo Raison. A menos que os profissionais de saúde tenham mantido uma cópia das gravações, qualquer alucinação será incorporada ao registro oficial.

“Você não consegue detectar erros se elimina a verdade original,” afirmou William Saunders, um engenheiro de pesquisa que deixou a OpenAI em protesto, à AP.

Executivos da Nabla disseram estar cientes do problema de alucinações no Whisper e que estão buscando soluções. No entanto, essa “consciência” não impediu a empresa de implementar uma tecnologia experimental e ainda altamente falha na área médica.

Veja mais sobre tecnologia!

Inscrever-se
Notificar de
guest

0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários
Pin