SÃO PAULO, SP (FOLHAPRESS) - Vai demorar muito para que os grandes modelos de linguagem (LLM) que alimentam plataformas de inteligência artificial e chatbots tenham 100% de credibilidade. Esse é o alerta de Prabhakar Raghavan, vice-presidente sênior do Google, que fez uma palestra promovida pelo Instituto de Estudos Avançados (IEA) da Universidade de São Paulo (USP).
"As pessoas me perguntam quando os LLMs serão 100% confiáveis, e é preciso entender que esses modelos não estão recolhendo fatos em uma base de dados, eles estão inventando coisas", disse Raghavan, responsável globalmente pelo Google Search, Assistant, Geo, Ads, Commerce e Payments.
"É claro que os modelos vão melhorando gradualmente, mas, se o seu padrão de precisão é 100%, você continuará decepcionado por muito tempo", afirmou.
Raghavan, que tem doutorado em engenharia elétrica e ciência da computação pela Universidade da Califórnia em Berkeley, está no Brasil para reuniões fechadas em São Paulo e Brasília.
Na palestra "Mecanismos de Busca e Sociedade: Qualidade da Informação e Potencial da Inteligência Artificial", ele falou sobre a incorporação da inteligência artificial no mecanismo de buscas do Google pelo Bard, modelo desenvolvido pela empresa.
O executivo ressaltou que os LLMs simplesmente preveem a próxima palavra em uma frase, e que correlação é diferente de causalidade. "De vez em quando, a correlação se traduz em causalidade, mas isso não quer dizer que exista inteligência."
Raghavan também falou sobre a dificuldade de incluir as fontes das informações nos resultados de buscas alimentados por inteligência artificial.
A resposta a uma busca que usa LLM normalmente é uma frase -e ela não existe literalmente em nenhum lugar da internet, porque, em geral, é uma combinação de informações "raspadas" de diversos sites.
Mas o vice-presidente do Google disse que a empresa está trabalhando em um mecanismo que pode detectar quando existe uma fonte dominante para uma resposta de IA, na qual outras fontes se apoiam.
Segundo ele, é mais fácil quando a resposta a um comando de busca é um sumário das dezenas de resultados obtidos, porque aí é possível dizer de onde veio cada frase usada no sumário.
A discussão sobre as fontes das informações usadas para treinar modelos de IA se tornou central para empresas jornalísticas, que começam a se movimentar para cobrar direitos autorais das plataformas.
O New York Times e a OpenAI, criadora do ChatGPT, negociam há semanas uma forma de pagamento para garantir o uso legal das matérias do jornal no treinamento de IAs.
Entre na comunidade de notícias clicando aqui no Portal Acessa.com e saiba de tudo que acontece na Cidade, Região, Brasil e Mundo!