Conteúdo principal Menu principal Rodapé

Grupo desenvolve ferramentas contra plágio e conteúdo falso

Grupo desenvolve ferramentas contra plágio e conteúdo falso

Tecnologias criadas no âmbito de dois projetos temáticos tornam ambiente digital mais seguro e eficiente

Foto de Steve Johnson na Unsplash
Foto de Steve Johnson na Unsplash

“A produção de conteúdo enganoso, nesta era da desinformação, vai acelerar. Não por conta das políticas de fact-checking [checagem de fatos] das bigtechs, mas da própria evolução da inteligência artificial generativa”, alerta o professor do Instituto de Computação (IC) da Unicamp Anderson Rocha. Para aprimorar o combate às falsificações, há que se criar tecnologias mais eficientes e confiáveis, que possam tornar o trabalho de quem checa as informações mais ágil e certeiro, defende o docente. Esse foi o foco de duas pesquisas de doutorado realizadas no Laboratório de Inteligência Artificial (Recod.ai) do IC e que resultaram na criação de ferramentas promissoras na detecção de conteúdos falsos – uma delas já em uso no escritório de integridade científica dos Estados Unidos, o Office of Research Integrity (ORI).

Os trabalhos integraram, inicialmente, o projeto temático de inteligência artificial DéjàVu e, depois, o temático Horus, iniciativas do Recod.ai voltadas para a pesquisa de tecnologias que ajudem a tornar o ambiente digital mais seguro. Cada estudo tratou de problemas distintos e envolveu o uso de metodologias diferentes. O plágio científico foi alvo do cientista da computação João Phillipe Cardenuto, que desenvolveu um conjunto de algoritmos para detectar imagens de artigos científicos potencialmente falsificadas. Seu estudo, feito em parceria com universidades estrangeiras, resultou na criação de um sistema que verifica manipulações em artigos científicos. Antes de ser adotada pelo ORI, a ferramenta constou de um artigo publicado no periódico Scientific Reports, do grupo britânico Nature.

O professor Anderson Rocha, orientador dos dois trabalhos: ressaltando o pioneirismo das pesquisas
O professor Anderson Rocha, orientador dos dois trabalhos: ressaltando o pioneirismo das pesquisas
O professor Anderson Rocha, orientador dos dois trabalhos: ressaltando o pioneirismo das pesquisas
O professor Anderson Rocha, orientador dos dois trabalhos: ressaltando o pioneirismo das pesquisas

O segundo estudo ficou a cargo de Jing Yang, que trocou a China pelo Brasil especificamente para desenvolver sua pesquisa de doutorado no Programa de Pós-Graduação em Ciência da Computação do IC. O combate às fake news (notícias falsas) norteou a então doutoranda. Em vez de investir em tecnologias capazes de substituir o trabalho humano na verificação de fatos, a cientista chinesa se dedicou à criação de algoritmos para auxiliar as pessoas a aprimorarem a checagem de informações. Para tanto, buscou deixar a checagem automatizada mais ágil e, principalmente, mais transparente e confiável. “O programa faz uma varredura pela internet e consegue encontrar e apresentar uma grande quantidade de dados a respeito de cada informação de um texto. Com base nesse material, um jornalista, por exemplo, consegue confirmar ou refutar aquele conteúdo”, esclarece Rocha.

Yang elegeu como abordagem uma área da inteligência artificial conhecida como explicabilidade. “É o que faz com que um algoritmo não se limite a fornecer uma resposta [para a pessoa], mas explique de maneira clara por que tomou aquela decisão”, diz o professor. Após fazer uma pré-seleção de notícias sobre temas correlatos em diversas redes sociais, a ferramenta conseguiu reduzir a quantidade de informações que necessitavam de verificação humana. “De 30 mil posts iniciais, restaram 700 afirmações”, conta a pesquisadora.

Assim como o DéjàVu e o Horus, as duas pesquisas contaram com financiamento da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp). O apoio viabilizou o intercâmbio de Yang, durante o doutorado, para a Alemanha, onde atuou junto à equipe do Ubiquitous Knowledge Processing – o laboratório do Departamento de Ciência da Computação da Technische Universität Darmstadt. De volta ao país europeu após defender sua tese na Unicamp, a pesquisadora atualmente se dedica a um pós-doutorado na mesma área.

Já Cardenuto contou com a parceria da Defense Advanced Research Projects Agency (Darpa), a agência responsável pelo desenvolvimento de tecnologias de uso militar ou de interesse dos Estados Unidos. Para o sistema de detecção de conteúdos falsificados, o doutor em ciência da computação atuou em conjunto com pesquisadores das instituições italianas Università degli Studi di Napoli Federico II e Politecnico di Milano, além das universidades norte-americanas da Carolina do Sul, Purdue, Notre Dame e Loyola – onde atualmente conduz seus estudos de pós-doutorado.

Rocha, que, além de estar à frente do Horus, orientou os dois trabalhos, ressalta o pioneirismo do feito da dupla no mundo. “A abordagem adotada por Yang, focando a explicabilidade, é nova, assim como a maneira como propôs a decomposição dos fatos. Seus resultados foram melhores do que os conseguidos, por exemplo, com o ChatGPT 4, um modelo genérico. O modelo dela é feito para o trabalho jornalístico.” Já Cardenuto estabeleceu uma nova área de pesquisa, organizando-a para que futuros cientistas tenham um ponto de partida. “Chamamos essa área de área forense atrelada à integridade científica, pois um evento forense é tudo aquilo que é suspeito e que necessita de investigação”, explica o autor.

O cientista da computação João Phillipe Cardenuto: algoritmos detectam imagens de artigos científicos falsificadas
O cientista da computação João Phillipe Cardenuto: algoritmos detectam imagens de artigos científicos falsificadas
O cientista da computação João Phillipe Cardenuto: algoritmos detectam imagens de artigos científicos falsificadas
O cientista da computação João Phillipe Cardenuto: algoritmos detectam imagens de artigos científicos falsificadas

Fábricas de artigos

Cardenuto, que ingressou no doutorado logo após a graduação, atuou em um campo da inteligência artificial chamado de visão computacional e buscou construir algoritmos capazes de identificar, interpretar e relacionar detalhes suspeitos encontrados em imagens de artigos da área biomédica. “É o setor onde estão 90% dos casos mal-intencionados, no mundo. Isso inclui artigos científicos sobre doenças e medicamentos”, justifica. Graças à parceria com a entidade internacional Retraction Watch, que investiga conteúdos suspeitos, o pesquisador teve acesso a um banco de dados de artigos científicos retratados, com os quais trabalhou. Fotografias microscópicas, radiografias e imagens de exame laboratorial, todas encontradas em artigos científicos suspeitos, serviram de base para o desenvolvimento dos algoritmos.

O combate aos chamados paper mills (fábricas de artigos científicos) serviu de motivação para o pesquisador. Estruturas clandestinas, essas fábricas de conteúdos científicos fraudulentos registraram um crescimento nesta década, diz Cardenuto. “Focamos esse problema porque, desde 2020, houve um pico. Estamos falando de uma produção em larga escala. Segundo um levantamento conduzido no ano 2016 e publicado no periódico mBio, pelo menos 4% dos artigos de biomedicina possuem algum problema ético em suas imagens. Esse estudo, aliás, foi fundamental para meu trabalho, pois evidencia a relevância numérica de imagens duplicadas na ciência.”

Cada ferramenta nasceu para desempenhar uma função específica. Um dos programas tem por função buscar indícios de que uma figura foi copiada de outro artigo e colada. Uma das formas de encontrar indícios de fraude passa pela comparação de partes específicas das imagens, como seus cantos, suas curvas e sua estrutura. Há, ainda, um algoritmo criado para identificar fotografias provavelmente geradas por inteligência artificial. “É possível, também, saber se foram usados pedaços de outras imagens, de outros artigos, escritos por outros autores, para fazer uma composição, dando origem a uma figura”, explica Rocha.

O sistema criado com esses algoritmos não pretende fornecer um parecer definitivo, mas fazer uma triagem. Para que a análise por parte de profissionais – pessoas de carne e osso – torne-se viável. “Os algoritmos não vão apontar, necessariamente, o que é apropriado ou não, fraudulento ou não, até porque existem erros honestos”, frisa o professor. A função do sistema, esclarece, é indicar quando, potencialmente, há um problema, para que seres humanos possam se debruçar sobre o caso, avaliando-o e determinando se se trata de uma manipulação ou não.

Os conteúdos identificados como potencialmente fraudulentos ficam conectados a uma espécie de árvore genealógica, que não apenas relaciona as figuras por meio de suas semelhanças, mas indica qual a origem das características suspeitas, ou seja, sua fonte primária. A fim de que outras pessoas possam compreender como cada parte do conjunto desempenha sua função e, eventualmente, melhorar as ferramentas construídas, Cardenuto optou por criar algoritmos de código aberto. E legou à comunidade científica uma metodologia e um dataset (base de dados).

Jing Yang, autora de uma das teses: criando algoritmos para o aprimoramento da checagem de informações
Jing Yang, autora de uma das teses: criando algoritmos para o aprimoramento da checagem de informações
Jing Yang, autora de uma das teses: criando algoritmos para o aprimoramento da checagem de informações
Jing Yang, autora de uma das teses: criando algoritmos para o aprimoramento da checagem de informações

Abrindo a caixa-preta

Verificar cada informação dos textos publicados digitalmente – ou compartilhados nos aplicativos de mensagens – mostra-se algo humanamente impossível. Ainda mais em vista da profusão de notícias postadas nas redes sociais, na imprensa e nas publicações científicas. Desenvolver um sistema mais confiável e mais eficiente para auxiliar as pessoas a conferirem as informações de textos com mais agilidade e mais propriedade foi o objetivo de Yang. “O trabalho da Jing permite, a partir de ferramentas automatizadas, que um jornalista rapidamente identifique o que é mais suspeito, durante a checagem de fatos”, diz Rocha.

A desconfiança humana em relação à capacidade das ferramentas automáticas de detectarem uma mentira inspirou a pesquisadora. “Falta transparência. É preciso que a forma como a máquina toma decisões seja compreensível e justificável para que as pessoas possam confiar mais nas suas respostas. Resolvemos abrir essa caixa-preta”, conta. Combinando diferentes áreas da inteligência artificial, como transformers, modelo de atenção e linguagem natural, seu trabalho resultou na construção de um sistema que leva a pessoa até as informações necessárias de modo a conseguir concluir se o conteúdo suspeito está correto ou se contém dados falsos.

Dentre os diferenciais da ferramenta, está o de extrair redundâncias do texto, separando cada afirmação com vista a fazer uma varredura à procura de conteúdos semelhantes na Internet, para fins de comparação. “Vimos que o algoritmo reduziu as repetições em mais de 97%”, revela. O sistema também formula perguntas sobre os pontos duvidosos da notícia para, em seguida, buscar informações de fontes confiáveis, que sirvam de resposta. Dessa forma, o recurso fornece material para que o próprio usuário chegue a uma conclusão. “Temos um modelo de inteligência artificial que detecta uma desinformação não apenas dizendo ‘sim’ ou ‘não’, mas oferecendo textos que explicam por que tomar determinada decisão. Academicamente falando, trata-se de um trabalho pioneiro, por ser o primeiro a explorar o agrupamento de informações e a tecnologia de pergunta e resposta para explicabilidade.”

A fim de reduzir a redundância, Yang utilizou, por exemplo, um algoritmo capaz de calcular o nível de semelhança entre duas mensagens de texto. Para validar esse processo, a pesquisa contou com a colaboração da jornalista Taís Seibt, professora da Universidade do Vale do Rio dos Sinos (Unisinos). “A parceria foi fundamental para verificarmos a qualidade do agrupamento. O resultado confirmou que o algoritmo reduziu com sucesso a redundância sem perder detalhes importantes”, diz a agora doutora em ciência da computação.

Ir para o topo