Pesquisas mostram que instituições de ensino não devem depositar muita fé em detectores de texto baseados em IA.

Eis uma reflexão incômoda para todas as instituições acadêmicas que atualmente utilizam detectores de IA para fiscalizar os trabalhos submetidos por alunos e pesquisadores: as ferramentas não funcionam com a confiabilidade que as instituições presumem.

Um artigo apresentado esta semana no Simpósio IEEE de Segurança e Privacidade de 2026 por pesquisadores da Universidade da Flórida conclui que os detectores de texto gerados por IA disponíveis comercialmente são "pouco adequados para implantação em contextos acadêmicos ou de alto risco".

Essa é uma forma educada de dizer que as universidades estão tomando decisões que podem alterar carreiras com base em resultados de ferramentas que são essencialmente não confiáveis.

O que a pesquisa realmente descobriu?

Patrick Traynor, Ph.D., professor e presidente interino do Departamento de Ciência da Computação e Engenharia da Informação da UF, liderou uma equipe que testou os cinco detectores de texto de IA mais populares disponíveis comercialmente.

Utilizando aproximadamente 6.000 artigos de pesquisa submetidos a conferências de segurança de alto nível antes mesmo do surgimento do ChatGPT , eles pediram a especialistas em direito que criassem clones desses mesmos artigos e, em seguida, executaram ambos os conjuntos nos detectores de IA.

Os resultados mostraram taxas de falsos positivos variando de 0,05% a 68,6% e, ainda mais surpreendente, taxas de falsos negativos entre 0,3% e 99,6%. Esse valor superior se aproxima de 100%, o que significa que o detector com pior desempenho deixou de detectar praticamente todo o texto gerado por IA.

Embora dois dos cinco detectores tenham apresentado bom desempenho inicialmente, eles se tornaram praticamente inúteis depois que os pesquisadores pediram ao LLM para reescrever suas saídas usando um vocabulário mais complexo (o artigo chama isso de ataque de complexidade lexical).

Por que isso importa além da integridade acadêmica?

Traynor foi direto ao ponto: “Não podemos usá-las para julgar essas decisões. As carreiras das pessoas estão em jogo aqui.” Uma acusação de que um artigo foi escrito por IA pode prejudicar permanentemente a reputação de um pesquisador, mas não podemos confiar cegamente em ferramentas que fazem essas acusações.

O argumento é que as evidências sobre o uso generalizado de IA na escrita acadêmica são, em si, pouco confiáveis. "Por mais estudos que vejamos afirmando que uma certa porcentagem do trabalho acadêmico é gerada por IA, na verdade não temos ferramentas para medir isso", acrescentou Traynor.

Sua pesquisa não se limita a criticar as ferramentas; ela expõe uma falha sistêmica de diligência por parte de todas as instituições que adotaram essas ferramentas sem exigir evidências de sua precisão.