Turnitin diz que seu detector de trapaça AI nem sempre é confiável

Este artigo é uma prévia do boletim informativo The Tech Friend. Inscreva-se aqui para recebê-lo em sua caixa de entrada todas as terças e sextas-feiras.

Acontece que não podemos detectar com segurança a escrita de programas de inteligência artificial como o ChatGPT. Isso é um grande problema, especialmente para os professores.

Pior ainda, os cientistas dizem cada vez mais que usar software para identificar com precisão a IA pode ser simplesmente impossível.

As evidências mais recentes: a Turnitin, uma grande empresa de software educacional, disse que o detector de trapaça de IA que está sendo executado em mais de 38 milhões de redações de alunos desde abril tem mais problemas de confiabilidade do que inicialmente sugerido. O Turnitin - que atribui uma pontuação percentual "gerada por IA" a cada trabalho do aluno - está fazendo alguns ajustes, incluindo a adição de novos avisos sobre os tipos de resultados limítrofes mais propensos a erros.

Escrevi pela primeira vez sobre o detector de IA do Turnitin nesta primavera, quando preocupações sobre alunos usando IA para trapacear deixaram muitos educadores clamando por maneiras de impedi-lo. Naquela época, a empresa disse que sua tecnologia tinha uma taxa de menos de 1% do tipo mais problemático de erro: falsos positivos, em que a escrita real do aluno é sinalizada incorretamente como trapaça. Agora, o Turnitin diz que em um nível de frase por frase - uma medida mais restrita - seu software sinaliza incorretamente 4% da escrita.

Minha investigação também descobriu que detecções falsas eram um risco significativo. Antes de seu lançamento, testei o software Turnitin com textos de alunos reais e com redações que alunos voluntários ajudaram a gerar com o ChatGPT. O Turnitin identificou mais da metade de nossas 16 amostras pelo menos parcialmente incorretamente, incluindo dizer que a redação completamente escrita por um aluno foi escrita em parte com IA.

As apostas na detecção da IA podem ser especialmente altas para os professores, mas eles não são os únicos procurando maneiras de fazer isso. Assim como empresas de segurança cibernética, autoridades eleitorais e até jornalistas que precisam identificar o que é humano e o que não é. Você também pode querer saber se aquele e-mail chamativo de um chefe ou político foi escrito por IA.

Houve uma enxurrada de programas de detecção de IA na web nos últimos meses, incluindo ZeroGPT e Writer. Até a OpenAI, a empresa por trás do ChatGPT, faz um. Mas há um número crescente de exemplos desses detectores errando - incluindo um que afirmava que o prólogo da Constituição foi escrito pela IA. (Não é muito provável, a menos que a viagem no tempo também seja possível agora?)

A conclusão para você: tenha cuidado ao tratar qualquer detector de IA como um fato. Em alguns casos, agora, é pouco melhor do que um palpite aleatório.

Uma taxa de erro de 4 ou até 1 por cento pode parecer pequena - mas toda falsa acusação de trapaça pode ter consequências desastrosas para um aluno. Desde que publiquei minha coluna de abril, recebi notas de alunos e pais perturbados com o que disseram ser falsas acusações. (Meu e-mail ainda está aberto.)

Em uma longa postagem no blog na semana passada, a diretora de produtos da Turnitin, Annie Chechitelli, disse que a empresa quer ser transparente sobre sua tecnologia, mas ela não desistiu de implantá-la. Ela disse que, para documentos que seu software de detecção considera conter mais de 20% de escrita de IA, a taxa de falsos positivos para todo o documento é inferior a 1%. Mas ela não especificou qual é a taxa de erro no resto do tempo - para documentos que seu software considera conter menos de 20% de escrita de IA. Nesses casos, o Turnitin começou a colocar um asterisco ao lado dos resultados "para chamar a atenção para o fato de que a pontuação é menos confiável".

“Não podemos mitigar completamente o risco de falsos positivos, dada a natureza da redação e análise da IA, portanto, é importante que os educadores usem a pontuação da IA para iniciar um diálogo significativo e impactante com seus alunos nesses casos”, escreveu Chechitelli.

A questão principal é: quanto erro é aceitável em um detector de IA?

Uma nova pesquisa de pré-impressão do professor de ciência da computação Soheil Feizi e colegas da Universidade de Maryland descobriu que nenhum detector de IA disponível publicamente é suficientemente confiável em cenários práticos.