banner
Centro de notícias
entrega instantânea

Por que os detectores GPT não são uma solução para o problema de trapaça da IA

May 10, 2023

18 de maio de 2023

Este artigo foi revisado de acordo com o processo editorial e as políticas da Science X. Os editores destacaram os seguintes atributos, garantindo a credibilidade do conteúdo:

verificado

pré-impressão

fonte confiável

revisar

por Andrew Myers, Universidade de Stanford

Após o lançamento de alto perfil do ChatGPT, nada menos que sete desenvolvedores ou empresas responderam com detectores de IA. Ou seja, dizem que a IA é capaz de dizer quando o conteúdo foi escrito por outra IA. Esses novos algoritmos são apresentados a educadores, jornalistas e outros como ferramentas para sinalizar trapaça, plágio e desinformação.

É tudo muito meta, mas de acordo com um novo artigo de estudiosos de Stanford, há apenas um (muito grande) problema: os detectores não são particularmente confiáveis. Pior ainda, eles não são confiáveis ​​quando o verdadeiro autor (um ser humano) não é um falante nativo de inglês.

Os números são sombrios. Embora os detectores fossem "quase perfeitos" na avaliação de redações escritas por alunos da oitava série nascidos nos Estados Unidos, eles classificaram mais da metade das redações do TOEFL (61,22%) escritas por alunos não nativos de inglês como geradas por IA (TOEFL é um acrônimo para o Teste de Inglês como Língua Estrangeira).

Fica pior. De acordo com o estudo, todos os sete detectores de IA identificaram unanimemente 18 das 91 redações de alunos do TOEFL (19%) como geradas por IA e notáveis ​​89 das 91 redações do TOEFL (97%) foram sinalizadas por pelo menos um dos detectores.

“Tudo se resume a como os detectores detectam IA”, diz James Zou, professor de ciência de dados biomédicos na Universidade de Stanford, afiliado do Stanford Institute for Human-Centered AI e autor sênior do estudo. "Eles normalmente pontuam com base em uma métrica conhecida como 'perplexidade', que se correlaciona com a sofisticação da escrita - algo em que os falantes não nativos naturalmente seguirão seus colegas nascidos nos Estados Unidos."

Zou e os coautores apontam que os falantes não nativos geralmente pontuam mais baixo em medidas comuns de perplexidade, como riqueza lexical, diversidade lexical, complexidade sintática e complexidade gramatical.

“Esses números colocam sérias questões sobre a objetividade dos detectores de IA e aumentam o potencial de que estudantes e trabalhadores estrangeiros possam ser acusados ​​injustamente ou, pior, penalizados por trapacear”, diz Zou, destacando as preocupações éticas da equipe.

Zou também observa que tais detectores são facilmente subvertidos pelo que é conhecido como "engenharia imediata". Esse termo de arte no campo da IA ​​significa simplesmente pedir à IA generativa para "reescrever" ensaios, por exemplo, para incluir uma linguagem mais sofisticada, diz Zou. Ele fornece um exemplo de como é fácil ignorar os detectores. Um aluno que deseja usar o ChatGPT para trapacear pode simplesmente inserir o texto gerado pela IA com o prompt: "Elevar o texto fornecido empregando linguagem literária".