Sem publicidade, a OpenAI recentemente adicionou detalhes sobre seu rastreador da web, GPTBot, para o site de documentação online. GPTBot é o nome do agente do usuário que a empresa usa para recuperar páginas da web para treinar os modelos de inteligência artificial por trás do ChatGPT, como o GPT-4. No início desta semana, alguns sites Eles rapidamente anunciaram sua intenção Para evitar que o GPTBot acesse seu conteúdo.
Na nova documentação, a OpenAI diz que as páginas da Web rastreadas com o GPTBot “provavelmente serão usadas para melhorar modelos futuros” e que permitir que o GPTBot acesse seu site “pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades e segurança gerais”.
A OpenAI afirma ter implementado filtros que garantem que o GPTBot não acesse fontes que estejam atrás de paywalls, que coletem informações de identificação pessoal ou qualquer conteúdo que viole as políticas da OpenAI.
As notícias sobre a capacidade de bloquear treinamentos OpenAI (se você as honrar) chegam tarde demais para afetar os dados de treinamento existentes para ChatGPT ou GPT-4, que foram descartados sem anúncio anos atrás. A OpenAI coletou dados até setembro de 2021, que é o limite “cognitivo” atual para os modelos de linguagem da OpenAI.
Vale ressaltar que as novas instruções Talvez não Impedir que as versões de navegação na web dos plug-ins ChatGPT ou ChatGPT acessem sites existentes para retransmitir informações atualizadas ao usuário. Este ponto não é explicado na documentação e entramos em contato com a OpenAI para esclarecimentos.
A resposta está no arquivo robots.txt
De acordo com a OpenAI documentaçãoo GPTBot será reconhecido pelo token do agente do usuário “GPTBot”, com sua string completa sendo “Mozilla/5.0 AppleWebKit/537.36 (KHTML, o mesmo que Gecko; compatível; GPTBot/1.0; + https://openai.com/gptbot) “.
Os documentos do OpenAI também fornecem orientação sobre como impedir que o GPTBot rastreie sites usando os padrões do setor arquivo robots.txt arquivo, que é um arquivo de texto localizado no diretório raiz de um site que instrui os rastreadores da Web (como os usados pelos mecanismos de pesquisa) a não indexar o site.
É tão fácil quanto adicionar estas duas linhas ao arquivo robots.txt do seu site:
User-agent: GPTBot Disallow: /
A OpenAI também diz que os administradores podem restringir o GPTBot de certas partes do site em um arquivo robots.txt com códigos diferentes:
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
Além disso, a OpenAI introduziu o Blocos de endereços IP específicos a partir do qual o GPTBot será executado e que também pode ser bloqueado por firewalls.
Apesar dessa opção, bloquear o GPTBot não garantirá que os dados de localização não acabem treinando todos os futuros modelos de IA. Além dos problemas com raspadores que ignoram arquivos robots.txt, existem outros grandes conjuntos de dados de sites raspados (como pilha) não é afiliado à OpenAI. Esses conjuntos de dados são comumente usados para treinar LLMs de código aberto (ou código aberto), como o Llama 2 da Meta.
Alguns sites reagem rapidamente
Embora o ChatGPT tenha sido um enorme sucesso do ponto de vista técnico, também foi controverso sobre como extraiu dados protegidos por direitos autorais sem permissão e concentrou esse valor em um produto comercial que contorna o modelo de publicação online. A OpenAI foi acusada (e processada por) de plágio nesse sentido.
Consequentemente, não é surpreendente ver algumas pessoas reagindo à notícia da capacidade de bloquear seu conteúdo de futuros formulários GPT com uma espécie de Eu escuto. Por exemplo, na terça-feira, VentureBeat macho que A beiraSubstack Writer Casey NewtonE Neil Clark De Clarkesworld, todos disseram que bloqueariam o GPTBot logo após a divulgação do bot.
Mas para operadores de grandes sites, a opção de bloquear rastreadores LLM não é tão fácil quanto parece. Fazer com que alguns LLMs ignorem os dados de determinados sites deixará lacunas de conhecimento que podem servir muito bem a alguns sites (como sites que não querem perder visitantes se o ChatGPT fornecer suas informações a eles), mas também pode prejudicar outros. Por exemplo, bloquear o conteúdo de futuros modelos de IA pode reduzir a pegada cultural de um site ou marca se os chatbots inteligentes se tornarem a principal interface do usuário no futuro. Como um experimento mental, imagine uma empresa online anunciando que não queria que seu site fosse indexado pelo Google em 2002 – um movimento autodestrutivo quando essa era a maneira mais popular de encontrar informações online.
Ainda é muito cedo no jogo de IA generativa, e não importa para onde a tecnologia vá – ou sites individuais tentem cancelar o treinamento do modelo de IA – pelo menos o OpenAI oferece a opção.