banner
Centro de notícias
Nós nos esforçamos para fornecer aos nossos clientes uma ampla gama de produtos novos e exclusivos de todo o mundo.

OpenAI espreita a “caixa preta” das redes neurais com novas pesquisas

Nov 12, 2023

Benj Edwards - 11 de maio de 2023 21:25 UTC

Na terça-feira, a OpenAI publicou um novo trabalho de pesquisa detalhando uma técnica que usa seu modelo de linguagem GPT-4 para escrever explicações para o comportamento dos neurônios em seu modelo GPT-2 mais antigo, embora imperfeitamente. É um passo à frente para a "interpretabilidade", que é um campo da IA ​​que busca explicar por que as redes neurais criam as saídas que criam.

Enquanto modelos de linguagem grande (LLMs) estão conquistando o mundo da tecnologia, os pesquisadores de IA ainda não sabem muito sobre suas funcionalidades e capacidades sob o capô. Na primeira frase do artigo da OpenAI, os autores escrevem: “Os modelos de linguagem tornaram-se mais capazes e mais amplamente implantados, mas não entendemos como eles funcionam”.

Para quem está de fora, isso provavelmente soa como uma admissão impressionante de uma empresa que não depende apenas da receita de LLMs, mas também espera acelerá-los a níveis além do humano de capacidade de raciocínio.

Mas essa propriedade de "não saber" exatamente como os neurônios individuais de uma rede neural trabalham juntos para produzir suas saídas tem um nome bem conhecido: a caixa preta. Você alimenta as entradas da rede (como uma pergunta) e obtém saídas (como uma resposta), mas o que quer que aconteça no meio (dentro da "caixa preta") é um mistério.

Em uma tentativa de espiar dentro da caixa preta, os pesquisadores da OpenAI utilizaram seu modelo de linguagem GPT-4 para gerar e avaliar explicações de linguagem natural para o comportamento dos neurônios em um modelo de linguagem muito menos complexo, como o GPT-2. Idealmente, ter um modelo de IA interpretável ajudaria a contribuir para o objetivo mais amplo do que algumas pessoas chamam de "alinhamento de IA", garantindo que os sistemas de IA se comportem conforme pretendido e reflitam os valores humanos. E ao automatizar o processo de interpretação, a OpenAI busca superar as limitações da tradicional inspeção humana manual, que não é escalável para redes neurais maiores com bilhões de parâmetros.

A técnica da OpenAI "busca explicar quais padrões no texto fazem com que um neurônio seja ativado". Sua metodologia consiste em três etapas:

Para entender como funciona o método da OpenAI, você precisa conhecer alguns termos: neurônio, circuito e cabeça de atenção. Em uma rede neural, um neurônio é como uma pequena unidade de tomada de decisão que recebe informações, as processa e produz uma saída, assim como uma pequena célula cerebral tomando uma decisão com base nos sinais que recebe. Um circuito em uma rede neural é como uma rede de neurônios interconectados que trabalham juntos, passando informações e tomando decisões coletivamente, semelhante a um grupo de pessoas colaborando e se comunicando para resolver um problema. E uma cabeça de atenção é como um holofote que ajuda um modelo de linguagem a prestar mais atenção a palavras ou partes específicas de uma frase, permitindo entender e capturar melhor informações importantes durante o processamento do texto.

Ao identificar neurônios específicos e cabeças de atenção dentro do modelo que precisam ser interpretados, o GPT-4 cria explicações legíveis por humanos para a função ou papel desses componentes. Ele também gera uma pontuação de explicação, que a OpenAI chama de “uma medida da capacidade de um modelo de linguagem de comprimir e reconstruir ativações de neurônios usando linguagem natural”. Os pesquisadores esperam que a natureza quantificável do sistema de pontuação permita um progresso mensurável para tornar os cálculos de redes neurais compreensíveis para os humanos.

Então, quão bem isso funciona? Agora, não tão bom. Durante os testes, a OpenAI comparou sua técnica com um empreiteiro humano que realizava avaliações semelhantes manualmente, e eles descobriram que tanto o GPT-4 quanto o empreiteiro humano “pontuaram mal em termos absolutos”, o que significa que a interpretação dos neurônios é difícil.

Uma explicação apresentada pela OpenAI para essa falha é que os neurônios podem ser "polissemânticos", o que significa que o neurônio típico no contexto do estudo pode exibir múltiplos significados ou estar associado a múltiplos conceitos. Em uma seção sobre limitações, os pesquisadores da OpenAI discutem os neurônios polissemânticos e também "características alienígenas" como limitações de seu método: