Recent News

OpenAI afirma que seu novo modelo atingiu o nível humano em um teste de ‘Inteligência Geral’. O que isso significa?

OpenAI afirma que seu novo modelo atingiu o nível humano em um teste de ‘Inteligência Geral’. O que isso significa?


Um novo modelo de inteligência artificial (IA) acaba de alcançou resultados de nível humano em um teste projetado para medir “inteligência geral”.

Em 20 de dezembro, o sistema o3 da OpenAI obteve 85% no Referência ARC-AGIbem acima da melhor pontuação anterior da IA ​​de 55% e no mesmo nível da pontuação humana média. Também obteve boa pontuação em um teste de matemática muito difícil.

A criação de inteligência artificial geral, ou AGI, é o objetivo declarado de todos os principais laboratórios de pesquisa de IA. À primeira vista, a OpenAI parece ter dado pelo menos um passo significativo em direção a esse objetivo.

Embora o ceticismo permaneça, muitos pesquisadores e desenvolvedores de IA sentem que algo mudou. Para muitos, a perspectiva da AGI parece agora mais real, urgente e mais próxima do que o previsto. Eles estão certos?

Generalização e inteligência

Para entender o que significa o resultado o3, você precisa entender do que se trata o teste ARC-AGI. Em termos técnicos, é um teste à “eficiência da amostra” de um sistema de IA na adaptação a algo novo – quantos exemplos de uma situação nova o sistema precisa de ver para descobrir como funciona.

Um sistema de IA como o ChatGPT (GPT-4) não é muito eficiente em termos de amostragem. Foi “treinado” em milhões de exemplos de texto humano, construindo “regras” probabilísticas sobre quais combinações de palavras são mais prováveis.

O resultado é muito bom em tarefas comuns. É ruim em tarefas incomuns, porque possui menos dados (menos amostras) sobre essas tarefas.

Até que os sistemas de IA possam aprender com um pequeno número de exemplos e se adaptar com maior eficiência de amostragem, eles só serão usados ​​para trabalhos muito repetitivos e onde falhas ocasionais são toleráveis.

A capacidade de resolver com precisão problemas previamente desconhecidos ou novos a partir de amostras limitadas de dados é conhecida como capacidade de generalização. É amplamente considerado um elemento necessário, até mesmo fundamental, da inteligência.

Grades e padrões

O benchmark ARC-AGI testa a adaptação eficiente da amostra usando pequenos problemas de grade quadrada como o mostrado abaixo. A IA precisa descobrir o padrão que transforma a grade da esquerda na grade da direita.

Um exemplo de tarefa do teste de benchmark ARC-AGI.
Prêmio ARC

Cada pergunta fornece três exemplos para aprender. O sistema de IA precisa então descobrir as regras que “generalizam” dos três exemplos para o quarto.

Eles são muito parecidos com os testes de QI que às vezes você deve se lembrar da escola.

Regras fracas e adaptação

Não sabemos exatamente como a OpenAI fez isso, mas os resultados sugerem que o modelo o3 é altamente adaptável. A partir de apenas alguns exemplos, encontra regras que podem ser generalizadas.

Para descobrir um padrão, não devemos fazer suposições desnecessárias ou ser mais específicos do que realmente precisamos ser. Em teoriase você conseguir identificar as regras “mais fracas” que fazem o que você deseja, então você maximizou sua capacidade de adaptação a novas situações.

O que queremos dizer com regras mais fracas? A definição técnica é complicada, mas regras mais fracas são geralmente aquelas que podem ser descrito em declarações mais simples.

No exemplo acima, uma expressão simples da regra em inglês pode ser algo como: “Qualquer forma com uma linha saliente se moverá para o final dessa linha e ‘cobrirá’ quaisquer outras formas com as quais ela se sobreponha.”

Procurando cadeias de pensamento?

Embora ainda não saibamos como a OpenAI alcançou esse resultado, parece improvável que eles tenham otimizado deliberadamente o sistema o3 para encontrar regras fracas. No entanto, para ter sucesso nas tarefas do ARC-AGI, é necessário encontrá-las.

Sabemos que o OpenAI começou com uma versão de uso geral do modelo o3 (que difere da maioria dos outros modelos, porque pode gastar mais tempo “pensando” em questões difíceis) e depois o treinou especificamente para o teste ARC-AGI.

O pesquisador francês de IA, François Chollet, que projetou o benchmark, acredita o3 pesquisa diferentes “cadeias de pensamento” descrevendo etapas para resolver a tarefa. Escolheria então o “melhor” de acordo com alguma regra vagamente definida, ou “heurística”.

Isso “não seria diferente” de como o sistema AlphaGo do Google pesquisou diferentes sequências possíveis de movimentos para vencer o campeão mundial de Go.

Você pode pensar nessas cadeias de pensamento como programas que se enquadram nos exemplos. Claro, se for como a IA do Go-playing, então será necessária uma heurística, ou regra flexível, para decidir qual programa é o melhor.

Poderia haver milhares de programas diferentes, aparentemente igualmente válidos, gerados. Essa heurística poderia ser “escolha o mais fraco” ou “escolha o mais simples”.

No entanto, se for como o AlphaGo, então eles simplesmente fizeram uma IA criar uma heurística. Este foi o processo do AlphaGo. O Google treinou um modelo para classificar diferentes sequências de movimentos como melhores ou piores que outras.

O que ainda não sabemos

A questão então é: isso está realmente mais próximo do AGI? Se é assim que o3 funciona, então o modelo subjacente pode não ser muito melhor que os modelos anteriores.

Os conceitos que o modelo aprende da linguagem podem não ser mais adequados para generalização do que antes. Em vez disso, podemos estar apenas vendo uma “cadeia de pensamento” mais generalizável, encontrada através das etapas extras de treinamento de uma heurística especializada para este teste. A prova, como sempre, estará no pudim.

Quase tudo sobre o3 permanece desconhecido. A OpenAI limitou a divulgação a algumas apresentações na mídia e os testes iniciais a um punhado de pesquisadores, laboratórios e instituições de segurança de IA.

Compreender verdadeiramente o potencial do o3 exigirá um trabalho extenso, incluindo avaliações, uma compreensão da distribuição das suas capacidades, da frequência com que falha e da frequência com que é bem sucedido.

Quando o3 for finalmente lançado, teremos uma ideia muito melhor se ele é aproximadamente tão adaptável quanto um ser humano médio.

Se assim for, poderá ter um impacto económico enorme e revolucionário, inaugurando uma nova era de inteligência acelerada e de auto-aperfeiçoamento. Exigiremos novos parâmetros de referência para a própria AGI e uma reflexão séria sobre como deve ser governada.

Caso contrário, ainda será um resultado impressionante. No entanto, a vida cotidiana permanecerá praticamente a mesma.A conversa

Michael Timothy BennetDoutorando, Escola de Computação, Universidade Nacional Australiana e Escolha a PerrierPesquisador, Stanford Center for Responsible Quantum Technology, Universidade de Stanford

Este artigo foi republicado de A conversa sob uma licença Creative Commons. Leia o artigo original.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *