Páginas

19 fevereiro 2024

Sam Altman quer 7 trilhões de dólares - 1

Traduzido pelo ChatGPT do AstralCodex

I.

Sam Altman quer $7 trilhões.

De certa forma, isso não é novidade. Todo mundo quer $7 trilhões. Eu quero $7 trilhões. Eu não vou conseguir, e provavelmente Sam Altman também não.

Ainda assim, a mídia trata isso como digno de comentário, e eu concordo. É um lembrete útil do que será necessário para a IA escalar nos próximos anos.

A lógica básica: GPT-1 custou aproximadamente nada para treinar. GPT-2 custou $40.000. GPT-3 custou $4 milhões. GPT-4 custou $100 milhões. Detalhes sobre o GPT-5 ainda são secretos, mas uma estimativa extremamente não confiável diz $2,5 bilhões, e isso parece a ordem correta de magnitude, dado os $8 bilhões que a Microsoft deu para a OpenAI.

Então, cada GPT custa entre 25x e 100x o último. Vamos dizer 30x em média. Isso significa que podemos esperar que o GPT-6 custe $75 bilhões, e o GPT-7 custe $2 trilhões.

(A menos que eles coloquem o nome "GPT-6" em um modelo que não seja uma geração completa à frente do GPT-5. Considere esses números como representando modelos que estão, por exemplo, tão à frente do GPT-4 quanto o GPT-4 estava do GPT-3, independentemente de como os rotulem.)

Vamos tentar dividir esse custo. Em um sentido muito abstrato, treinar uma IA envolve três coisas:

  • Computação (ou seja, poder de computação, hardware, chips)
  • Eletricidade (para alimentar a computação)
  • Dados de treinamento

Computação

A computação é medida em operações de ponto flutuante (FLOPs). O GPT-3 levou 10^23 FLOPs para treinar, e o GPT-4 plausivelmente 10^25.

A capacidade de todos os computadores do mundo é de cerca de 10^21 FLOP/segundo, então eles poderiam treinar o GPT-4 em 10^4 segundos (ou seja, duas horas). Como a OpenAI tem menos computadores que todos os do mundo, levou seis meses. Isso sugere que a OpenAI estava usando cerca de 1/2000 dos computadores do mundo durante esse tempo.

Se mantivermos nosso fator de escalonamento de 30x, o GPT-5 levará 1/70 dos computadores do mundo, o GPT-6 levará 1/2, e o GPT-7 levará 15 vezes mais computadores do que existem. A capacidade de computação do mundo cresce rapidamente - esta fonte diz que ela dobra a cada 1,5 anos, o que significa que ela cresce por uma ordem de magnitude a cada cinco anos, o que significa que esses números provavelmente são superestimativas. Se imaginarmos cinco anos entre GPTs, então o GPT-6 realmente só precisará de 1/10 dos computadores do mundo, e o GPT-7 só precisará de 1/3. Ainda assim, 1/3 dos computadores do mundo é muita coisa.

Provavelmente você não pode obter 1/3 dos computadores do mundo, especialmente quando todas as outras empresas de IA também os querem. Você precisaria aumentar muito a fabricação de chips.

Energia

O GPT-4 consumiu cerca de 50 gigawatt-horas de energia para treinar. Usando nosso fator de escalonamento de 30x, esperamos que o GPT-5 precise de 1.500, o GPT-6 precise de 45.000, e o GPT-7 precise de 1,3 milhão.

Digamos que a execução de treinamento dure seis meses, ou seja, 4.320 horas. Isso significa que o GPT-6 precisará de 10 GW - cerca da metade da produção da Usina Hidrelétrica das Três Gargantas, a maior do mundo. O GPT-7 precisará de quinze Usinas Hidrelétricas das Três Gargantas. Isso não é apenas "o mundo precisará produzir tanta energia no total e você pode comprá-la". Você precisa da energia bastante próxima ao seu centro de dados. Sua melhor aposta aqui é ou conseguir um pipeline inteiro como o Nord Stream conectado ao seu centro de dados, ou então um reator de fusão.

(Sam Altman está trabalhando em energia de fusão, mas isso parece ser uma coincidência. Pelo menos, ele está interessado em fusão desde pelo menos 2016, o que é muito cedo para ele saber de qualquer coisa disso.)

Dados de Treinamento

Estes são o texto ou imagens ou qualquer coisa que a IA lê para entender como seu domínio funciona. O GPT-3 usou 300 bilhões de tokens. O GPT-4 usou 13 trilhões de tokens (outra fonte diz 6 trilhões). Isso parece que nosso fator de escalonamento de 30x ainda se mantém, mas teoricamente os dados de treinamento deveriam escalar como a raiz quadrada da computação - então você deveria esperar um fator de escalonamento de 5,5x. Isso significa que o GPT-5 precisará de algo em torno de 50 trilhões de tokens, o GPT-6 algo em trilhões com três dígitos, e o GPT-7 algo em quadrilhões.

Não há tanto texto no mundo todo. Talvez você possa obter alguns trilhões a mais combinando todos os livros publicados, mensagens do Facebook, tweets, mensagens de texto e e-mails. Você poderia conseguir mais adicionando todas as imagens, vídeos e filmes, uma vez que as IA aprendam a entendê-los. Ainda assim, não acho que você chegará a cem trilhões, quanto mais a um quadrilhão.

Você poderia tentar fazer uma IA que possa aprender coisas com menos dados de treinamento. Isso deveria ser possível, porque o cérebro humano aprende coisas sem ler todo o texto do mundo. Mas isso é difícil e ninguém tem uma ótima ideia de como fazer isso ainda.

Mais promissor é o uso de dados sintéticos, onde a IA gera dados para si mesma. Isso parece uma máquina de movimento perpétuo que não funcionaria, mas há truques para contornar isso. Por exemplo, você pode treinar uma IA de xadrez em dados sintéticos fazendo-a jogar contra si mesma um milhão de vezes. Você pode treinar uma IA de matemática fazendo-a gerar aleatoriamente passos para uma prova, eventualmente tropeçando em uma correta por acaso, detectando automaticamente a prova correta e então treinando com ela. Você pode treinar uma IA de jogo de vídeo fazendo-a fazer movimentos aleatórios e então ver qual obtém a pontuação mais alta. Em geral, você pode usar dados sintéticos quando não sabe como criar bons dados, mas sabe como reconhecê-los uma vez que existam (por exemplo, a IA de xadrez ganhou o jogo contra si mesma, a IA de matemática obteve uma prova correta, a IA de jogo de vídeo obteve uma boa pontuação). Mas ninguém sabe como fazer isso bem para texto escrito ainda.

Talvez você possa criar uma IA inteligente através de alguma combinação de texto, xadrez, matemática e videogames - alguns humanos seguem este currículo, e funciona bem para eles, mais ou menos.

Este é um pouco diferente - computação e eletricidade podem ser resolvidas com muito dinheiro, mas este pode exigir mais de uma descoberta.

Progresso Algorítmico

Isso significa "as pessoas fazem descobertas e se tornam melhores em construir IA". Parece ser mais uma daquelas coisas que dá uma ordem de magnitude de progresso a cada cinco anos mais ou menos, então estou revisando as estimativas acima para baixo um pouco.

Juntando Tudo

O GPT-5 pode precisar de cerca de 1% dos computadores do mundo, uma pequena usina elétrica e muitos dados de treinamento.

O GPT-6 pode precisar de cerca de 10% dos computadores do mundo, uma grande usina elétrica e mais dados de treinamento do que existem. Provavelmente isso se parece com um centro de dados do tamanho de uma cidade ligado a muitos painéis solares ou a um reator nuclear.

O GPT-7 pode precisar de todos os computadores do mundo, uma usina elétrica gigantesca além de qualquer uma que exista atualmente, e muito mais dados de treinamento do que existem. Provavelmente isso se parece com um centro de dados do tamanho de uma cidade ligado a uma usina de fusão.

Construir o GPT-8 é atualmente impossível. Mesmo que você resolva dados sintéticos e energia de fusão, e assuma todo o controle da indústria de semicondutores, você não chegará nem perto. Sua única esperança é que o GPT-7 seja superinteligente e te ajude com isso, seja te dizendo como construir IAs baratas, seja aumentando a economia global a ponto de financiar coisas atualmente impossíveis.


Tudo sobre GPTs acima de 5 é uma projeção ingênua das tendências existentes e provavelmente falsa. Estimativas de ordem de magnitude apenas. Você pode chamar isso de "especulativo" e "insano". Mas se Sam Altman não acreditasse em algo pelo menos tão especulativo e insano, ele não estaria pedindo $7 trilhões.

II.

Vamos voltar um pouco.

O GPT-6 provavelmente custará $75 bilhões ou mais. A OpenAI não pode pagar por isso. A Microsoft ou o Google poderiam pagar, mas isso levaria uma fração significativa (talvez metade?) dos recursos da empresa.

Se o GPT-5 falhar, ou for apenas uma melhoria incremental, ninguém vai querer gastar $75 bilhões fazendo o GPT-6, e tudo isso será irrelevante.

Por outro lado, se o GPT-5 estiver próximo do nível humano, e revolucionar indústrias inteiras, e parecer prestes a iniciar uma mudança no nível da Revolução Industrial nos assuntos humanos, então $75 bilhões para o próximo parecerão uma pechincha.

Além disso, se você estiver iniciando uma mudança no nível da Revolução Industrial nos assuntos humanos, talvez as coisas fiquem mais baratas. Eu não espero que o GPT-5 seja bom o suficiente para que ele possa fazer uma grande contribuição para o planejamento do GPT-6. Mas você tem que pensar nisso de forma escalonada. Ele pode fazer coisas suficientes para que projetos grandes (como o GPT-6, ou suas fábricas de chips associadas, ou suas usinas associadas) fiquem 10% mais baratos? Talvez.


O resultado disso é que estamos olhando para um processo exponencial, como R para uma pandemia. Se o expoente for > 1, ele cresce muito rapidamente. Se o expoente for < 1, ele desaparece.

Neste caso, se cada nova geração de IA for excitante o suficiente para inspirar mais investimentos e/ou inteligente o suficiente para diminuir o custo da próxima geração, então esses dois fatores combinados permitem a criação de outra geração de IAs em um ciclo de feedback positivo (R > 1).

Mas se cada nova geração de IA não for excitante o suficiente para inspirar o investimento massivo necessário para criar a próxima, e não for inteligente o suficiente para ajudar a reduzir o preço da próxima geração por conta própria, então em algum momento ninguém estará disposto a financiar IAs mais avançadas, e o atual boom de IA desaparece (R < 1). Isso não significa que você nunca ouvirá falar sobre IA - as pessoas provavelmente vão criar IA incrível, arte e vídeos e androides e namoradas e robôs assassinos. Isso apenas significa que a inteligência bruta dos maiores modelos não aumentará tão rapidamente.

Mesmo quando R < 1, ainda obtemos os modelos maiores eventualmente. Fábricas de chips podem gradualmente produzir mais chips. Pesquisadores podem gradualmente fazer mais descobertas algorítmicas. Se nada mais, você pode passar dez anos treinando o GPT-7 muito lentamente. Isso apenas significa que obteremos IA humana ou acima da humana no meio do século XXI, em vez do início.

III.

Quando Sam Altman pede $7 trilhões, eu o interpreto como querendo fazer este processo de maneira centralizada, rápida e eficiente. Um cara constrói as fábricas de chips e usinas de energia e as deixa todas prontas a tempo de treinar o próximo grande modelo.

Provavelmente ele não conseguirá seus $7 trilhões. Então este mesmo processo acontecerá, mas mais devagar, mais fragmentado e mais descentralizado. Eles vão lançar o GPT-5. Se for bom, alguém vai querer construir o GPT-6. O capitalismo normal fará com que as pessoas aumentem gradualmente a capacidade de chips. As pessoas farão muitos GPT-5.1s e GPT-5.2s até que finalmente alguém dê o passo e construa a usina gigante em algum lugar. Tudo isso levará décadas, acontecerá de forma bastante natural, e nenhuma pessoa ou corporação terá um monopólio.

Eu ficaria mais feliz com a segunda situação: a perspectiva de segurança aqui é que queremos o máximo de tempo possível para nos prepararmos para a IA disruptiva.

Sam Altman anteriormente endossou esta posição! Ele disse que os esforços da OpenAI eram bons para a segurança, porque você quer evitar um excesso de computação. Ou seja, você quer que o progresso da IA seja o mais gradual possível, não que progrida em solavancos repentinos. E uma maneira de manter as coisas graduais é maximizar o nível de IA que você pode construir com seus chips atuais, e então a IA pode crescer (no pior dos casos) tão rápido quanto o fornecimento de chips, que naturalmente cresce bastante lentamente.

...a menos que você peça $7 trilhões para aumentar o fornecimento de chips em um salto gigante o mais rápido possível! As pessoas que confiaram na boa natureza da OpenAI com base no argumento do excesso de computação estão se sentindo traídas agora.

Minha impressão atual das múltiplas perspectivas contraditórias da OpenAI aqui é que eles estão genuinamente interessados na segurança - mas apenas na medida em que isso seja compatível com a escalada rápida da IA. Isso está longe de ser a pior maneira que uma empresa de IA poderia ser. Mas também não é reconfortante.

Nenhum comentário:

Postar um comentário