Translate

19 fevereiro 2024

Sam Altman quer 7 trilhões de dólares - 2

O texto publicado anteriormente é uma tradução do AstralCodex. Há uma literatura mais precisa indicada antes do texto e um grande número de comentários que são interessantes. Ontem, quando elaborava esta postagem, eram mais de 400 comentários. 

A análise mostra que há uma razão prática para acreditar que as futuras evoluções do GPT terão muitas dificuldades práticas. É bem verdade que a análise é realizada tendo por base poucos dados: foram somente quatro versões de Chat, o que inviabiliza uma projeção mais precisa. Uma imprecisão em alguma da estimativa pode inviabilizar toda a análise realizada. 

Além disso, é importante lembrar que o GPT é fruto de uma tecnologia que foi desenvolvida a partir de pesquisas que foram realizadas pelo Google e divulgadas livremente. Nada impede que um novo produto, mais evoluído, possa surgir e obter os mesmo resultados sem a necessidade da grande quantidade de dados que o Chat precisa. Mas a empresa ou o programador que desenvolver essa tecnologia talvez fique resistente em divulgar o conhecimento, o que pode atrasar o surgimento dessa possibilidade. De certa forma o texto debate um pouco isso quando comenta sobre a possibilidade de usar o próprio Chat para o desenvolvimento de uma nova versão.

Mas há forças contrárias que não foram consideradas no texto, talvez em razão do concisão. Lembro aqui que a versão do Chat foi obtida usando de maneira "livre" as informações disponíveis na rede. Os grupos de mídia e os produtores de conteúdo já estão reagindo no sentido de exigir pagamento pelo uso da informação para o treinamento do chat. Vejo que isso pode ser um problema no futuro se a justiça dos países começarem a impedir o livre uso dessa informação. 

Há muito debate pela frente. 

Sam Altman quer 7 trilhões de dólares - 1

Traduzido pelo ChatGPT do AstralCodex

I.

Sam Altman quer $7 trilhões.

De certa forma, isso não é novidade. Todo mundo quer $7 trilhões. Eu quero $7 trilhões. Eu não vou conseguir, e provavelmente Sam Altman também não.

Ainda assim, a mídia trata isso como digno de comentário, e eu concordo. É um lembrete útil do que será necessário para a IA escalar nos próximos anos.

A lógica básica: GPT-1 custou aproximadamente nada para treinar. GPT-2 custou $40.000. GPT-3 custou $4 milhões. GPT-4 custou $100 milhões. Detalhes sobre o GPT-5 ainda são secretos, mas uma estimativa extremamente não confiável diz $2,5 bilhões, e isso parece a ordem correta de magnitude, dado os $8 bilhões que a Microsoft deu para a OpenAI.

Então, cada GPT custa entre 25x e 100x o último. Vamos dizer 30x em média. Isso significa que podemos esperar que o GPT-6 custe $75 bilhões, e o GPT-7 custe $2 trilhões.

(A menos que eles coloquem o nome "GPT-6" em um modelo que não seja uma geração completa à frente do GPT-5. Considere esses números como representando modelos que estão, por exemplo, tão à frente do GPT-4 quanto o GPT-4 estava do GPT-3, independentemente de como os rotulem.)

Vamos tentar dividir esse custo. Em um sentido muito abstrato, treinar uma IA envolve três coisas:

  • Computação (ou seja, poder de computação, hardware, chips)
  • Eletricidade (para alimentar a computação)
  • Dados de treinamento

Computação

A computação é medida em operações de ponto flutuante (FLOPs). O GPT-3 levou 10^23 FLOPs para treinar, e o GPT-4 plausivelmente 10^25.

A capacidade de todos os computadores do mundo é de cerca de 10^21 FLOP/segundo, então eles poderiam treinar o GPT-4 em 10^4 segundos (ou seja, duas horas). Como a OpenAI tem menos computadores que todos os do mundo, levou seis meses. Isso sugere que a OpenAI estava usando cerca de 1/2000 dos computadores do mundo durante esse tempo.

Se mantivermos nosso fator de escalonamento de 30x, o GPT-5 levará 1/70 dos computadores do mundo, o GPT-6 levará 1/2, e o GPT-7 levará 15 vezes mais computadores do que existem. A capacidade de computação do mundo cresce rapidamente - esta fonte diz que ela dobra a cada 1,5 anos, o que significa que ela cresce por uma ordem de magnitude a cada cinco anos, o que significa que esses números provavelmente são superestimativas. Se imaginarmos cinco anos entre GPTs, então o GPT-6 realmente só precisará de 1/10 dos computadores do mundo, e o GPT-7 só precisará de 1/3. Ainda assim, 1/3 dos computadores do mundo é muita coisa.

Provavelmente você não pode obter 1/3 dos computadores do mundo, especialmente quando todas as outras empresas de IA também os querem. Você precisaria aumentar muito a fabricação de chips.

Energia

O GPT-4 consumiu cerca de 50 gigawatt-horas de energia para treinar. Usando nosso fator de escalonamento de 30x, esperamos que o GPT-5 precise de 1.500, o GPT-6 precise de 45.000, e o GPT-7 precise de 1,3 milhão.

Digamos que a execução de treinamento dure seis meses, ou seja, 4.320 horas. Isso significa que o GPT-6 precisará de 10 GW - cerca da metade da produção da Usina Hidrelétrica das Três Gargantas, a maior do mundo. O GPT-7 precisará de quinze Usinas Hidrelétricas das Três Gargantas. Isso não é apenas "o mundo precisará produzir tanta energia no total e você pode comprá-la". Você precisa da energia bastante próxima ao seu centro de dados. Sua melhor aposta aqui é ou conseguir um pipeline inteiro como o Nord Stream conectado ao seu centro de dados, ou então um reator de fusão.

(Sam Altman está trabalhando em energia de fusão, mas isso parece ser uma coincidência. Pelo menos, ele está interessado em fusão desde pelo menos 2016, o que é muito cedo para ele saber de qualquer coisa disso.)

Dados de Treinamento

Estes são o texto ou imagens ou qualquer coisa que a IA lê para entender como seu domínio funciona. O GPT-3 usou 300 bilhões de tokens. O GPT-4 usou 13 trilhões de tokens (outra fonte diz 6 trilhões). Isso parece que nosso fator de escalonamento de 30x ainda se mantém, mas teoricamente os dados de treinamento deveriam escalar como a raiz quadrada da computação - então você deveria esperar um fator de escalonamento de 5,5x. Isso significa que o GPT-5 precisará de algo em torno de 50 trilhões de tokens, o GPT-6 algo em trilhões com três dígitos, e o GPT-7 algo em quadrilhões.

Não há tanto texto no mundo todo. Talvez você possa obter alguns trilhões a mais combinando todos os livros publicados, mensagens do Facebook, tweets, mensagens de texto e e-mails. Você poderia conseguir mais adicionando todas as imagens, vídeos e filmes, uma vez que as IA aprendam a entendê-los. Ainda assim, não acho que você chegará a cem trilhões, quanto mais a um quadrilhão.

Você poderia tentar fazer uma IA que possa aprender coisas com menos dados de treinamento. Isso deveria ser possível, porque o cérebro humano aprende coisas sem ler todo o texto do mundo. Mas isso é difícil e ninguém tem uma ótima ideia de como fazer isso ainda.

Mais promissor é o uso de dados sintéticos, onde a IA gera dados para si mesma. Isso parece uma máquina de movimento perpétuo que não funcionaria, mas há truques para contornar isso. Por exemplo, você pode treinar uma IA de xadrez em dados sintéticos fazendo-a jogar contra si mesma um milhão de vezes. Você pode treinar uma IA de matemática fazendo-a gerar aleatoriamente passos para uma prova, eventualmente tropeçando em uma correta por acaso, detectando automaticamente a prova correta e então treinando com ela. Você pode treinar uma IA de jogo de vídeo fazendo-a fazer movimentos aleatórios e então ver qual obtém a pontuação mais alta. Em geral, você pode usar dados sintéticos quando não sabe como criar bons dados, mas sabe como reconhecê-los uma vez que existam (por exemplo, a IA de xadrez ganhou o jogo contra si mesma, a IA de matemática obteve uma prova correta, a IA de jogo de vídeo obteve uma boa pontuação). Mas ninguém sabe como fazer isso bem para texto escrito ainda.

Talvez você possa criar uma IA inteligente através de alguma combinação de texto, xadrez, matemática e videogames - alguns humanos seguem este currículo, e funciona bem para eles, mais ou menos.

Este é um pouco diferente - computação e eletricidade podem ser resolvidas com muito dinheiro, mas este pode exigir mais de uma descoberta.

Progresso Algorítmico

Isso significa "as pessoas fazem descobertas e se tornam melhores em construir IA". Parece ser mais uma daquelas coisas que dá uma ordem de magnitude de progresso a cada cinco anos mais ou menos, então estou revisando as estimativas acima para baixo um pouco.

Juntando Tudo

O GPT-5 pode precisar de cerca de 1% dos computadores do mundo, uma pequena usina elétrica e muitos dados de treinamento.

O GPT-6 pode precisar de cerca de 10% dos computadores do mundo, uma grande usina elétrica e mais dados de treinamento do que existem. Provavelmente isso se parece com um centro de dados do tamanho de uma cidade ligado a muitos painéis solares ou a um reator nuclear.

O GPT-7 pode precisar de todos os computadores do mundo, uma usina elétrica gigantesca além de qualquer uma que exista atualmente, e muito mais dados de treinamento do que existem. Provavelmente isso se parece com um centro de dados do tamanho de uma cidade ligado a uma usina de fusão.

Construir o GPT-8 é atualmente impossível. Mesmo que você resolva dados sintéticos e energia de fusão, e assuma todo o controle da indústria de semicondutores, você não chegará nem perto. Sua única esperança é que o GPT-7 seja superinteligente e te ajude com isso, seja te dizendo como construir IAs baratas, seja aumentando a economia global a ponto de financiar coisas atualmente impossíveis.


Tudo sobre GPTs acima de 5 é uma projeção ingênua das tendências existentes e provavelmente falsa. Estimativas de ordem de magnitude apenas. Você pode chamar isso de "especulativo" e "insano". Mas se Sam Altman não acreditasse em algo pelo menos tão especulativo e insano, ele não estaria pedindo $7 trilhões.

II.

Vamos voltar um pouco.

O GPT-6 provavelmente custará $75 bilhões ou mais. A OpenAI não pode pagar por isso. A Microsoft ou o Google poderiam pagar, mas isso levaria uma fração significativa (talvez metade?) dos recursos da empresa.

Se o GPT-5 falhar, ou for apenas uma melhoria incremental, ninguém vai querer gastar $75 bilhões fazendo o GPT-6, e tudo isso será irrelevante.

Por outro lado, se o GPT-5 estiver próximo do nível humano, e revolucionar indústrias inteiras, e parecer prestes a iniciar uma mudança no nível da Revolução Industrial nos assuntos humanos, então $75 bilhões para o próximo parecerão uma pechincha.

Além disso, se você estiver iniciando uma mudança no nível da Revolução Industrial nos assuntos humanos, talvez as coisas fiquem mais baratas. Eu não espero que o GPT-5 seja bom o suficiente para que ele possa fazer uma grande contribuição para o planejamento do GPT-6. Mas você tem que pensar nisso de forma escalonada. Ele pode fazer coisas suficientes para que projetos grandes (como o GPT-6, ou suas fábricas de chips associadas, ou suas usinas associadas) fiquem 10% mais baratos? Talvez.


O resultado disso é que estamos olhando para um processo exponencial, como R para uma pandemia. Se o expoente for > 1, ele cresce muito rapidamente. Se o expoente for < 1, ele desaparece.

Neste caso, se cada nova geração de IA for excitante o suficiente para inspirar mais investimentos e/ou inteligente o suficiente para diminuir o custo da próxima geração, então esses dois fatores combinados permitem a criação de outra geração de IAs em um ciclo de feedback positivo (R > 1).

Mas se cada nova geração de IA não for excitante o suficiente para inspirar o investimento massivo necessário para criar a próxima, e não for inteligente o suficiente para ajudar a reduzir o preço da próxima geração por conta própria, então em algum momento ninguém estará disposto a financiar IAs mais avançadas, e o atual boom de IA desaparece (R < 1). Isso não significa que você nunca ouvirá falar sobre IA - as pessoas provavelmente vão criar IA incrível, arte e vídeos e androides e namoradas e robôs assassinos. Isso apenas significa que a inteligência bruta dos maiores modelos não aumentará tão rapidamente.

Mesmo quando R < 1, ainda obtemos os modelos maiores eventualmente. Fábricas de chips podem gradualmente produzir mais chips. Pesquisadores podem gradualmente fazer mais descobertas algorítmicas. Se nada mais, você pode passar dez anos treinando o GPT-7 muito lentamente. Isso apenas significa que obteremos IA humana ou acima da humana no meio do século XXI, em vez do início.

III.

Quando Sam Altman pede $7 trilhões, eu o interpreto como querendo fazer este processo de maneira centralizada, rápida e eficiente. Um cara constrói as fábricas de chips e usinas de energia e as deixa todas prontas a tempo de treinar o próximo grande modelo.

Provavelmente ele não conseguirá seus $7 trilhões. Então este mesmo processo acontecerá, mas mais devagar, mais fragmentado e mais descentralizado. Eles vão lançar o GPT-5. Se for bom, alguém vai querer construir o GPT-6. O capitalismo normal fará com que as pessoas aumentem gradualmente a capacidade de chips. As pessoas farão muitos GPT-5.1s e GPT-5.2s até que finalmente alguém dê o passo e construa a usina gigante em algum lugar. Tudo isso levará décadas, acontecerá de forma bastante natural, e nenhuma pessoa ou corporação terá um monopólio.

Eu ficaria mais feliz com a segunda situação: a perspectiva de segurança aqui é que queremos o máximo de tempo possível para nos prepararmos para a IA disruptiva.

Sam Altman anteriormente endossou esta posição! Ele disse que os esforços da OpenAI eram bons para a segurança, porque você quer evitar um excesso de computação. Ou seja, você quer que o progresso da IA seja o mais gradual possível, não que progrida em solavancos repentinos. E uma maneira de manter as coisas graduais é maximizar o nível de IA que você pode construir com seus chips atuais, e então a IA pode crescer (no pior dos casos) tão rápido quanto o fornecimento de chips, que naturalmente cresce bastante lentamente.

...a menos que você peça $7 trilhões para aumentar o fornecimento de chips em um salto gigante o mais rápido possível! As pessoas que confiaram na boa natureza da OpenAI com base no argumento do excesso de computação estão se sentindo traídas agora.

Minha impressão atual das múltiplas perspectivas contraditórias da OpenAI aqui é que eles estão genuinamente interessados na segurança - mas apenas na medida em que isso seja compatível com a escalada rápida da IA. Isso está longe de ser a pior maneira que uma empresa de IA poderia ser. Mas também não é reconfortante.

Musk e a SEC

Elon Musk está questionando um acordo com a SEC nos EUA que exigia a supervisão de suas postagens online, alegando que viola seus direitos de liberdade de expressão. Musk pediu à Suprema Corte dos EUA para reverter parte do acordo feito em 2018, que envolveu uma ação movida pela SEC por declarações consideradas "falsas e enganosas" sobre a privatização da Tesla. O acordo incluía termos como a renúncia à presidência da Tesla, multa civil e pré-aprovação de publicações relacionadas à Tesla. 


A SEC alegou que Musk violou o acordo em 2019, resultando em sanções. Os tribunais distritais e de apelação decidiram a favor da SEC, argumentando que Musk concordou voluntariamente com o acordo. Porém, Musk contesta, argumentando que a SEC não pode impor uma "regra da mordaça" que viola a Primeira Emenda. A petição busca revisar a constitucionalidade do acordo e suas implicações sobre a liberdade de expressão. 

Este caso levanta questões sobre os limites do poder regulatório sobre a liberdade de expressão no ambiente digital. 

Rir é o melhor remédio


 007 na segunda de manhã

18 fevereiro 2024

Filho de Biden também com problemas fiscal



Os políticos poderosos frequentemente querem se aproveitar do poder para se beneficiar. O problema é serem expostos demais e seus pecados virarem notícia. Além da batalha longa da família Trump, o filho do atual presidente dos Estados Unidos (e provável candidato a reeleição), Hunter Biden, está bem enrolado com acusações fiscais. Hunter tem várias acusações relacionadas com sua declaração de imposto de renda, inclusive de não pagamento de 1,4 milhão entre 2016 a 2019. Mesmo tendo pago seus impostos a partir de 2018, a acusação é que o valor não foi o adequado, pois Hunter apresentou informações falsas, que resultou em um valor bem menor do que o devido. 

Emoção e Dinheiro

Eis o início da notícia

A mudança de Jeff Bezos para Miami poderia economizar mais de US$ 600 milhões em impostos. O bilionário, terceiro homem mais rico do mundo, com um patrimônio de US$ 189,6 bilhões segundo a Forbes, se mudou de Seattle para Miami para ficar mais perto de seus pais, chamando isso de uma “decisão emocional”.


No entanto, também há uma vantagem financeira nisso. Ao contrário do estado de Washington, onde fica Seattle, a Flórida não cobra imposto sobre ganhos de capital com a venda de ações.

O fundador da Amazon planeja vender 50 milhões de ações da gigante do comércio eletrônico até 31 de janeiro de 2025. Pela cotação da terça-feira (13) isso movimentaria US$ 8,4 bilhões (R$ 41,92 bilhões). Como o lucro é isento na Flórida, cálculos do site CNBC indicam que Bezos vai economizar cerca de US$ 600 milhões em impostos que teriam de ser pagos se ele tivesse domicílio fiscal em Seattle.

17 fevereiro 2024

Língua mais sexy

Qual é o sotaque pelo qual você mais se sente atraído? Bem, de acordo com a plataforma de aprendizado de idiomas Babbel, é oficial: o francês não é mais o sotaque mais sexy do mundo. Essa afirmação ousada será uma decepção para muitos, especialmente porque a Babbel já havia entrevistado mais de 15.000 pessoas em 2017, um grupo que nomeou o francês como o "sotaque mais sexy".


Então, quem destronou la belle langue française? Bem, 6.000 pessoas do Reino Unido, França, Espanha, Itália e Alemanha, bem como dos EUA, foram solicitadas a avaliar quais idiomas são percebidos como "mais sexy", "mais romântico" e "mais apaixonado"."

As descobertas afirmaram que o italiano era considerado pela maioria "mais sexy" e o "mais romântico" pelo maior número de pessoas envolvidas no estudo.

"Existem certas características do italiano que podem contribuir para seu apelo", explicou o professor de língua Babbel Noël Wolf ao jornal britânico Daily Mail. "A ascensão e queda do tom no italiano falado pode criar uma qualidade musical, que algumas pessoas acham atraente e atraente", disse Wolf. "Certas características fonéticas, como o lançamento de sons 'r', podem ser distintas em italiano, o que para muitos é considerado encantador ou atraente."

O inglês britânico foi considerado o "mais educado", enquanto o alemão conquistou o primeiro lugar no idioma "mais direto". Claramente, nenhuma expectativa foi subvertida aqui.

Fonte: adaptado daqui