IA Mundo Geek Tecnologia

A IA da Meta que “entende” a física do mundo real e promete revolucionar os robôs

Imagine mostrar a um bebê um copo de água sobre uma mesa, escondê-lo com um painel e então mover esse painel como se o copo não existisse. Muitos bebês de seis meses ficam surpresos e com um ano quase todas as crianças já têm, por instinto, noção de que objetos continuam existindo mesmo quando invisíveis. Pois agora há uma inteligência artificial capaz de algo parecido: aprender, apenas vendo vídeos, noções básicas de física, como permanência de objetos, gravidade, forma e cor constantes.

Robôs autônomos precisam de algo como uma intuição física para planejar seus movimentos e interagir com o ambiente físico.

Desenvolvida pela Meta, V-JEPA não parte de um conjunto de regras predefinidas sobre como o mundo funciona. Em vez disso, ela observa vídeos comuns, sem qualquer anotação, e constrói internamente, de modo abstrato, uma representação do que vê. Diferentemente dos modelos tradicionais que tratam cada pixel como igualmente importante (e acabam tropeçando em detalhes irrelevantes como a sombra de uma folha ou o balanço de galhos), V-JEPA converte os frames em representações latentes, resumos enxutos que capturam apenas o essencial: posição, forma, movimento, interações.

Na prática, o modelo utiliza duas “visões” da mesma cena: uma com partes ocultas, outra completa. Depois, tenta prever, a partir da versão incompleta, como seria a versão inteira, não pixel a pixel, mas em termos dessas representações latentes. Assim, aprende a inferir o comportamento físico dos elementos do vídeo sem jamais ver instruções explícitas sobre gravidade, colisão ou permanência.

Em testes de “intuição física” , por exemplo, avaliar se uma cena em vídeo respeita as leis da física ou se algo ali contradiz o físico do mundo real, V-JEPA alcançou cerca de 98 % de acerto, desempenho muito superior ao de modelos convencionais baseados em pixel.

Em 2025, a Meta evoluiu o sistema para V-JEPA 2, uma versão mais robusta, treinada com milhões de vídeos e que apresentou avanços significativos na capacidade de prever e interagir com o mundo físico. Essa nova versão já está sendo testada em robôs, que a utilizam para entender cenas reais, planejar ações simples e manipular objetos com base apenas na “intuição visual” aprendida.

Por mais impressionante que pareça, V-JEPA e V-JEPA 2 ainda têm limitações. Elas conseguem lidar bem com trechos curtos de vídeo e prever apenas poucos segundos à frente, o que dificulta tarefas que exigem memória mais longa ou raciocínios complexos de causa e consequência. Mesmo assim, o avanço marca um passo importante: IA que aprende não por regras codificadas, mas por observação, algo próximo ao que fazemos naturalmente desde a infância.

Veja mais sobre a IA!

Hortência é profissional de Letras, educadora, tatuadora e mãe. Apaixonada por arte e cultura, une seus múltiplos interesses que vão da cultura pop à gastronomia para produzir conteúdos variados e criativos.

Pin