Chatbots de IA, como ChatGPT e Gemini, aprendem com textos e nunca vivenciaram o que descrevem. Já as IAs de vídeo usam grandes volumes de imagens em movimento para construir um entendimento prático sobre objetos, ações e até leis físicas. Se for bem sucedida, essa evolução pode levar ao surgimento de máquinas capazes de agir com mais autonomia no mundo físico, longe das telas frias de computadores e celulares.
A maior sacada que tem nesses modelos de IA que criam vídeo é justamente entender que é uma evolução dos chatbots. […] Por exemplo, o ChatGPT ou Gemini, a gente chama eles de modelo de linguagem, certo? […] São modelos que, de uma forma estatística, aprendem a relação entre as palavras e a prever qual que é a melhor palavra dada uma sequência de palavras.
Você pode perguntar alguma coisa sobre o mundo físico para o ChatGPT, sei lá, tipo, explicar a gravidade, não pode? (…) Ele responde, e às vezes responde corretamente, certo? E qual que é a ideia? Ele aprende isso de uma maneira a partir de conteúdos explícitos (…) Mas ele não experienciou aquilo.
Diogo Cortiz
Helton reforça: “Ele pode ter lido a teoria da relatividade, o que escreveram a respeito disso, só que nunca caiu uma maçã na cabeça do ChatGPT”
Cortiz complementa que, para nós, seres humanos, boa parte do conhecimento é tácito, ou seja, só adquirido com experiência. Como então dar esse conhecimento a um algoritmo que não pode viver longe dos computadores que o sustentam?
Por isso, para ensinar a IA a “entender” o mundo, os pesquisadores passaram a mostrar milhões de vídeos às máquinas. Assim, elas aprendem a identificar objetos, captar ações e até entender leis físicas a partir do movimento e das relações entre as coisas.
