NVIDIA Apresenta Cosmos-Reason1: Modelos de IA Revolucionários Conectam Compreensão Física e Raciocínio Incorporado
Pesquisadores da NVIDIA apresentaram Cosmos-Reason1, uma família inovadora de grandes modelos de linguagem multimodais que representa um grande avanço na capacidade da inteligência artificial de entender e raciocinar sobre o mundo físico. Os novos modelos de IA, disponíveis em versões de 7 bilhões e 56 bilhões de parâmetros, foram especificamente criados para dar aos sistemas de IA senso comum físico e capacidades de raciocínio incorporado que podem revolucionar a robótica, veículos autônomos e aplicações de realidade aumentada.
Uma Estrutura Abrangente para IA Física
A equipe de pesquisa da NVIDIA desenvolveu o Cosmos-Reason1 usando uma abordagem sistemática inovadora que resolve um dos desafios mais persistentes da IA: a falta de base física em grandes modelos de linguagem. O processo de desenvolvimento incluiu a criação de ontologias abrangentes, a organização de grandes conjuntos de dados e a implementação de metodologias de treinamento especializadas para preencher a lacuna entre a IA baseada em linguagem e a interação física no mundo real.
Os pesquisadores construíram duas ontologias distintas para organizar sua abordagem. A primeira é uma ontologia hierárquica que organiza o senso comum físico em três categorias principais: Espaço, Tempo e Física Fundamental, subdivididas em 16 subcategorias específicas. A segunda é uma ontologia bidimensional para raciocínio incorporado que mapeia quatro capacidades chave (processamento sensorial, previsão de efeitos, respeito a restrições e aprendizado por interação) em cinco tipos diferentes de agentes.
Para treinar esses modelos de forma eficaz, a equipe reuniu cerca de 4 milhões de pares de vídeo e texto, que incluem tarefas de resposta a perguntas visuais, traços de raciocínio passo a passo e quebra-cabeças de física intuitiva. O processo de