출처 : https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world
우리는 로봇이 복잡한 다단계 작업을 더 잘 해결할 수 있도록 인식, 계획, 사고, 도구 사용 및 행동을 가능하게 하는 물리적 에이전트 시대를 열고 있습니다.
올해 초, 우리는 Gemini Robotics 모델군을 시작으로 Gemini의 다중 모드 이해를 물리적 세계로 가져오는 놀라운 진전을 이루었습니다.
오늘, 우리는 진정한 범용 지능형 로봇을 발전시키는 또 다른 단계로 나아가고 있습니다. 우리는 고급 사고를 통해 에이전트 경험을 가능하게 하는 두 가지 모델을 소개합니다.
Gemini Robotics 1.5 - 우리의 가장 유능한 비전-언어-행동(VLA) 모델은 시각 정보와 지침을 로봇이 작업을 수행하기 위한 모터 명령으로 변환합니다. 이 모델은 행동을 취하기 전에 생각하고 그 과정을 보여줌으로써 로봇이 복잡한 작업을 더 투명하게 평가하고 완료하는 데 도움을 줍니다. 또한 다양한 구현 전반에서 학습하여 기술 학습을 가속화합니다.
Gemini Robotics-ER 1.5 - 우리의 가장 유능한 비전-언어 모델(VLM)은 물리적 세계에 대해 추론하고, Google Search와 같은 디지털 도구를 기본적으로 호출하며, 임무를 완료하기 위한 상세한 다단계 계획을 만듭니다. 이 모델은 이제 공간 이해 벤치마크 전반에서 최첨단 성능을 달성합니다.
이러한 발전은 개발자들이 환경을 능동적으로 이해하여 복잡한 다단계 작업을 일반적인 방식으로 완료할 수 있는 보다 유능하고 다재다능한 로봇을 구축하는 데 도움이 될 것입니다.
오늘부터 Gemini Robotics-ER 1.5는 Google AI Studio의 Gemini API를 통해 개발자에게 제공됩니다. Gemini Robotics 1.5는 현재 일부 파트너에게 제공되고 있습니다. 다음 세대 물리적 에이전트를 통한 구축에 대한 자세한 내용은 개발자 블로그에서 확인하십시오.
Gemini Robotics 1.5: 물리적 작업을 위한 에이전트 경험 구현
대부분의 일상적인 작업은 완료하는 데 문맥 정보와 여러 단계가 필요하므로 오늘날 로봇에게는 까다로운 과제로 알려져 있습니다.
예를 들어, 로봇에게 "내 위치를 기준으로 이 물체들을 올바른 퇴비, 재활용품, 쓰레기통에 분류해 줄 수 있니?"라고 요청하면, 로봇은 인터넷에서 관련 지역 재활용 지침을 검색하고, 눈앞의 물체들을 살펴보고, 그 규칙에 따라 분류하는 방법을 파악한 다음, 그것들을 완전히 정리하는 데 필요한 모든 단계를 수행해야 합니다. 따라서 로봇이 이러한 유형의 복잡한 다단계 작업을 완료할 수 있도록 돕기 위해, 우리는 에이전트 프레임워크 내에서 함께 작동하는 두 가지 모델을 설계했습니다.
우리의 구현 추론 모델인 Gemini Robotics-ER 1.5는 고수준 두뇌처럼 로봇의 활동을 조율합니다. 이 모델은 물리적 환경 내에서 계획을 세우고 논리적 결정을 내리는 데 탁월합니다. 이는 최첨단 공간 이해 능력을 갖추고, 자연어로 상호 작용하며, 성공과 진행 상황을 추정하고, 정보를 검색하기 위해 Google Search와 같은 도구나 모든 타사 사용자 정의 함수를 기본적으로 호출할 수 있습니다.
그런 다음 Gemini Robotics-ER 1.5는 각 단계에 대한 자연어 지침을 Gemini Robotics 1.5에 제공하고, Gemini Robotics 1.5는 시각 및 언어 이해를 사용하여 특정 행동을 직접 수행합니다. Gemini Robotics 1.5는 또한 로봇이 의미론적으로 복잡한 작업을 더 잘 해결할 수 있도록 자신의 행동에 대해 생각하도록 돕고, 심지어 자연어로 사고 과정을 설명할 수 있어 의사 결정을 더 투명하게 만듭니다.

물리적 세계에서 복잡한 작업을 수행하기 위한 로봇 모델 협력 도표
저희의 체화된 추론 모델(Embodied Reasoning Model)인 Gemini Robotics-ER 1.5와 시각-언어-행동 모델(Vision-Language-Action Model)인 Gemini Robotics 1.5가 물리적 세계에서 복잡한 작업을 수행하기 위해 어떻게 능동적으로 협력하는지를 보여주는 도표입니다.
이 두 모델은 모두 핵심 Gemini 모델군을 기반으로 구축되었으며, 각자의 역할에 특화되도록 서로 다른 데이터 세트로 미세 조정되었습니다. 이 두 모델이 결합되면, 로봇이 더 길어지는 작업과 더욱 다양한 환경에 대해 일반화할 수 있는 능력이 향상됩니다.
환경 이해 능력
Gemini Robotics-ER 1.5는 체화된 추론(embodied reasoning)에 최적화된 최초의 사고 모델입니다. 이 모델은 저희의 신뢰할 수 있는 테스터 프로그램에서 얻은 실제 사용 사례로부터 영감을 받아, 학술적 벤치마크와 내부 벤치마크 모두에서 최첨단 성능(state-of-the-art performance)을 달성합니다.
저희는 Gemini Robotics-ER 1.5를 체화된 추론 질문 답변(Embodied Reasoning Question Answering, ERQA) 및 포인트-벤치(Point-Bench)를 포함한 15개의 학술적 벤치마크에서 평가했으며, 이는 포인팅(pointing), 이미지 질문 답변 및 비디오 질문 답변에 대한 모델의 성능을 측정하는 것입니다.
자세한 내용은 기술 보고서(our tech report)에서 확인하십시오.

제미니 로보틱스-ER 1.5의 최첨단 성능 결과를 유사 모델과 비교하여 보여주는 막대 그래프. 당사의 모델은 Point-Bench, RefSpatial, RoboSpatial-Pointing, Where2Place, BLINK, CV-Bench, ERQA, EmbSpatial, MindCube, RoboSpatial-VQA, SAT, Cosmos-Reason1, Min Video Pairs, OpenEQA 및 VSI-Bench를 포함한 15개 학술 체화된 추론 벤치마크에서 가장 높은 종합 성능을 달성합니다.
행동하기 전에 생각하기
기존의 시각-언어-행동 모델은 지침이나 언어적 계획을 로봇의 움직임으로 직접 변환했습니다. 제미니 로보틱스 1.5는 단순히 지침이나 계획을 번역하는 것을 넘어, 이제 행동을 취하기 전에 생각할 수 있습니다. 이는 여러 단계를 필요로 하거나 더 깊은 의미론적 이해를 요구하는 작업을 수행하기 위해 자연어로 추론 및 분석의 내부 순서를 생성할 수 있음을 의미합니다.
예를 들어, “내 세탁물을 색깔별로 분류해 줘”와 같은 작업을 완료할 때, 아래 영상 속 로봇은 여러 단계로 생각합니다. 첫째, 색깔별 분류는 흰옷은 흰색 통에 넣고 다른 색깔은 검은색 통에 넣는 것을 의미한다고 이해합니다. 그런 다음, 빨간색 스웨터를 집어 검은색 통에 넣는 것과 같은 취해야 할 단계와 스웨터를 더 쉽게 집기 위해 가까이 옮기는 것과 같은 관련된 세부 동작에 대해 생각합니다.
https://www.youtube.com/watch?v=eDyXEh8XqjM
이 다단계 사고 과정 동안, 시각-언어-행동 모델은 더 긴 작업을 로봇이 성공적으로 실행할 수 있는 더 단순하고 짧은 세그먼트로 나누기로 결정할 수 있습니다. 이는 또한 모델이 새로운 작업을 해결하도록 일반화하고 환경 변화에 더 강건해지는 데 도움이 됩니다.
다양한 구현체 전반에 걸쳐 학습
로봇은 다양한 모양과 크기로 제공되며, 서로 다른 감지 능력과 자유도를 가지고 있어 한 로봇에서 학습한 동작을 다른 로봇으로 이전하기 어렵습니다.
제미니 로보틱스 1.5는 다양한 구현체 전반에 걸쳐 학습하는 놀라운 능력을 보여줍니다. 모델을 각 새로운 구현체에 특화할 필요 없이, 한 로봇에서 학습한 동작을 다른 로봇으로 이전할 수 있습니다. 이 획기적인 발전은 새로운 동작 학습을 가속화하여 로봇이 더 스마트하고 유용하게 되는 데 도움을 줍니다.
예를 들어, 학습 중에 ALOHA 2 로봇에게만 제시된 작업이 Apptronik의 휴머노이드 로봇인 Apollo와 양팔 Franka 로봇에서도 작동하며 그 반대의 경우도 마찬가지임을 관찰합니다.
https://www.youtube.com/watch?v=9FV5ZYytkOQ&t=5s
AI 및 로보틱스를 책임감 있게 발전시키는 방법
체화된 AI의 잠재력을 완전히 실현함에 따라, 우리는 행위 주도적 AI 로봇이 인간 중심 환경에 책임감 있게 배치될 수 있도록 새로운 안전 및 정렬 접근 방식을 선제적으로 개발하고 있습니다.
당사의 책임 및 안전 위원회(RSC)와 책임감 있는 개발 및 혁신(ReDI) 팀은 로보틱스 팀과 협력하여 이러한 모델의 개발이 당사의 AI 원칙에 부합하도록 보장합니다.
제미니 로보틱스 1.5는 행동하기 전에 안전에 대해 생각하는 것을 포함한 고수준 의미론적 추론을 통해 안전에 대한 전체론적 접근 방식을 구현하고, 기존의 제미니 안전 정책과의 정렬을 통해 인간과의 존중하는 대화를 보장하며, 필요할 때 로봇에 탑재된 저수준 안전 하위 시스템()을 작동시킵니다.
제미니 로보틱스 모델의 안전한 개발을 안내하기 위해, 더 나은 꼬리 커버리지, 개선된 주석, 새로운 안전 질문 유형 및 새로운 비디오 양식을 갖춘 의미론적 안전을 평가하고 개선하기 위한 포괄적인 데이터 세트 모음인 ASIMOV 벤치마크의 업그레이드 버전도 출시하고 있습니다.
ASIMOV 벤치마크에 대한 안전 평가에서 제미니 로보틱스-ER 1.5는 최첨단 성능을 보여주며, 그 사고 능력은 의미론적 안전에 대한 향상된 이해와 물리적 안전 제약에 대한 더 나은 준수에 크게 기여합니다.
당사의 기술 보고서에서 안전 연구에 대해 더 자세히 알아보거나 안전 웹사이트를 방문하십시오.
물리적 세계에서 AGI 해결을 향한 이정표
제미니 로보틱스 1.5는 물리적 세계에서 AGI() 해결을 향한 중요한 이정표를 세웁니다. 행위 주도적 기능을 도입함으로써, 우리는 명령에 반응하는 모델을 넘어 진정으로 추론하고, 계획하며, 도구를 적극적으로 사용하고, 일반화할 수 있는 시스템을 만들고 있습니다.
이는 지능과 민첩성을 가지고 물리적 세계의 복잡성을 헤쳐나갈 수 있고, 궁극적으로 더 도움이 되고 우리 삶에 더 통합될 수 있는 로봇을 구축하기 위한 근본적인 단계입니다.
우리는 더 넓은 연구 커뮤니티와 이 작업을 계속하게 되어 기쁘며, 로보틱스 커뮤니티가 당사의 최신 제미니 로보틱스-ER 모델로 무엇을 만들어낼지 기대됩니다.
'로봇' 카테고리의 다른 글
| 로봇 물리 시뮬레이터 MuJoCo (0) | 2025.09.28 |
|---|---|
| NVIDA Isaac Omniverse, Isaac Sim, Issac Lab, GR00T 등 비교 정리 (0) | 2025.09.28 |
| Apptronik, 미국 휴머노이드 로봇 회사 (0) | 2025.09.28 |
| Gemini Robotics Model, 구글 로보틱스 AI 모델 (0) | 2025.09.28 |
| SKILD AI의 omni-bodied robot brain (0) | 2025.09.28 |