본문 바로가기

로봇

Gemini Robotics Model, 구글 로보틱스 AI 모델

출처(Source) : https://deepmind.google/models/gemini-robotics/

제미나이 로봇공학 모델의 특징

제미나이 로봇공학 모델(Gemini Robotics models)은 모든 모양과 크기의 로봇이 인지(perceive)하고, 추론(reason)하며, 도구를 사용하고, 인간과 상호작용할 수 있도록 해줍니다.

이 모델은 훈련받지 않은 작업일지라도, 광범위하고 복잡한 실제 세계의 다양한 작업들을 해결할 수 있습니다. 이는 로봇이 환경 변화에 유연하게 적응하고 새로운 상황에 일반화된 지능을 적용할 수 있음을 의미합니다.


주요 기능 요약

  • 다양한 형태와 크기 지원: 어떤 모양이나 크기의 로봇에도 적용 가능합니다.
  • 인지 및 추론: 주변 환경을 인식하고 논리적으로 생각할 수 있습니다.
  • 도구 사용: 작업을 수행하기 위해 도구를 효과적으로 활용할 수 있습니다.
  • 인간 상호작용: 인간과 자연스럽게 소통하고 협력할 수 있습니다.
  • 광범위한 작업 해결: 훈련되지 않은 복잡한 실세계 작업까지도 수행할 수 있습니다. 🤖

Gemini Robotics 1.5는 여러 단계의 복잡한 작업을 추론하고, 행동 계획을 수립하기 위한 결정을 내리도록 설계되었습니다. 그런 다음 각 단계를 자율적으로 수행하기 위해 작동합니다.

기능 Gemini 모델은 텍스트, 이미지, 오디오 및 비디오에 응답할 수 있습니다. Gemini Robotics는 로봇이 실제 세계에서 행동을 취할 수 있도록 물리적 공간에 대해 추론하는 기능을 추가합니다.

일반성 물리적 세계를 이해하고, 새로운 상황에 맞게 행동을 조정하고 일반화합니다. 목표를 관리 가능한 단계로 나누어 장기적인 계획을 세우고 예상치 못한 문제를 극복합니다.

에이전트 기능 복잡한 문제를 평가하고, Google Search와 같은 도구를 기본적으로 호출하여 정보를 찾고, 이를 극복하기 위한 상세한 단계별 계획을 만듭니다.

사고 로봇이 행동하기 전에 생각할 수 있도록 하여 행동의 질을 높이고, 자연어로 결정을 더 투명하게 만듭니다.

상호 작용 일상적인 명령을 이해하고 응답합니다. 행동을 취하는 동안 자신의 접근 방식을 설명할 수 있습니다. 사용자는 기술적인 언어를 사용하지 않고도 언제든지 방향을 바꿀 수 있습니다. 또한 환경의 모든 변화에 적응합니다.

정교함 종이접기, 도시락 싸기, 샐러드 준비와 같이 정교한 운동 기술과 정확한 조작이 필요한 복잡한 작업을 로봇이 처리할 수 있도록 합니다.

다양한 구현 ALOHA 및 Bi-arm Franka와 같은 양팔 정적 로봇 플랫폼부터 Apptronik의 Apollo와 같은 휴머노이드 로봇에 이르기까지 다양한 로봇 형태에 적응합니다. 단일 모델을 이 모든 로봇에 걸쳐 사용할 수 있어, 결과적으로 여러 구현 전반에서 학습 속도를 높입니다.

실습 Gemini Robotics가 다양한 작업을 어떻게 처리하는지 확인하십시오.

에이전트 기능 복잡한 작업을 해결하기 위해 디지털 도구를 자율적으로 사용합니다.

시청 행동하면서 생각하기 각 단계 후에 새로운 지침이 필요 없이 더 길고 여러 단계로 이루어진 작업을 해결합니다.

시청 여러 구현을 통한 학습 배운 동작을 크기와 모양이 다른 로봇 간에 전송하여 로봇이 더 유용해지도록 돕습니다.

시청 실제 일반성 새로운 상황에 일반화하고 광범위한 작업을 해결합니다.

시청 동적 상호 작용 자연스러운 대화에 응답하고 변화하는 환경에 빠르게 적응합니다.

시청 Apptronik과의 협력 차세대 휴머노이드 로봇 구축을 돕습니다.

시청 정교한 기술 정밀한 운동 기술과 조정이 필요한 작업을 수행합니다.

시청 AI 및 로봇 공학의 책임 있는 발전 Gemini Robotics가 인류에게 혜택을 주도록 보장하기 위해, 실질적인 안전 장치부터 전문가, 정책 입안자 및 당사의 책임 및 안전 위원회와의 협력에 이르기까지 안전에 대한 포괄적인 접근 방식을 취했습니다. 더 알아보기

모델 및 도구 당사는 비전-언어-행동(VLA) 모델과 구현 추론(ER) 모델을 짝지어 이중 모델 접근 방식을 취합니다. 각 모델은 전문적인 역할을 수행하며, 강력하고 다재다능한 시스템으로 함께 작동합니다.

Gemini Robotics 1.5 가장 유능한 비전-언어-행동(VLA) 모델입니다. 물리적 세계 내에서 '보고'(시각), '이해하고'(언어), '행동할'(행동) 수 있습니다. 시각적 입력과 사용자 프롬프트를 처리하고, 다양한 구현 내에서 학습하며 문제 해결을 일반화하는 능력을 높입니다. 더 알아보기

Gemini Robotics-ER 1.5 최첨단 구현 추론 모델입니다. 물리적 공간 이해, 계획 수립, 주변 환경과 관련된 논리적 결정 내리기를 전문으로 합니다. 로봇 팔다리를 직접 제어하지는 않지만, VLA 모델이 다음에 무엇을 할지 결정하는 데 도움이 되는 높은 수준의 통찰력을 제공합니다. 더 알아보기

Gemini Robotics On-Device 이 VLA 모델의 반복은 매우 다재다능하며, 로봇 장치에서 로컬로 실행되도록 최적화되어 있습니다. 이를 통해 로봇 공학 개발자는 자신의 애플리케이션에서 성능을 향상시키기 위해 모델을 조정할 수 있습니다. 더 알아보기

Gemini Robotics SDK 개발자가 Gemini Robotics On-Device 모델을 새로운 작업 및 환경에 쉽게 적용하도록 돕습니다. SDK 액세스 신청하기

협력 당사는 차세대 휴머노이드 로봇을 구축하기 위해 Apptronik과 협력하고 있습니다. 또한 Gemini Robotics-ER의 미래를 안내하기 위해 60명 이상의 신뢰할 수 있는 테스터와 협력하고 있습니다.

반응형