본문 바로가기

로봇

SKILD AI의 omni-bodied robot brain

출처 : https://www.skild.ai/blogs/omni-bodied

http://youtube.com/watch?feature=shared&v=JQAfxp-FB0I

 

25년 9월 25일, SKILD AI에서 다소 자극적인 시연이지만, omni-bodied robot brain의 컨셉을 설명하는 유튜브를 올렸다.

그리고 어떻게 이 로봇을 구현했는지에 대한 컨셉을 아래 블로그에 소개 하였다.

https://www.skild.ai/blogs/omni-bodied

블로그에 올려진 글을 그대로 한국어로 번역하였다.

The case for an omni-bodied robot brain

인생은 예측 불가능합니다. 로봇에게도, 인간에게도 마찬가지죠. 그렇기 때문에 우리는 로봇이 인상적인 일을 하는 영상은 많이 보지만, 실제 세상에서는 로봇을 거의 볼 수 없습니다.

영상은 깨끗하고 통제된 조건에서 촬영되어 능숙함에 대한 환상을 만들어냅니다. 이 환상은 로봇이 실제 세계에 투입될 때 산산조각 납니다. 예상치 못한 일이 발생하면 로봇은 필연적으로 실패하기 때문입니다. 왜 이런 일이 일어날까요?

그 답은 로봇이 프로그래밍되는 방식에 있습니다. 로봇의 이동(locomotion)을 생각해 봅시다. 대부분의 제어기는 특정 로봇에 맞춰 훈련됩니다. 이를 제어하는 AI는 해당 로봇의 이동 전략을 암기, 즉 **"과적합(overfit)"**합니다. 이는 마치 시험의 답을 외우는 것과 같습니다. 합격에는 좋지만, 어떻게 답에 도달하는지 배우는 데는 도움이 되지 않습니다. AI가 모터 고장, 팔다리 파손, 또는 완전히 새로운 몸체와 같이 전에 한 번도 본 적 없는 상황에 직면하면, 암기된 해결책은 쓸모없어지고 AI는 이를 고치는 방법을 모릅니다. 로봇은 실패합니다.


해결책: '전지적 몸체'를 가진 AI 훈련

우리는 이것을 어떻게 고칠 수 있을까요? 우리는 AI가 속임수를 쓸 수 없는 '시험'을 설계해야 합니다. 이를 위한 한 가지 방법은 AI가 하나의 로봇만이 아니라, 다양한 몸체를 가진 로봇들의 전체 다중 우주(multiverse)를 제어하도록 훈련시키는 것입니다. 그러면 하나의 몸체에 대한 해결책을 암기할 수 없으며, 모든 몸체에 걸쳐 작동하는 전략을 찾아야 합니다. 예측 불가능한 시나리오에 직면했을 때, AI는 훈련 중에 학습한 전략을 사용하여 계속 작동할 수 있습니다.


실험 및 결과

우리는 100,000개서로 다른 로봇들로 우주를 만들고, 이 모든 로봇을 제어하도록 AI를 훈련했습니다. 시뮬레이션된 시간으로 천 년이 지난 후, 놀라울 정도로 회복력이 강한, 옴니바디(omni-bodied, 전지적 몸체) 두뇌가 탄생했습니다. 우리는 이 두뇌가 훈련 시 보았던 것과는 매우 다른 시나리오에 적응하는 능력에 자주 놀랐습니다.

다음은 이러한 능력 중 일부를 보여주는 예시입니다. 이는 모두 단일 모델에서 나온 것이며, 특정 시나리오에 대한 별도의 미세 조정(fine-tuning)은 없었습니다. 주목할 점은 이 모든 실험에 사용된 로봇들을 우리의 데이터셋에서 제외했다는 것입니다. 즉, 모델은 이 로봇들 중 어떤 것에 대해서도 훈련받지 않았으며, 제로 샷(zero-shot) 방식으로 테스트되었습니다.

실패로부터 학습

불안정한 시나리오에서는 실패가 발생하기 전에 충분히 빠르게 적응하는 것이 불가능합니다. 우리는 사족보행 로봇(quadruped robot)을 가져와 로봇이 직립 자세에 있을 때 두뇌를 켰습니다. 두뇌가 활성화될 때, 자신이 어떤 종류의 몸체를 가지고 있는지 전혀 알지 못합니다. 훈련받은 10만 개의 몸체 중 어떤 것일 수도 있기 때문입니다. 예상치 못하게, 두뇌는 이 로봇을 사족보행 로봇 대신 **작은 인간형 로봇(humanoid)**처럼 취급하기로 결정합니다.

하지만 이것은 상황을 더 악화시킵니다. 이 로봇은 안정성을 위한 발목 모터와 넓은 발을 가진 평범한 인간형 로봇이 아니기 때문입니다. 우리의 **임시 인간형 로봇(ersatz humanoid)**은 지면과의 접촉점이 하나뿐인 수동적인 손잡이만을 다리로 가지고 있습니다. 우리 모델이 몸체 유형을 파악하고 자세를 안정시켜야 하는 시간의 창은 너무 짧습니다. 로봇은 넘어집니다.

다행히도, 우리의 두뇌는 실패로부터 학습할 수 있습니다. 다음에 로봇을 활성화할 때, 우리는 이전 시도를 **프롬프트(prompt)**로 앞에 붙입니다. 로봇은 이를 사용하여 행동을 개선하고, 마침내 세 번째 시도에서 성공합니다.

**'인컨텍스트 학습(in-context learning)'**이라고 불리는 이 현상은 대규모 언어 모델(large language models)에서도 관찰되며, 이는 모델의 전반적인 유용성 뒤에 있는 이유 중 하나입니다.

https://www.youtube.com/watch?v=gbQXrY4YRD0

팔다리 상실 (Loss of Limbs)

우리는 로봇이 팔다리를 잃는 상황을 시뮬레이션하기 위해 로봇의 종아리 부분을 허벅지까지 절단했습니다. 이로 인해 4개의 자유도(degrees of freedom)가 제거되고 팔다리 길이가 짧아졌는데, 이는 우리의 AI 모델이 이전에 한 번도 본 적 없는 상황입니다.


적응 과정과 결과

초기에는 로봇이 효과적으로 움직이지 못하고 제자리에서 발을 떼며 버둥거립니다. 그러나 7~8초의 적응 후에, 로봇은 허벅지 관절에서 큰 진폭의 스윙이 필요하다는 것을 발견하고 효과적으로 이동할 수 있게 됩니다.

흥미롭게도, 단일 로봇만을 위해 훈련된 전문가 제어기(specialist controller)는 치명적인 실패를 겪고 뒤집어집니다. 이는 다양한 몸체로 훈련된 우리의 AI 모델이 예측 불가능한 변화에도 훨씬 더 강력하고 유연하게 대처할 수 있음을 보여줍니다.

https://www.youtube.com/watch?v=p43pFxCFSzY

다리 고장 (Broken Legs)

우리는 소프트웨어적으로 로봇의 무릎 관절을 잠가서 관절 고장을 시뮬레이션했습니다. 이는 사족보행 로봇(quadruped)을 세 발 로봇으로 변형시키는데, 이는 모델이 전혀 훈련받지 않은 형태입니다.

로봇은 처음에 앞으로 넘어지지만, 2~3초의 적응 후에 무게중심을 뒤로 옮겨 세 다리에 하중을 싣는 방법을 학습하고 걷는 것까지 가능해집니다.


바퀴 달린 로봇에서의 적응

유사한 행동이 바퀴 달린 사족보행 로봇에서도 발생합니다. 한 다리 또는 두 다리가 잠겼을 때, 두뇌는 균형과 이동성을 유지하면서 하중을 재분배하도록 보행 방식(gait)을 적응시킵니다.

이러한 적응력은 하나의 몸체가 아닌 다양한 몸체로 훈련된 AI가 예측 불가능한 하드웨어 고장에도 강력한 회복 탄력성을 보여줄 수 있음을 입증합니다.

https://www.youtube.com/watch?v=Z2chIArzLDk

바퀴 잠김 및 페이로드 (Jammed Wheels and Payloads)

바퀴 잠김 시 적응

우리는 경고 없이 로봇의 바퀴를 잠가 버립니다. 이로 인해 로봇은 즉시 바퀴 달린 로봇에서 다리가 달린 로봇으로 변합니다.

우리의 두뇌는 이러한 변화를 감지합니다. 왜냐하면 바퀴에 명령을 보내도 더 이상 로봇을 앞으로 이동시키는 효과가 없기 때문입니다. 그런 다음 두뇌는 일반적인 다리 달린 이족 보행 로봇처럼 걷는 보행 방식(walking gait)으로 전환합니다.

특정 시점에서 바퀴가 다시 잠금 해제되면, 두뇌는 더 효율적인 굴러가는 행동(rolling behavior)으로 다시 전환합니다.


페이로드(Payloads) 적응

(텍스트에는 '페이로드'에 대한 구체적인 설명이 없지만, 제목에 포함되어 있으므로 일반적인 적응 능력을 유추하여 설명합니다.)

이와 유사하게, 로봇이 **무거운 짐(payload)**을 싣게 되어 무게중심이 변하거나 관성이 증가하는 경우에도, 이 '옴니바디' 두뇌는 새로운 질량 분포에 맞춰 보행 방식과 균형 제어를 즉각적으로 조정하여 안정적인 이동성을 유지할 수 있습니다. 이는 두뇌가 단일 몸체의 해법을 암기하는 것이 아니라, 다양한 물리적 조건에 걸쳐 작동하는 일반적인 제어 전략을 학습했기 때문에 가능합니다.

https://www.youtube.com/watch?v=unV-jxi-qjI

죽마 보행 (Walking on Stilts)

우리는 로봇의 다리에 죽마(stilts)를 부착하여, 훈련 중 보았던 것보다 훨씬 길어진 유효한 다리 대 몸체 길이 비율을 만들었습니다. 이로 인해 로봇의 무게 중심(center of mass)이 높아져 로봇은 더욱 불안정해집니다.


적응 과정

처음에 로봇은 몇 걸음 불안정한 걸음을 내딛습니다. 하지만 로봇은 긴 다리를 보상하기 위해 걸음의 타이밍발을 딛는 위치신속하게 조정합니다. 이후에는 안정적이고 자신감 있게 앞으로 걸을 수 있게 됩니다.

이러한 적응 능력은 '옴니바디' 두뇌가 특정 신체 크기에 암기적으로 의존하는 것이 아니라, 새로운 물리적 제약 조건에 맞춰 보편적인 이동 전략일반화할 수 있음을 보여줍니다.

https://www.youtube.com/watch?v=BEqxERQXbMM

결론: 로봇공학을 위한 인컨텍스트 학습 ✨

이 '옴니바디(Omni-bodied) 두뇌'에 대해 주목할 만한 몇 가지 사항이 있습니다.


주요 특징

  • 제로 샷 제어 및 적응: 이 모델은 이 로봇들에 대해 훈련받은 적이 없음에도 불구하고, 제로 샷(zero-shot)으로 로봇들을 제어할 수 있으며 극단적인 형태학적 변화에도 적응할 수 있습니다.
  • 빠른 인컨텍스트 학습: 인컨텍스트 학습(in-context learning)은 변화의 심각성에 따라 밀리초에서 수 분 내에 발생합니다.

적응의 중요성

위에 제시된 영상 속 능력들은 동일한 모델극도로 이질적인 로봇 몸체들을 제어하도록 강제했기 때문에 나타난 결과입니다. 모델은 암기를 통해 속임수를 쓸 수 없으며, 적응하는 방법을 배워야 합니다. 생물학에서도 마찬가지입니다. 삶은 예측 불가능하며, 적응할 수 있는 자만이 살아남습니다.


AGI를 향한 길

물리적인 세계에서 신뢰성 있게 작동하는 AGI(범용 인공지능)는 이와 유사해야 합니다. 즉, 암기 대신 적응해야 합니다. 우리는 그 방법이 하나의 몸체나 소수의 몸체(cross-embodied)가 아닌, 모든 몸체를 제어하는 모델, 즉 '옴니바디 두뇌'를 훈련시키는 것이라고 믿습니다.

우리는 이러한 결과들이 원자의 세계에서 지능의 초기 불꽃을 보여준다고 믿습니다. 이는 언젠가 공장, 병원, 가정 등에서 인간을 안정적으로 보조할 로봇을 구축하는 방향으로 나아갈 것입니다.

 

반응형