본문 바로가기

로봇

오늘날의 휴머노이드는 왜 정교함(Dexterity)을 배우지 못할 것인가

AI 로봇공학 기술의 세계적 권위자인 로드니 브룩스(Rodney Brooks) 미국 매사추세츠공대(MIT) 명예교수

출처 : https://rodneybrooks.com/why-todays-humanoids-wont-learn-dexterity/

 

Why Today’s Humanoids Won’t Learn Dexterity – Rodney Brooks

In this post I explain why today’s humanoid robots will not learn how to be dexterous despite the hundreds of millions,  or perhaps many billions of dollars, being donated by VCs and major tech companies to pay for their training. At the end of the post

rodneybrooks.com

 

오늘날의 휴머노이드는 왜 정교함(Dexterity)을 배우지 못할 것인가

– 로드니 브룩스

이 글에서 저는 수억, 어쩌면 수십억 달러에 달하는 자금이 벤처캐피탈(VC)과 주요 기술 기업으로부터 휴머노이드 훈련 비용으로 투자되고 있음에도 불구하고, 오늘날의 휴머노이드 로봇이 정교함(dexterous)을 배우지 못할 이유를 설명합니다.

이 핵심 주장을 마친 후, 저는 두 개의 짧은 글을 더 추가했습니다. 첫 번째는 두 발로 걷는 휴머노이드 로봇이 인간 근처에서 걸을 때 안전해지기 위해 해결해야 할 문제들에 관한 것입니다. 두 번째는 15년 후에는 휴머노이드 로봇이 많아지겠지만, 그 모습이 오늘날의 휴머노이드 로봇이나 인간의 모습과는 다를 것이라는 내용입니다. [[저의 부가적인 해설은 이와 같습니다.]]

1. 프롤로그

인공지능 연구자들은 로봇 팔과 손이 물체를 조작하도록 만들기 위해 65년 이상 노력해 왔습니다. 인공지능이라는 용어가 1956년 "다트머스 인공지능 여름 연구 프로젝트" 제안서에 처음 등장한 지 불과 몇 년 후부터입니다. 1961년 하인리히 에른스트(Heinrich Ernst)는 MIT의 TX-0 컴퓨터에 연결된 컴퓨터 제어 팔과 손에 대한 박사 학위 논문을 발표했으며, 이 로봇은 블록을 집어 쌓는 작업을 수행하는 놀라운 영상도 있습니다. 그의 지도 교수는 클로드 섀넌(Claude Shannon)이었고, 그는 마빈 민스키(Marvin Minsky)에게도 감사를 표했는데, 이는 다트머스 AI 제안서의 네 저자 중 두 명의 이름을 언급한 것입니다.

이는 산업용 로봇으로 이어졌습니다. 산업용 로봇은 다양한 "말단 장치(end effectors)", 즉 원시적인 손이라 생각할 수 있는 것을 가진 컴퓨터 제어 팔이었고, 60년 동안 전 세계 공장에서 사용되어 왔습니다.

최근 새로운 세대가 휴머노이드 로봇을 만들겠다는 아이디어를 우연히 발견했으며, 이에 대한 약간의 과대광고(hype)를 접하셨을 것입니다. 가트너(Gartner)는 아직 초기 단계이며 과대광고가 최고치에 근접하지 않았다고 말합니다. 이 다이어그램은 불과 1년 전의 것이며, 휴머노이드는 주기의 아주 초입에 있는 반면, 생성형 AI(Generative AI)는 정점을 지나 침체기(doldrums)로 향하고 있습니다.

 

이 아이디어는 휴머노이드 로봇이 인간과 동일한 신체 구조를 공유하며, 인간을 위해 만들어진 환경에서 인간처럼 작동할 것이라는 것입니다. 이 믿음은 각기 다른 특수 목적의 로봇을 만드는 대신, 인간이 할 수 있는 모든 것을 수행할 수 있는 휴머노이드 로봇을 갖게 될 것이라는 것을 요구합니다. 예를 들어, 휴머노이드 로봇 회사인 Figure의 CEO는 다음과 같이 말합니다.

"우리는 수백만 가지 유형의 로봇이 고유한 작업을 수행하도록 할 수도 있고, 아니면 수백만 가지 작업을 수행하는 하나의 일반적인 인터페이스를 가진 휴머노이드 로봇을 가질 수도 있습니다."

다음은 그의 "마스터 플랜"의 첫 번째 단계입니다.

  • 기능적으로 완전한 전기-기계적 휴머노이드를 제작한다.
  • 인간과 유사한 조작 능력을 수행한다.
  • 휴머노이드를 노동력에 통합한다.

그리고 바로 지난여름, Tesla의 CEO는 그들의 휴머노이드인 Optimus에 대해 이야기하며 이렇게 말했습니다.

Optimus는 30조 달러의 수익을 창출할 수 있으며, 휴머노이드를 "아마도 세계에서 가장 큰 제품"이라고 불렀습니다.

이 두 회사와 아마도 다른 여러 회사들의 일반적인 계획은 휴머노이드 로봇이 인간과 "플러그 호환(plug compatible)"되어 더 낮은 가격으로, 그리고 인간만큼 잘 수작업을 대신할 수 있게 될 것이라는 것입니다. 제 생각에는 이것이 수십 년 안에 일어날 것이라고 믿는 것은 순전히 환상적인 사고(pure fantasy thinking)입니다. 하지만 많은 이들은 이것이 불과 2년 안에 일어날 것이라고 예측하며, 보다 보수적인 과대광고 전문가들(hypenotists)은 5년 안에 상당한 경제적 영향을 미칠 것이라고 믿습니다.

저희 회사는 창고에 배치되는 로봇을 만듭니다. 이 로봇들은 "바퀴"를 기반으로 한 신기술 이동 시스템(locomotion system)을 갖추고 있습니다 (네, 저희의 이동 시스템은 실제로 새로운 기술이며 불과 2년 전만 해도 전혀 존재하지 않았습니다). 고객 수요를 충족시키기 위해 규모를 확장할 자금을 유치하기 위해 저희가 피칭(pitching, 스타트업 업계의 용어)했던 벤처캐피탈(VC) 중 일부는, 두 다리와 두 팔을 가진 휴머노이드 로봇이 2년 안에 대부분의 인간 일자리를 차지할 것이라는 사실을 모두가 알고 있는데 왜 굳이 그런 일을 하려 하냐고 질문했습니다.

궁극적으로 제가 무엇을 믿든 중요하지 않습니다. 하지만 요점은 휴머노이드 로봇에 대한 과대광고가 인간이 할 수 있는 모든 수작업을 수행할 수 있는 범용 기계가 될 것이라는 아이디어에서 비롯된다는 것입니다. 인간 노동력을 대체하기 위해 작업 방식을 변경해야 하는 대신, 휴머노이드 로봇은 작업 방식을 변경하는 번거로움 없이 기존 작업에 투입되어 그대로 수행할 수 있을 것입니다. 그것이 사실이 되려면, 휴머노이드 로봇은 인간 수준의 도심 운전 기술을 무인 로보택시에게 기대하는 것처럼, 조작(manipulation) 능력에서 인간만큼 뛰어나야 할 것입니다.

따라서 휴머노이드 로봇이 경제적, 기술적 의미를 갖도록 하려면, 인간과 유사한 조작 능력을 갖추도록 만들어야 합니다. 이 입장은 휴머노이드 로봇 옹호자들 사이에서 전혀 논란의 여지가 없습니다. 이것이 바로 휴머노이드의 존재 이유(raison d'être)입니다. 휴머노이드 제작자들은 로봇이 의미를 가지려면 인간 수준의 정교함에 점점 더 가까워져야 한다고 믿으며, 그것도 곧 이루어져야 한다고 생각합니다.

 

2. 휴머노이드 로봇의 간략한 역사

많은 사람들이 이미 수십 년 동안 휴머노이드 로봇 제작에 매달려 왔습니다. 이는 1960년대 중반부터 이족 보행 메커니즘을 연구한 지 여러 해가 지난 후, 1970년대 초 도쿄 와세다 대학교의 휴머노이드 로봇 연구소에서 WABOT-1(WAseda roBOT)이 제작된 것에서 시작되었습니다. 이후 1980년대 초 WABOT-2가 제작되었고, 그 후로 와세다 대학에서는 지속적으로 새로운 휴머노이드가 이어졌습니다. 일본 자동차 회사인 혼다(Honda)는 1980년대 후반에 이족 보행 로봇 제작을 시작하여 결국 2000년에 휴머노이드 ASIMO를 공개했습니다. 소니(Sony)는 처음에는 로봇 개 Aibo를 개발하고 판매했으며, 이후 2003년에 소형 휴머노이드 로봇 QRIO를 개발했지만, 실제로 판매되지는 않았습니다. 프랑스 회사인 알데바란(Aldebaran)은 2007년에 소형 보행 휴머노이드 NAO를 선보였고, 이는 현재 30년째 매년 열리고 있는 국제 로봇 축구 리그에서 Aibo를 대체하는 표준 플랫폼이 되었습니다. 이후 그들은 상업적으로는 다소 덜 성공했지만 더 큰 휴머노이드인 Pepper를 판매했습니다. 35년 전 MIT에서 분사한 보스턴 다이나믹스(Boston Dynamics)는 수년간 네 발 달린 로봇을 제작한 끝에 2013년에 휴머노이드 ATLAS를 선보였습니다.

일본에서의 초기 휴머노이드 로봇 연구 외에도, 다리 유무와 팔 유무에 관계없이 인간 형태의 로봇을 연구해 온 전 세계의 수많은 학술 그룹이 있었습니다. 저의 MIT 연구 그룹도 1992년에 휴머노이드 Cog 제작을 시작하여 7가지 다른 플랫폼을 개발했으며, 이후 저는 2008년에 Rethink Robotics를 설립하고 Baxter와 Sawyer라는 두 모델의 휴머노이드를 수천 대 판매했습니다. 이 로봇들은 전 세계 공장에 배치되었습니다. 저의 이전 박사 후 연구원 중 일부는 이탈리아로 돌아가 RoboCub 오픈 소스 휴머노이드 프로젝트를 시작했으며, 이는 전 세계 AI 연구소에서 수십 대의 휴머노이드 로봇이 제작될 수 있도록 했습니다.

 

이 모든 그룹들은 수십 년 동안 휴머노이드를 계속해서 제작하고, 인간을 위해 만들어진 환경에서 로봇이 걷고, 조작(manipulate)하고, 인간과 상호 작용하는 방법을 알아내기 위해 노력해 왔습니다. 꽤 오래전인 2004년에 이미 《International Journal of Humanoid Robotics》(국제 휴머노이드 로봇 저널)가 당시에는 종이 형태로 출판되기 시작했습니다.

 

 

현재 여러분은 그 저널이 22번째 연간 연구 논문집을 채우고 있는 것을 온라인에서 찾아볼 수 있습니다.

2.1 휴머노이드 로봇의 조작(Manipulation) 과제

로봇이 팔과 손으로 물체를 조작하도록 만드는 것은 1961년 하인리히 에른스트(Heinrich Ernst)에게 매우 어려운 일이었습니다. 그 이후로 오늘날까지 모든 로봇 공학 연구자와 산업 엔지니어에게 여전히 어려운 과제입니다.

1960년대 중반에 평행 조 그리퍼(parallel jaw grippers)가 개발되었습니다. 이는 함께 움직였다가 벌어지는 두 개의 평행한 손가락 형태입니다. 이것이 오늘날에도 여전히 로봇 손의 지배적인 형태입니다. 여기에 제가 1970년대 스탠퍼드에서 로봇에 사용했던 그리퍼 사진과, 제 회사인 Rethink Robotics가 2010년대 중반에 제조하고 판매했던 전기 구동식 그리퍼 사진이 있습니다.

 

 

유일한 차이점은 오른쪽에 있는 더 현대적인 그리퍼에는 카메라가 내장되어 있어 손이 대상 물체로 시각적으로 서보 제어(visually servo)할 수 있다는 것입니다. 1970년대에는 합리적인 가격의 제품에서 그러한 작업을 수행할 만큼 충분한 컴퓨팅 능력이 없었습니다.

독일 회사인 슝크(Schunk)는 로봇 팔용으로 전기식과 공압식(압축 공기 사용)을 통틀어 1,000가지가 넘는 다양한 평행 조 그리퍼를 판매합니다. 또한 세 손가락의 방사형 대칭 손과 몇 가지 다른 특수 그리퍼도 판매합니다. 하지만 관절형 손가락(articulated fingers, 즉 관절이 있는 손가락)을 실제 산업용 애플리케이션에 사용할 만큼 견고하고, 충분한 힘을 가지며, 충분한 수명을 갖추도록 만드는 데 성공한 사람은 아직 아무도 없습니다.

압축 공기를 사용할 수 있을 때는 벤츄리 이젝터(Venturi ejector)를 사용하여 흡입력으로 바꿀 수 있으며, 다른 유형의 일반적인 로봇 손은 하나 이상의 흡착 컵(suction cups)을 사용하여 표면을 잡아 물체를 잡습니다. 다음은 Rethink Robotics가 전기 평행 조 그리퍼와 함께 판매했던 흡착 컵 버전입니다.

단일 흡착 컵 및 다중 흡착 컵 말단 장치(end effectors, 팔 끝에 손이 있을 것으로 예상되는 부분)는 완제품을 취급하고 동일한 품목으로 구성된 맞춤형 상자에 포장하거나, 소비자에게 배송되는 완제품 케이스 및 소포를 처리하는 데 상당히 보편화되었습니다. 실제로 배송 포장재의 부드러운 재질과 흡착 컵 말단 장치 사이에 공진화(co-evolution)가 있어, 일반 가정으로 보내지는 부드러운 소포를 다른 어떤 방법보다 흡착 컵으로 더 쉽고 빠르게 잡을 수 있게 되었습니다.

지난 수십 년 동안 관절형 손가락을 가진, 인간의 손을 모델로 한 수많은 손이 제작되었습니다. 이 몽타주에는 존 홀러바흐(John Hollerbach), 켄 새리스버리(Ken Salisbury), 요키 마츠오카(Yoky Matsuoka)가 만든 손들이 포함되어 있습니다.

인간과 유사한 로봇 손은 어떤 일반적인 의미에서도 뛰어난 정교함을 입증하지 못했습니다. 또한, 그 어떤 디자인도 실제 응용 분야에 배치될 만한 영감을 주지 못했습니다. 정교함에 대한 접근 방식은 매우 수학적이고 기하학적이었지만, 인간의 정교함과 유사한 어떤 것도 만들어내지 못했습니다.

인간과 유사한 로봇 손이 특정 작업을 수행하는 멋진 비디오를 볼 수도 있지만, 그들은 그 작업을 넘어서는 일반화 능력이 전혀 없습니다. 벤지 홀슨(Benjie Holson, 참고: 벤지와 저는 Robust.AI에서 긴밀하게 함께 일하고 있습니다)은 최근 유쾌하면서도 매우 통찰력 있는 블로그 포스트에서, 제안된 휴머노이드 로봇 올림픽에 메달을 걸고 8세 인간이라면 누구나 할 수 있는 15가지 작업을 제시했습니다. 예를 들어, 한 도전 과제는 휴머노이드 로봇이 세탁물을 개는 도중에 한쪽 소매가 뒤집혀 있는 남성용 드레스 셔츠를 옷걸이에 걸고, 단추를 최소한 하나 잠그는 것입니다. 또 다른 과제는 로봇 자신의 손에 묻은 땅콩 버터를 닦아내는 것입니다. 그리고 당신은 "아, 그건 다른 종류의 로봇 메커니즘으로 하는 게 더 잘 될 거예요"라고 말할 수 없습니다. 아닙니다. 휴머노이드 로봇이 인간이 할 수 있는 모든 작업을 수행할 수 있어야 한다는 것이 휴머노이드 주장의 핵심입니다. 벤지의 15가지 도전 과제를 보면, 그 과제들과는 공통점이 거의 없지만 우리 인간 모두가 아무렇지도 않게 할 수 있는 다른 15가지 또는 30가지 이상의 정교한 작업을 생각해 내기는 매우 쉽습니다. 그리고 필요하다면 우리 모두가 할 수 있는 어려운 일들도 있습니다.

2.2 이전에 성공했던 아이디어

"이런, 어떻게 해야 할까요? 어떻게 휴머노이드 로봇이 정교함을 갖도록 할까요?" 아마도 많은 사람들이 이런 상상의 내적 대화를 거쳤을 것입니다.

종단간 학습(End to end learning)은 음성-텍스트 변환, 이미지 라벨링, 그리고 이제 대규모 언어 모델과 같은 최소한 세 가지 영역에서 지난 20년 동안 잘 작동해 왔습니다. 그렇다면 정교함 문제를 수학적으로 해결하려고 노력하는 대신, 종단간 학습을 시도해 보는 건 어떨까요? 인간이 손을 사용하여 작업을 수행하는 방법에 대한 많은 데이터를 수집하고, 이를 학습 시스템에 입력하면, 정교한 로봇 제어가 튀어나올 것입니다. 그리고 우리 회사는 수십억 달러의 가치를 가질 것입니다.
너무 깊이 생각하지 말고, 그냥 해봅시다!!

휴머노이드 회사와 학술 연구자들이 이 문제를 해결하기 위해 선택한 방식은 주로 학습 시스템이 사람들이 조작 작업을 수행하는 동영상을 시청하도록 하고, 로봇이 동일한 작업을 수행하기 위한 동작이 무엇인지 배우도록 시도하는 것입니다. 몇몇 경우에 인간이 물체 조작과 함께 로봇을 볼 수 있는 상태에서 원격 조작(teleoperate)하며, 인간은 아주 미세한 힘과 촉각 피드백을 받을 수 있습니다. 하지만 이는 주로 로봇의 손에서 오는 것이고 손목이나 팔꿈치, 어깨 또는 엉덩이에서 오는 것은 아니며, 이러한 모든 촉각 데이터는 매우 조악합니다.

벤지 홀슨은 그의 블로그에서 수집되는 데이터의 부족함과 낮은 정확도를 지적했으며, 저는 그의 비판에 전적으로 동의합니다. 그가 잘 말했기에, 제가 더 잘 말하려고 시도하지는 않겠습니다. (다음은 그의 비판 내용입니다):

제가 보기엔 시연을 통한 학습(learning-from-demonstration)이 효과가 있습니다. 사람들은 로봇 몇 대와 퍼펫티어링(puppeteering) 인터페이스(일반적으로 한 로봇을 잡고 움직이면 다른 로봇이 그대로 따라 하거나, Oculus 헤드셋과 컨트롤러 또는 손 추적을 사용)를 사용하여 10~30초 분량의 활동을 수백 번 반복해서 기록합니다. 그런 다음 우리는 신경망을 훈련시켜 이 예시들을 모방하게 할 수 있습니다. 이 방식은 다소 혼란스러운 단계가 있는 작업(예: 수건의 한쪽 모서리를 당겨 평평하게 놓이는지 확인하는 것)이나 상태 공간이 큰 작업(예: 나무 블록은 6면 중 하나에 놓이지만 수건은 수많은 방식으로 뭉쳐질 수 있음)을 가능하게 했습니다. 하지만 생각해보면, 몇 가지 한계가 분명히 드러납니다. 각 항목마다 예외는 있지만, 일반적인 경향을 형성합니다.
  • 손목에 힘 피드백이 없음. 로봇은 인간의 원격 조작(teleoperation)만큼만 수행할 수 있는데, 아직까지 인간 조작자에게 힘 정보를 전달하는 좋은 표준 방식이 없습니다.
  • 제한적인 손가락 제어. 조작자(및 AI 파운데이션 모델)가 열기/닫기 이상의 정교함으로 로봇의 모든 손가락을 보고 제어하기 어렵습니다.
  • 촉각(sense of touch)이 없음. 인간의 손은 센서로 완전히 가득 차 있습니다. 로봇 손에서 그와 유사한 종류의 감지 기능을 끌어내어 인간 퍼펫티어(puppeteer)가 사용할 수 있도록 하는 것은 현재 불가능합니다.
  • 중간 정도의 정밀도. 비디오를 기반으로 추측하건대, 작업 정밀도는 약 1~3cm 정도인 것 같습니다.
  • 수건과 티셔츠 접기는 높은 손목 힘에 의존하지 않습니다. 꼬집어 잡기(pinch grasps)를 사용하여 당기고 들어 올리거나 손을 펼쳐서 펴는 방식으로 손 열기/닫기만으로도 작업을 수행할 수 있습니다. 손으로 잡는 방식을 눈으로 확인할 수 있으므로 손가락 센서가 필요하지 않습니다. 1~3cm의 정밀도도 충분히 괜찮습니다.

그리고 네, 이것은 사실입니다. 휴머노이드 로봇 회사들과 많은 학술 프로젝트들은 로봇에게 동작만 보여주고, 어떤 힘이나 촉각 피드백도 사용하게 하지 않으면서 정교한 조작을 훈련시키려고 노력하고 있습니다.

예를 들어, 지난주 Figure는 새로운 기술로 로봇을 훈련시키는 "프로젝트 고 빅(project go big)"을 발표했습니다. 그들이 계속 말하고 보여왔던 것과 일치하기 때문에 놀라운 것은 없습니다. 다음은 그들이 이 프로젝트에 대해 말한 내용이며, 제가 핵심 부분을 굵게 표시했습니다.

전통적으로 로봇에게 새로운 기술을 가르치는 것은 비용이 많이 드는 시연, 수기로 작성된 프로그램, 또는 현실 세계의 혼란스러움(messiness)을 포착하지 못하는 엄격하게 연출된 환경을 필요로 했습니다. 하지만 휴머노이드 로봇은 독특한 구조적 이점을 제공합니다. 즉, 휴머노이드의 관점과 운동학(kinematics)이 우리 인간의 관점 및 운동학과 일치하여, 일상적인 인간 비디오로부터 지식을 직접적으로 전이하는 것을 가능하게 합니다 (비디오 1).

그리고 비디오 1은 보통 사람들이 사는 실제 가정과는 달리, 눈에 띄게 **깔끔하고 혼잡하지 않다는** 점에 주목하십시오. 비디오 2와 3도 마찬가지입니다.

그들은 사람들이 기술을 수행하는 1인칭 비디오를 통해 로봇에게 새로운 수동 기술을 훈련시킬 것이라고 말하고 있습니다.

그리고 불과 한 달 전 eWeek의 보도 기사를 보면, 테슬라가 사람들이 작업을 수행하는 비디오를 단순히 시청하는 것만으로 훈련시키는 방식에 전적으로 집중하고 있음을 알 수 있습니다. 기사에는 이렇게 쓰여 있습니다.

테슬라는 휴머노이드 로봇 옵티머스(Optimus)의 훈련 전략을 전환했습니다. 모션 캡처 수트와 원격 조작에 의존하는 대신, 테슬라는 시각 정보만을 이용하는 접근 방식으로 나아가고 있습니다.

이제 직원들은 헬멧과 백팩으로 구성된 카메라 장비를 착용하는데, 여기에는 티셔츠를 접거나 물체를 집는 것과 같은 일상적인 작업을 녹화하는 5개의 자체 제작 카메라가 달려 있습니다. 이 비디오들은 옵티머스가 그 행동들을 모방하도록 훈련시키는 데 사용됩니다.

이 기사는 조금 더 나아가 이렇게 말합니다.

FAMU-FSU 로봇 공학 연구소 소장인 크리스티안 후비키(Christian Hubicki)는 비즈니스 인사이더(Business Insider)에 다각도 카메라 설정이 "관절과 손가락의 위치와 같은 미세한 세부 사항"을 포착하여 데이터의 정확도를 높일 가능성이 있다고 언급했습니다.

Figure와 Tesla 모두 사람들이 손으로 무언가를 하는 비디오만 있으면 휴머노이드 로봇이 손으로 무언가를 하도록 훈련시키는 데 필요한 전부라고 확신하고 있습니다. 그들은 사람들의 손 움직임을 아주 많이 관찰하여 기계 학습하는 것으로 정교함(dexterity)을 배우기에 충분할 것이라고 내기를 걸고 있는 것입니다. 그들은 시각적 정밀도와 그것의 대규모 데이터 세트만으로 충분하다고 믿습니다.

30조 달러라는 유혹은 이미 매우 부유한 사람에게도 엄청난 금액이므로, 그들이 경쟁자들이 실제로 무엇을 하고 있는지 알기를 원하지 않아 속내를 감추고 있을 가능성도 있습니다. 하지만 이 논쟁을 위해 저는 그들의 말을 액면 그대로 받아들이겠습니다.

3. 종단간 학습(End to End Learning)은 선택된 '종단(Ends)'에 달려있다

지난 20년 동안 음성-텍스트 변환, 이미지 라벨링, 그리고 대규모 언어 모델(LLMs)이 생성하는 유창한 언어는 모두 선형 임계 신경 모델(linear threshold neural models)을 사용하는 종단간 학습(end-to-end learning)을 통해 놀라운 방식으로 변화했습니다.

음성 및 이미지의 경우, 새로운 방법들은 성능 면에서 급진적인 향상을 보였습니다. 두 경우 모두 성공을 위해서는 가능한 한 많은 부분을 학습 방법에 맡기는 것이 중요했습니다. 이는 음성의 경우, 이전의 모든 접근 방식을 지배했던 (언어에 매우 의존적인) 음소(phonemes)에 대한 명시적인 모델을 제거했음을 의미합니다. 이미지 라벨링의 경우, 이전의 모든 이미지 이해 작업을 지배했던 선(경계) 찾기, 모양, 음영 또는 색상 불변성(color constancy)에 대한 어떤 개념도 제거했음을 의미합니다.

LLM은 언어 능력과 일반적인 질문에 대한 답변 능력(오늘날까지도 맹렬한 기억 오염(confabulations) 경향이 강하긴 하지만)을 보여주었는데, 이는 누구도 임박했다고 예상했던 것 이상이었습니다. 그리고 그들은 언어 외에 세상의 그 어떤 것에 대한 참조나 직접적인 경험도 제거함으로써 이를 달성했습니다. 그들은 모두가 기대했던 실제 세계에서의 경험에 대한 근거(grounding)가 전혀 없는, 언어 자체로만 이루어진 기계였습니다. 이는 한때 기호 접지 문제(symbol grounding problem)라고 믿어졌던 것입니다.

심지어 **앨런 튜링(Alan Turing)**도 1948년에 작성되었지만 1970년에 출판된 그의 훌륭한 논문 《지능형 기계(Intelligent Machinery)》에서 이 문제를 제기했습니다. (해당 권의 13페이지에서) 튜링은 지능형 기계에 도달하는 확실한 방법은 "**인간 전체를 취하고 그 모든 부분을 기계로 대체하려고 시도하는 것**"이라고 말했습니다. 오늘날 우리는 "휴머노이드를 만들어라"라고 말할 수 있을 것입니다. 선견지명이 있었죠! 실제 세계 경험에 근거를 두는 것에 대해 그는 계속해서 다음과 같이 말했습니다. "기계가 스스로 알아낼 기회를 갖기 위해서는 시골을 돌아다니도록 허용되어야 하며, 이 경우 **일반 시민에게 위험이 심각할 것입니다**"(강조는 필자). 그는 당시의 기술로는 이를 수행하기에는 너무 어렵다고 결론지었습니다. 두 가지 더 많은 선견지명이 담긴 사례입니다.

이러한 변화는 급진적이었고 저를 포함한 대부분의 연구자들에게 혼란을 주었습니다. 하지만 새로운 방법들은 과거에 보았던 어떤 것보다 훨씬 더 잘 작동했음이 분명합니다.

2019년 3월 13일 (LLM 이전), 리치 서튼(Rich Sutton, 이후 강화 학습 연구로 앤드류 바토와 함께 2024년 튜링상 공동 수상자)은 《쓰라린 교훈(A Bitter Lesson)》이라는 다소 의기양양한 짧은 블로그 게시물을 발표했습니다. 이 글에서 그는 방대한 검색(massive search)이 컴퓨터가 체스와 바둑을 인간보다 훨씬 잘하게 만드는 역할을 포함하여 제가 여기서 언급하는 것 이상의 사례에 자신의 주장을 적용합니다.

그리고 그는 검색 및 학습 접근 방식 모두에 대해 다음과 같이 말합니다.

그리고 인간의 지식을 이용하는 접근 방식은 방법론을 복잡하게 만들어서, 전산 능력을 활용하는 일반적인 방법에 덜 적합하게 만드는 경향이 있습니다.

그런 다음 그는 체스, 바둑, 음성 및 이미지에 대해 논의합니다. 그는 문제를 구성할 때 인간의 편향을 사용하는 것에 반대합니다. 하지만 저는 그때나 지금이나, 실제로는 이 모든 성공적인 사례에서 인간의 지식이 작용한다고 생각합니다. 왜냐하면 "종단간(end-to-end)"의 본질이 인간이 그 "종단(ends)"이 무엇인지 명시하는 것에 의존하기 때문입니다.

서튼이 이 글을 올린 지 6일 후, 저는 《더 나은 교훈(A Better Lesson)》이라는 비슷한 길이의 짧은 블로그를 통해 응답했습니다. 그 글에서 저는 접근 방식을 확장하는 데 있어 여러 가지 일반적인 문제를 지적했습니다. 예를 들어, 지금 우리가 보고 있는 막대한 에너지 및 서버 요구 사항과 수천 명의 다른 인간이 데이터 세트를 준비하는 고용 등이 있으며, 이는 인간을 루프에서 제외해야 한다는 주장을 무색하게 만듭니다.

가장 중요하게도, 저는 이미지 라벨링 사례가 이미지로 시작하여 라벨로 끝나는 완벽한 종단간(end-to-end) 방식이 아니었음을 지적했습니다. 대신, 이는 컨볼루션 네트워크를 프론트 엔드로 사용하여 학습 알고리즘이 이미지에 접근하는 방식을 구조화합니다. 저는 음성-텍스트 변환이나 당시 아직 발표되지 않았던 LLM에 대해서는 비슷한 주장을 펼치지 않았지만, 이 세 가지 모두가 엔지니어들이 인간 생리학의 일부를 (학습 없이) 직접 시뮬레이션하는 데 의존하는 **사례별 사전 처리(case specific pre-processing)**를 구축했기 때문에 성공했다고 주장할 것입니다.

다음은 세 가지 사례 각각에서 데이터의 프론트 엔드 처리를 하드 코딩하는 방식으로 학습에 적용한 조정 사항입니다.

3.1 음성-텍스트 변환 (Speech to text)

음성-텍스트 변환의 목표는 사람이 말하고 있는 마이크의 신호를 받아, 말한 내용을 나타내는 텍스트 문자열을 출력하는 것입니다. 오늘날 우리는 Alexa, TV 리모컨, 자동차, 고객 서비스 전화 라인 등 수많은 장치와 채널을 통해 다양한 기계와 대화하는 데 익숙합니다. 이 모든 장치는 우리가 말한 단어에 적절하게 (바라건대) 응답할 시스템에 단어를 입력하기 위해 음성-텍스트 변환을 사용합니다. 이 기능이 실용화된 것은 불과 지난 20년 사이의 일입니다. 그리고 이는 마이크 입력과 올바른 텍스트 문자열이 모두 제공된 대규모 데이터 세트에 대한 종단간 학습의 결과이며, 학습 시스템이 입력 신호에서 텍스트 생성으로 나아가는 방법을 학습한 것입니다.

이러한 학습을 위해 음성 신호가 컴퓨터로 들어갈 수 있는 방법은 여러 가지가 있습니다. 우리는 마이크의 아날로그 출력을 초당 수만 번 디지털화하여 그 소리 크기를 학습의 입력으로 사용할 수 있습니다. 그러나 실제로는 그렇게 하지 않습니다.

대신, 이 기술은 20세기에 전 세계 전화 네트워크를 통한 실질적인 음성 통신을 위해 개발된 기술에 의존합니다. 당시 신호는 개별 음성 회선에 맞게 압축되어 하나의 전선에 더 많은 통화가 들어갈 수 있도록 했습니다. 이 연구는 먼 곳의 화자가 말한 내용을 사람이 이해할 수 있도록 보존되어야 하는 신호의 측면들을 결정했습니다. 그리고 사람이 그러한 압축된 신호를 이해할 수 있다면, 이는 음성을 이해하는 데 필요한 모든 정보가 여전히 그 신호 안에 남아 있음을 의미합니다.

다양한 음성-텍스트 변환 학습 시스템의 입력은 다르지만, 여기에는 일반적인 사전 처리 단계가 일부 있습니다. 아날로그 입력 신호는 고정된 주파수(예: 16kHz)로 샘플링된 다음, 고주파수(자음에 중요함)를 증폭시키는 고역 통과 필터를 거칩니다. 그 후 신호는 프레임(예: 10ms 중첩을 가진 25ms 길이)으로 잘리고, 각 프레임은 이후의 **고속 푸리에 변환(FFTs)**이 창(window)의 짧음으로 인해 손상되지 않도록 조건화됩니다. 중간 어딘가에서 잡음 제거가 있을 수 있습니다. 그런 다음 신호는 FFT, 멜 필터 뱅크, 출력의 로그, 코사인 변환과 같은 하나 이상의 방법을 사용하여 주파수 대역으로 세분화됩니다. 일부 구현에서는 프레임에 대해서만 초기 훈련을 수행하여 언어 의존적인 프레임 특징이 딥 네트워크의 초기에 인식될 수 있도록 합니다.

구현마다 이러한 기술 및 기타 기술을 다르게 선택하여 사용하지만, 핵심은 이 모든 것이 끝난 후, 이 모든 입력 신호 변환의 출력에 대해서만 종단간 학습이 적용된다는 것입니다.

더 나아가, 이 모든 신호 변환은 원래 인간의 음성을 저장하여 멀리 떨어진 장소와 시간에서 들을 수 있도록 개발되었습니다. 이러한 변환의 중요한 점은 인간의 청취 메커니즘이 음성을 이해하는 데 사용될 수 있도록 하면서 인간에게는 아무런 변화를 주지 않았다는 것입니다.

3.2 이미지 라벨링 (Image labelling)

딥러닝을 통한 이미지 라벨링은 2012년 이후로 이미지에 무엇이 담겨 있는지 해석하는 컴퓨터 비전 분야의 지배적인 방법이 되었습니다. 그러나 딥러닝은 카메라에서 나오는 원시 픽셀로 시작하지 않으며, 학습되지 않은 인간의 생리학에 두 가지 방식으로 순응합니다.

카메라에서 나오는 데이터는 픽셀 값의 선형 흐름이며, 실제로는 측정된 빨간색, 초록색, 파란색(RGB) 세 가지 색상에 대한 별도의 흐름일 때도 있습니다. 최신 디지털 카메라는 렌즈를 통과하는 빛이 작은 버킷들의 직사각형 배열(어레이)로 전자를 부딪히게 하는 글로벌(전자식) 셔터를 가지고 있으며, 이 버킷들은 모두 동시에 수집을 시작하고 멈춥니다. 그런 다음 이 버킷들의 내용은 인접 버킷으로 이동되어 아날로그-디지털 변환기로 읽히는데, 이는 본질적으로 특정 버킷에 있는 전자의 수를 읽는 것이며, 왼쪽에서 오른쪽으로, 위에서 아래로 행(row) 순서로, 또는 이 순서들의 전환을 통해 일련의 흐름으로 읽힙니다. 이는 컬러 이미지의 경우 하나 또는 세 개의 선형 흐름입니다.

딥러닝은 이 흐름 위에서 작동하지 않습니다. 대신, 이 흐름에서 나온 숫자들이 원래 픽셀의 인접성을 재구성하는 데이터 구조로 배열되고, 컬러의 경우 세 가지 색상이 겹쳐집니다. 물론 이는 컴퓨터를 이용한 모든 이미지 처리에서 표준이지만, 의도적으로 부과된 명시적인 구조입니다. 동물들은 이미지를 직렬화하지 않고, 망막의 각 "픽셀"에서 피질의 평평한 세포 배열로 하나의 케이블이 연결되어 망막의 픽셀, 즉 수용체의 기하학적 구조가 보존됩니다. 이러한 케이블들이 규칙적인 배열로 조직되는 것은 인접한 망막 세포의 국소적인 흥분 폭발을 통해 태어나기 전에 발생하며, 이 폭발은 반대쪽 끝에서 케이블(모두 신경 축삭)의 발달을 유도하여 흥분의 국소성을 모방하는 데 사용됩니다.

그런 다음 딥러닝의 첫 몇 개 계층은 학습이 이동 불변적(translationally invariant) 방식으로 동일한 것을 학습하도록 설정된 구조를 사용합니다. 즉, 이미지의 왼쪽 아래에 있는 고양이는 이미지의 중간 상단에 있는 고양이와 똑같은 방식으로 인식됩니다. 이 특수화된 네트워크는 **합성곱 신경망(convolutional neural network)**으로, 대규모 이미지에 적용되는 시각을 위해 특화된 처리 구조입니다.

얀 르쿤(Yan LeCun), 요슈아 벤지오(Yoshua Bengio), 제프리 힌튼(Geoffrey Hinton) (2018년 튜링상 수상자 세 명)이 2015년 5월 27일자 네이처(Nature, 유료)에 기고한 《딥러닝(Deep learning)》이라는 제목의 기사에서 저자들은 다음과 같이 말합니다.

첫째, 이미지와 같은 배열 데이터에서는 국소적인 값 그룹이 종종 높은 상관관계를 가지며, 쉽게 감지되는 독특한 **국소 모티프(local motifs)**를 형성합니다. 둘째, 이미지 및 기타 신호의 국소 통계는 위치에 불변합니다. 즉, 한 모티프가 이미지의 한 부분에 나타날 수 있다면, 어디든 나타날 수 있습니다. 따라서 다른 위치에 있는 단위들이 동일한 가중치를 공유하고 배열의 다른 부분에서 동일한 패턴을 감지한다는 아이디어가 나옵니다.

그들은 이러한 아키텍처의 영감을 후쿠시마 쿠니히코(Kunihiko Fukushima)에게 돌리는데, 그는 (역전파 이전) 손으로 그린 문자를 인식하는 작업을 했으며, 얀 르쿤(역전파 이후)도 몇 년 후 같은 작업을 했습니다. 후쿠시마가 이 주제에 대해 찾을 수 있는 가장 초기의 비유료 영어 논문은 1979년 도쿄에서 열린 국제 인공지능 공동 회의(IJCAI)의 학회지 1권 291페이지에 실린 세 페이지짜리 논문입니다.

이는 제가 저의 논문을 발표한 첫 국제 학회였고, 같은 권에 실려 있으며, 이미지에서 물체를 인식하는 훨씬 더 오래되고 거의 버려진 접근 방식에 관한 것입니다.

후쿠시마는 이 접근 방식에 대한 영감을 데이비드 휴벨(David Hubel)과 토르스텐 비셀(Torsten Weisel)이 고양이와 원숭이 피질의 피질 기둥(cortical columns) 구조를 조사한 연구에서 얻었다고 밝히며, 이들은 이 연구로 1981년에 노벨상을 수상했습니다. (이 연구의 요약은 데이비드 휴벨의 노벨 강연을 참조하십시오.) 후쿠시마는 휴벨과 비셀이 S-세포와 C-세포로 식별한 **단순 세포(simple cells)**와 **복합 세포(complex cells)**를 모두 모방했으며, 휴벨과 비셀의 **초복합 세포(hypercomplex cells)**를 그의 모델 세포 내에서 두 가지 하위 유형으로 분할했습니다. 이 세포들은 이미지의 어느 곳에 나타나든 공통적인 모티프를 인식합니다.

위의 유료 네이처 기사의 그림 2에서 이 구조가 교차 계층에서 작동하는 것을 볼 수 있으며, 르쿤 외 다수가 말했듯이:

자연 신호의 특성을 활용하는 **합성곱 신경망(ConvNets)**의 네 가지 핵심 아이디어는 국소 연결(local connections), 가중치 공유(shared weights), 풀링(pooling), 그리고 **다층 사용(the use of many layers)**입니다.

인간을 포함한 동물에게는 망막 수용체의 해상도에 추가적인 차이가 있으며, 시야의 중심 근처에 더 밀접하게 배치된, 따라서 더 높은 해상도의 수용체가 있습니다. 인간을 포함한 많은 동물들은 안구의 매우 빠른 움직임인 **단속 운동(saccades)**을 사용하여 눈의 고해상도 부분을 이미지의 다른 부분으로 향하게 합니다. (여러분은 지금 이 단어들을 읽으면서 각 행을 따라 움직인 다음 다음 행으로 내려가기 전에 잠시 멈추고 다시 움직이며 이러한 단속 운동을 하고 있습니다. 움직이는 동안에는 움직임 센서를 억제합니다.)

딥러닝 비전을 위한 대규모 합성곱 신경망은 전체 이미지에 걸쳐 반복적인 가중치 공유를 통해 고해상도 인식을 제공함으로써 이러한 단속 운동의 필요성을 제거합니다.

다시 말하지만, 이것은 순수한 종단간 학습이 아닙니다. 우리 뇌의 놀라울 정도로 복잡한 부분들에 대한 매우 상세한 복제가 학습 기계 내에 구조화되어 있습니다. 인간이 잘못된 구조를 선택하여 문제를 망치는 일 없이 모든 것을 학습하게 한다는 낭만주의에도 불구하고, 딥러닝 이미지 라벨링은 동물 뇌에서 식별된 구조를 구체적으로 모방하는 매우 복잡하고 경이로운 프론트 엔드 엔지니어링 위에 구축되어 있습니다. 그리고 이는 이미지를 포착하고 좁은 채널(즉, 직렬화)을 통해 전송하여 인간이 시공간적으로 먼 곳에 위치할 때에도 원래 장면을 이해할 수 있도록 우리가 개발한 기술 위에 구축되어 있습니다.

 

3.3 대규모 언어 모델 (Large language models)

ChatGPT나 Gemini 같은 **대규모 언어 모델(LLMs)**은 방대한 양의 텍스트로 훈련되며, 이 모든 텍스트가 무엇인지 설명하려는 외부 입력은 없습니다. 이러한 관점에서 보면, 학습 메커니즘이 모든 것을 스스로 파악하는 것처럼 보입니다.

하지만 학습의 초기 단계와 나중에 입력 텍스트를 처리하는 과정 모두에서, 인간 언어의 구조와 입력되는 특정 인간 언어의 일부 측면이 사전 처리 및 내부 표현의 일부 측면을 공학적으로 구현하는 데 사용되었습니다. 이를 위한 두 가지 메커니즘은 **토큰(tokens)**과 **임베딩(embeddings)**을 포함합니다.

물론 그 외에도 2017년에 발명된 멀티 헤드 어텐션 메커니즘(multi-head attention mechanisms)과 한 번에 한 단계씩 출력을 덧붙이고 이동하여 다시 입력으로 보내는 것 등을 포함하는 전체 트랜스포머 메커니즘(transformer mechanism)이 있습니다. 이는 LLM 작동의 핵심인 엄청난 양의 인간이 생성한 아키텍처와 엔지니어링이며, 이는 인간의 편향을 배제한 종단간 학습을 고집하는 주장에 더 많은 압력을 가합니다. 그러나 여기서는 이 섹션과 이전 두 서브 섹션에서 공통적으로 다루는 데이터의 초기 가공에 대해서만 이야기하고 있습니다.

특정 언어의 기본 단위는 LLM에 토큰의 선형 순서로 제시됩니다. 영어의 경우 약 50,000개의 다른 토큰이 사용되며, 여기에는 dog, cat, fish, game, run, ing, ed, pre, sub, due, marine, fetch, auto 등과 같은 토큰이 포함됩니다. 토큰은 전체 단어, 접두사, 접미사, 단어의 공통 부분 등이 될 수 있습니다.

LLM을 특정 언어의 텍스트로 훈련하는 바로 시작 단계에서, 토큰은 주로 비지도 방식으로 학습됩니다. 해당 언어의 많은 텍스트가 토큰 학습 시스템에 입력되고, 이 시스템은 훈련 코퍼스에서 토큰을 보는 공통성을 기반으로, 그리고 얼마나 흔한지, 다른 토큰과 단어 내에서 어떻게 결합하는지에 대한 통계를 첨부하여 그럴듯한 토큰 후보를 도출합니다. 이러한 통계로부터 사용할 개별 토큰의 수가 빈도와 토큰이 단어를 다른 공통 토큰으로 얼마나 잘 나누는지에 따라 자동으로 선택됩니다.

일단 토큰이 선택되면, 작은 프로그램인 **토크나이저(tokenizer)**가 사용되어 모든 입력 언어를 이 토큰들의 문자열로 분해합니다.

다음으로, 토큰들은 고차원 벡터 공간에 임베딩되는데, 일반적으로 고정된 $\text{N}$에 대해 $\text{N}$차원을 가집니다. 최근 몇 년 동안 LLM에 더 많은 훈련이 적용되어 더 큰 모델을 만들면서 $\text{N}$의 숫자가 커졌습니다. ChatGPT-2의 경우 $\text{N}$은 이었지만, ChatGPT-3의 경우 이었습니다.

임베딩은 학습되어야 합니다. 즉, 벡터 공간의 각 차원에서의 좌표가 각 토큰에 대해 채워져야 합니다. 이는 두 번째 "실제 훈련 전" 학습 과정을 통해 수행되는데, 이 과정에서는 어떤 두 토큰이 비슷한 문맥 내에서 서로 대체되는 것처럼 보이는 방식이 주변 토큰에 의해 유사하다고 판단되는 원시 텍스트의 문맥에서 학습됩니다. 이러한 종류의 학습은 토큰의 임베딩을 선택하게 되는데, 전체 임베딩의 다른 부분 공간(벡터 공간의 부분 공간에 대한 표준 정의 기준)에서의 거리가 어떤 종류의 유사성에 상응하도록 만듭니다. 예를 들어, orangered는 한 부분 공간에서 fruit보다 서로 더 가까울 수 있지만, 다른 부분 공간에서는 red가 나머지 둘의 가까움에 비해 이상치(outlier)일 수 있습니다. 첫 번째 부분 공간은 색상에 더 상응할 수 있고, 두 번째 부분 공간은 단어가 지정할 수 있는 세상의 유형 객체(tangible objects)를 고려하는 것일 수 있습니다. 그러나 이러한 결정은 인간에 의해 이루어지지 않으며, 범주와 거리 모두 데이터로부터의 학습에 의해 생성됩니다.

숫자 $\text{N}$은 새로운 LLM을 구축하는 사람들이 클라우드 서비스 비용 지불에 대한 허용치에 따라 초기에 선택됩니다. 왜냐하면 $\text{N}$은 LLM을 훈련시키는 데 필요한 데이터 양과 학습해야 할 매개변수 수에 큰 영향을 미치기 때문입니다.

이러한 임베딩이 있으면, LLM을 나타내는 신경망의 맨 첫 단계는 토크나이저의 출력에서 각 토큰을 가져와 임베딩 내의 해당 벡터 위치로 변환합니다. 따라서 인 ChatGPT-3의 경우, 각 토큰은 즉시 12,288개의 숫자로 변환됩니다.

따라서 여기서 우리는 단어 구성 요소에 대한 아이디어, 그리고 단어의 의미 종류, 그리고 의미를 알지 못한 채 언어로부터 유사성을 추출하는 방법에 대한 많은 인간의 공학적 지식과 지식이 언어에 대한 사전 훈련 방식에 적용되었음을 알 수 있습니다.

어떤 의미에서 토큰은 **원시 기호(proto-symbols)**이지만, 전통적인 기호와 달리 중요한 것은 그들의 고유한 정체성이 아니라 시스템 내에서 다른 원시 기호와 어떻게 비교되는가입니다. 그리고 이러한 원시 기호는 인간 언어의 일부, 즉 소리나 동기화된 방식으로 할 필요 없이 사람들 사이에 언어를 전달하기 위해 **쓰기(writing)**라는 발명이 사용하는 부분에 기반을 두고 있습니다. 쓰기는 작가가 죽은 후에도 언제 어디서든 읽을 수 있습니다.

 

3.4 이 세 가지 종단간 학습 애플리케이션의 공통점

이 세 가지 종단간 학습의 거대한 성공은 다운스트림(downstream)에서 매우 도메인별 학습 아키텍처에 의존합니다. 하지만 이들은 또한 각각 데이터 스트림의 도메인별 초기 처리에 의존합니다.

이 세 가지 사례에서 그 초기 처리는 다른 목적, 즉 언어를 듣거나 읽고, 이미지를 볼 수 있도록, 완전히 다른 위치와 비동기적인 시간으로 만들어진 것입니다.

우리에게는 촉각 데이터에 대한 그러한 전통이 없습니다. 현재 우리에게 촉각은 직접적으로 인지하는 순간적인 접촉뿐입니다. 우리 인류는 촉각을 포착하고, 촉각을 저장하고, 시간과 거리에 걸쳐 촉각을 전송하고, 이를 우리 자신이나 다른 인간에게 재생하는 기술을 개발하지 못했습니다.

아래 섹션 4에서 저는 촉각이 인간의 정교함에 얼마나 핵심적인지 보여줄 것입니다.

촉각을 구성하는 요소가 무엇인지 이해하지 못하고, 촉각 감각을 측정할 수 없으며, 촉각을 저장하고 재생할 수 없으면서 기계에 정교함을 가르칠 수 있다고 생각하는 것은 아마도 어리석은(dumb) 일이며, 비용이 많이 드는 실수일 것입니다.


4. 정교함의 종단이 깨지지 않는 이유

제 주장의 핵심은, 모두가 당연히 대단한 성과라고 선전하는 무차별 대입 학습(brute force learning) 접근 방식이 실제 세계가 제시하는 원시 신호의 불협화음(cacophony of raw signals)으로부터 올바른 데이터를 추출하기 위해 사례별로 매우 신중하게 엔지니어링된 프론트 엔드에 의존했다는 것입니다.

이것이 큰 성공 사례들의 경우였다면, 무차별 대입 학습으로 정교함을 배우는 경우에도 마찬가지일 가능성이 높습니다. 만약 누군가 또는 어떤 그룹이 성공하려면, 그들은 아마도 올바른 데이터를 수집하고 올바른 것을 배워야 할 것입니다. 휴머노이드에게 정교함을 가르치려는 대부분의 프로젝트는 이 두 가지 중 어느 것도 제대로 하지 못하고 있습니다. 학술 연구실에서 흥미롭고 유망한 실험들이 진행되고 있지만, 아직까지는 진정한 정교함을 입증하는 데 근접하지 못했습니다. 저의 로봇 공학 제3법칙에 따르면, 최소한의 정교함만 갖춘 휴머노이드 로봇이 첫 번째 수익성 있는 배포를 달성하기까지는 10년 이상 남았습니다.

인간의 정교함은 **풍부한 촉각(rich sense of touch)**에 의존합니다. 그리고 인간의 정교함은 손뿐만 아니라 팔꿈치, 몸통 앞부분, 다리, 발(많은 기계에는 발 페달이 있습니다)까지 포함하는 경우가 많습니다. 이것이 공식적인 동료 심사를 거친 학술 연구 논문에서 기대할 수 있는 것처럼 포괄적이고 완전한 사례를 제시하지는 않을 것입니다. 하지만 저는 50년 이상에 걸쳐 이루어진, 인간이 촉각과 힘 감지(force sensing)를 광범위하게 사용한다는 것을 함께 입증하는 견고한 동료 심사 학술 연구 중 다소 무작위적인 일부 결과를 보여드리겠습니다.

4.1 인간의 촉각은 정말 풍부하고 복잡하다

다음 두 비디오는 스웨덴 우메오 대학교(Umeå University)의 롤랑 요한손(Roland Johansson) 연구실에서 나온 것으로, 그는 수십 년 동안 인간의 촉각을 연구해 왔습니다. 첫 번째 비디오에서 사람은 상자에서 성냥을 꺼내 불을 붙입니다. 이 작업은 7초가 걸립니다. 두 번째 비디오에서 같은 사람이 다시 시도하지만, 이번에는 그녀의 손가락 끝이 마취되어 손가락 끝에서 어떤 촉각도 더 이상 느낄 수 없는 상태입니다. 그녀는 여전히 손가락과 손의 나머지 부분에서 다른 많은 것을 감지할 수 있으며, 골격근 시스템으로 평소 느낄 수 있는 모든 힘을 느낄 수 있습니다.

The two URLs in case your browser does not point at the YouTube videos below: http://www.youtube.com/watch?v=zGIDptsNZMo http://www.youtube.com/watch?v=HH6QD0MgqDQ

 

손가락 끝의 촉각이 없는 상태에서 그 사람은 성냥갑에서 성냥을 집어 들기 위해 여러 번 실패하는 시도를 합니다. 그러다가 테이블에 떨어진 성냥 하나를 집으려고 시도하지만 실패하고, 다시 성냥갑으로 돌아가 성냥을 바로 세우고 하나를 겨우 집어 들지만, 손가락 사이에 올바른 방향으로 놓으려고 애쓰며 성냥을 더듬거립니다. 그리고 민감한 손가락 끝으로 했을 때보다 네 배나 더 많은 시간을 들인 후에야 성공적으로 불을 붙입니다.

이는 휴머노이드 로봇이 촉각을 필요로 하며, 위에 언급된 작업(세계 일부 지역에서는 수백만 명의 노동자가 매일 수행하는 난이도와 유사한 수준)을 수행하기 위해서는 아무도 아직 실험실에서 구축하지 못한 수준의 촉각 감지 능력이 필요함을 시사합니다.

저는 미국, 중국, 일본, 한국, 대만, 독일의 100개 이상의 공장을 방문했으며, 그중 일부는 제 회사들이 제 다섯 가지 주요 로봇 계열(Roomba, PackBot, Baxter, Sawyer, Carter)을 구축하는 곳이었고, 일부는 제가 공장 노동자들의 생산성을 높이기 위해 로봇을 판매하는 곳, 또 일부는 제가 공장을 운영하는 회사들의 기술 자문 위원회에 참여했던 곳이었습니다. 저는 이 모든 공장에서 인간이 복잡한 작업에 적용하는 이러한 종류의 정교함과 다른 많은 종류의 정교함을 목격했습니다.

1979년 요한손의 초기 연구에 대한 한 리뷰에서는, 인간 손의 **털이 없는 피부(glabrous skin)**에는 약 17,000개의 역치가 낮은 기계 수용기(low-threshold mechanoreceptors)가 있으며, 이 중 약 1,000개가 각 손가락 끝에 있지만, 나머지 손가락과 손바닥 전체에는 훨씬 낮은 밀도로 분포한다고 보고되었습니다. 이 수용체들은 네 가지 종류(느리게 적응 대 빠르게 적응, 그리고 매우 국소화된 민감 영역 대 훨씬 더 넓은 영역)로 나뉘며, 압력이 가해지거나 풀릴 때 활성화됩니다.

다음으로 저는 데이비드 긴티(David Ginty)와 그의 하버드 연구실 학생들의 연구에 대해 간략히 이야기할 것입니다. 그의 연구실의 전체 출판 목록은 1987년으로 거슬러 올라갑니다. 긴티 연구실의 임무는 다음과 같습니다.

우리는 포유류의 체성 감각 뉴런(somatosensory neurons)과 우리의 촉각을 뒷받침하는 중추신경계 회로를 이해하기 위해 분자 유전학, 해부학, 생리학, 행동 및 시스템 신경생물학의 접근 방식을 사용합니다.

긴티의 거의 40년간의 연구를 요약한 언론 기사에서는 촉각을 다음과 같이 설명합니다.

촉각은 찌르기, 당기기, 불기, 쓰다듬기, 진동뿐만 아니라 다양한 온도와 화학 물질(예: 고추의 캡사이신 또는 민트의 멘톨)을 포함하는 **종합적인 자극(smorgasbord of stimuli)**과 관련이 있습니다. 이러한 입력으로부터 압력, 통증, 가려움, 부드러움과 단단함, 따뜻함과 차가움, 그리고 공간 내 신체 인식이 발생합니다.

이 기사는 인간의 손에서 발견되며 촉각 감지에 관련된 15가지의 서로 다른 뉴런 계열이 발견되었다고 보고합니다.

이러한 신경 말단은 놀라울 정도로 특화되어 있는 것으로 밝혀졌습니다. 피부 표면 근처에는 **메르켈 세포 복합체(Merkel cell complex)**라고 불리는 평평한 종류가 부드러운 압입에 반응합니다. 메르켈 세포는 입술과 손가락 끝에 풍부하여 모양과 질감을 식별할 수 있게 해줍니다. 손가락은 또한 **마이스너 소체(Meissner corpuscles)**라고 불리는 코일 모양의 신경 말단으로 가득 차 있으며, 이는 지지 세포를 감싸고 있습니다. 이 센서는 물건을 잡을 때 손에 물건이 미끄러지면서 발생하는 희미하고 미세한 진동을 감지하여 도구를 정밀하게 사용할 수 있도록 합니다. 피부 더 깊은 곳에는 땅속의 진동을 감지하는 양파 모양의 **파치니안 소체(Pacinian corpuscles)**와 피부 늘어남을 전달하는 방추형의 **루피니 종말(Ruffini endings)**이 존재합니다.

촉각은 매우 복잡한 센서와 처리 과정으로 이루어져 있으며, 단순한 국소 압력 이상의 훨씬 더 풍부한 시간 의존적 및 움직임 의존적 정보를 제공합니다.

인간과 우리가 조작할 때 감지하는 것의 더 일반적인 측면으로 넘어가서, 그 위에 골격근은 그들이 가하고 있거나 그들에게 가해지는 힘을 감지합니다. **근방추(Muscle spindles)**는 근육의 길이를 감지하고 근육이 늘어날 때 이를 감지하며, **골지 건 기관(Golgi tendon organs)**은 근육의 장력을 감지하여 근육에 가해지는 힘을 감지합니다.

우리는 또한 물체 조작 시 자세와 가하는 힘을 변화시키는 물체에 대한 시각적 및 촉각적 추정을 합니다. 롤랑 요한손(다시 한번)은 우리가 물체의 재료를 추정하고, 그 밀도를 앎으로써 사용해야 할 힘을 예측하는 방법을 설명합니다. 때때로 우리는 잘못 추정하지만 빠르게 적응합니다.

지난 20년 동안 롤랑 요한손의 연구는 인간이 손과 몸을 사용하여 작업을 수행하기 위한 적절한 전략을 선택할 때 관찰을 기반으로 하는 **사전 생각(forethought)**의 역할을 이해하는 쪽으로 옮겨갔습니다. 그의 지난 20년간의 출판물은 여기에서 볼 수 있습니다. 그의 논문 제목에는 다음과 같은 것들이 포함됩니다.

  • 손가락 끝 점탄성은 인간의 촉각 뉴런이 현재 힘과 함께 하중 이력(loading history)을 인코딩할 수 있게 한다.
  • 인간의 촉각 수용기는 단일 지문 능선 규모의 공간적 세부 사항에 민감하다.
  • 수동 작업에서 순차적 동작 단계를 연결하는 것을 학습할 때의 시선 행동(Gaze behavior).
  • 생체 내(in vivo) 쐐기형 핵(cuneate nucleus) 뉴런의 감각 양자(sensory quanta) 통합.
  • 기술 학습은 동작 단계의 연결을 최적화하는 것을 포함한다.
  • 인간 손톱 경계의 느리게 적응하는 기계 수용기는 손가락 끝 힘을 인코딩한다.

이러한 연구들은 손가락의 위치가 정확하게 측정될 수 있다 하더라도(위 섹션 2.2의 Tesla의 최신 데이터 수집 전략 참조), 인간의 파지(grasping)가 단순한 손가락 움직임을 넘어서 얼마나 풍부하고 다양한지를 보여줍니다.

4.2 올바른 데이터란 무엇인가?

시각적 데이터만을 수집하는 것올바른 데이터를 수집하는 것이 아닙니다. 인간의 정교함에는 시각적 데이터가 완전히 빠뜨리는 너무나 많은 요소가 포함되어 있습니다.

누군가 시각적 데이터만 수집하는 것 이상을 시도하고 있으며, 학습을 연결할 더 적절한 다른 "종단"을 가지고 있을까요?

명시적으로 그렇지 않다고 주장하는 Figure와 Tesla를 제외하고, 다른 대기업들은 말을 아끼고 있습니다. 그리고 휴머노이드 로봇을 연구하는 많은 대기업들이 있으며, 어떤 친구들이 어떤 회사에 고용되고 있는지 보면 어느 정도 알 수 있습니다.

하지만 학계에서는 여전히 건전한 실험들이 진행되고 있습니다. 다음은 로봇 시스템 및 과학(Robotics Systems and Science) 컨퍼런스의 2025년 5월 정교한 인간 조작(Dexterous Human Manipulation) 워크숍에서 선정된 "최고 논문"의 한 가지 예입니다. 이는 MIT CSAIL에 있는 펄킷 아그라왈(Pulkit Agrawal) 그룹에서 나온 것입니다. 이 연구는 머신러닝에 공급할 올바른 데이터를 수집하기 위해 새로 발명된 방법을 포함합니다. 아래 두 그림에서 볼 수 있듯이, 인간은 기본적으로 장갑에 손을 넣고 있습니다. 로봇 손은 장갑에 단단히 부착되어 있어 인간의 손에서 약 10cm 떨어져 있으며 완전히 평행합니다. 인간은 자신의 손가락을 움직여 로봇 손의 손가락을 제어하고, 팔을 움직여 로봇 손을 조작할 물체와 접촉하게 합니다. 로봇 손가락과 손바닥에는 데이터 수집 시스템과 인간의 손가락 끝과 손바닥을 자극하는 액추에이터로 피드백을 보내는 촉각 센서가 있습니다. 따라서 이 시스템은 인간이 자신의 팔로 직접 느끼고 제어하는 힘을 기록하지는 않지만, 인간이 로봇 손을 제어하는 방법을 결정할 때 감지하는 촉각 감각과 인간이 생성한 손가락 움직임을 연관시킬 수 있습니다.

 

분명히 이것은 인간이 자신의 매우 복잡한 촉각 및 힘 감지 시스템으로 하는 모든 것을 이해하는 것과는 거리가 멀지만, 정교함을 추론하는 데만으로는 절대적으로 충분할 수 없는 단순한 시각 데이터 수집을 넘어서는 한 걸음입니다.

$$\[만약 대형 기술 기업과 대규모 휴머노이드 훈련에 돈을 쏟아붓는 벤처캐피탈(VC)들이 그 돈의 20%만 사용하고 모두 대학 연구원들에게 지원한다면, 저는 그들이 목표에 더 빨리 도달할 것이라고 생각하는 경향이 있습니다.$$

4.3 무엇이 '올바른 학습 대상'인가?

마지막으로 저는 이 섹션(4)의 시작 부분에서 말했던 '올바른 것'을 학습할 필요성에 대해 다시 이야기하고자 합니다.

산업계와 학계 모두가 무엇을 학습할지에 대해 사용하고 있는 프레임워크는 **강화 학습(Reinforcement Learning)**에서 비롯됩니다 (위 섹션 3의 서론 부분 참조). 강화 학습에서는 센서가 지금 전달하는 **상태(state)**로부터 로봇이 지금 수행해야 할 특정 **행동(action)**으로 매핑하는 **정책(policy)**을 학습합니다.

하지만 개인적인 경험과 위의 촉각 연구자들의 일부 논문을 보면, 인간은 때때로 **자신이 무엇을 하려고 하는지에 대한 정교함 계획(dexterity plan)**을 추구하는 것처럼 보입니다. 감지되는 것이 행동에 직접적으로 매핑되는 대신, 감지되는 것은 아마도 그 계획을 따르는 과정에서 수행되는 것을 조절(modulate)하는 것 같습니다 (어쩌면 유한 상태 기계(finite state machine)로 표현될까요?). 따라서 정교함에서 진정으로 성공하려면, 어떤 이상한 하위 작업 공간(weird space of subtasks)에서 계획을 세우는 방법과 촉각 수준의 감지가 그러한 계획을 어떻게 조절해야 하는지를 모두 학습할 수 있는 방법이 필요합니다.

이 모든 것을 알아내기 위해서는 여전히 많은 연구가 필요합니다. 그리고 견고한 실험실 시연에 도달하기까지 수년이 걸릴 것이며, 고객에게 가치를 제공하는 배포 가능한 시스템에 도달하기까지는 몇 년이 더 걸릴 것입니다.

5. 휴머노이드 로봇의 또 다른 문제: 걷기

휴머노이드 로봇이 인간을 위해 구축된 환경에서 작동할 수 있도록 인간과 동일한 형태를 갖추고자 하는 열망을 고려할 때, 사람들은 휴머노이드 주변에서 안전하게 지낼 수 있을 것이라고 기대할 것이라고 말하는 것이 타당하다고 생각합니다. 이는 특히 고령화되는 인구에 대한 재택 의료 서비스를 제공하는 휴머노이드의 경우에 더욱 그러합니다. 그러나 휴머노이드 로봇을 위해 설정된 마스터 플랜에 따르면, 휴머노이드 로봇이 인간의 공간에 적합해야 한다는 아이디어 때문에 다른 환경에서도 마찬가지여야 합니다. 그렇지 않다면 왜 그 일을 할 수 있는 특수 목적의 무인(lights out) 기계를 만들지 않겠습니까?

따라서 누군가 휴머노이드 로봇을 대규모로 배치하려면, 그 로봇들이 실제 인간과 공간을 공유하기에 안전해야 합니다. 즉, 로봇과 불과 몇 센티미터 떨어져 있거나, 지지를 위해 휴머노이드에게 기대거나, (노인들이 인간 간병인에게 도움을 받아 서거나, 씻거나, 대소변을 보거나, 침대에 들거나 나가는 것처럼) 휴머노이드 로봇에게 접촉되거나 조작되어야 합니다.

문제는 인간 크기의 이족 보행 휴머노이드 로봇은 현재 인간 주변에서 안전하지 않다는 것입니다. 그러나 휴머노이드 로봇에 대한 주장은 이들이 인간의 공간에서 작동하고 모든 인간 작업을 수행할 수 있도록 완전한 크기여야 한다는 것을 요구합니다.

아, 하지만 당신은 (저처럼) 반 크기의 휴머노이드 로봇 주변에서 걸어 다녔거나 비디오를 보았고, 그들 주변에서 매우 안전하다고 느꼈을 것입니다. 그래서 당신은 그 로봇들이 더 커지는 것은 단지 시간 문제라고 추론합니다. 하지만 바로 여기서 물리학이 맹렬하게 개입합니다.

현재의 휴머노이드 로봇은 인간처럼 걷지 않습니다. 인간은 신축성 있는 스프링 같은 시스템이며, 신경 제어 없이도 거의 걷습니다. 사실, 여러분은 순수하게 기계적인 이족 보행 모델이 동력 공급 없이 완만한 경사를 걸어 내려가고, 오직 메커니즘의 수동적인 역학에 의존하여 내리막을 걷는 행위에서 위치 에너지를 (순수하게 기계적으로) 훔쳐 로봇을 움직이는 것을 볼 수 있습니다.

The URL is http://www.youtube.com/watch?v=wMlDT17C_Vs

 

 

그 근본적인 아키텍처 외에도, 우리는 근육과 힘줄을 포함하는 에너지 재활용 아키텍처를 가지고 있습니다. 우리는 힘줄에 에너지를 저장하고 다음 발걸음에 재사용합니다. 우리 아랫다리 뒤쪽에 있는 아킬레스건은 가장 많은 에너지를 저장하는 힘줄이며 파열될 가능성이 가장 높은 힘줄이기도 합니다.

이러한 측면에서 우리처럼 걷는 로봇을 만드는 것에 대한 수십 년간의 학술 연구가 있었지만, 현재의 휴머노이드 로봇 디자인이 도달한 실용적인 수준에는 이르지 못했습니다.

하지만 현재의 휴머노이드 로봇은 불안정성이 감지될 때 시스템에 많은 양의 에너지를 주입하여 균형을 잡기 위해 강력한 전기 모터를 사용하며, 대부분 ZMP(Zero-Moment Point, 영 모멘트 지점) 알고리즘의 버전을 따릅니다.

$$\[이 알고리즘은 오랫동안 사용되어 왔으며, 위의 섹션 2 시작 부분에 제시된 《International Journal of Robotics》의 2004년 1권 157페이지에는 세르비아 몬테네그로 출신의 Miomir Vukobratović와 Branislav Borovac가 35년 전에 이 알고리즘을 도입한 것을 기념하는 논문을 실었는데, 이는 현재 약 56년이 되었음을 의미합니다.$$

] 비록 그들이 정확히 무엇을 하고 있는지에 대해 입을 다물고 있지만, 휴머노이드 연구를 하는 대기업들은 더 나은 보행과 더 적은 낙상을 위해 ZMP 시작점에 **강화 학습(RL)**을 추가한 것으로 보입니다. ZMP는 발바닥의 힘 감지에 의존하므로, 모든 휴머노이드 로봇은 발에 힘 센서가 있습니다. 그러나 RL 알고리즘은 전체 구조가 매우 견고해야 한다는 점에 의존하므로, 휴머노이드 로봇은 걷기를 수행하는 기계적 구조 측면에서 인간과는 정반대입니다. 이 로봇들은 덜 넘어지지만, 넘어지거나 넘어질 때 인간이 가까이 있기에는 여전히 매우 위험합니다.

걸을 때 불안정성이 감지되고 로봇이 시스템에 에너지를 주입한 후 안정화되면 모든 것이 좋습니다. 왜냐하면 그 초과 에너지는 다음 몇백 밀리초 동안 다리가 땅을 밀어내는 반대 동작에 의해 시스템에서 제거되기 때문입니다. 하지만 로봇이 넘어지는 경우, 다리는 많은 자유 운동 에너지를 가지며 종종 자유 공간에서 급격히 가속됩니다. 만약 그 경로에 무언가가 있다면, 그것은 정말 단단한 금속에 세게 부딪히게 됩니다. 그리고 그 **'무언가'**가 살아있는 생명체라면 종종 부상을 입을 것이고, 심각할 수도 있습니다.

하지만, 하지만, 하지만, 반 크기의 휴머노이드들은 안전한데, 완전한 크기의 휴머노이드 로봇은 얼마나 덜 안전할까요?

바로 여기서 스케일링(Scaling) 문제가 발생합니다. 로봇의 수량이 아닌 물리 시스템의 스케일링 법칙 측면에서 말입니다.

물리 시스템을 모든 방향으로 똑같은 양만큼 확장한다고 가정해 봅시다. 예를 들어, 모든 길이를 스케일 계수 $\text{L}$로 곱하면, 시스템의 질량 $\text{M}$은 배 증가합니다. 이므로, 같은 가속도를 위해서는 만큼의 에너지를 투입해야 합니다. 따라서 50% 더 큰 로봇이라면 배 더 많은 에너지입니다. 그리고 오늘날의 작고 '비교적 안전한' 휴머노이드에서 시작하려면 배 더 많은 에너지를 주입해야 합니다. 이는 완전히 다른 수준의 부상 가능성입니다. 그리고 상황은 더 나빠질 수 있는데, 예를 들어 팔다리의 경우 질량은 $\text{L}$의 세제곱에 비례하여 증가하지만, 강도를 결정하는 단면적은 제곱에만 비례하여 증가하기 때문입니다.

$$\[이러한 스케일링 때문에 코끼리는 거미보다 몸집에 비해 다리가 훨씬 더 굵습니다. 이는 거미가 무게를 지탱하기 위해 두 배 많은 다리를 가지고 있다는 사실을 감안하더라도 마찬가지입니다.$$

] 따라서 두 배 더 큰 로봇은 비례적으로 훨씬 더 굵은 다리를 가져야 할 수 있으며, 이는 더 많은 질량을 의미하므로, 그들은 8배보다 더 큰 계수로 에너지를 주입하게 될 것입니다.

사람들에게 제 조언은 완전한 크기의 보행 로봇으로부터 3미터 이내로 접근하지 말라는 것입니다. 그리고 보행 로봇 회사들도 이 사실을 알고 있습니다. 심지어 그들의 비디오에서도, 그들 사이에 큰 테이블이 있지 않는 한, 사람들은 이동하는 휴머노이드 로봇 가까이에 있는 것을 보지 못할 것이며, 설령 그렇다 해도 휴머노이드는 조금씩만 발을 질질 끌고 다닐 뿐입니다.

누군가 주변에 있는 것이, 심지어 접촉하는 것조차 훨씬 더 안전한 더 나은 버전의 이족 보행 로봇을 개발하기 전까지는, 우리는 인간이 있는 구역에 휴머노이드 로봇이 배치되는 것을 인증받는 것을 보지 못할 것입니다.

6. 휴머노이드 로봇의 미래는 어떠할까요?

기술은 변하며, 기술을 둘러싼 단어의 의미도 변합니다.

제가 2018년 1월 1일에 미래 기술에 대한 예측들을 한꺼번에 했을 때, **"하늘을 나는 자동차"**와 **"자율 주행차"**는 오늘날과는 다른 의미였습니다. 제가 가장 최근의 점수표에서 예측이 어떻게 진행되고 있는지 지적한 바 있습니다.

하늘을 나는 자동차는 원래 도로에서 운전도 하고 하늘을 날 수도 있는 차량을 의미했습니다. 이제는 다양한 고정된 착륙 지점 사이를 비행 택시처럼 운행할 수 있는 전기 멀티로터 헬리콥터를 의미하게 되었습니다. 조종사가 없는 버전이 자주 홍보됩니다. 이는 "전기 수직 이착륙(electric vertical take off & landing)"을 뜻하는 eVTOL로 알려져 있습니다. 아직 실제적인 의미에서는 존재하지 않는다는 점 외에도, 하늘을 나는 자동차(eVTOL)는 더 이상 지상에서 운행하지 않기 때문에 자동차가 아닙니다.

제가 예측을 했을 당시 자율 주행차는 추가적인 인간 제어 입력 없이 가라고 지시받은 곳이면 어디든 스스로 운전하는 것을 의미했습니다. 이제 자율 주행차는 운전석에 사람이 없다는 것을 의미하지만, 원격 위치에서 그 차량들을 모니터링하고 가끔 제어 입력을 보내는 사람들이 있을 수 있으며(지금까지 배포된 모든 사례에서 그렇습니다), Tesla의 자율 주행 로보택시는 예외입니다. 이 경우 조수석에 인간 안전 요원이 앉아 있습니다.

이러한 패턴을 따르면, 휴머노이드 로봇이 무엇을 의미하는지 역시 시간이 지남에 따라 변할 것입니다.

머지않아 (그리고 우리는 이미 이를 보기 시작했습니다), 휴머노이드 로봇은 발에 바퀴를 달게 될 것입니다. 처음에는 두 개, 나중에는 더 많아질 수도 있으며, 전반적인 형태에서는 더 이상 인간의 다리와는 정말로 닮지 않게 될 것입니다. 하지만 여전히 휴머노이드 로봇이라고 불릴 것입니다.

그다음에는 팔이 하나, 둘, 셋인 버전들이 다양하게 나올 것입니다. 그 팔들 중 일부는 다섯 손가락을 가진 손을 가질 것이지만, 상당수는 두 손가락 평행 조 그리퍼(parallel jaw grippers)를 가질 것입니다. 일부는 흡착 컵을 가질 수도 있습니다. 하지만 여전히 휴머노이드 로봇이라고 불릴 것입니다.

또 그다음에는 수동형 카메라가 아닌 많은 센서를 가진 버전들이 나올 것입니다. 그래서 그들은 능동적인 빛으로 보거나 인간이 아닌 주파수 범위로 보는 눈을 가질 수 있으며, 손에 눈을 달거나 심지어 가랑이 근처에서 아래를 내려다보는 눈을 달아 고르지 않은 표면 위를 더 잘 이동할 수 있도록 할 수도 있습니다. 하지만 여전히 휴머노이드 로봇이라고 불릴 것입니다.

인간이 할 수 있는 다양한 특수 작업을 위해 다양한 형태를 가진 수많은 로봇이 있을 것입니다. 하지만 이들 모두 여전히 휴머노이드 로봇이라고 불릴 것입니다.

그리고 오늘날의 휴머노이드 로봇에서 성능, 어떤 성능이라도 쥐어짜 내려고 노력하는 데 막대한 돈이 사라질 것입니다. 하지만 그 로봇들은 오래전에 사라지고 대부분은 편리하게 잊힐 것입니다.

이것이 바로 앞으로 15년 동안 당신에게 펼쳐질 미래입니다.

반응형