구글 딥마인드(Google DeepMind)가 인터넷 연결 없이도 로봇을 제어할 수 있는 새로운 언어 모델 'Gemini Robotics On-Device'를 공개했다. 이번 모델은 3월에 발표된 클라우드 기반 'Gemini Robotics' 모델을 발전시킨 버전으로, 로봇의 동작을 오프라인 상태에서 직접 제어할 수 있는 것이 가장 큰 특징이다.
구글의 'Gemini Robotics On-Device' 모델 (자료 출처: 구글 딥마인드)
Gemini, 로봇 제어의 경계를 넓히다
이 모델은 자연어 프롬프트만으로 로봇의 움직임을 제어하고, 특정 작업을 수행하도록 조정할 수 있다. 개발자들은 다양한 시나리오에 맞춰 모델을 커스터마이징할 수 있으며, 구글은 “클라우드 기반 모델 수준에 근접한 성능”을 달성했다고 밝혔다.
구체적인 벤치마크 수치는 공개되지 않았지만, 구글은 "기존의 다른 온디바이스(on-device) 모델들을 상회한다"라고 주장했다. 다만 비교 대상이 된 모델의 이름은 밝히지 않았다.
'Gemini Robotics On-Device' 모델의 시연 모습 (자료 출처: 구글 딥마인드)
의류 정리부터 산업 조립까지…현실 세계에서 검증된 성능
공개된 데모 영상에서는 로봇이 가방을 여는 작업, 옷을 개는 행동 등 일상적인 작업을 수행하는 장면이 등장한다. 이 모델은 원래 ALOHA 로봇을 위해 개발됐지만, 이후 양팔형 프랑카 FR3(Franka FR3) 로봇과 앱트로닉(Apptronik)의 휴머노이드 로봇 아폴로(Apollo)에도 적용됐다.
특히 프랑카 FR3는 처음 접하는 산업용 조립 환경과 미지의 물체들을 다루는 데도 성공적으로 대응한 것으로 나타났다. 이는 모델의 일반화 성능과 유연성을 시사한다.
'Gemini Robotics On-Device' 모델의 시연 모습 (자료 출처: 구글 딥마인드)
개발자용 SDK도 공개…50~100회 시연만으로 학습 가능
구글은 Gemini Robotics 모델을 직접 활용할 수 있도록 전용 SDK(소프트웨어 개발 키트)도 함께 출시했다. 이 SDK는 MuJoCo 물리 시뮬레이터에서 로봇에게 작업 시연을 50~100회만 보여주면, 새로운 과제를 학습할 수 있게 설계됐다. 이는 기존 수천수만 회의 학습이 필요했던 로봇 트레이닝 방식에 비해 획기적인 효율성을 제공한다.
*MuJoCo(Multi-Joint dynamics with Contact):
로봇공학, 생체역학, 그래픽스, 애니메이션 분야의 연구개발을 촉진하기 위해 설계된 고급 물리 엔진
테크 기업들의 ‘로보틱스 대전’ 본격화
이번 발표는 구글뿐 아니라 다양한 AI 기업들이 로보틱스 분야에 진입하고 있음을 보여준다. 엔비디아(NVIDIA)는 휴머노이드용 기반 모델 개발 플랫폼을 구축 중이며, 허깅페이스(Hugging Face)는 오픈소스 모델과 데이터셋뿐 아니라 자체 로봇 개발에도 뛰어들었다. 한국의 미래에셋이 투자한 스타트업 RLWRLD 또한 로보틱스용 파운데이션 모델 개발에 박차를 가하고 있다.
로컬 AI의 확산, 로봇의 독립성을 높이다
이번 Gemini On-Device 모델의 등장은 클라우드 의존 없이 로봇이 독립적으로 판단하고 행동할 수 있는 기반을 마련했다는 점에서 주목된다. 에지 컴퓨팅과 AI 모델의 경량화가 결합되며, 로보틱스의 자율성과 실용성이 동시에 강화되고 있다.
특히 산업 자동화, 헬스케어, 서비스 로봇 등 네트워크 연결이 제한되거나 지연이 치명적인 분야에서 이와 같은 로컬 AI 모델의 수요는 더욱 커질 것으로 전망된다. 구글을 비롯한 빅테크들의 로보틱스 모델 경쟁은 이제 'AI 어디서 실행하느냐'의 시대에 본격 돌입한 셈이다.
Gemini 로보틱스 진화형 모델…로컬 환경에서도 자연어로 정밀 제어
구글 딥마인드(Google DeepMind)가 인터넷 연결 없이도 로봇을 제어할 수 있는 새로운 언어 모델 'Gemini Robotics On-Device'를 공개했다. 이번 모델은 3월에 발표된 클라우드 기반 'Gemini Robotics' 모델을 발전시킨 버전으로, 로봇의 동작을 오프라인 상태에서 직접 제어할 수 있는 것이 가장 큰 특징이다.
구글의 'Gemini Robotics On-Device' 모델 (자료 출처: 구글 딥마인드)
Gemini, 로봇 제어의 경계를 넓히다
이 모델은 자연어 프롬프트만으로 로봇의 움직임을 제어하고, 특정 작업을 수행하도록 조정할 수 있다. 개발자들은 다양한 시나리오에 맞춰 모델을 커스터마이징할 수 있으며, 구글은 “클라우드 기반 모델 수준에 근접한 성능”을 달성했다고 밝혔다.
구체적인 벤치마크 수치는 공개되지 않았지만, 구글은 "기존의 다른 온디바이스(on-device) 모델들을 상회한다"라고 주장했다. 다만 비교 대상이 된 모델의 이름은 밝히지 않았다.
'Gemini Robotics On-Device' 모델의 시연 모습 (자료 출처: 구글 딥마인드)
의류 정리부터 산업 조립까지…현실 세계에서 검증된 성능
공개된 데모 영상에서는 로봇이 가방을 여는 작업, 옷을 개는 행동 등 일상적인 작업을 수행하는 장면이 등장한다. 이 모델은 원래 ALOHA 로봇을 위해 개발됐지만, 이후 양팔형 프랑카 FR3(Franka FR3) 로봇과 앱트로닉(Apptronik)의 휴머노이드 로봇 아폴로(Apollo)에도 적용됐다.
특히 프랑카 FR3는 처음 접하는 산업용 조립 환경과 미지의 물체들을 다루는 데도 성공적으로 대응한 것으로 나타났다. 이는 모델의 일반화 성능과 유연성을 시사한다.
'Gemini Robotics On-Device' 모델의 시연 모습 (자료 출처: 구글 딥마인드)
개발자용 SDK도 공개…50~100회 시연만으로 학습 가능
구글은 Gemini Robotics 모델을 직접 활용할 수 있도록 전용 SDK(소프트웨어 개발 키트)도 함께 출시했다. 이 SDK는 MuJoCo 물리 시뮬레이터에서 로봇에게 작업 시연을 50~100회만 보여주면, 새로운 과제를 학습할 수 있게 설계됐다. 이는 기존 수천수만 회의 학습이 필요했던 로봇 트레이닝 방식에 비해 획기적인 효율성을 제공한다.
*MuJoCo(Multi-Joint dynamics with Contact):
로봇공학, 생체역학, 그래픽스, 애니메이션 분야의 연구개발을 촉진하기 위해 설계된 고급 물리 엔진
테크 기업들의 ‘로보틱스 대전’ 본격화
이번 발표는 구글뿐 아니라 다양한 AI 기업들이 로보틱스 분야에 진입하고 있음을 보여준다. 엔비디아(NVIDIA)는 휴머노이드용 기반 모델 개발 플랫폼을 구축 중이며, 허깅페이스(Hugging Face)는 오픈소스 모델과 데이터셋뿐 아니라 자체 로봇 개발에도 뛰어들었다. 한국의 미래에셋이 투자한 스타트업 RLWRLD 또한 로보틱스용 파운데이션 모델 개발에 박차를 가하고 있다.
로컬 AI의 확산, 로봇의 독립성을 높이다
이번 Gemini On-Device 모델의 등장은 클라우드 의존 없이 로봇이 독립적으로 판단하고 행동할 수 있는 기반을 마련했다는 점에서 주목된다. 에지 컴퓨팅과 AI 모델의 경량화가 결합되며, 로보틱스의 자율성과 실용성이 동시에 강화되고 있다.
특히 산업 자동화, 헬스케어, 서비스 로봇 등 네트워크 연결이 제한되거나 지연이 치명적인 분야에서 이와 같은 로컬 AI 모델의 수요는 더욱 커질 것으로 전망된다. 구글을 비롯한 빅테크들의 로보틱스 모델 경쟁은 이제 'AI 어디서 실행하느냐'의 시대에 본격 돌입한 셈이다.