본문 바로가기
IT와 개발/AI 이야기

Apple 3D 비전 규칙을 새롭게 쓰는 AI 모델 'Depth Pro' 출시

by 도서 임보자 2024. 10. 15.

LLM으로 관련 업계 전반이 뜨거울 때, 혼자 조용히 있었던 Apple이 새로운 비전 모델인 Depth Pro를 공개 했습니다. Depth Pro는 단안 카메라로 촬영된 영상에서 깊이 맵을 추정하는 AI 모델로 이전에 존재했던 깊이 맵 생성 모델보다 더 빠르면서 정확한 성능을 주장하고 있습니다.

 

Apple이 아이폰의 카메라 애플리케이션의 기능을 확장한 것 뿐만 아니라 Vision Pro를 아직 버리지 않은 것 같습니다. 깊이 맵 추정은 인간과 객체 그리고 애플리케이션이 상호작용하는 모든 AR 분야에서 아주 큰 부분을 차지하고 있는 영역입니다. 특히 단안 카메라로 깊이 맵 추정이 가능하다는 것은 기기의 카메라 렌즈 수를 줄이거나 다른 기능의 렌즈를 더 추가할 수 있다는 의미도 되기 때문에 기기의 경량화나 기능의 확장성을 더욱 끌어올릴 수 있어 기대가 되고 있습니다.

 

게다가 이 모델을 오픈 소스로 공개하고 있습니다. 직접 모델을 받아보셔서 테스트 해보거나 허깅 페이스의 라이브 데모를 사용해 보면 좋은 체험이 될 것 같습니다.

 

 

출처: Apple releases Depth Pro, an AI model that rewrites the rules of 3D vision | VentureBeat

 

Apple releases Depth Pro, an AI model that rewrites the rules of 3D vision

Apple's Depth Pro AI model sets a new standard in 3D depth estimation, offering high-resolution, real-time depth mapping from a single image without camera metadata—transforming industries like AR, autonomous vehicles, and more.

venturebeat.com

 

 

 

Apple의 AI 연구팀은 기계가 깊이를 인식하는 방식을 크게 발전시킬 수 있는 새로운 모델을 개발하여 증강 현실에서 자율 주행차에 이르기까지 다양한 산업을 혁신할 가능성이 있습니다.


Depth Pro라는 시스템은 전통적으로 이러한 예측을 하는 데 필요한 카메라 데이터에 의존하지 않고도 단 몇 초 만에 단일 2D 이미지에서 상세한 3D 깊이 맵을 생성할 수 있습니다.

 

"Depth Pro: Sharp Monocular Metric Depth in Less Than a Second"라는 제목의 연구 논문에 자세히 설명된 이 기술은 단 하나의 이미지만 사용하여 깊이를 추론하는 프로세스인 단안 깊이 추정 분야에서 큰 진전입니다.


이는 실시간 공간 인식이 핵심인 분야에서 광범위한 응용 프로그램을 가질 수 있습니다. Aleksei Bochkovskii와 Vladlen Koltun이 이끄는 이 모델의 제작자는 Depth Pro를 이 종류 중 가장 빠르고 정확한 시스템 중 하나로 설명합니다.

Apple의 Depth Pro, Marigold, Depth Anything v2, Metric3D v2의 깊이 맵 비교. Depth Pro는 털과 새장 와이어와 같은 미세한 디테일을 포착하는 데 뛰어나며, 단 0.3초 만에 선명하고 고해상도의 깊이 맵을 생성하여 정확도와 디테일 면에서 다른 모델보다 뛰어납니다. (출처: arxiv.org)

 

메타데이터 없이도 속도와 정밀도를 확보하세요

단안 깊이 추정은 깊이를 정확하게 측정하기 위해 여러 이미지나 초점 거리와 같은 메타데이터가 필요하기 때문에 오랫동안 어려운 작업이었습니다.


하지만 Depth Pro는 이러한 요구 사항을 우회하여 표준 GPU에서 단 0.3초 만에 고해상도 깊이 맵을 생성합니다. 이 모델은 뛰어난 선명도로 225만 화소 맵을 생성하여 다른 방법으로는 종종 무시되는 머리카락과 식물과 같은 미세한 세부 사항도 포착할 수 있습니다.


연구자들은 논문에서 "이러한 특성은 밀도 예측을 위한 효율적인 다중 스케일 비전 변환기를 포함한 여러 기술적 기여를 통해 가능해졌습니다."라고 설명합니다. 이 아키텍처를 통해 모델은 이미지의 전체 컨텍스트와 미세한 세부 사항을 동시에 처리할 수 있습니다. 이는 이전의 느리고 덜 정확한 모델에서 엄청난 도약입니다.

Apple의 Depth Pro, Depth Anything v2, Marigold, Metric3D v2의 깊이 맵 비교. Depth Pro는 사슴 털, 풍차 날개, 얼룩말 줄무늬와 같은 미세한 디테일을 포착하는 데 뛰어나며 0.3초 만에 선명하고 고해상도의 깊이 맵을 제공합니다. (출처: arxiv.org)

 

Metric depth, zero-shot learning

Depth Pro를 진정으로 차별화하는 것은 상대적 깊이와 절대적 깊이를 모두 추정하는 기능인 "metric depth"입니다.


즉, 이 모델은 실제 세계의 측정값을 제공할 수 있으며, 이는 가상 객체를 물리적 공간 내의 정확한 위치에 배치해야 하는 증강 현실(AR)과 같은 애플리케이션에 필수적입니다.


그리고 Depth Pro는 정확한 예측을 위해 도메인별 데이터 세트에 대한 광범위한 학습이 필요하지 않습니다. 이 기능은 "zero-shot learning" 이라고 합니다. 이로 인해 이 모델은 매우 다재다능합니다. 일반적으로 깊이 추정 모델에 필요한 카메라별 데이터가 필요 없이 광범위한 이미지에 적용할 수 있습니다.


저자는 "Depth Pro는 카메라 내장 함수와 같은 메타데이터가 필요 없이 '야생에서' 임의의 이미지에 대한 절대적 축척을 가진 metric depth 맵을 생성합니다."라고 설명합니다. 이러한 유연성은 AR 경험을 향상시키는 것부터 자율 주행차의 장애물 감지 및 탐색 기능을 개선하는 것까지 다양한 가능성을 열어줍니다.


Depth Pro를 직접 경험하고 싶은 분들을 위해 Hugging Face 플랫폼에서 라이브 데모를 제공합니다.

여러 데이터 세트에 걸친 깊이 추정 모델 비교. Apple의 Depth Pro는 평균 2.5의 순위로 전반적으로 가장 높은 순위를 차지했으며, 다양한 시나리오에서 Depth Anything v2 및 Metric3D와 같은 모델보다 정확도가 더 뛰어납니다. (출처: arxiv.org)

 

Real-world applications: 전자 상거래부터 자율 주행차까지

이러한 다재다능함은 다양한 산업에 상당한 영향을 미칩니다. 예를 들어 전자상거래에서 Depth Pro는 소비자가 휴대폰 카메라를 방으로 향하기만 하면 가구가 집에 어떻게 들어맞는지 볼 수 있도록 할 수 있습니다. 자동차 산업에서 단일 카메라에서 실시간 고해상도 깊이 맵을 생성하는 기능은 자율주행차가 주변 환경을 인식하는 방식을 개선하여 내비게이션과 안전을 강화할 수 있습니다.


연구자들은 "이 방법은 이상적으로 이러한 zero-shot 체제에서 metric depth 맵을 생성하여 객체 모양, 장면 레이아웃 및 절대 축척을 정확하게 재현해야 합니다."라고 말하며, 보다 전통적인 AI 모델을 훈련하는 데 드는 시간과 비용을 줄일 수 있는 모델의 잠재력을 강조했습니다.

 

Depth estimation의 과제 해결

깊이 추정에서 가장 어려운 과제 중 하나는 "flying pixels"로 알려진 것을 처리하는 것입니다. 이는 깊이 매핑 오류로 인해 공중에 떠 있는 것처럼 보이는 픽셀입니다. Depth Pro는 이 문제를 정면으로 해결하여 정확도가 가장 중요한 3D 재구성 및 가상 환경과 같은 애플리케이션에 특히 효과적입니다.


또한 Depth Pro는 경계 추적에서 뛰어나며 객체와 그 가장자리를 선명하게 묘사하는 데 있어 이전 모델보다 성능이 뛰어납니다. 연구원들은 이 시스템이 "경계 정확도에서 곱셈적 요인으로" 다른 시스템을 능가한다고 주장하는데, 이는 image matting 및 의료 영상과 같이 정밀한 객체 분할이 필요한 애플리케이션에 중요합니다.

 

오픈 소스이며 확장 가능

선택을 가속화할 수 있는 움직임에서 Apple은 Depth Pro를 오픈 소스로 만들었습니다. 사전 훈련된 모델 가중치와 함께 코드는 GitHub에서 사용할 수 있으므로 개발자와 연구자는 기술을 실험하고 더욱 개선할 수 있습니다. Repository에는 모델 아키텍처에서 사전 훈련된 체크포인트까지 모든 것이 포함되어 있어 다른 사람들이 Apple의 작업을 쉽게 구축할 수 있습니다.


연구팀은 또한 로봇 공학, 제조 및 의료와 같은 분야에서 Depth Pro의 잠재력을 더욱 탐구하도록 장려하고 있습니다. 저자는 "https://github.com/apple/ml-depth-pro에서 코드와 가중치를 릴리스합니다."라고 쓰면서 이것이 모델의 시작일 뿐임을 알렸습니다.

 

AI 깊이 인식의 미래는?

인공 지능이 가능한 것의 경계를 계속 넓혀감에 따라 Depth Pro는 단안 깊이 추정의 속도와 정확성에서 새로운 기준을 제시합니다. 단일 이미지에서 고품질의 실시간 깊이 맵을 생성하는 기능은 공간 인식에 의존하는 산업 전반에 광범위한 영향을 미칠 수 있습니다.


AI가 의사 결정과 제품 개발에 점점 더 중심이 되는 세상에서 Depth Pro는 최첨단 연구가 어떻게 실용적이고 현실적인 솔루션으로 전환될 수 있는지 보여줍니다. 기계가 주변 환경을 인식하는 방식을 개선하든 소비자 경험을 향상하든 Depth Pro의 잠재적 용도는 광범위하고 다양합니다.


연구원들이 결론 내리듯이 "Depth Pro는 머리카락, 털, 식물과 같은 미세한 구조를 포함하여 객체 경계를 선명하게 묘사하는 모든 이전 작업보다 훨씬 뛰어납니다." 오픈 소스 릴리스를 통해 Depth Pro는 자율 주행에서 증강 현실에 이르기까지 다양한 산업에 필수적이 될 수 있으며, 기계와 사람이 3D 환경과 상호 작용하는 방식을 혁신할 수 있습니다.

반응형