개발자/인공지능과 인간

애플 UI를 이해하는 AI, Ferret-UI

지구빵집 2024. 4. 10. 11:00
반응형

 

애플은 UI를 이해하는 MLLM(Multimodal Large Language Model)인 Ferret-UI라는 모델에 대한 논문을 공개했습니다.

 

이 모델은 모바일 UI 화면을 이해하고, 사용자 지시에 따라 다양한 열린(특정한 작업에 한정되지 않은) 작업을 수행하는 모델입니다.

 

GPT-4V 같은 기존의 이미지를 인식하는 MLLM의 경우, 앱 상의 요소들을 인식하는 능력은 다소 떨어지는데요. 이 성능을 높이기 위한 연구입니다.

 

  • 아이콘 인식: 화면 상의 아이콘을 식별
  • 텍스트 찾기: 인터페이스의 텍스트 인식
  • 위젯 나열: 화면에서 사용 가능한 위젯 나열
  • 자세한 설명: 보고있는 화면을 설명
  • 인식/상호 작용 대화: 화면에 대한 인식을 바탕으로 대화 형태의 상호작용을 수행

 

애플의 최근 논문들은 역시 인터페이스, 사용자 경험의 애플답게, 대부분 사용자의 디바이스에서 인터페이스를 이해하는 기능을 하는 연구들인데요.

 

이러한 연구들을 잘 살펴보면 애플이 준비하고 있는 AI가 어떤 것인지 약간의 힌트를 알 수 있지 않을까합니다. (공간 컴퓨팅 내에서 음성으로 객체들을 인식하고 다루기, 애플 숏컷 기능을 이용해 앱 자동화하기 등)

 

 

논문 주소 링크: Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs 



애플 UI를 이해하는 AI, Ferret-UI

 

반응형