반응형
애플은 UI를 이해하는 MLLM(Multimodal Large Language Model)인 Ferret-UI라는 모델에 대한 논문을 공개했습니다.
이 모델은 모바일 UI 화면을 이해하고, 사용자 지시에 따라 다양한 열린(특정한 작업에 한정되지 않은) 작업을 수행하는 모델입니다.
GPT-4V 같은 기존의 이미지를 인식하는 MLLM의 경우, 앱 상의 요소들을 인식하는 능력은 다소 떨어지는데요. 이 성능을 높이기 위한 연구입니다.
- 아이콘 인식: 화면 상의 아이콘을 식별
- 텍스트 찾기: 인터페이스의 텍스트 인식
- 위젯 나열: 화면에서 사용 가능한 위젯 나열
- 자세한 설명: 보고있는 화면을 설명
- 인식/상호 작용 대화: 화면에 대한 인식을 바탕으로 대화 형태의 상호작용을 수행
애플의 최근 논문들은 역시 인터페이스, 사용자 경험의 애플답게, 대부분 사용자의 디바이스에서 인터페이스를 이해하는 기능을 하는 연구들인데요.
이러한 연구들을 잘 살펴보면 애플이 준비하고 있는 AI가 어떤 것인지 약간의 힌트를 알 수 있지 않을까합니다. (공간 컴퓨팅 내에서 음성으로 객체들을 인식하고 다루기, 애플 숏컷 기능을 이용해 앱 자동화하기 등)
논문 주소 링크: Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
반응형
'개발자 > 인공지능과 인간' 카테고리의 다른 글
로봇의 종류 (0) | 2024.04.24 |
---|---|
물질을 설계하고 만들기 위해 로봇을 제어할 수 있을까요? (0) | 2024.04.22 |
언어 모델용 합성 데이터에 대한 모범 사례 및 교훈 (2) | 2024.04.12 |
데이터 과학 교육은 대규모 언어 모델로 무엇을 해야 할까요? (0) | 2024.04.11 |
인공 지능과 인공 일반 지능의 차이점은 무엇인가요? (0) | 2024.03.26 |
ChatGPT가 지은 한시를 감상 (1) | 2024.03.14 |
일리야 수츠케버, AGI 이후의 미래에 대하여 (1) | 2024.03.12 |
스탠퍼드 과학자들이 발견한 사실, ChatGPT가 점점 더 멍청해지고 있습니다 (1) | 2023.08.08 |
더욱 좋은 정보를 제공하겠습니다.~ ^^