본문 바로가기

개발자/인공지능과 인간

AI 모델이 연구자보다 더 독창적인 아이디어를 만들어낼까요?

반응형

 

 

인공지능, 인간의 창의성을 뛰어넘을 수 있나?

 

흥미롭게도 인공지능이 인간의 창의성을 뛰어넘을 수 있다는 최신 연구 결과가 나왔습니다. 새로운 연구 아이디어를 제안해 보라는 지시를 입력하는 방식으로 시험했다고 합니다.

 

인간 연구자들에게 49개 아이디어와 인공지능이 제안한 49개 아이디어, 그리고 인공지능이 제안하고 인간 전문가가 랭킹을 보정한 49개 아이디어를 엄선된 전문가들에게 평가를 받아보니, 인간 전문가의 보정을 받은 인공지능이 제안한 아이디어가 가장 높은 평가를 받았고, 인간이 개입하지 않은 인공지능이 제안한 아이디어가 다음으로 높은 평가를 받았고, 인간 전문가가 제안한 아이디어가 가장 낮은 평가를 받았다고 합니다.

 

신규성과 흥미성에서 인공지능이 제안한 아이디어가 높게 평가를 받았습니다. 물론 실현성은 인간 전문가와 비등했지만, 결과적으로 종합 평가는 인공지능이 인간을 이긴 것입니다. 이 연구는 네이처에서도 주목을 받았고 해설 기사가 실렸습니다. 해설기사는 아래를 참고하세요.

 

AI 모델이 연구자보다 더 독창적인 아이디어를 만들어낼까요? 

 

이 개념은 검토자가 평가했으며 누가, 무엇을 만들었는지는 알려지지 않았습니다. 

 

연구원들은 몇 시간 만에 4,000개의 새로운 연구 아이디어를 생각해내는 인공 지능 도구를 만들었습니다. 신용: Malte Mueller/Getty

 

 

이번 달 arXiv에 게재된 사전 인쇄본에 따르면 인공지능(AI)으로 구동되는 아이디어 생성기가 독립적으로 연구하는 50명의 과학자보다 더 많은 독창적인 연구 아이디어를 내놓았습니다1.

 

인간과 AI가 만든 아이디어는 누가, 무엇을 만들었는지 알려주지 않은 검토자들에 의해 평가되었습니다. 검토자들은 AI가 생성한 아이디어가 인간이 작성한 아이디어보다 더 흥미롭다고 평가했지만, 실현 가능성에서는 AI의 제안이 약간 낮은 점수를 받았습니다.

 

그러나 과학자들은 동료 검토를 거치지 않은 이 연구에는 한계가 있다고 지적합니다. 이 연구는 한 가지 연구 영역에 초점을 맞추었고, 인간 참가자들이 즉석에서 아이디어를 내야 했기 때문에 최고의 개념을 도출하는 데 방해가 되었을 수 있습니다. 

 

과학 분야의 AI

 

논문 작성, 코드 생성, 문헌 검색 등 연구 작업을 자동화하기 위해 LLM을 사용하는 방법을 모색하는 노력이 급증하고 있습니다. 하지만 이러한 AI 도구가 인간과 유사한 수준에서 새로운 연구 관점을 창출할 수 있는지 평가하기는 어려웠습니다. 그 이유는 아이디어를 평가하는 것은 매우 주관적이며, 이를 신중하게 평가할 수 있는 전문성을 갖춘 연구자들을 모아야 하기 때문이라고 이 연구의 공동 저자인 Chenglei Si는 말합니다. 캘리포니아 스탠포드 대학교의 컴퓨터 과학자인 Si는 "이러한 기능을 맥락화하는 가장 좋은 방법은 직접 비교하는 것입니다."라고 말합니다.

 

예루살렘의 앨런 인공지능 연구소의 컴퓨터 과학자인 톰 호프는 1년 동안 진행된 이 프로젝트는 ChatGPT와 같은 도구의 기반 기술인 대규모 언어 모델(LLM)이 혁신적인 연구 아이디어를 만들어낼 수 있는지 평가하기 위한 가장 큰 노력 중 하나라고 설명합니다. "이와 같은 연구가 더 많이 이루어져야 합니다."라고 그는 말합니다.

 

연구팀은 AI와 인간 간의 커뮤니케이션에 초점을 맞춘 컴퓨터 과학의 한 분야인 자연어 처리 분야에서 100명 이상의 연구원을 모집했습니다. 49명의 참가자는 열흘 안에 7가지 주제 중 하나를 바탕으로 아이디어를 개발하고 작성하는 임무를 맡았습니다. 연구진은 인센티브로 참가자들에게 각 아이디어당 300달러를 지급하고 최고 점수를 받은 5개의 아이디어에는 1,000달러의 보너스를 지급했습니다.

 

한편 연구진은 캘리포니아 샌프란시스코의 Anthropic에서 개발한 LLM인 Claude 3.5를 사용하여 아이디어 생성기를 구축했습니다. 연구진은 AI 기반 문헌 검색 엔진인 시맨틱 스콜라를 사용하여 7가지 연구 주제와 관련된 논문을 찾도록 AI 도구에 요청했습니다. 그런 다음 연구자들은 이러한 논문을 바탕으로 AI 에이전트에게 각 연구 주제에 대한 4,000개의 아이디어를 생성하고 가장 독창적인 아이디어의 순위를 매기도록 지시했습니다. 

 

인간 리뷰어

 

다음으로 연구진은 79명의 리뷰어에게 인간과 AI가 생성한 아이디어를 무작위로 배정하고, 각 아이디어의 참신성, 흥미성, 실현 가능성, 기대 효과에 따라 점수를 매겼습니다. 연구진은 아이디어의 작성자가 리뷰어에게 알려지지 않도록 하기 위해 다른 LLM을 사용하여 두 가지 유형의 텍스트를 편집하여 아이디어 자체는 변경하지 않고 글쓰기 스타일과 어조를 표준화했습니다.

 

리뷰어들은 평균적으로 AI가 생성한 아이디어가 사람이 작성한 아이디어보다 더 독창적이고 흥미롭다고 점수를 매겼습니다. 그러나 연구팀이 4,000개의 LLM이 생성한 아이디어를 자세히 살펴본 결과, 정말 독창적인 아이디어는 200개 정도에 불과했으며, 이는 AI가 아이디어를 산출할수록 독창성이 떨어졌음을 시사합니다.

 

참가자들에게 설문조사를 실시한 결과, 대부분은 자신이 제출한 아이디어가 과거에 생성한 아이디어와 비교했을 때 평균 수준이라고 인정했습니다.

 

캐나다 밴쿠버에 있는 브리티시 컬럼비아 대학의 머신러닝 연구원 콩 루는 이 결과는 LLM이 기존 문헌에 있는 것보다 약간 더 독창적인 아이디어를 생성할 수 있음을 시사한다고 말합니다. 그러나 가장 획기적인 인간의 아이디어를 이길 수 있을지는 미지수입니다.

 

시애틀에 있는 워싱턴 대학교의 계산 사회 과학자인 제빈 웨스트는 이 연구가 제출물의 언어와 길이를 변경한 LLM이 편집한 서면 아이디어를 비교했다는 또 다른 한계가 있다고 말합니다. 이러한 변화는 심사자들이 참신성을 인식하는 방식에 미묘한 영향을 미쳤을 수 있다고 그는 말합니다. 웨스트는 몇 시간 만에 수천 개의 아이디어를 생성할 수 있는 LLM과 연구자를 비교하는 것은 완전히 공정한 비교가 아닐 수 있다고 덧붙입니다. "사과와 사과를 비교해야 합니다."라고 그는 말합니다.

 

시와 그의 동료들은 AI가 생성한 아이디어를 주요 컨퍼런스 논문과 비교하여 LLM이 인간의 창의성과 어떻게 비교되는지 더 잘 이해할 수 있도록 할 계획입니다. "우리는 AI가 연구 과정에서 보다 적극적인 역할을 수행할 수 있는 미래의 모습에 대해 커뮤니티가 더 열심히 생각하도록 유도하려고 합니다."라고 그는 말합니다.

 

도이: https://doi.org/10.1038/d41586-024-03070-5

 

References

  1. Si, C., Yang, D. & Hashimoto, T. Preprint at arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).

 

 

반응형

더욱 좋은 정보를 제공하겠습니다.~ ^^