개발자/인공지능과 인간

스탠퍼드 과학자들이 발견한 사실, ChatGPT가 점점 더 멍청해지고 있습니다

지구빵집 2023. 8. 8. 08:45
반응형

 

 

스탠퍼드 과학자들이 발견한 사실, ChatGPT가 점점 더 멍청해지고 있습니다.

 

"모델에 대한 업데이트가 실제로 그 기능을 손상시키는지 여부를 아는 것이 중요합니다."

 

덤 앤 더머

 

경영진의 주장과는 상관없이, 연구원들은 이제 OpenAI의 대규모 언어 모델(LLM)이 점점 더 멍청해지고 있는 것으로 보인다고 말합니다. 스탠퍼드와 버클리의 연구원들은 아직 동료 검토를 거치지 않은 새로운 연구에서 몇 달 동안 GPT-3.5와 GPT-4 모두 응답의 정확도가 떨어지는 등 '행동'이 크게 바뀌었으며, 이는 출시 이후 몇 달 동안 최신 버전의 소프트웨어가 명백하게 저하되었다는 사용자 일화를 입증하는 것이라고 밝혔습니다.

 

"연구자들은 논문 초록에서 "GPT-4(2023년 3월)는 소수를 식별하는 데 매우 능숙했지만(정확도 97.6%), GPT-4(2023년 6월)는 같은 질문에 대해 매우 열악했다(정확도 2.4%)"고 썼습니다.

 

"초록은 이어서 "GPT-4와 GPT-3.5 모두 3월보다 6월에 코드 생성 시 형식 오류가 더 많이 발생했습니다."라고 설명했습니다.

 

두뇌 유출

 

이 연구는 지난 한 달여 동안 사용자들이 GPT-3 및 GPT-4 기반 ChatGPT를 사용하면서 시간이 지날수록 점점 더 멍청해지는 것을 느꼈다고 말한 것을 확인시켜 줍니다. 정확도 저하로 인한 문제가 심각해지자 OpenAI의 제품 담당 부사장 피터 웰린더는 의도적인 변경이라는 소문을 불식시키기 위해 노력했습니다. 웰린더는 지난주 트위터에 "아니요, 우리는 GPT-4를 더 멍청하게 만들지 않았습니다."라고 말했습니다. "정반대로 새 버전마다 이전 버전보다 더 똑똑하게 만들었습니다." 그는 사용자 경험의 변화는 지속적인 사용으로 인한 것일 수 있다며, "[ChatGPT]를 더 많이 사용하면 이전에는 보이지 않던 문제를 발견하기 시작할 수 있다"라고 덧붙였습니다.

 

클래스 클라운

 

하지만 스탠퍼드와 버클리의 연구는 이러한 가설에 반대하는 설득력 있는 데이터입니다. 연구자들은 정확도와 능력에서 이러한 하향 '드리프트'가 발생하는 이유에 대해 이유를 제시하지는 않았지만, 시간이 지남에 따라 이러한 명백한 악화는 모델이 개선되고 있다는 OpenAI의 주장에 도전하고 있다고 지적합니다.

 

논문은 "GPT-3.5와 GPT-4의 성능과 동작이 두 릴리스에 걸쳐 크게 다르며 일부 작업에서 시간이 지남에 따라 성능이 상당히 악화되었다는 것을 발견했습니다."라고 말하며 GPT-4가 실제로 더 강해지고 있는지에 대한 의문을 제기하는 것은 "흥미롭습니다."라고 덧붙였습니다. 연구자들은 "일부 측면을 개선하기 위한 모델 업데이트가 실제로 다른 측면의 기능을 손상시키는지 여부를 아는 것이 중요합니다."라고 썼습니다.

 

기사 원문 참고

 

 

 

이미지는 기사출처

 

 

반응형