"믿었던 챗GPT가 밀라노 토토 48%라니...", 챗GPT 어쩌나
파이낸셜뉴스
2025.04.20 12:59
수정 : 2025.04.20 14:54기사원문
테크크런치 오픈AI 사내 벤치마크서 나온 환각율 보도
챗GPT o3, 밀라노 토토 33%
챗GPT o4미니는 48% 밀라노 토토 보여
오픈AI " 더 많은 연구가 필요하다"
챗GPT o4 미니, 밀라노 토토 48%
20일 테크크런치는 오픈AI의 사내 벤치마크인 ‘퍼슨(Person) QA’ 평가 결과를 인용해, o3 모델이 33%의 질문에 대해 환각을 일으켰다고 보도했다.
이는 o1(16%)과 o3 미니(14.8%)보다 두 배 이상 높은 수치다. 더 심각한 것은 o4 미니다. 이 모델은 무려 48%의 밀라노 토토을 기록하며 GPT-4o를 포함한 기존 모델들보다도 더 불안정한 모습을 보였다.
성능 측면에서도 코딩 관련 벤치마크인 SWE 테스트에서 o3는 69.1%, o4 미니는 68.1%를 기록해, 이전 모델인 o3 미니(49.3%)는 물론, 경쟁 모델인 클로드 3.7 소넷(62.3%)보다도 높은 수치를 보였다. 하지만 이러한 기술적 진보에도 불구하고, 밀라노 토토은 오히려 이전보다 증가했다. 그동안 새로운 모델이 출시될 때마다 환각 문제는 점진적으로 개선되어 왔다는 점에서, 이번 결과는 이례적이라는 지적이 나온다.
오픈AI, "더 많은 연구 필요"
오픈AI는 이 현상의 원인에 대해 아직 명확한 설명을 내놓지 못하고 있다. 기술 보고서에서는 “모델이 이전보다 더 많은 사용자 요청에 응답하게 되면서, 정확한 결과 뿐 아니라 잘못된 결과를 내는 것도 함께 증가한 것으로 보인다”고 분석하면서, 환각 증가의 정확한 원인을 규명하기 위해 “더 많은 연구가 필요하다”고 밝혔다.
AI 업계는 이번 사례가 추론형 모델에 대한 신뢰성에 의문을 제기할 수 있다고 본다. 특히 법률, 회계, 세무 등 고정확도가 요구되는 산업군에서는 환각 문제가 해결되지 않을 경우, 추론형 AI 도입 자체가 어려워질 수 있다는 우려가 나온다. 오픈AI 측은 “모든 문제 영역에서 환각을 완전히 제거하는 것은 지속적인 연구 과제”라며, “정확성과 신뢰성을 높이기 위한 노력을 이어가고 있다”고 해명했다.
ksh@fnnews.com 김성환 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지