오픈AI가 공개한 차세대 추론 AI 모델 'o3'가 과학 질문 응답 분야에서 최고 성능을 기록했다는 소식이 전해지면서, 인공지능이 과학 연구 생태계에 미칠 파급효과에 대한 논의가 뜨겁다. 미국 시애틀의 앨런 인공지능 연구소(AI2)가 개발한 'SciArena' 평가 플랫폼을 통해 실시된 이번 평가는 단순한 성능 비교를 넘어, AI가 과학 문헌 이해와 활용에서 보여주는 가능성과 한계를 동시에 드러냈다.

이미지: perplexity 생성
과학 질문 응답의 새로운 기준점, SciArena 평가SciArena는 기존의 정적인 벤치마크를 벗어나 실제 연구자들의 투표를 통해 AI 모델의 성능을 평가하는 혁신적인 플랫폼이다. 102명의 연구자가 참여하여 13,000표 이상의 평가를 진행한 결과, 오픈AI의 o3 모델이 자연과학, 의료, 공학, 인문학 및 사회과학 분야 모두에서 압도적인 성능을 보였다. 특히 주목할 점은 o3 모델이 단순한 정보 검색을 넘어 "인용 문헌에 대한 자세한 정보를 제공하고, 기술적으로 미묘한 부분까지 정교하게 설명하는 능력"을 보여준다는 평가다. 알렌 인공지능 연구소의 아만 코핸 연구원은 이러한 특징이 o3가 다른 모델들보다 높은 평가를 받은 주요 요인이라고 분석했다.
SciArena 평가에서 주요 AI 모델들의 과학 분야별 성능 비교
o3의 전반적인 우위에도 불구하고, 다른 주요 AI 모델들은 특정 분야에서 독특한 강점을 보였다. 중국 딥시크(DeepSeek)의 R1 모델은 자연과학 분야에서 2위, 공학 분야에서 4위를 기록하며 오픈소스 모델 중 가장 뛰어난 성능을 보였다. 이는 중국의 AI 기술력이 과학 연구 분야에서도 상당한 수준에 도달했음을 시사한다. 구글의 Gemini 2.5 Pro는 자연과학 분야 3위, 공학 및 의료 분야 5위를 기록했으며, 특히 GPQA Diamond 벤치마크에서 84.0%의 높은 점수를 달성해 박사 수준의 과학 지식 처리 능력을 입증했다. 흥미롭게도 Anthropic의 Claude-4 Opus는 의료 분야에서 2위를 차지하며, 의료 관련 질문에 대한 특화된 역량을 보여주었다. 이는 AI 모델들이 범용적 성능뿐만 아니라 특정 도메인에서의 전문성도 동시에 발전시키고 있음을 의미한다.
과학 문헌 활용의 이중적 현실AI 모델들의 과학 질문 응답 능력 향상은 분명히 고무적이지만, 과학 문헌 처리 과정에서 드러나는 한계점들도 간과할 수 없다. 최근 연구에 따르면, ChatGPT와 DeepSeek 등 주요 AI 모델들이 생성한 과학 논문 요약문의 최대 73%에서 과도한 일반화로 인한 부정확한 결론이 도출되는 것으로 나타났다. 더욱 우려스러운 점은 "정확성을 요구하는 프롬프트가 문제를 더 악화시키고, 최신 모델이 구형 모델보다 성능이 더 나쁘다"는 연구 결과다. 이는 AI 모델이 사용자의 명시적 요구에도 불구하고 본질적인 편향을 극복하지 못하고 있음을 시사한다.
AI 과학 문헌 요약에서 발견된 인용 오류 유형별 분포
과학 연구에서 인용의 정확성은 학문적 무결성의 핵심이다. 그러나 AI 모델들이 생성하는 인용에서 상당한 문제점들이 발견되고 있다. 한 연구에 따르면 ChatGPT-3.5의 경우 55%의 인용이 완전히 조작된 것으로 나타났으며, 개선된 GPT-4에서도 18%의 인용이 허위인 것으로 확인되었다. 이러한 인용 오류는 단순한 실수가 아니라 대규모 언어 모델의 구조적 한계에서 비롯된다. 모델들이 통계적 패턴에 기반해 텍스트를 생성하는 과정에서 실제 존재하지 않는 논문이나 저자를 창조해내는 '환각(hallucination)' 현상이 발생하기 때문이다.
자동화된 평가 시스템의 딜레마SciArena와 같은 평가 플랫폼의 등장은 AI 모델 평가의 새로운 패러다임을 제시하지만, 동시에 "누가 평가자를 평가할 것인가"라는 근본적 질문을 던진다. 현재 AI 모델을 평가하는 자동화된 시스템들조차 인간의 선호도와 65% 정도만 일치한다는 연구 결과는 이러한 우려를 뒷받침한다. 특히 과학 분야에서는 LLM-as-a-Judge 시스템의 한계가 더욱 명확히 드러난다. 복잡한 과학적 개념과 미묘한 논리적 추론을 요구하는 과학 문헌 평가에서 AI 판정자들은 여전히 인간 전문가의 판단을 완전히 대체하지 못하고 있다.
연구 생태계의 변화와 적응그럼에도 불구하고 AI 기술은 과학 연구 생태계에 근본적인 변화를 가져오고 있다. 시드니 대학의 조너선 쿠머펠드 연구원은 "거대언어모델이 과학 분야 질문에 신뢰할 수 있는 답변을 제공한다면, 연구자들이 자신의 분야에서 최신 연구 문헌을 따라잡는 데 큰 도움이 될 것"이라고 평가했다. 실제로 AI 도구들은 이미 연구자들의 일상에 깊숙이 파고들고 있다. Semantic Scholar, Elicit, Consensus 같은 AI 기반 학술 검색 도구들은 연구자들이 방대한 문헌 속에서 관련 연구를 찾고 분석하는 시간을 대폭 단축시키고 있다.
향후 전망: 균형잡힌 협력의 필요성오스트레일리아 국립대학의 라훌 쇼메 연구원이 지적한 바와 같이, "AI가 생성한 논문 요약을 읽는 것이 논문을 직접 읽는 것을 대체할 수는 없다". 이는 AI 기술의 한계를 인정하면서도, 연구자들이 AI와 효과적으로 협력할 수 있는 방법을 모색해야 함을 시사한다. 중요한 것은 AI 모델들이 보여주는 인상적인 성능 지표에 현혹되지 않고, 과학 연구의 본질적 가치인 정확성과 신뢰성을 유지하는 것이다. o3 모델의 탁월한 성능은 분명히 고무적이지만, 이를 맹신하기보다는 비판적 사고와 검증 과정을 통해 AI 도구를 활용하는 지혜가 필요하다. 결국 AI 시대의 과학 연구는 인간의 전문성과 AI의 효율성이 조화롭게 결합되는 새로운 패러다임을 요구한다. 연구자들은 AI 도구의 강점을 활용하면서도 그 한계를 명확히 인식하고, 과학적 엄밀성을 유지하는 균형잡힌 접근법을 개발해야 할 것이다.
참고자료 2023, Nature, Fabrication and errors in the bibliographic citations generated by chatbots 2024, arXiv, Opportunities and Challenges of LLM-as-a-judge 2024, Nature, OpenAI's o3 tops new AI league table for answering scientific questions 2025, arXiv, SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks 2025, DeepSeek AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 2025, Google Blog, Gemini 2.5: Our most intelligent AI model 2025, Anthropic, Introducing Claude 4 2025, 연합뉴스, "AI의 과학논문 요약 믿을 수 없어…과도한 일반화 편향 많아"
|
오픈AI가 공개한 차세대 추론 AI 모델 'o3'가 과학 질문 응답 분야에서 최고 성능을 기록했다는 소식이 전해지면서, 인공지능이 과학 연구 생태계에 미칠 파급효과에 대한 논의가 뜨겁다. 미국 시애틀의 앨런 인공지능 연구소(AI2)가 개발한 'SciArena' 평가 플랫폼을 통해 실시된 이번 평가는 단순한 성능 비교를 넘어, AI가 과학 문헌 이해와 활용에서 보여주는 가능성과 한계를 동시에 드러냈다.
이미지: perplexity 생성
과학 질문 응답의 새로운 기준점, SciArena 평가
SciArena는 기존의 정적인 벤치마크를 벗어나 실제 연구자들의 투표를 통해 AI 모델의 성능을 평가하는 혁신적인 플랫폼이다. 102명의 연구자가 참여하여 13,000표 이상의 평가를 진행한 결과, 오픈AI의 o3 모델이 자연과학, 의료, 공학, 인문학 및 사회과학 분야 모두에서 압도적인 성능을 보였다.
특히 주목할 점은 o3 모델이 단순한 정보 검색을 넘어 "인용 문헌에 대한 자세한 정보를 제공하고, 기술적으로 미묘한 부분까지 정교하게 설명하는 능력"을 보여준다는 평가다. 알렌 인공지능 연구소의 아만 코핸 연구원은 이러한 특징이 o3가 다른 모델들보다 높은 평가를 받은 주요 요인이라고 분석했다.
경쟁 모델들의 차별화된 강점
o3의 전반적인 우위에도 불구하고, 다른 주요 AI 모델들은 특정 분야에서 독특한 강점을 보였다. 중국 딥시크(DeepSeek)의 R1 모델은 자연과학 분야에서 2위, 공학 분야에서 4위를 기록하며 오픈소스 모델 중 가장 뛰어난 성능을 보였다. 이는 중국의 AI 기술력이 과학 연구 분야에서도 상당한 수준에 도달했음을 시사한다.
구글의 Gemini 2.5 Pro는 자연과학 분야 3위, 공학 및 의료 분야 5위를 기록했으며, 특히 GPQA Diamond 벤치마크에서 84.0%의 높은 점수를 달성해 박사 수준의 과학 지식 처리 능력을 입증했다.
흥미롭게도 Anthropic의 Claude-4 Opus는 의료 분야에서 2위를 차지하며, 의료 관련 질문에 대한 특화된 역량을 보여주었다. 이는 AI 모델들이 범용적 성능뿐만 아니라 특정 도메인에서의 전문성도 동시에 발전시키고 있음을 의미한다.
과학 문헌 활용의 이중적 현실
AI 모델들의 과학 질문 응답 능력 향상은 분명히 고무적이지만, 과학 문헌 처리 과정에서 드러나는 한계점들도 간과할 수 없다. 최근 연구에 따르면, ChatGPT와 DeepSeek 등 주요 AI 모델들이 생성한 과학 논문 요약문의 최대 73%에서 과도한 일반화로 인한 부정확한 결론이 도출되는 것으로 나타났다.
더욱 우려스러운 점은 "정확성을 요구하는 프롬프트가 문제를 더 악화시키고, 최신 모델이 구형 모델보다 성능이 더 나쁘다"는 연구 결과다. 이는 AI 모델이 사용자의 명시적 요구에도 불구하고 본질적인 편향을 극복하지 못하고 있음을 시사한다.
인용 정확성의 근본적 문제
과학 연구에서 인용의 정확성은 학문적 무결성의 핵심이다. 그러나 AI 모델들이 생성하는 인용에서 상당한 문제점들이 발견되고 있다. 한 연구에 따르면 ChatGPT-3.5의 경우 55%의 인용이 완전히 조작된 것으로 나타났으며, 개선된 GPT-4에서도 18%의 인용이 허위인 것으로 확인되었다.
이러한 인용 오류는 단순한 실수가 아니라 대규모 언어 모델의 구조적 한계에서 비롯된다. 모델들이 통계적 패턴에 기반해 텍스트를 생성하는 과정에서 실제 존재하지 않는 논문이나 저자를 창조해내는 '환각(hallucination)' 현상이 발생하기 때문이다.
자동화된 평가 시스템의 딜레마
SciArena와 같은 평가 플랫폼의 등장은 AI 모델 평가의 새로운 패러다임을 제시하지만, 동시에 "누가 평가자를 평가할 것인가"라는 근본적 질문을 던진다. 현재 AI 모델을 평가하는 자동화된 시스템들조차 인간의 선호도와 65% 정도만 일치한다는 연구 결과는 이러한 우려를 뒷받침한다.
특히 과학 분야에서는 LLM-as-a-Judge 시스템의 한계가 더욱 명확히 드러난다. 복잡한 과학적 개념과 미묘한 논리적 추론을 요구하는 과학 문헌 평가에서 AI 판정자들은 여전히 인간 전문가의 판단을 완전히 대체하지 못하고 있다.
연구 생태계의 변화와 적응
그럼에도 불구하고 AI 기술은 과학 연구 생태계에 근본적인 변화를 가져오고 있다. 시드니 대학의 조너선 쿠머펠드 연구원은 "거대언어모델이 과학 분야 질문에 신뢰할 수 있는 답변을 제공한다면, 연구자들이 자신의 분야에서 최신 연구 문헌을 따라잡는 데 큰 도움이 될 것"이라고 평가했다.
실제로 AI 도구들은 이미 연구자들의 일상에 깊숙이 파고들고 있다. Semantic Scholar, Elicit, Consensus 같은 AI 기반 학술 검색 도구들은 연구자들이 방대한 문헌 속에서 관련 연구를 찾고 분석하는 시간을 대폭 단축시키고 있다.
향후 전망: 균형잡힌 협력의 필요성
오스트레일리아 국립대학의 라훌 쇼메 연구원이 지적한 바와 같이, "AI가 생성한 논문 요약을 읽는 것이 논문을 직접 읽는 것을 대체할 수는 없다". 이는 AI 기술의 한계를 인정하면서도, 연구자들이 AI와 효과적으로 협력할 수 있는 방법을 모색해야 함을 시사한다.
중요한 것은 AI 모델들이 보여주는 인상적인 성능 지표에 현혹되지 않고, 과학 연구의 본질적 가치인 정확성과 신뢰성을 유지하는 것이다. o3 모델의 탁월한 성능은 분명히 고무적이지만, 이를 맹신하기보다는 비판적 사고와 검증 과정을 통해 AI 도구를 활용하는 지혜가 필요하다.
결국 AI 시대의 과학 연구는 인간의 전문성과 AI의 효율성이 조화롭게 결합되는 새로운 패러다임을 요구한다. 연구자들은 AI 도구의 강점을 활용하면서도 그 한계를 명확히 인식하고, 과학적 엄밀성을 유지하는 균형잡힌 접근법을 개발해야 할 것이다.
참고자료
2023, Nature, Fabrication and errors in the bibliographic citations generated by chatbots
2024, arXiv, Opportunities and Challenges of LLM-as-a-judge
2024, Nature, OpenAI's o3 tops new AI league table for answering scientific questions
2025, arXiv, SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks
2025, DeepSeek AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2025, Google Blog, Gemini 2.5: Our most intelligent AI model
2025, Anthropic, Introducing Claude 4
2025, 연합뉴스, "AI의 과학논문 요약 믿을 수 없어…과도한 일반화 편향 많아"