본문 바로가기 주메뉴 바로가기 푸터 바로가기

관련 기사

“AI의 과학논문 요약 믿을 수 없어…과도한 일반화 편향 많아”
  • 윤리정책법무팀
  • 2025-06-12
  • 18
  • 기사제목
    “AI의 과학논문 요약 믿을 수 없어…과도한 일반화 편향 많아”
  • 언론사
    연합뉴스
  • 기자성명
    이주영
  • 분야,키워드
  • 링크주소

(서울=연합뉴스) 이주영 기자 = 일반인들이 많이 사용하는 인공지능(AI)의 편리한 기능 중 하나가 요약이다. 하지만 챗GPT와 딥시크 등 유명 AI 챗봇의 과학 논문 요약 분석 결과 최대 70% 이상에서 과도한 편향이 발생하는 것으로 나타났다.

네덜란드 위트레흐트대 우베 페터스 박사와 캐나다 웨스턴대 및 영국 케임브리지대 벤저민 친이 교수팀은 14일 거대언어모델(LLM) 기반 유명 AI 챗봇 10개가 생성한 과학 요약문을 분석한 결과 최대 73%에서 과도한 일반화로 인한 부정확한 결론이 도출이 확인됐다고 밝혔다.

연구팀은 "대부분 AI 모델이 원문보다 더 포괄적인 결론을 일관되게 생성하는 것으로 밝혀졌다"며 "놀라운 것은 정확성을 요구하는 프롬프트가 문제를 더 악화시키고, 최신 모델이 구형 모델보다 성능이 더 나쁘다는 것"이라고 말했다.

연구팀은 챗GPT-4o(ChatGPT-4o)와 챗GPT-4.5(ChatGPT-4.5), 딥시크(DeepSeek), 라마 3.3 70B(LLaMA 3.3 70B), 클로드 3.7 소네트(Claude 3.7 Sonnet) 등 챗봇 10개가 네이처(Nature), 사이언스(Science), 랜싯(Lancet) 등 과학·의학 저널에 게재된 초록 및 논문 전문을 얼마나 정확히 요약하는지 평가했다.

4천900개의 LLM 생성 요약문을 분석한 결과 10개 AI 모델 중 6개가 원문 주장에 대한 체계적 과장 현상을 보였다.

이는 미묘하지만 독자에게 영향을 줄 수 있는 방식으로 일어나는 것으로 나타났다. '이 연구에서 치료법은 효과적이었다'라는 신중한 과거 시제 표현을 '이 치료는 효과적이다'처럼 더 일반화된 현재 시제로 바꾸는 식이다.

연구팀은 특히 이들 AI 모델이 더 정확한 요약을 요구할 경우 일반화 편향이 오히려 더 커진다는 점과 최신 모델이 구형 모델보다 성능이 더 나쁜 것으로 나타난 점 등을 문제로 지적했다.