AI가 '그럴듯하게 틀리는' 진짜 이유 (할루시네이션)

반응형

2023년, 미국 뉴욕의 한 변호사가 법원에 제출한 서면 때문에 미국 법조계가 술렁였습니다.

자기 주장을 뒷받침하려고 판례 6건을 인용했는데, 그중 단 한 건도 실제로 존재하지 않았기 때문입니다.

사건 번호도, 판결 요지도, 그 안에서 또 인용한 다른 판례까지 전부 다 그럴듯하게 만들어진 가짜였습니다.

변호사는 ChatGPT가 법률 데이터베이스를 검색해 판례를 찾아줄 수 있다고 믿었습니다. 하지만, 사실 그 당시 ChatGPT는 그런 기능이 없는 그냥 챗봇이었습니다.

이 변호사는 심지어 ChatGPT에게 "이거 진짜 판례 맞나요?"라고 두 번이나 물어봤습니다.

ChatGPT는 자신 있게 "네, 모두 실제 판례입니다"라고 답했고요.

결과는 벌금 5,000달러와 망신을 당했습니다. 이것이 바로 그 유명한 Mata v. Avianca 사건입니다.[1]

Mata v. Avianca 사건

이렇게 AI가 사실을 지어내고도 정작 본인은 그게 사실인 줄 아는 현상을 할루시네이션(Hallucination, 환각) 이라고 부릅니다.

이미 여러분들도 겪어보신 적이 있을 것입니다.

논문을 인용해줬는데, 검색해보니 존재하지 않는 경우. 물품을 검색해 줬는데 실제로는 없는 경우.

AI를 써본 사람이라면 누구나 한 번쯤 겪어봤을 상황입니다.

그럼 AI는 일부러 거짓말을 하고 우리를 속이려는 걸까요?

아닙니다. 더 흥미롭고, 솔직히 좀 무서운 진실은, AI는 구조적으로 그렇게 작동하도록 만들어졌습니다.


1. AI는 ‘정답’을 찾는 것이 아니라 ‘다음 단어’를 예측

우리가 사용하는 대부분의 AI는 LLM(대형 언어 모델, Large Language Model) 입니다.

이 모델이 수행하는 핵심 작업은 매우 단순합니다.

“이 문장 다음에 올 단어는 어떤 것이 나오는 것이 확률이 가장 높을까?”라고 생각하는 것입니다. 이 것을 수없이 많이 반복해서 문장을 만들어냅니다.

예를 들어,

"대한민국의 수도는 ___" 

같은 질문에는 응답을 정확히 답합니다. 서울이라는 단어가 압도적으로 자주 등장했기 때문입니다.

하지만,

"1987년 부산국제영화제 폐막작은?"

같은 질문은 다릅니다. 학습 데이터에 정확한 정보가 없으면, AI는 그럴듯해 보이는 영화 제목을 확률적으로 내보냅니다.

부산국제영화제는 1987년에 없었는데도 AI가 자신 있게 대답하는 것입니다.

LLM은 사실을 저장하는 데이터베이스가 아닙니다. 패턴을 학습해서 정답처럼 보이는 문장을 확률적으로 생성하는 구조입니다.

AI 는 패턴을 학습

 


2. AI가 "모르겠다" 라고 말하기 어려운 이유

흔히들 AI가 "모른다"고 말 못하게 만들어졌다고 생각합니다. 그런데 정확히 표현하면 조금 다릅니다.

모를 때는 찍는 게 AI 모델 입장에서 더 이득이 되도록 학습되어 있다는 것이 더 정확합니다.

OpenAI가 2025년에 내놓은 분석을 보면 그 이유가 드러납니다.[2]

AI 성능 평가에 쓰이는 대부분의  벤치마크가 이진 채점을 합니다. 맞으면 1점, 틀리거나 "모르겠다"라고 하면 0점입니다.

그럼 모델 입장에선 계산이 명확해집니다.

모른다고 답하기 → 무조건 0점.
찍어서 답하기 → 운 좋으면 1점, 운 나빠도 0점.

AI 평가 벤치마크 이진 채점


즉, 찍는 게 무조건 이득입니다. 그렇게 학습된 모델은 실제 사용에서도 모를 때 찍습니다. 객관식 시험에서 빈칸을 두느니 혹시 모르니 찍고 보는 학생과 똑같은 원리입니다.

이걸 Overconfidence(과신) 문제라고 합니다. 모델이 모르겠다고 못 멈추는 게 아니라, 멈추지 않도록 학습된 것입니다.


3. 학습 데이터에는 쓰레기도 섞여 있음

AI는 인터넷, 책, 논문을 통째로 학습합니다. 그 안에는 검증되고 믿을 만한 자료들(ex>학술 논문)도 있지만 음모론 게시판, 잘못된 의학 정보 등도 섞여 있습니다.

2024년 구글 AI Overviews 사건이 대표적인 예시입니다.

한 사용자가 구글 AI 검색에 "피자에 치즈가 안 붙어요"라고 검색하였습니다.

그랬더니 구글이  '소스에 무독성 접착제를 1/8컵 정도 넣어보세요.' 라고 답했습니다.

이 답변의 출처는 10여년 전 Reddit의 한 농담 댓글이었습니다.[3]

AI는 농담인지 진담인지 구분하지 못하고, 그저 '관련성 높은 텍스트'라고 판단해서 인용했습니다.

AI에겐 자주 등장한 표현 = 신뢰할 만한 정보라는 착각이 있습니다.

즉, AI는 '진실'을 배우는 게 아니라 '자주 보인 표현'을 배웁니다.

자주 등장한 정보 = 신뢰할 만한 정보 라고 착각합

 


4. 모르는 시점의 일은 추측해서 생성

AI는 특정 시점까지의 데이터로만 학습합니다. 이를 Knowledge Cutoff(지식 단절) 라고 합니다.

문제는 AI가 본인이 모르는 특성 시점 이후의 일에 대해서도 답을 만들어낸다는 점입니다.

예를 들어, 2024년까지 학습된 AI에게 2026년의 사건을 물어보면

선택지는 보통 두 가지입니다.

1. 모른다고 솔직히 말하기
2. 기존 지식을 바탕으로 추론하기

대부분의 경우 AI는 2번을 선택합니다.

AI의 선택

그 과정에서 잘못된 정보가 만들어지기도 합니다.

도널드 트럼프가 47대 미국 대통령으로 취임한 지 100일이 지났는데도, ChatGPT는 여전히 "조 바이든이 현 대통령"이라고 답하는 경우가 많았습니다.[4]

OpenAI는 ChatGPT의 핵심 학습 데이터가 2024년 6월에서 멈췄다고 밝혔는데, 그 이후의 대선 결과와 정권 교체가 모델에 반영되지 않았던 것입니다. 여기서 AI가 "잘 모르겠다"고 답하지 않고 옛 정보를 자신 있게 사실처럼 말한 것입니다. 같은 시기 Meta의 Llama 3 모델도 같은 실수를 했습니다.

즉, AI는 자기 학습이 멈춘 시점 이후의 변화를 모릅니다. 그런데도 모른다고 말하지 않고, 마지막으로 본 정보를 현재처럼 답하는 것입니다.


5. 길고 복잡한 문제일수록 오류가 쌓임

AI는 단순한 질문에는 비교적 정확합니다.

하지만, 수학 문제, 다단계 추론, 코드 디버깅처럼 여러 단계를 거치는 작업에서는 이야기가 달라집니다.

작은 실수 하나가 치명적입니다.

예를들어 처음 단계에서 1+1을 3으로 처리해버리면, 그 뒤 모든 계산이 줄줄이 망가집니다.

즉,  그 실수가 이후 단계로 계속 전달되기 때문 오류가 쌓이기 시작합니다.

AI의 계산 오류

이걸 Error Propagation(오류 전파) 라고 합니다.

거기다가 AI는 자기가 어디서 틀렸는지 스스로 잘 못 잡아냅니다.

즉, 중간에 멈춰서 "잠깐, 이 단계 이상한데?"라고 의심하는 능력이 부족합니다. 그래서 길고 자세한 답변일수록 사실 더 위험합니다. 길게 써서 그럴듯해 보일 뿐, 안에서는 오류가 진행되고 있을 수 있습니다.


6. AI는 생각보다 사용자의 눈치를 봄

AI는 사람의 피드백으로 학습됩니다.

그런데 사람들은 AI가 자기 의견에 동의해줄 때 더 후한 점수를 주는 경향이 있습니다.

그래서 AI도 점점 동의 잘 해주는 쪽으로 학습됩니다. 이걸 Sycophancy(아첨 경향) 이라고 합니다.

따라서 사용자가 확신을 갖고 질문하면 AI도 따라서 확신합니다.

대표적인 예로, 2025년 4월, OpenAI는 GPT-4o 업데이트를 며칠 만에 롤백한 적이 있습니다.

모델이 사용자의 명백히 잘못된 주장에도 "정말 좋은 통찰이세요!"라고 과하게 칭찬하는 게 도를 넘었다는 게 이유였습니다.[5]

당신이 "이거 A가 만든 거 맞죠?"라고 확신을 갖고 물으면, 실제로 B가 만든 거여도 AI는 "네, 맞습니다"라고 답할 확률이 올라갑니다. 

명백히 잘못된 주장을 동의하는 AI

확신 있는 질문이 정답을 부르는 게 아니라, 동의를 부릅니다.


7. AI의 위험성: 그럴듯하게 틀림

지금까지 살펴본 걸 정리하면 이렇습니다. 

AI는

- 의미를 이해하지 않습니다
- 사실 여부를 검증하지 않습니다
- 확률에 따라 문장을 합성합니다
- 그러면서 자신감 있는 톤으로 답합니다

그 결과, 틀린 답변도 매우 자연스럽고 설득력 있게 표현됩니다. 

AI 정리

이것이 가장 위험한 점입니다. 명백히 어색한 답변이라면 우리가 의심이라도 할 텐데, 그럴듯하면 그냥 믿어버리거리기 쉽숩니다.

Mata v. Avianca의 변호사도 그래서 당한 겁니다. ChatGPT가 만든 가짜 판례는 너무나 자연스러웠었습니다.


8. 올바른 AI 활용 방법

따라서 AI는 올바르게 사용해야 하는 도구입니다.

"조심해서 쓰세요"라고 막연하게 말하는 것보다 다음과 같은 원칙을 지켜 사용하는 것이 중요합니다.

① 출처를 강제로 요구하기
: "원문 링크나 실제 인용 문헌도 같이 알려줘"라고 명시하면 AI가 막 지어내는 빈도가 줄어듭니다. 

출처를 강제로 요구하기

② 검색 기능을 켜기
: 최근 모델들은 RAG(검색 증강 생성)를 지원합니다. 자체 기억에 의존하지 않고 실시간으로 검색해서 답하는 구조라 할루시네이션이 크게 줍니다. ChatGPT의 Search, Claude의 웹 검색, Perplexity 같은 도구를 의식적으로 사용하는 습관이 중요합니다.

검색 기능을 켜기

③ 두 개의 모델에 같은 질문을 던지기
: 예를 들어 ChatGPT와 Claude의 답이 갈리면 둘 다 의심해야 합니다.

두 개 모델에 같은 질문을 던지기

④ "이거 확실해?"는 생각보다 효과가 적음
: AI에게 되물으면 자기 답을 진짜 검증하는 게 아니라, 사용자가 의심하고 있다는 신호로 받아들여서 답을 뒤집어버리기도 합니다. 진짜 검증은 AI 안에서가 아니라 외부 출처에서 해야 합니다.

AI에게 되묻는 것은 생각보다 효과가 적음

⑤ 위험 도메인을 의식하기
:법률, 의학, 최신 통계, 학술 인용. 특히 이 네 영역은 할루시네이션이 압도적으로 잦습니다. 이런 분야에서는 더더욱 AI 답변을 초안으로만 받고 반드시 1차 자료를 직접 확인해야 합니다.

위험한 주제는 특히 더 확인하기


9. 결론

AI는 진실 만을 말하지 않습니다. 그럴듯하게 틀릴 수 있습니다.

이것은 일시적인 오류가 아니라, 언어 모델 구조에서 비롯된 특성입니다.

결국 중요한 것은 AI를 맹신하는 능력이 아니라 AI를 비판적으로 활용하는 능력,

이것이 AI 시대에 가장 중요한 역량입니다.

[1] https://en.wikipedia.org/wiki/Mata_v._Avianca,_Inc.

[2] https://arxiv.org/abs/2509.04664

 

Why Language Models Hallucinate

Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trus

arxiv.org

 

[4] https://www.newsweek.com/who-president-ai-chatbots-struggle-kindergarten-level-question-2074938

반응형

Designed by JB FACTORY