한눈에 보기
- 큰 질문: AI가 답을 먼저 내놓는 시대에 사람의 판단은 어떻게 달라지는가
- 논문의 시선: AI를 단순 도구가 아니라, 사고 과정에 끼어드는 새로운 판단 체계로 봄
- 가장 중요한 개념: cognitive surrender, AI 답을 충분히 점검하지 않은 채 자기 판단처럼 받아들이는 상태
- 가장 눈에 띄는 결과: Study 1에서 AI 없이 풀면 정확도 45.8%, 정답 AI가 있으면 71.0%, 오답 AI가 있으면 31.5%
- 끝까지 읽어야 하는 이유: 시간 압박, 보상, 피드백이 있어도 AI 의존은 쉽게 사라지지 않았기 때문
- 남는 메시지: 결국 중요한 것은 AI 성능만이 아니라, 사람이 다시 확인하게 만드는 사용 환경
서론
Thinking—Fast, Slow, and Artificial: How AI is Reshaping Human Reasoning and the Rise of Cognitive Surrender는 펜실베이니아대 와튼 스쿨의 Steven D. Shaw, Gideon Nave가 2026년 1월 12일 공개한 프리프린트다. 제목은 카너먼의 Thinking, Fast and Slow를 자연스럽게 떠올리게 하지만, 이 논문이 실제로 붙잡는 장면은 훨씬 지금 우리의 일상에 가깝다. 사람은 왜 AI가 써 준 답을 생각보다 쉽게 믿게 되는지, 그리고 그 믿음은 어디서부터 위험해지는지가 이 글의 중심 질문이다.
생각해 보면 이런 장면은 이미 낯설지 않다. 챗봇이 써 준 메일 초안을 거의 그대로 보내고, 요약 도구가 정리한 내용을 원문 확인 없이 공유하고, 지도 앱이 알려 준 길을 별다른 의심 없이 따라가는 일이 많다. AI를 쓰는 행위 자체보다 더 중요한 건, 그 과정에서 내가 스스로 다시 확인하는 순간이 남아 있는가다.
이 글은 첨부한 논문을 그대로 옮기기보다, 처음 읽는 사람도 흐름을 편하게 따라갈 수 있게 다시 풀어 쓴 해설형 정리다. 앞부분에서는 논문의 핵심 메시지를 부드럽게 잡아 주고, 본문에서는 개념과 실험 결과를 조금 더 논문 해설답게 짚어 본다. 다만 이 연구는 아직 프리프린트 단계이므로, 흥미로운 초기 제안으로 읽는 편이 적절하다.
먼저 쉽게 이해하면
이 논문을 가장 편하게 이해하는 방법은, 우리가 요즘 결정을 내릴 때 머릿속에서만 생각하지 않는다는 사실을 먼저 떠올려 보는 것이다. 사람은 원래 직감으로 빨리 판단하기도 하고, 시간을 들여 차근차근 따져 보기도 했다. 그런데 이제는 그 사이에 AI에게 먼저 물어보고, 그 답을 바탕으로 생각을 이어 가는 방식이 자연스럽게 끼어들었다.
논문은 바로 이 지점을 붙잡아, 기존의 빠른 사고와 느린 사고 사이에 System 3라는 이름을 하나 더 놓는다. 여기서 중요한 것은 AI가 무조건 좋다거나 나쁘다는 말이 아니다. 오히려 사람이 AI의 답을 어디까지 점검하느냐가 훨씬 중요하다는 점을 보여 주려는 시도에 가깝다.
먼저 아래 네 줄만 가볍게 잡고 내려가면, 뒤의 상세 내용이 훨씬 편하게 읽힌다.
- AI는 이제 단순한 검색창이 아니라 판단 과정에 끼어드는 조언자
- 사람은 AI가 맞을 때뿐 아니라 틀릴 때도 자주 따라간다
- 시간이 부족하거나 피곤할수록 검토를 건너뛰기 쉬워진다
- 앞으로 중요한 것은 성능 경쟁만이 아니라 사람이 다시 생각하게 만드는 사용 환경
1. 논문이 제안하는 틀: System 3는 왜 필요한가
이 논문의 출발점은 기존의 이중과정 이론만으로는 오늘의 판단 환경을 충분히 설명하기 어렵다는 문제의식이다. 전통적으로 인간의 사고는 "빠르고 직관적인 처리"와 "느리고 숙고적인 처리"로 구분돼 왔다. 그러나 생성형 AI가 일상적인 판단 보조 도구로 들어온 이후에는, 이 두 체계만으로는 실제 의사결정 과정을 설명하기 어렵다는 것이 저자들의 주장이다.
논문이 말하는 System 3를 쉬운 말로 옮기면, 내가 스스로 결론을 만들기 전에 AI가 먼저 후보 답안을 제시하고, 그 출력이 판단 과정에 직접 개입하는 상태라고 볼 수 있다. 계산기처럼 일부 연산만 맡기는 도구와 달리, 생성형 AI는 문장, 논리, 설명, 결론을 한 번에 제시하기 때문에 인간의 숙고 과정을 보조하기도 하고 때로는 대체하기도 한다.
| 구분 | 쉬운 설명 | 장점 | 위험 |
|---|---|---|---|
| System 1 | 첫 느낌으로 빠르게 판단하는 방식 | 빠르고 편함 | 성급한 실수 가능 |
| System 2 | 한 번 더 따져 보고 계산하는 방식 | 틀린 판단을 고치기 쉬움 | 시간과 노력이 듦 |
| System 3 | AI에게 먼저 물어보고 답을 참고하는 방식 | 빠른 요약, 빠른 초안, 많은 정보 처리 | 그럴듯한 오답을 그대로 믿기 쉬움 |
이 지점에서 논문의 핵심은 비교적 분명해진다. 저자들이 말하고 싶은 것은 "AI가 새로운 도구다"라는 수준이 아니라, AI가 인간의 추론 구조 자체를 다시 설계하고 있다는 문제 제기다. 따라서 핵심 질문도 "AI를 쓰느냐 마느냐"가 아니라, AI를 쓴 뒤 인간의 System 2가 실제로 작동하고 있는가로 이동한다.

2. 초록에서 읽히는 핵심 주장
초록만 놓고 보면 이 논문은 크게 두 가지를 말한다. 첫째, 생성형 AI는 더 이상 부가적인 도구가 아니라 인간의 추론 과정 안으로 들어온 외부 인지 체계라는 점이다. 둘째, 이 변화가 항상 생산성 향상으로만 이어지지 않으며, 오히려 검증 없는 수용이라는 새로운 위험을 만들 수 있다는 점이다.
저자들이 이 위험을 설명하기 위해 제시한 개념이 cognitive surrender다. 이는 AI를 활용한다는 뜻이 아니라, AI가 제시한 답을 충분히 검토하지 않은 채 자기 판단처럼 받아들이는 상태를 가리킨다. 논문은 이 상태가 단순한 편의성의 문제가 아니라, 인간의 메타인지와 오류 교정 능력 자체를 약화시킬 수 있다고 본다.
초록에서 확인되는 경험적 메시지도 선명하다. 세 실험 전체에서 연구진은 총 1,372명, 9,593개의 trial을 분석했고, 참가자들이 절반이 넘는 문제에서 AI 조언을 자발적으로 확인했다고 보고한다. AI가 정답일 때는 수행이 개선됐지만, AI가 오답일 때는 수행이 악화됐다. 특히 주목할 부분은 AI 사용이 정답 여부와 무관하게 자신감 상승과 함께 나타났다는 점이다.
3. 실험 설계에서 봐야 할 포인트
세 실험은 모두 Cognitive Reflection Test를 변형한 과제를 사용했다. 이 문제 유형은 직감적으로는 쉽게 답이 떠오르지만, 잠시 멈춰 계산하거나 재검토하면 다른 결론에 도달할 수 있다는 점에서 인간의 숙고 과정을 보기 적합하다. 즉, System 1과 System 2의 긴장을 관찰하기에 적절한 과제라는 뜻이다.
설계의 핵심은 참가자가 AI를 선택적으로 열어 볼 수 있었다는 점, 그리고 연구진이 일부 trial에서는 AI가 정답을 말하게 하고 일부에서는 그럴듯한 오답을 말하게 했다는 점이다. 이 장치는 매우 중요하다. AI가 언제나 정확한 환경에서는 AI를 따르는 행위가 합리적인 전략이 될 수 있지만, 오답이 섞이는 순간부터는 추종과 검토를 구분하는 능력이 더 중요해지기 때문이다.
| 연구 | 참가자 수 | 무엇을 다르게 했나 | 보고 싶었던 핵심 |
|---|---|---|---|
| Study 1 | 359명 | AI 없음 그룹과 AI 사용 가능 그룹 비교 | AI가 정확도와 자신감을 어떻게 바꾸는가 |
| Study 2 | 485명 | 30초 제한과 무제한 시간 비교 | 시간이 부족하면 AI 의존이 더 심해지는가 |
| Study 3 | 450명 | 보상과 즉시 정답 공개 제공 | 동기와 피드백이 AI 맹신을 줄이는가 |
해설 관점에서 보면 세 실험은 각각 다른 질문을 던진다. Study 1은 AI 접근 자체가 판단을 어떻게 바꾸는지, Study 2는 시간 압박이 그 의존을 어떻게 흔드는지, Study 3은 인센티브와 피드백이 이를 얼마나 줄일 수 있는지를 본다. 따라서 세 실험은 서로 독립적이라기보다, 하나의 이론을 단계적으로 검증하는 구성에 가깝다.
세 실험을 한 줄씩만 요약하면 아래처럼 정리할 수 있다.
| 구간 | 핵심 수치 | 쉬운 해석 |
|---|---|---|
| Study 1 | 45.8% → 71.0% / 31.5% | AI가 맞으면 성과 상승, 틀리면 오히려 기준선 아래 |
| Study 2 | 46.9% vs 32.6%, AI-Users 시간압박 71.3% / 12.1% | 시간이 부족해도 결과는 여전히 AI 품질에 크게 좌우 |
| Study 3 | 42.4% vs 64.2%, 68.5%→81.0%, 30.7%→45.5% | 보상과 피드백이 개선은 만들지만 완전한 해결책은 아님 |
4. Study 1 해설: 정확한 AI의 효용보다 잘못된 AI의 위험이 더 선명하다.
첫 번째 실험은 이 논문의 핵심 가설을 가장 직접적으로 보여 주는 구간이다. 참가자 359명 가운데 121명은 AI 없이 문제를 풀었고, 238명은 필요할 때 AI 창을 열어 조언을 볼 수 있었다. 설계 자체는 단순하지만, 그만큼 결과 해석이 명확하다.
- AI 사용 빈도: 정답 AI가 있는 문제 54.4%, 오답 AI가 있는 문제 52.8%
- 정답 AI 추종률: chat을 연 문제 기준 92.7%
- 오답 AI 추종률: chat을 연 문제 기준 79.8%
- AI 없이 풀었을 때 정확도: 45.8%
- 정답 AI가 있었을 때 정확도: 71.0%
- 오답 AI가 있었을 때 정확도: 31.5%
이 결과가 말해 주는 바는 분명하다. 사람들은 AI가 정확할 때만 선택적으로 추종한 것이 아니라, AI가 틀린 상황에서도 상당한 비율로 그 출력을 그대로 채택했다. 특히 오답 AI 추종률이 79.8%라는 점은, 사용자가 AI를 열어 본 뒤에는 내용 검토보다 수용으로 기울 가능성이 높다는 해석을 가능하게 한다.
더 흥미로운 점은 자신감이다.
- AI 사용 집단 평균 자신감: 77.0%
- AI 미사용 집단 평균 자신감: 65.3%
- 차이: 11.7%포인트
즉 Study 1은 정확도만이 아니라 메타인지까지 함께 흔들린다는 점을 보여 준다. AI는 맞든 틀리든 사용자의 확신을 높였고, 이 때문에 오류를 발견할 가능성은 더 낮아질 수 있다. 해설 관점에서 보면, 이 실험의 핵심은 "AI가 유용하다"가 아니라 AI가 틀려도 사용자는 자신 있게 틀릴 수 있다는 점에 있다.

GitStar - GitHub Rankings, Package Signals, and Weekly Digests
Track open-source momentum with GitHub rankings, trending projects, ecosystem signals, and source-linked weekly digests.
gitstar.space
5. Study 2 해설: 시간 압박은 숙고를 약화시키지만 AI 의존을 교정하지 못한다
두 번째 실험은 485명을 대상으로 했고, 모든 참가자가 AI를 사용할 수 있었다. 조작 변수는 시간이다. 한 조건은 문항마다 30초 제한이 있었고, 다른 조건은 시간 제한이 없었다. 이 실험은 System 2가 충분히 작동하기 어려운 환경에서 System 3 의존이 어떻게 나타나는지를 살펴보려는 시도라고 볼 수 있다.
연구진의 생각은 이랬다. 시간이 부족하면 사람은 차분히 따져 보는 힘이 약해질 수 있다. 그럴 때 직감이나 AI에 더 의존할 수 있다는 것이다.
결과는 일부만 맞았다.
- AI 없이 푸는 확인 문제 정확도: 통제 46.9%, 시간 압박 32.6%
- AI 사용 가능 전체 정확도: 통제 51.9%, 시간 압박 38.9%
- AI 사용률: 전체 52.0%, 통제 53.9%, 시간 압박 49.9%
- 정답 AI 추종률: 조언을 본 문제 기준 통제 80.3%, 시간 압박 67.4%
- 오답 AI 추종률: 조언을 본 문제 기준 통제 74.6%, 시간 압박 72.3%
결과를 해설식으로 읽으면 두 층위가 보인다. 첫째, 시간 압박은 분명 인간의 기본 수행을 떨어뜨렸다. 둘째, 그렇다고 해서 사람들이 AI를 더 정교하게 선별한 것은 아니었다. 다시 말해 시간 부족은 검토 능력을 약화시킬 뿐, AI 의존의 위험을 교정해 주지는 않았다.
논문이 참가자를 Independents와 AI-Users로 나눠 본 것도 같은 맥락이다. AI를 자주 쓴 사람은 정확한 AI를 만났을 때 높은 효용을 얻었지만, 오답 AI를 만났을 때는 훨씬 크게 무너졌다. 따라서 Study 2는 시간 압박이 AI 사용을 늘리느냐보다, 시간 압박이 있을 때 AI 품질 편차의 비용이 더 크게 드러난다는 쪽에 가깝게 읽는 것이 적절하다.
6. Study 3 해설: 인센티브와 피드백은 완화 장치이지 해법은 아니다
세 번째 실험은 450명을 대상으로 했다. 한 조건은 통제군처럼 문제를 풀게 했고, 다른 조건은 정답에 대한 금전적 보상과 즉시 피드백을 함께 제공했다. 이 실험은 AI 의존이 단순 습관인지, 아니면 동기와 학습 신호를 통해 조절 가능한지 묻는 구성이다.
연구진이 알고 싶었던 건 단순하다. "정확하게 맞히려는 동기"와 "바로 틀렸다는 신호"를 주면 사람이 AI를 더 비판적으로 볼까 하는 점이다. 결과는 꽤 현실적이었다.
- 정답 AI 추종률: chat을 연 정답 문제 기준 통제 87.6%, 인센티브+피드백 92.2%
- 오답 AI override 비율: chat을 연 오답 문제 기준 통제 20.0%, 인센티브+피드백 42.3%
- AI 없이 푸는 확인 문제 정확도: 통제 42.4%, 인센티브+피드백 64.2%
- 오답 AI가 있는 문제 정확도: 통제 30.7%, 인센티브+피드백 45.5%
- 정답 AI가 있는 문제 정확도: 통제 68.5%, 인센티브+피드백 81.0%
핵심은 두 가지다. 첫째, 인센티브와 피드백은 AI 사용 자체를 줄였다기보다, 잘못된 AI 조언을 거절할 가능성을 높였다. 둘째, 그럼에도 불구하고 정확한 AI와 부정확한 AI 사이의 성과 격차는 여전히 크게 남았다. 따라서 Study 3는 개입의 효과를 보여 주면서도, 동시에 그 한계까지 함께 드러낸다.
이 대목은 제품 설계에도 그대로 연결된다.
- 너무 매끄러운 AI 경험: 편하지만 검토를 빼먹기 쉬움
- 정확도에 보상이 걸린 환경: 잘못된 답을 거절할 동기가 커짐
- 즉시 피드백: 사람이 스스로 틀렸음을 배우는 속도를 높임
이 지점에서 논문은 중요한 실무적 함의를 남긴다. 단순히 human-in-the-loop를 선언하는 것만으로는 충분하지 않다. 인간이 실제로 멈춰서 검토하도록 만드는 보상, 피드백, 인터페이스 마찰이 함께 설계돼야 한다는 뜻이다.

7. 개념 구분: cognitive surrender와 cognitive offloading
이 논문이 실용적인 이유는 AI 사용을 하나의 행동으로 묶지 않고, 서로 다른 인지 경로로 나눠 본 데 있다.
- cognitive offloading: 계산기나 메모장처럼 도구를 쓰되, 마지막 판단은 내가 다시 확인하는 상태
- cognitive surrender: AI 답을 거의 검토하지 않고 내 판단처럼 받아들이는 상태
- autopilot: 생각을 거의 더하지 않고 AI 출력을 바로 답으로 쓰는 극단적인 흐름
해설을 위해 예를 들면, 계산기로 숫자를 계산하고 결과를 다시 확인하는 건 offloading에 가깝다. 반면 챗봇이 정리한 설명을 원문 대조 없이 그대로 문서에 넣는 건 surrender에 더 가깝다. 둘 다 외부 도구를 쓰는 행위지만, 판단의 최종 책임이 어디에 남아 있는지가 다르다.
논문이 세 실험을 묶어 계산한 종합 수치도 꽤 강하다.
- 잘못된 AI 조언이 제시된 문제 중 73.2%는 cognitive surrender
- 19.7%는 AI를 보고도 제대로 고친 cognitive offloading
- 7.1%는 AI를 거부했지만 최종 답은 여전히 틀린 failed override
이 수치가 말해 주는 건 비교적 분명하다. AI 사용 자체를 문제로 삼기보다, AI 사용 이후 어떤 인지 경로가 활성화되는가를 봐야 한다는 것이다. 즉 생산성 향상을 위해 AI를 도입하더라도, 그 사용이 offloading에 머무는지 surrender로 넘어가는지를 구분하는 것이 중요하다.
8. 논문이 남기는 시사점: 누가 더 취약하고 무엇을 설계해야 하나
저자들은 개인차도 함께 분석했다. 연구 전반에서 반복적으로 나타난 패턴은 비교적 일관됐다.
- AI를 많이 신뢰하는 사람일수록 AI 창을 더 자주 열고 더 쉽게 따름
- 평소 생각하는 일을 즐기는 사람일수록 오답 AI에 덜 끌림
- 유동 지능이 높은 사람일수록 잘못된 AI 답을 더 잘 걸러냄
이 결과를 해설식으로 옮기면, 논문은 결국 세 층위의 시사점을 남긴다고 볼 수 있다.
급여·부동산·금융 계산기 모음 | 2026년 최신 기준 | 연봉계산기
연봉 실수령액, 4대보험, 소득세, 시급변환, 중개수수료, 양도소득세, 대출이자 등 직장인이 필요한 계산기를 무료로 제공합니다. 2026년 최신 기준, 공식 출처, 페이지별 수정일을 함께 안내합니
salary-calculator.xyz
8-1. 일반 사용자
- 메일, 번역, 요약, 일정 정리처럼 빠르게 넘기기 쉬운 작업일수록 마지막 확인이 중요
- AI가 말한 이유가 너무 그럴듯할수록 오히려 한 번 더 의심할 필요
- "AI가 이렇게 말했으니 맞다"보다 "내가 무엇을 확인했는가"가 더 중요
8-2. 제품과 서비스 설계
- 한 줄 정답만 주는 UI보다 불확실성과 근거를 함께 보여주는 편이 안전
- 요약, 추천, 상담 봇, 자동 완성은 모두 System 3 인터페이스라는 관점이 필요
- 사용자를 빠르게 만족시키는 경험과, 실수를 줄이는 경험은 항상 같지 않음
8-3. 회사와 조직
- 보고서 초안, 고객 응대 문구, 계약 검토, 투자 메모처럼 말이 그럴듯하면 넘어가기 쉬운 업무일수록 검토 절차가 중요
- 일정이 빠듯한 조직일수록 AI는 효율을 높이지만, 동시에 한 번의 오류 비용도 키움
- 한국 기업 환경에서도 "AI 사용 허용"보다 "AI 사용 뒤 무엇을 확인할지"를 규칙으로 정하는 편이 현실적
따라서 이 논문은 AI 공포론으로 읽기보다, AI 사용의 조건을 어떻게 설계할 것인가를 묻는 연구로 이해하는 편이 적절하다. AI는 계속 쓰이게 될 가능성이 높기 때문에, 중요한 것은 사용 금지보다 검토 가능성, 불확실성 표시, 피드백 구조를 어떻게 기본값으로 만들 것인가다.

결론
Thinking—Fast, Slow, and Artificial가 남기는 결론은 생각보다 선명하다. 생성형 AI는 이제 단순한 편의 도구가 아니라, 인간의 판단 구조에 직접 개입하는 외부 인지 체계로 작동하고 있다. 따라서 앞으로의 핵심 쟁점은 "AI를 쓰느냐"가 아니라, AI를 쓴 뒤에도 인간의 검토와 교정이 실제로 남아 있느냐다.
세 실험은 이 점을 서로 다른 방식으로 뒷받침한다. 정확한 AI는 분명 성과를 높이지만, 부정확한 AI는 성과를 빠르게 무너뜨린다. 더 중요한 것은 사용자가 그 오류를 항상 식별하지 못하고, 오히려 더 높은 자신감을 보이기도 한다는 점이다. 시간 압박은 이런 취약성을 완화하지 못했고, 보상과 피드백은 의미 있는 개선을 만들었지만 완전한 해결책은 아니었다.
결국 이 논문이 실무와 사용자 경험 설계에 던지는 메시지는 명확하다. 앞으로 중요한 경쟁력은 더 그럴듯한 답변만이 아니라, 사람이 다시 읽고, 다시 따져 보고, 필요하면 AI를 거절할 수 있게 만드는 구조에 있을 가능성이 크다.
참고 자료
- Thinking—Fast, Slow, and Artificial: How AI is Reshaping Human Reasoning and the Rise of Cognitive Surrender - Steven D. Shaw, Gideon Nave, SSRN 6097646
- OSF Preprint: Thinking—Fast, Slow, and Artificial - OSF Preprints, 2026년 1월 12일 공개
- Sciety abstract page for the preprint - Sciety, 2026년 3월 23일 확인
'최신IT 정보' 카테고리의 다른 글
| 클로드 코드 8만 명 인터뷰 핵심 정리: 사람들이 AI에 기대하는 것과 두려워하는 것 (0) | 2026.03.23 |
|---|---|
| Canva vs Beautiful.ai vs Gamma vs Pitch vs Prezi AI: 2026년 프레젠테이션용 AI 툴 비교 (0) | 2026.03.23 |
| Claude Code Skills 9가지 유형: Anthropic 원문 핵심 번역과 실전 활용법 (0) | 2026.03.21 |