AI 언어 모델에서 결함 있는 추론이 발견되다
런던대학교 연구팀은 GPT-3.5, GPT-4, LaMDA, Claude 2, Llama 2 등 7개 주요 AI 언어 모델을 인지심리학 테스트에 사용하여 AI 모델이 인간과 유사한 비합리적 추론을 보이는지, 아니면 자신만의 비논리적 사고를 하는지 이해하고자 했습니다. 연구 결과에 따르면, AI 모델은 종종 비합리적인 출력을 내놓지만, 이는 수학적 오류나 논리적 비일관성으로 인한 것이며 인간과 유사하지 않습니다. 이 연구 결과는 의료 분야와 같이 중요한 분야에서 AI 활용 시 안전 조치 강화의 필요성을 제기합니다.
주요 내용
- GPT-4는 69.2% 정답률과 73.3% 인간적 대응으로 가장 높은 성과를 보였으며, Llama 2는 77.5% 오답률로 가장 낮은 성과를 보였습니다.
- 이 연구는 AI 언어 모델의 세밀한 추론 결함, 특히 인간과 AI의 오류 간 차이점을 강조하고 있습니다.
- AI 개발 시 인간 추론의 매력에도 불구하고, 논리적, 수학적 엄밀성 향상이 필요합니다.
분석
이 연구는 AI 언어 모델의 미묘한 추론 결함을 강조하며, 의료 분야와 같이 AI 의사결정에 의존할 경우 치명적인 오류를 초래할 수 있음을 시사합니다. 이는 안전하고 일관된 추론 능력 확보를 위한 미래 AI 개발의 필요성을 시사합니다.
알아두면 좋은 점
- GPT-4: OpenAI의 Generative Pre-trained Transformer 4번째 버전으로, 인간의 언어를 이해하고 생성하는 데 뛰어난 성능을 보입니다.
- LaMDA: 구글이 개발한 대화형 언어 모델로, 보다 자연스럽고 상황에 맞는 대화 생성을 목표로 합니다.
- AI의 인지 편향: 이를 이해하고 완화하는 것은 AI의 신뢰성과 윤리적 배치를 높이는 데 중요합니다.