클로드 오푸스 4.5, 채용 시험에서 모든 인간 엔지니어 능가… 업계 팀, 소프트웨어 엔지니어링 경력 막다른 길 경고

마지막 코더의 시대: AI 돌파구가 소프트웨어 엔지니어링에 대한 재평가를 촉발하다

새로운 모델이 인간 엔지니어를 능가하면서, 업계는 실존적인 질문에 직면하다

앤스로픽의 최신 LLM(대규모 언어 모델)이 이전에 상상하기 어려웠던 일을 해냈다. 악명 높은 고성능 엔지니어링 시험에 응시했던 모든 인간 응시자들을 능가하는 점수를 얻었으며, 2시간짜리 평가를 곧 대체될 수도 있는 엔지니어들보다 더 뛰어난 기술적 기량으로 완료했다.

월요일에 출시된 클로드 오푸스 4.5는 AI 능력의 점진적인 개선 그 이상을 나타낸다. ctol.digital 엔지니어링 팀이 실시한 내부 평가에 따르면, 이 모델은 "코딩 능력, 복잡한 문제 해결, 효율적인 토큰 사용 및 자율 에이전트 워크플로우"에서 탁월한 개선을 보여주며, 팀은 이를 "AI 코딩 지원의 획기적인 발전"이라고 평가했다. 그러나 그들의 평가에는 개발자 커뮤니티에 파문을 일으킨 더 냉혹한 결론이 담겨 있었다. "코딩 LLM이 더욱 성숙해짐에 따라 소프트웨어 엔지니어링 직업은 막다른 길에 가까워지고 있다."

이러한 선언은 경종을 울리는 사람들이나 미래학자들로부터 나온 것이 아니라, 실제 환경에서 기술을 스트레스 테스트하는 엔지니어들로부터 나왔다. ctol.digital 팀은 오푸스 4.5가 코딩 문제를 "며칠이 아닌 몇 분 만에" 해결했으며, 이전 모델보다 최대 65% 더 적은 계산 토큰을 사용하면서도 품질을 유지하거나 능가한다는 것을 발견했다. 불과 몇 주 전만 해도 이전 세대 모델에게는 "거의 불가능해 보였던" 작업들이 이제는 도달 가능한 범위에 들어왔다.

백만 개의 입력 토큰당 5달러, 백만 개의 출력 토큰당 25달러의 비용으로, 오푸스 4.5는 선임 소프트웨어 엔지니어가 3분 동안 버는 것과 거의 같은 비용이 든다. 병가를 내거나, 주식 보상을 협상하거나, 경쟁사로 이직하지 않는다. 8개 프로그래밍 언어 중 7개에서 최첨단 수준의 성능을 발휘하며, 숙련된 코더와 선임 엔지니어를 가르는 종류의 다중 시스템 디버깅에 탁월하다.

앤스로픽 자체 테스트에서도 이 모델의 창의적인 문제 해결 능력이 예상치 못한 방식으로 드러났다. 고객 서비스 에이전트를 테스트하도록 설계된 한 벤치마크 시나리오에서, AI는 기본 이코노미 항공권 수정을 거부해야 했다. 그러나 AI는 합법적인 해결책을 찾아냈다. 먼저 객실 등급을 업그레이드한 다음, 항공편을 수정하는 것이었다. 벤치마크는 이 해결책이 예상치 못했기 때문에 실패로 기록했다. 하지만 이것이야말로 오늘날 시장에서 6자리 숫자의 연봉을 받는 바로 그런 종류의 횡적 사고이다.

이러한 영향은 개인의 경력을 넘어선다. 지난 30년간 소프트웨어 엔지니어링은 특히 전통적인 학위가 없는 사람들에게 중산층 안정과 사회적 상승의 믿을 수 있는 경로로 부상했다. 몇 달 만에 직업 전환을 약속하는 부트캠프가 급증했고, 대학들은 무한해 보이는 수요를 충족하기 위해 컴퓨터 과학 프로그램을 확장했다. 이제 그 인력 양성 파이프라인은 불확실한 미래에 직면했다.

앤스로픽은 신중하게 선택된 언어로 이러한 혼란을 인정한다. 회사는 채용 시험이 "시간 압박 속 기술 능력과 판단력"을 테스트하지만, "협업, 의사소통 또는 수년간 개발되는 직관"은 평가하지 않는다고 언급한다. 그러나 이러한 단서는 큰 위안이 되지 못한다. 자동화되고 있는 기술적 능력들은 바로 엔지니어링 급여를 정당화하고 주니어 개발자들이 수년간 키워온 것들이기 때문이다.

마케팅 부서가 아닌 현직 엔지니어들이 실시한 ctol.digital 평가는 더욱 솔직한 평가를 제공한다. 팀원들은 "자연어 다양성 측면에서 이전 오푸스 버전에 대한 약간의 선호"를 언급하고 모델이 "항상 완벽한 텍스트를 생성하지는 않을 수도 있다"는 점을 인정했지만, "이전 모델 및 경쟁사 대비 긴 코드 세션을 처리하는 뛰어난 능력"을 강조했다. 평가는 상호작용이 "더 자연스럽고 편안했으며", "불필요한 추가 질문이 더 적고 더 간결하고 명확한" 응답을 제공했다고 설명했다.

여전히 불확실한 점은 이 기술이 작업 환경에 얼마나 빠르게 침투할 것인가 하는 것이다. 혁신적인 기술의 채택 곡선은 예측하기 어렵기로 악명이 높고, 조직은 종종 기술이 허용하는 것보다 느리게 움직인다. 그러나 그 방향은 명백하다. 최첨단 AI를 테스트하는 엔지니어들이 자신의 직업이 "막다른 길"에 접어들고 있다고 결론 내릴 때, 그 의미는 분명하다.

앤스로픽은 사회적 영향 및 경제 미래 연구가 여러 분야에 걸친 이러한 변화를 이해하는 것을 목표로 하며 곧 결과를 공유하겠다고 약속한다. 현재 수십만 명의 소프트웨어 엔지니어링 학생들과 이미 이 분야에 종사하는 수백만 명에게는 그 결과가 아무리 빨리 나와도 부족할 것이다. 문제는 더 이상 AI가 이 일을 할 수 있는지 여부가 아니라, 스스로 이 일을 하는 것을 중심으로 삶을 꾸려온 사람들에게 무슨 일이 일어날 것인가이다.

클로드 오푸스 4.5, 채용 시험에서 모든 인간 엔지니어 능가… 업계 팀, 소프트웨어 엔지니어링 경력 막다른 길 경고

마지막 코더의 시대: AI 돌파구가 소프트웨어 엔지니어링에 대한 재평가를 촉발하다

당신도 좋아할지도 모릅니다

뉴스레터 구독하기