독일, ChatGPT '뇌' 불법 선언: 획기적 판결로 AI 훈련 데이터가 저작권 금맥으로

모델 그 자체가 복제물: 독일 법원이 AI 경제학을 재편한 방법

뮌헨 법원이 OpenAI의 ChatGPT가 "기억"을 통해 저작권 침해를 저질렀다고 선언하며, 학습 데이터를 회색 지대에서 청구 가능한 자산으로 전환하다.

2025년 11월 11일, 뮌헨 지방 법원은 실리콘밸리가 가장 두려워했던 종류의 판결을 내렸다. 한 판사가 대규모 언어 모델의 핵심을 깊이 들여다보고, 그 모델의 가중치(weights) 자체가 저작권을 침해하는 복제물이라고 판단했다. GEMA 대 OpenAI 사건에서, 제42민사부는 ChatGPT가 헤르베르트 그뢰네마이어의 <남자들(Männer)>부터 롤프 주콥스키의 사랑받는 생일 축가에 이르는 9곡의 독일어 가사를 인코딩한 것이 저작권법을 위반했다고 판결했다. 침해는 가사가 화면에 나타났을 때만 발생한 것이 아니다. 가사가 학습 중에 GPT-4의 매개변수에 포함된 순간부터 시작되었다.

AI 기업들이 좀처럼 공개적으로 인정하지 않는 부분이 여기에 있다: 때때로 모델 그 자체가 도구일 뿐 아니라 범죄 현장이기도 하다. 유럽의 한때 안전했던 텍스트 및 데이터 마이닝 예외 조항은 "학습"이 "저장"의 선을 넘을 때 더 이상 적용되지 않는다.

빅테크 기준으로는 9곡에 수십만 유로라는 벌금이 적게 들릴 수 있지만, 법적 여파는 엄청나다. OpenAI의 한때 자신감 넘치던 법적 구조에 균열이 생겼다. 법원은 GEMA에 증거 개시권, 금지 명령 구제, 그리고 모델이 재생산할 수 있는 모든 저작물에 확대 적용될 수 있는 침해 이론을 부여했다. 그것은 더 이상 소송이 아니다. AI 전체 공급망에 대한 관세이다.

법원이 실제로 말한 것

이번 판결의 핵심 개념은 대부분의 헤드라인이 간과하는 것, 바로 **기억(memorization)**이다. 대규모 언어 모델이 텍스트로 학습할 때, 정확한 문장을 암기하는 것이 아니라 패턴—문법, 의미론, 관계—을 학습하도록 되어 있다. 그러나 연구에 따르면 모델은 특정 데이터, 특히 희귀하거나 반복되는 자료를 "기억"할 수 있으며 실제로 그렇게 한다. GEMA는 ChatGPT에 무해한 질문을 던지고, 거의 한 단어 한 단어 그대로 원곡 가사를 출력하는 것을 보여줌으로써 이를 입증했다. 우연일까? 법원은 아니라고 말했다.

판사들은 이것이 두 가지 별개의 침해에 해당한다고 결론 내렸다.

첫째, 기억 그 자체가 EU 정보사회지침(InfoSoc Directive) 제2조에 따른 **복제(reproduction)**에 해당한다. 왜냐하면 그 가사들이 눈에 보이는 텍스트로 저장되지 않더라도 모델의 수학적 가중치 내에 "재생산 가능하게 고정"되어 있기 때문이다. 이 지침은 "어떤 매체와 어떤 형태"의 복제를 다루며, 이전 유럽사법재판소(CJEU) 판결은 기술적으로 추출할 수 있다면 간접적으로 인식 가능한 복제물도 자격이 있음을 분명히 한다. ChatGPT가 명령에 따라 가사를 재현할 수 있었으므로, 이는 그 정의에 완벽하게 부합했다.

둘째, 챗봇이 생성한 출력물은 추가적인 복제 및 공중 전송 행위이며, 사용자가 아닌 OpenAI가 책임이 있다고 보았다. GEMA가 사용한 프롬프트는 간단했다("([노래 제목]) 가사를 써 줘"). 이는 콘텐츠가 사용자 창작이 아닌 모델의 학습에서 비롯되었다는 것을 의미한다. OpenAI의 변호—"사용자가 시켰다"—는 그 자리에서 무너졌다.

가장 중요한 것은 법원이 OpenAI가 가장 선호하는 방어막인 학습이 EU DSM(디지털 단일 시장) 지침을 이행하는 독일 저작권법 제44b조에 의해 보호된다는 주장을 기각했다는 점이다. 이 조항은 텍스트 및 데이터 마이닝을 위한 복사를 허용하지만, 복제물이 일시적이며 오로지 분석 목적으로만 사용될 때에 한한다. 판사는 모델이 상업적 재사용을 허용하는 방식으로 보호되는 저작물을 영구적으로 저장할 경우, 그것은 분석이 아니라 혁신으로 가장한 도용이라고 판결했다. 법은 통찰력을 위한 마이닝을 보호하지, 재판매를 위한 암기를 보호하지 않는다.

이것이 AI 비즈니스 모델을 흔드는 이유

이 결정이 독일 연방 대법원이나 심지어 유럽사법재판소(CJEU)에 대한 항소에서도 유지된다면, 학습 데이터를 무료 자원에서 가격이 매겨지는 상품으로 바꿀 수 있다. 세 개의 도미노가 이미 흔들리고 있다.

증거 개시권이 힘의 역학을 뒤바꾼다. 모델 가중치가 침해 복제물로 간주되는 순간, 원고는 학습 출처에 대한 투명성을 요구할 권리를 얻는다. OpenAI는 그 비밀 자체가 침해 증거를 포함할 수 있을 때 "영업 비밀" 뒤에 숨을 수 없다. GEMA는 방대한 데이터를 가진 저작권 관리 단체들이 블랙박스를 열고 승리할 수 있음을 방금 보여주었다. 이제 모든 출판사, 음반사, 이미지 라이브러리는 따라야 할 법적 지도를 가지게 되었다.

책임은 스크래퍼가 아닌 운영자에게 돌아간다. 이전의 저작권 분쟁은 데이터셋 구축에 초점을 맞췄다—회사가 크롤링 중 불법적으로 자료를 복사했는가? 이 판결은 그 다음에 오는 것, 즉 모델의 보유 자체로 초점을 전환한다. 데이터셋이 합법적으로 스크랩되었더라도, 영구적인 기억은 새로운 위반이 된다. 이는 노출 위험을 두 배로 늘린다. 침해가 아키텍처 내부에 존재할 때는 필터도 도움이 되지 않을 것이다. 모델을 재학습하는 것은 빠른 해결책이 아니다—그것은 당신의 기반이 다른 사람의 재산에서 왔다는 것을 인정하는 것이다.

규모의 경제가 뒤집힌다. 모델이 좋을수록 법적 구멍은 더 깊다. 10조 개의 토큰으로 학습된 시스템은 100억 개의 토큰으로 학습된 시스템보다 훨씬 더 많은 잠재적 침해를 가지고 있다. 모델을 강력하게 만드는 바로 그 규모가 또한 그들의 등에 거대한 법적 목표물을 그린다. 그리고 이 이론은 해당 저작물이 독일어이거나 음악적인지에 달려있지 않다—어떤 저작권이 있는, 재생산 가능한 텍스트라도 소송을 유발할 수 있다.

투자 방정식: 변화의 가격 책정

AI를 컴퓨팅 능력과 인재의 단순한 방정식으로 보았던 투자자들에게, 이 판결은 세 번째 변수, 즉 **권리 확보(rights clearance)**를 도입한다. 세 가지 미래 경로가 두드러진다.

시나리오 A – 현상 유지가 무너진다. OpenAI가 항소하여 패소하고, 2027년 또는 2028년까지 유럽사법재판소(CJEU)가 이를 확정한다. EU에서 운영되는 모든 AI 모델은 학습 데이터를 허가받거나 금지 명령에 직면해야 한다. 저작권 관리 단체들은 생성 AI 관세를 도입할 것이며, GEMA는 이미 초안을 가지고 있다. 최첨단 모델의 학습 비용은 10~20% 증가하고, 소규모 기업들은 쏟아지는 권리 사용료를 감당할 수 없다. 시장은 구글이나 합의 후의 OpenAI처럼 라이선스 데이터를 가진 거대 기업들 중심으로 통합된다. EU AI 법의 데이터 거버넌스 요구 사항이 갑자기 강력하게 작용한다: "출처를 알거나 대가를 지불하라."

시나리오 B – 상업적 휴전. OpenAI는 죄를 인정하지 않으면서 GEMA와 조용히 합의한다—현금과 미래 지향적 라이선스를 포함하여. 그런 다음 전 세계 240개 저작권 관리 단체를 대표하는 CISAC를 통해 더 광범위한 계약을 체결한다. OpenAI의 상업적 파트너인 마이크로소프트는 애저(Azure)의 EU 가격에 비용을 흡수한다. 이윤폭은 1~2% 정도 약간 줄어들지만, 사업은 안정화된다. 다른 기업들도 이를 따른다. 데이터는 "위험하지만 무료"가 아닌 "안전하지만 유료"가 된다. 승자에는 권리 취합자, 규정 준수 기술 회사, 그리고 라이선스를 감당할 수 있는 대기업이 포함된다. 패자는? 스타트업, 학술 연구소, 그리고 AI 민주화의 꿈.

시나리오 C – 관할권 회피. 한편, 미국 법원은 <뉴욕 타임스>, 게티(Getty), 작가 단체들의 진행 중인 소송에서 "변형적 공정 이용(transformative fair use)" 쪽으로 계속 기울어진다. 그 결과 대서양 횡단 분열이 발생한다. 기업들은 EU 외부에서 모델을 학습시키고 호스팅한 다음, 유럽 사용자들에게는 약화된 버전을 제공한다. 글로벌 모델들이 라이선스 문제 회피를 위해 유럽 데이터를 제외하면서 EU의 AI 생태계는 어려움을 겪는다. 규제 당국은 데이터 현지화 법규로 대응하여 분열을 심화시킨다. 빅테크는 이 미로를 헤쳐나갈 수 있지만, 자국 AI 스타트업은 그럴 수 없다.

가장 현실적인 결과는 시나리오 B와 C가 혼합된 형태일 수 있다: 음악과 뉴스(집단 권리 관리가 존재하는 분야)에 대한 합의, 미술과 서적(권리가 파편화된 분야)에서의 교착 상태, 그리고 AI 역량의 느린 지역적 분열이다. 그러나 방향은 분명하다: 유럽은 "허락보다 용서를 구하라"는 시대를 끝냈다. 학습 데이터는 이제 가격표를 달게 되었고, 협상은 한 번에 하나의 소송씩 진행되고 있다.

GEMA가 9곡으로 얻는 수십만 유로는 OpenAI의 재정에 큰 타격을 주지 않을 것이다. 중요한 것은 선례다: 법원이 모델 가중치 자체가 저작권 침해의 증거로 취급될 수 있다고 판결했다. 다음 소송인은 소액 손해배상에 그치지 않을 것이다. 그들은 출시 이후 침해적인 결과물로 벌어들인 모든 유로의 지분을 요구할 것이다. 그리고 이제 유럽 법원은 그것이 답변할 가치가 있는 질문이라고 말했다.

본 자료는 투자 조언이 아닙니다.

독일, ChatGPT '뇌' 불법 선언: 획기적 판결로 AI 훈련 데이터가 저작권 금맥으로

모델 그 자체가 복제물: 독일 법원이 AI 경제학을 재편한 방법

법원이 실제로 말한 것

이것이 AI 비즈니스 모델을 흔드는 이유

투자 방정식: 변화의 가격 책정

당신도 좋아할지도 모릅니다

뉴스레터 구독하기