3년간 AI 경쟁은 파라미터 수와 GPU 확보량으로 측정됐습니다. 이번 구조 변화는 데이터 라이선스 보유 여부가 AI 기업의 가격 결정권을 6~12개월 내 가르는 변곡점이 됩니다.
가트너와 딜로이트(Gartner/Deloitte)가 2024년 5월 발표한 연구에 따르면 정제된 3.3% 데이터가 전체 데이터셋보다 높은 성능을 냅니다. 모델 크기가 아닌 데이터 품질이 성능을 좌우하는 단계로 진입한 셈입니다.
공급망 수직 계열화는 빠르게 진행 중입니다. 오픈AI(OpenAI)는 2026년 5월 11일 'OpenAI Deployment Company'를 설립해 배포 채널을 내재화했습니다. 앤트로픽(Anthropic)은 스페이스X(SpaceX)의 콜로서스 1 데이터센터를 클로드 4.x 학습에 독점 사용하기로 했습니다. 포브스 탐사 보도와 로이터가 2026년 5월 6일 확인한 내용입니다.
라이선스 비용은 주요 지출 항목으로 부상했습니다. 로이터와 월스트리트저널(WSJ)이 2024년 5월 보도한 바에 따르면 레딧(Reddit), 뉴스코프(News Corp) 등 고품질 데이터 보유사와의 계약이 AI 기업 재무제표 상단으로 올라왔습니다.
당신이 기업 AI 도입 담당자라면, 향후 6개월 안에 공급 벤더의 데이터 라이선스 사슬을 감사해야 합니다. 면책 책임이 이제 모델이 아니라 학습 데이터 쪽에 쌓이기 때문입니다.
법적 환경도 굳어지고 있습니다. 뉴욕타임스(NYT)와 오픈AI의 디스커버리 분쟁은 저작권 쟁점을 '출력물 복제'에서 '학습 데이터 무단 사용'으로 옮겼습니다. 로이터가 2024년 5월 보도한 내용입니다. EU AI 법(EU AI Act)은 고성능 모델 개발자에게 학습 데이터 요약본 공개를 의무화했습니다. 워너 채플 뮤직 대 닐리 판결(미국 연방대법원, 2024년 5월)은 저작권 손해 배상을 과거 데이터까지 소급할 길을 열었습니다.
이 사건이 바꾸는 것은 경쟁의 측정 기준입니다. 다음 벤치마크 1위가 아니라, EU 투명성 규제 시행 전 라이선스 사슬을 갖춘 기업이 가격 결정권을 쥡니다.