김세빈([email protected]), 2024년 4월 19일 18:00 작성 (최종업데이트: 2024년 4월 22일)

기업들의 생성형 AI 학습 데이터 수집이 점점 험난해지고 있습니다. 최근엔 Open AI, Google, Meta가 기업 자체 정책이나 저작권법을 어기면서 학습데이터를 수집하고 있다는 뉴욕타임즈의 보도가 있었습니다.(1) Suno의 음악 생성 AI 모델 ‘V3’의 공개에 경각심을 가지게 된 유명 팝가수 200여 명이 공개서한에 서명하기도 했습니다. (2) 설상가상으로 LLM 학습데이터가 2024년부터 고갈될 것이라는 연구가 있어 학습 데이터 수집의 장벽은 더욱 높아질 것으로 보입니다. 고품질의 학습 데이터셋을 윤리적으로 수집하기 위한 기업들의 기술적, 사회적인 대응이 중요하겠네요!

학습데이터 수집과 갈등

뉴욕타임즈는 지난 4월 6일, Open AI, Google, Meta가 기업 자체 정책이나 저작권법을 어기면서 학습데이터를 수집하고 있다고 보도했습니다. 기업들의 이러한 움직임이 창작자들의 권리 침해로 이어질 것이라는 우려의 목소리가 나오고 있습니다.

불법인 줄 알고도 데이터 수집?

OpenAI에서는 Whisper라는 음성 인식 기술을 개발하여 유튜브 동영상들을 받아적는 데 사용했습니다. 이렇게 비디오들을 이용하는 것은 유튜브의 규정에 위반될 수 있습니다. Meta에서는 저작권 문제를 해결하기 위해 Simon&Schuster라는 출판사를 인수하기도 했습니다. 라이센스 협상 및 저작권 관련 논의가 너무 길 것이라는 우려 때문입니다. Google에서도 OpenAI와 마찬가지로 Youtube 동영상들을 AI 학습에 사용했습니다. 지난해에는 사용자 약관을 일부 확장 개정하기도 하였는데, 뉴욕타임즈에 따르면 Google의 온라인 자료들을 AI 제품에 적용하기 위함이라고 하네요. “불법인 줄 알고도 데이터를 수집했다”는 주장은 지난해 OpenAI와 Microsoft에 저작권 관련 소송을 제기한 뉴욕타임즈의 보도임을 감안하고 조심스럽게 접근해야 할 것 같습니다.

창작자들과 AI 기업의 갈등

지난 3일 유명 팝가수(빌리 아일리시, 케이티 페리 등) 200여 명은 예술가 권리 연합(Artists’ Rights Alliance)이 미디엄에 게시한 공개서한에 서명하였습니다. (4) 음악 생성 AI 분야에서 영향력을 과시하고 있는 Suno의 V3 모델에 대한 경각심 때문이라고 추측이 되는데요. 공개서한에서는 소송을 언급하지는 않았지만, “허가 없이 무분별하게 사용되는 작업물들이 있다.”, “많은 음악가, 예술가 그리고 작곡가의 생계에 재앙일 것”이라고 하며 “인간 창의성에 대한 모욕은 중단되어야 한다.”고 이야기합니다. 단순히 창작물을 무분별한 학습데이터로 이용하지 못하게 할 뿐만 아니라, AI 음악 제작 기술 전반에 대해 반대하는 것이 인상깊네요.

*We call on all AI developers, technology companies, platforms and digital music services to pledge that they will not develop or deploy AI music-generation technology, content or tools that undermine or replace the human artistry of songwriters and artists or deny us fair compensation for our work.

OpenAI와 Microsoft, Meta 등의 텍스트 생성 기업들은 창작자들과 이미 10여 건이 넘는 소송을 진행 중입니다. 이미지 생성 AI의 경우에도 예외는 없습니다. 이제는 음악 생성 기업까지 합세할 것 같네요. 활발한 AI 법안 제정의 흐름에 힘입어, 창작자들의 권리 보호와 기술 개발이 함께 공존할 수 있는 지점을 찾길 바랄 뿐입니다.

LLM 데이터 고갈?

정말 생성형 AI 업계는 알면서 법을 어길 정도로 절실한 상황일까요? 뉴욕타임즈 기사와 여러 보도에서 말하는 것처럼 AI 학습데이터는 “근시일” 내에 “고갈”될까요? 돌파구는 없을까요? 뉴욕타임즈의 뉴스 기사에서 인용되는 논문을 함께 살펴봅시다. (5)

모델 학습 데이터가 고갈 될 것이다?

학습데이터 고갈을 언급할 때 인용되는 논문은 2022년 연구, “Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning” (Villalobos, Pablo et al.)입니다. 해당 연구에서는 자연 발생하는 언어 데이터 중 고품질 데이터는 2023년과 2027년 사이에 고갈될 것이고, 저품질 데이터는 2027년과 2050년 사이에 고갈될 것이라고 합니다. 즉, 모델이 필요로 하는 데이터의 양이 가용 데이터의 양을 능가할 것이라는 의미입니다. 지금 상태가 지속된다면 Pre-trained 된 LLM Back-bone 모델의 성능은 크게 개선될 여지가 없어 보입니다. 그렇지만 아직 실망하기엔 이릅니다. 왜냐하면 이 연구에서 세운 몇 가지 전제는 언제라도 뒤집힐 수 있기 때문입니다.

(2022, Villalobos, Pablo et al.), 가용 데이터와 필요한 학습 데이터셋의 비교. 왼쪽부터 저품질, 고품질, 비전 데이터. 검은색 선은 집계 자료, 빨간 선은 historical data 기반 데이터셋 예측 extrapolation, 파란 선은 친칠라 모델 기반 예측 그래프. 점선과 색 선이 만나는 지점이 데이터셋 고갈 지점

(2022, Villalobos, Pablo et al.), 가용 데이터와 필요한 학습 데이터셋의 비교. 왼쪽부터 저품질, 고품질, 비전 데이터. 검은색 선은 집계 자료, 빨간 선은 historical data 기반 데이터셋 예측 extrapolation, 파란 선은 친칠라 모델 기반 예측 그래프. 점선과 색 선이 만나는 지점이 데이터셋 고갈 지점

언제든 변할 수 있다

이 연구에서는 지금까지의 경향을 바탕으로 예측한 데이터셋의 증가 트렌드와 친칠라 기반 언어 모델이 필요로 할 데이터의 양을 비교하여 “데이터 고갈” 여부를 판단합니다. 이 과정에서 사용한 전제는 언제든 깨질 수 있습니다. 데이터의 증가 트렌드를 계산할 때는 youtube, tweet, blog 등 유명한 인터넷 도메인이 고려되었습니다. 온라인 데이터는 새로운 데이터 수집 창구가 생겨나면 크게 증가할 수 있습니다. 예를 들어 Tiktok이나 자율주행차의 보급에 따른 Vision 데이터의 증가 등이 있겠네요. 모델이 필요로 하는 데이터의 양은 친칠라 모델보다 효율적인 학습 알고리즘이 개발된다면 이 트렌드도 개선될 여지가 있습니다. 또한 연구에서는 data efficiency를 향상시키는 다른 방법들이 고려되지 않았습니다. 연구에서는 synthetic 데이터의 사용이나, 여러 종류의 input data를 다루는 multimodal 모델을 고려하지 않았습니다. 종합해 보면 “데이터”가 “고갈”될 것이라는 문장을 그대로 사용하기에는 무리가 있어 보입니다.

정리하자면, 현재 경향으로 볼 때 자연 발생 데이터는 곧 부족해질 것입니다. 하지만 새로운 플랫폼의 개발, 학습 모델의 개선 그리고 data efficiency를 향상시키는 여러 기술이 고려되지 않았기 때문에 LLM 모델은 이제 발전 가능성이 없다고 속단할 수는 없을 것 같습니다. 그렇지만 반대로 “모든 온라인 데이터를 학습에 이용할 수 있는가?”도 고려해 보아야 할 것입니다. EU의 AI 법안 제정을 시작으로 데이터 저작권에 대한 규제는 심해질 것이고, 창작자들의 반발 또한 거세지고 있기 때문입니다. 데이터 발생의 증가 추세와는 상관없이 기업들이 확보할 수 있는 데이터의 양은 오히려 줄어들 수도 있을 것 같습니다. 고품질 데이터 확보를 위한 기업들의 기술적, 사회적 대응이 중요하겠네요!