챗GPT의 성장에 제동을 걸 수 있는 웹 크롤링 차단 확산
콘텐츠 소유자들의 저작권 보호가 이유
인공지능(AI) 열풍을 불러일으킨 ‘챗GPT’의 성장이 더뎌질 수도 있을 조짐이다. 이유는 챗GPT가 방대한 양의 데이터를 끌어모아 성능을 향상시키는데, 아마존과 로이터통신 등 수십 곳의 영미권 대형 기업과 언론사들이 챗GPT의 정보 수집을 차단하기 시작한 것이다.
27일(현지시간) 영국 가디언과 AI 콘텐츠 정보 제공업체인 ‘오리지널리티.AI’에 따르면, 지난 22일 기준 전 세계 상위 1,000개 사이트 가운데 9.2%가 챗GPT의 정보 수집 툴인 ‘GPT봇(GPTBot)’을 차단했다. 특히 이용자 수가 많은 상위 100곳으로 범위를 좁히자, 차단율은 15%까지 증가했다.
GPT봇은 언어 모델 학습에 필요한 데이터를 수집하는 새로운 웹 크롤러다. 챗GPT 개발사인 오픈AI는 지난 7일 GPT봇을 공개하며 정보 수집이나 이용을 원치 않는 사이트 소유자에게 GPT봇의 크롤링을 차단하는 방법을 알렸다. 공개 첫 주인 지난 15일 기준 차단율은 5% 미만이었으나, 2주 차에는 10%까지 올라갔다.
현재 GPT봇을 차단하는 주요 사이트에는 아마존, 이케아, 에어비엔비 등의 대형 기업도 포함돼 있다. 블룸버그통신과 로이터통신, 뉴욕타임스(NYT), CNN방송, 악시오스 등 유명 언론사들도 이름을 올렸다. 로이터 관계자는 “지적재산권은 사업의 생명선으로, 콘텐츠 저작권 보호가 필수”라고 밝혔다.
이처럼 주요 사이트들이 GPT봇을 차단하는 건 사전 동의 없는 콘텐츠 무단 사용을 막아 저작권을 보호하기 위해서다. 검색 엔진인 구글의 경우, 지난 5월 NYT에 뉴스콘텐츠 사용료로 3년에 걸쳐 1억 달러(약 1,327억 원) 지급을 합의한 것으로 알려졌다. 그러나 GPT봇과 같은 크롤러는 추출한 데이터나 정보의 사용을 위한 별도 허가나 비용을 필요로 하지 않아 ‘AI 저작권’ 논란은 더 거세질 전망이다.
AI가 점점 더 세밀한 정보 분석과 처리를 할 수 있게 되면서, 그로 인한 저작권 문제는 점점 더 커지고 있다. 콘텐츠 소유자들이 웹크롤링을 차단하는 것은 이러한 트렌드를 반영한 것으로 보인다. 사이트들이 GPT봇을 차단하는 이유 중 하나는, 데이터를 취합하여 새로운 콘텐츠를 만들어내는 AI가 사실상 ‘무료로’ 그들의 콘텐츠를 이용할 가능성이 있기 때문이다.
데이터의 중요성이 더욱 부각되는 현재, 챗GPT와 같은 AI의 발전을 제한할 수 있는 이러한 차단 행위는 앞으로 AI 기술의 성장과 범위, 그리고 법적, 윤리적 문제에 어떤 영향을 미칠지 주목받고 있다. 콘텐츠 소유자와 AI 기술개발자 간의 균형을 어떻게 잡을지가 앞으로의 주요 과제로 여겨진다.