DATA 재단 "AI 데이터 고갈, 해답은 '블록체인 출처 증명'"

BloomingBit
Abrir en BloomingBit
DATA 재단 "AI 데이터 고갈, 해답은 '블록체인 출처 증명'"

인공지능(AI) 기반 지식재산권(IP) 블록체인 인프라 스토리가 DATA 재단으로 사명을 변경하고, 소비자 데이터 플랫폼 클레드(Kled)와 대대적인 통합을 단행하며 AI 데이터 인프라 시장에 본격 진출한다.

이번 리브랜딩과 함께 생태계를 이끌어갈 핵심 경영진의 역할도 새롭게 재편됐다. 기존 스토리의 사장이자 최고제품책임자(CPO)였던 안드레아 무토니가 DATA 재단의 신임 최고경영자(CEO)로 선임되어 전반적인 사업을 총괄한다.

또한 세계 최대 규모의 동의 기반 휴먼 데이터 마켓플레이스 클레드의 창업자 겸 CEO인 아비 파텔은 DATA 재단의 최고데이터책임자(CDO)로 전격 합류해 핵심 데이터 인프라 구축을 이끌게 됐다. 기존 스토리 공동창업자인 이승윤 대표는 인큐베이팅 계열사인 포세이돈의 최고전략책임자(CSO)이자 이사회 의장으로 자리를 옮겨 새로운 신사업 구축에 집중한다.

다음은 한국 시장을 핵심 요충지로 삼고 생태계 확장에 나선 DATA 재단의 안드레아 신임 CEO, 아비 CDO와 진행한 일문일답이다.

안드레아 무토니 DATA 재단 CEO. 사진=DATA 재단

Q. 스토리가 'DATA 재단'으로 사명을 변경하고, 클레드와 대대적인 통합을 단행했습니다. 이번 리브랜딩과 통합의 가장 핵심적인 배경과 목표는 무엇인가요?

A. (안드레아/파텔) 스토리가 기반을 둔 기술은 첫날부터 누가 무언가를 만들었고, 정당한 보상을 받았는지 증명하는 출처에 관한 것이었습니다. AI가 발전함에 따라 이 문제가 가장 중요해지는 단 한 곳이 바로 AI 학습 데이터라는 것이 명백해졌습니다. 범용 인공지능(AGI)를 향한 경쟁에서 프론티어 연구소들은 "이 데이터가 동의하에 수집되었고 보상이 이뤄졌음을 증명할 수 있는가?"라는 동일한 질문에 직면해 있습니다.

DATA 재단으로의 리브랜딩은 우리가 늘 추구해 온 'AI 데이터 공급을 위한 신뢰 레이어'라는 정체성을 명확히 한 것입니다. 통합된 클레드는 막대한 규모로 동의된 데이터를 수집하는 소비자용 엔진 역할을 하며, DATA 재단은 이를 법적으로 방어 가능하게 만드는 검증 및 정산망을 제공하여 합법적 AI 데이터의 기본 인프라가 되는 것이 목표입니다.

Q. 기존 '스토리' 시절에는 지적재산권(IP) 네트워크에 집중해 왔습니다. 방향성을 'AI 데이터 인프라'로 재편하게 된 결정적인 계기가 궁금합니다.

A. (안드레아) IP와 AI 학습 데이터가 결국 같은 문제를 가지고 있다는 깨달음이었습니다. 둘 다 기원, 권리, 사용 및 보상을 증명하는 문제로 귀결됩니다. AI 분야에서 가장 풀기 어려운 난제는 더 이상 모델이 아닙니다. 저작권 및 개인정보 보호 소송이 급증하고 스크래핑이 한계에 다다르면서, '신뢰할 수 있고, 동의를 구했으며, 감사가 가능한 데이터 공급'이 시장의 가장 시급한 화두가 되었습니다. 이 시대의 가장 중요한 IP 문제인 AI 데이터 인프라로 초점을 좁힌 것입니다.

Q. 앞으로 DATA 재단이 주력할 사업의 방향성을 알려주신다면요. 또 현재 프론티어 AI 연구소들이 겪고 있는 데이터 확보의 병목현상은 어느 정도로 심각한가요?

A. (안드레아) 데이터 병목 현상은 생각보다 훨씬 심각하며 구체적인 한계선이 코앞에 다가와 있습니다. 리서치 기관 에포크 AI의 최신 연구에 따르면, 약 300조개의 토큰에 달하는 전 세계의 고품질 인간 텍스트 데이터가 2026년에서 2032년 사이 대부분 고갈될 위기인 이른바, 데이터 장벽에 직면해 있습니다.

게다가 로보틱스와 피지컬 AI 등 다음 세대의 AI는 인터넷상에 아예 존재하지 않아 스크래핑조차 불가능한 실제 사람들의 리얼 월드 데이터에 전적으로 의존합니다. 단순히 "데이터가 부족하다"를 넘어 "합법적이고 안전하게 쓸 수 있는 특화 데이터가 고갈됐다"는 것이 오늘날 발전의 가장 큰 제약입니다. 우리는 트레이스와 생태계 앱들을 통해 이 병목을 해결하는 '검증 가능한 데이터 인프라 레이어'로 확장해 나갈 것입니다.

Q. 무분별한 데이터 스크래핑이 한계에 다다랐다고 지적하셨는데요. 이번에 정식 공개한 '트레이스'가 이 문제를 어떻게 해결할 수 있는지 설명해 주실 수 있을까요?

A. (안드레아) 스크래핑된 데이터는 권리와 보상을 증명할 수 없기에 법적 위험이 너무 큽니다. 트레이스는 철저한 '공개 감사 레이어' 역할을 함으로써 이 불투명성을 걷어냅니다. 데이터를 전달받은 연구소는 단일 파일의 고유한 해시 ID만 입력하면, 단 수초 만에 사용자의 서비스 약관 동의 내역, 규정 준수 검사 결과, 익명화된 고객확인 증명, 그리고 기여자에 대한 투명한 보상 기록 전체를 직접 검증할 수 있습니다.

아비 파텔 DATA 재단 CDO. 사진=DATA 재단

Q. 클레드와 DATA 재단이 통합을 단행했습니다. 클레드에 대한 설명 부탁드립니다.

A. (아비) 클레드는 누구나 자신의 개인 데이터를 업로드하고 이를 AI 기업들의 모델 학습 등에 라이선싱할 수 있게 해주는 마켓플레이스 앱입니다. 현재 40만명 이상의 사용자가 매일 500만건 이상의 데이터를 업로드하고 있으며, 최고 수익자는 월 최대 7400달러를 벌고 있습니다. DATA 재단과의 통합을 통해 이 방대한 데이터가 안전하고 투명하게 감사될 수 있는 신뢰 기반을 확보하게 되었습니다.

Q. 클레드는 출시 2주 만에 20만명의 기여자를 확보하고, 하루 최대 450만건의 파일이 업로드될 정도로 반응이 뜨겁습니다. 대중들이 이토록 자발적으로 데이터를 제공하게 만든 비결은 무엇인가요?

A. (아비) 핵심은 철저한 프라이버시 보호와 컴플라이언스를 통한 신뢰 구축입니다. 우리는 유저들이 안심하고 데이터를 제공할 수 있도록 '클레드 FD-0.1'이라는 고도화된 처리 파이프라인을 구축했습니다. 모든 업로드 데이터는 연구소에 라이선싱되기 전에 이 파이프라인을 거치며 얼굴, 정부 발급 신분증, 금융 계좌 번호, 주소 등 민감한 개인 식별 정보가 완벽히 익명화됩니다. 내 정보가 철저히 보호되면서도 투명한 과정을 거쳐 정당한 보상으로 돌아온다는 확신이 폭발적인 참여를 이끌어냈습니다.

Q. 현재 클레드의 데이터가 특히 로보틱스나 피지컬 AI 분야에서 수요가 높다고 들었습니다. 글로벌 기업들은 이를 왜 그토록 필요로 하는 것인가요?

A. (아비) 휴머노이드 로봇 등은 인간과 물리적 환경이 어떻게 상호작용하는지 이해하기 위해 요리, 청소, 운전 등 일상적인 작업을 수행하는 1인칭 시점 데이터가 필수적입니다. 또한, 멀티모달 데이터(시각, 청각, 인간 행동이 결합된 데이터)를 통해 맥락을 이해해야 합니다. AI 기업들은 합성 데이터로는 결코 완벽히 흉내 낼 수 없는 인간 행동의 진정성이 담긴 고유 데이터를 원하며, 이는 현재 AI 산업에서 가장 희귀하고 값비싼 자원이 되었습니다.

Q. DATA 재단의 블록체인 기반 출처 증명 기술과 클레드의 방대한 사용자 동의 데이터가 만났습니다. 양측은 각각 어떤 혜택을 얻게 될까요?

A. (공통) AI 기업은 스크래핑으로는 결코 얻을 수 없는 고품질 데이터에 접근할 수 있습니다. 수초 안에 데이터의 합법성을 검증하여 저작권 소송 등 법률 및 평판 리스크를 극적으로 낮출 수 있는 것이죠. 개인 사용자는 익명성을 유지하면서 자발적 제공에 대한 정당한 보상을 투명한 온체인 증명과 함께 받게 됩니다. 가치가 실제 창작자에게 돌아가는 공정한 데이터 경제의 실현입니다.

Q. 기존 스토리 공동창업자인 이승윤 대표님은 계열사인 포세이돈으로 자리를 옮겼습니다. 향후 DATA 재단과 포세이돈은 어떻게 시너지를 내게 되나요?

A. (안드레아) 이승윤 대표가 CSO로 이끄는 포세이돈은 DATA 네트워크 위에서 실질적인 비즈니스 가치를 내는 킬러 애플리케이션을 구축 중입니다. 포세이돈의 앱 누모(Numo)는 토스의 3천만 사용자와 같은 초거대 기반을 통해 데이터를 수집하고 이를 정제합니다.

무엇보다 이 기술을 이끄는 산딥 친찰리 최고과학자는 스탠퍼드 대학교 컴퓨터 과학 박사 출신이자 NASA 제트추진연구소에서 로보틱스를 연구한 최고 권위자입니다. 현재 텍사스 오스틴 대학교 교수이기도 한 그가 이끄는 세계적 수준의 딥테크 팀이 군집 로봇과 엣지 컴퓨팅을 활용해 실제 물리적 AI 데이터를 가공하고 있습니다. 우리 생태계는 단순한 블록체인 프로젝트가 아닌 진정한 'AI 딥테크 인프라'로 발돋음하고자 합니다. 수집과 전문적인 처리 수요가 맞물려 네트워크의 온체인 활동을 폭발적으로 증가시킬 것입니다.

Q. "앞으로 10년은 데이터 출처를 명확히 증명할 수 있는 공급자가 경쟁력을 가질 것"이라고 하셨습니다. 향후 AI 데이터 시장 패러다임의 변화와 블록체인의 역할은 무엇일까요?

A. (아비) 앞으로 블록체인이 이 거대한 시장에서 폭발적인 파괴력을 가지는 이유는 AI 모델 자체를 체인 위에서 돌리기 위함이 결코 아닙니다. 수십억 건의 프라이빗 데이터가 이동하는 규모에서, 데이터셋의 기원, 권리, 변조 여부 등의 역사를 불변하게 보존하는 역할을 블록체인이 수행하기 때문입니다. 오늘날 모든 금융 기관이 깐깐한 표준 회계 장부에 의존하듯, 머지않아 모든 거대 AI 기업들은 표준화된 데이터 출처 시스템에 의존하게 될 것입니다. 자신의 데이터 무결성을 수학적으로 완벽히 증명해 내는 인프라, 그것이 DATA 재단이 주도할 패러다임의 핵심입니다.

Q. 이번 개편으로 기존 $IP 토큰이 $DATA 토큰으로 1:1 전환된다고 발표하셨습니다. 참여자들이 생태계에서 가장 기대하면 좋을 점은 무엇인가요?

A. (안드레아) 마이그레이션의 핵심은 토큰의 쓰임새를 네트워크의 진짜 목적인 '검증 가능한 데이터 경제 활성화'에 맞추는 데 있습니다. DATA 토큰은 이 방대한 생태계를 묶어줍니다. 참여자들은 투기가 아닌 실제적인 네트워크 사용량에 주목해야 합니다. 클레드, 누모 등을 통해 합법적으로 수집된 AI 데이터 수요가 폭발할수록, 검증 및 정산 과정에서 발생하는 온체인 트랜잭션 규모도 비례하여 증가합니다. 투기가 아닌 실제 경제적 부가가치를 창출하는, 가장 실용적이고 거대한 AI 인프라 네트워크의 탄생을 기대해 주시기 바랍니다.