"우리 AI, 뭘로 공부하나"...'데이터 기근' 해결할 이 기술
[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다. ] AI(인공지능) 시대 데이터 기근을 해결할 해법으로 합성 데이터가 주목 받는다. 생성형 AI 교육을 위한 가상의 데이터다. 부족한 학습 데이터를 채우는 역할이다. 그러나 한계도 있다. 원본 데이터와의 관계에서 오는 딜레마 때문이다. 원본 데이터를 정확도를 높이자니 정보 유출이 우려된다. 그렇다고 정보 유출을 막기 위해 원본 데이터를 수정하다 보면 학습 정확도가 떨어진다. 큐빅은 차등정보보호 기술로 합성 데이터가 갖는 한계를 극복했다. 차등정보보호 기술은 원본 데이터 일부만 가려 활용하는 기존 비식별화 기술과는 근본적으로 다른 방식이다. 원본 데이터에 직접 접근하지 않고, 원본 데이터의 특성만으로 합성 데이터를 생성한다. 예를 들어 30대 여성의 폐암 합성 데이터를 만들 때 병원에서 직접 30대 여성의 폐암 CT(컴퓨터단층촬영) 사진을 받지 않고, 30대 여성의 폐암 위치나 모양 등 특성만을 취합한다.
김태현 기자
2026.02.13 08:58:52