[데이터]"양에서 질로"…AI 강국 도약, 공공데이터 정제가 관건

jyseo@gscampus.net
2025-07-15
조회수 1371


한국형 인공지능(AI) 기술의 글로벌 경쟁력을 높이기 위해 ‘공공데이터 정제’ 문제가 다시 주목받고 있다. 정부가 지난 10여 년간 공공데이터 개방을 확대하며 OECD 공공데이터 개방지수 4회 연속 1위라는 성과를 거뒀지만, 실제 AI 개발 현장에서 쓸 수 있는 고품질 데이터는 여전히 부족하다는 지적이 업계 안팎에서 이어진다.


cd9b41ce6053a.jpg

이미지: perplexity 생성 


“양적 성장 그늘에 가려진 질적 한계”

2013년 공공데이터포털 개설 이후 10만 건이 넘는 데이터가 개방됐지만, 상당수가 원시 상태로 제공되거나 비정형 데이터로 가공이 미흡하다. 이 때문에 AI 학습이나 서비스 개발에 바로 활용하기 어렵다는 것이 현장의 목소리다.
공공기관별로 데이터 형식이나 구조가 달라 통합 분석 자체가 어렵고, 메타데이터나 활용 가이드가 부실해 데이터를 해석하는 데 며칠씩 소요되는 경우도 많다. 한 AI 스타트업 대표는 “엑셀이나 PDF로 제공되는 데이터는 전처리 작업에만 긴 시간이 걸리고, API 제공은 아직 불안정해 실시간 연동이 어렵다”고 토로했다.

e66379cba9682.png

2024년 공공데이터 활용기업 실태조사 주요 결과 발췌


“공공데이터, 얼마나 많이가 아니라 얼마나 잘 정제됐느냐가 관건”

정부는 최근 ‘AI·고가치 공공데이터 수요조사’에 착수해 국민과 기업의 의견을 수렴, AI 학습에 꼭 필요한 핵심 데이터를 선정·개방하겠다는 계획을 밝혔다. 행정안전부는 기업 현장을 직접 방문해 필요한 데이터의 구체적 내용, 요구되는 형식과 가공 수준, 활용 애로사항 등을 심층 조사하고 있다. 이는 기존 공급자 중심에서 수요자 중심 맞춤형 개방으로 정책 축이 이동하고 있음을 보여준다.

하지만 여전히 가장 큰 문제는 ‘품질 보장’이다. AI 허브, 데이터 댐 등 주요 데이터 사업에서도 형식 불일치, 라벨링 오류, 최신성 부족 등 문제가 반복된다. 데이터 품질에 대한 공공 인증 체계나 표준화 기준이 부재해, 기업들은 데이터 신뢰성을 자체적으로 판단해야 하는 부담을 안고 있다.


정부·민간 협업 통한 데이터 생태계 조성 필요

업계 실무자들은 단순 개방을 넘어, 정제된 데이터를 제공할 수 있는 생태계 조성이 시급하다고 입을 모은다. 미국, 유럽연합(EU)처럼 인증된 민간기관이 공공데이터 품질 검수를 맡는 모델을 참고할 필요가 있다는 제언도 나온다.
행안부와 한국지능정보사회진흥원(NIA)이 운영하는 ‘공공데이터 기업 매칭 지원사업’은 공공기관과 민간기업을 연결해 데이터를 정제·가공한 후 재개방하는 구조로 운영 중이다. 과학기술정보통신부도 ‘디지털 데이터 댐’ 사업을 통해 산업별 AI 학습용 데이터 구축을 지속하고 있지만, 아직은 기초적 정제에 머무른다는 평가다.


공공데이터 개방·정제 정책 주요 흐름

e74710d1e2a4e.png

 

“양보다 질, 정제 데이터로 AI 강국 도약”

“AI 시대에는 데이터가 얼마나 많이 개방됐느냐가 아니라, 얼마나 잘 정제돼 있는지가 중요하다”는 업계의 목소리가 커지고 있다. 정부는 공공데이터 개방 정책의 축을 양에서 질 중심으로 재편하고, 민간과의 협업을 통해 데이터 정제·검증 생태계를 구축하는 데 정책 역량을 집중해야 할 시점이다.


공공데이터 활용기업 실태조사 주요 애로사항 비중

9d96227b81956.png


정부와 업계가 함께 데이터 품질 혁신에 나선다면, 한국 AI 산업의 글로벌 경쟁력은 한 단계 더 도약할 수 있을 것이다.