GDPR의 적용에 따른 빅데이터 산업의 변화 가능성

카테고리 없음

GDPR의 적용에 따른 빅데이터 산업의 변화 가능성

이진석 2019. 12. 27. 09:39

1. 빅데이터의 탄생과 데이터 거래 시장의 성장

빅데이터와 인공지능 연구는 서로 밀접한 관계를 가지며 성장해 왔습니다. 빅데이터 처리 기술의 발달로, AI에 대한 연구는 과거 30년보다 근래 3년 들어 이룬 성과가 더 많다고 해도 과언이 아닙니다. 인공지능 개발에 이용되고 있는 컴퓨팅 시스템 용량은 무어의 법칙에 따라 갈수록 성능 대비 비용이 낮아졌으며, 알고리즘 기술 또한 진화하며 AI의 급격한 발전을 이끌어 왔습니다. 특히, 인공지능 학습에 이용된 데이터의 양은 지수적으로 증가해 왔습니다.

데이터의 양이 지수적으로 증가한 주요 이유로 ‘비정형 데이터’의 폭증을 꼽을 수 있습니다. 사진, 동영상, 음성 등이 대표적인 비정형 데이터로, 정형 데이터와 달리 분류 기준이 명확하지 않은 데이터를 일컫습니다. 사진 한 장에도 관점에 따라서는 피사체 수, 인물, 배경, 색감 등 수많은 분류 기준이 존재하며, 이 사진이 1000장, 100만장이라면 분류를 위한 경우의 수가 기하급수적으로 증가하게 됩니다.

일례로 자율주행차는 실시간으로 도로 영상을 수집해 필요한 정보를 분석한 후 즉시 명령을 내리는 하나의 거대한 데이터센터와도 같은데, 자동차 업계에 따르면, 한 대의 자율주행차가 한 시간 동안 생성하는 데이터 용량은 4테라바이트에 이릅니다. 이것은 초고화질 영화 2000여 편에 달하는 양이라고 합니다. 실제 CISCO VNI에 따르면, 현재 하루에 생성되어 공유되는 전세계 데이터의 양은 2.5엑사바이트로, 1초에 28,935기가바이트로 환산할 수 있다고 합니다.

데이터를 활용한 비즈니스와 인공지능의 활용 영역 확대로 인하여 데이터 거래 시장 규모 또한 성장하고 있으며, 실제 각각의 데이터 소스로부터 수집된 데이터들이 데이터 구매자, 데이터 개발자 들에게 판매되고 있습니다. 가령 얼굴 인식 알고리즘을 만들 때 대량의 얼굴 데이터가 필요한데, 검증되지 않은 출처에 의하면 대략 하나의 얼굴 당 0.5$ 정도의 비싼 비용으로 판매되고 있으며, 일반적으로 하나의 얼굴 인식 알고리즘을 완성시키는데 300만 장의 이미지가 필요하다고 합니다.

보다 구체적인 숫자로 이야기 하자면, 2017년 기준 미국의 데이터 디지털 상품 및 서비스 거래 시장 규모는 전년대비 12.7% 성장한 1,455억 유로 규모였습니다. EU의 2017년 기준 데이터 디지털 상품 및 서비스 거래 시장 규모도 650억 유로(YoY 9.3%)로 매우 큰 시장을 형성하고 있으며, 한국 또한 2017년 기준 데이터 거래 시장 규모는 전년비 4.4% 증가한 2,709억 원 규모를 형성하고 있습니다. 사실 이런 시장이 존재하는지도 알지 못했는데, 꽤 큰 규모의 시장이 이미 형성되어 거래되고 있다는 사실을 알 수 있습니다. (출처: ICT 기반 신산업 발전을 위한 데이터 거래 활성화 방안, 정보통신정책연구원, '18/10, 민대홍/오정숙)

이처럼 점차 성장하고 있는 데이터 거래 시장 활성화에서 걸림돌 중 하나로 지적되는 것은 저작권과 개인 정보 보호 이슈입니다. 몇 년 전부터 점차 강화되기 시작한 데이터의 소유권 및 저작권, 개인정보 보호 이슈는 미국, EU 뿐만 아니라 한국에서도 중요한 사안입니다. 정보통신정책연구원의 조사에 따르면 데이터를 구매하는 기업이나 판매하는 기업들의 데이터 거래 시 가장 큰 장애 요인으로 소유권, 저작권 침해 우려, 개인정보보호법 침해 우려 등을 들었습니다.

< 데이터 구매(좌) 및 판매(우) 경험 기업의 구매/판매 장애 요인(출처: 정보통신정책연구원)>

실제로 금년 6월경 마이크로소프트가 약 10만 명의 안면인식 정보가 담긴 1천만 개 이상의 이미지 데이터베이스를 삭제한 일이 있었습니다. MS셀럽이라는 이름의 해당 데이터베이스는 각종 검색엔진에서 스크랩한 인물 사진을 포함하고 있었으며, ‘16년 공개한 이래 세계에서 가장 큰 안면인식 데이터로 알려져 지금까지 여러 글로벌 기술 기업과 군 연구원에서 안면인식 기술을 연구하는 데 쓰인 바 있는 데이터셋입니다. 그러나 파이낸셜타임스에서 MS셀럽에 포함된 인물 사진 중 당사자의 동의를 받지 않은 사진이 있으며, 적합하지 않은 라이선스로 배포되었음을 지적하였고, 그 결과 MS가 해당 데이터베이스를 삭제한 것으로 추정됩니다. 이처럼 소유권, 저작권 침해 우려 등은 데이터셋 이용 시의 주요 이슈인 것으로 판단되며, 이러한 이슈를 해결해줄 수 있는 데이터 거래 방법이 등장한다면, 한국뿐만 아니라 글로벌 데이터 거래 시장에서 널리 이용될 것으로 보입니다.

최근 데이터들을 대중으로부터 소싱 받아 대기업 등에 납품하는 일부 업체들이 있는 것으로 조사되었습니다. 가령 '크라우드웍스'는 고객사로부터 소싱 받은 이미지 등을 일반인들을 통해 레이블링 하는 것을 주 사업으로 진행하고 있습니다. 카카오로부터 투자받은 ‘셀렉트스타’는 주어진 주제, 가령 ‘자동차가 있는 도로 사진 찍기’ 등을 일반인들로부터 소싱 받는 것을 주 사업으로 진행하고 있습니다. 그러나 이러한 업체들 모두 개인정보 문제가 있는 데이터를 취급하지 않거나, 사람들의 수작업으로 개인정보 부분을 삭제하게 하고 있습니다. 가령, 셀렉트스타는 주어진 툴을 이용하여 사람 얼굴이나 차량 번호판을 지우게 하고 있습니다. 이와 같이 수동으로 데이터 레이블링하는 업체들과 시장 규모 또한 최근 점차 성장하고 있는 것으로 보입니다.(출처: https://biz.chosun.com/site/data/html_dir/2019/12/19/2019121900144.html)

2. 데이터 익명화의 필요성 대두 - GDPR의 발효

GDPR은 EU 일반 개인정보 보호 규정(EU General Data Protection Regulation)의 약자로, ‘16년 유럽의회에서 공표되었으며 약 2년간의 유예기간을 거쳐 ‘18년 5월에 발효되어 유럽 전역에서 적용되고 있는 개인정보 보호 규정입니다. 유럽 의회에서 유럽 시민들의 개인정보 보호를 강화하기 위해 만든 통합 규정으로, 이전의 EU 지침과 비교하면 이전의 지침은 권고 차원의 규정인 점에 반해, GDPR은 모든 회원국이 의무적으로 준수해야 하는 강행 규정(위반 시 과징금 부여)이라는 점에서 큰 차이가 있습니다.

또한, GDPR은 EU 내 사업장을 운영하는 기업뿐만 아니라 전자상거래 등을 통해 해외에서 EU 주민의 개인정보를 처리하는 기업에게도 적용되는 것에 주의해야 합니다. 아울러, GDPR은 개인정보책임자(DPO) 지정 등 기업의 책임성을 강화하는 내용과 정보이동권 등 정보주체의 권리를 강화하는 내용이 추가되었습니다. 과거에는 EU 회원국 간의 개인정보보호 입법의 불통일성(단편화)으로 전자상거래 등에 있어서 곤란을 초래하였으므로, 디지털 경제의 활성화라는 강력하고 통일적인 EU 개인정보보호 제도 시행을 필요로 하였습니다. GDPR은 자연인에 관한 개인정보 보호권을 보호하고(제1조 제2항), EU 역내에서의 개인정보의 자유로운 이동(제1조 제3항)을 보장하는 것을 목적으로 합니다.

GDPR의 주요 항목으로, 사용자가 본인의 데이터 처리 관련 사항을 제공 받을 권리(the right to be informed), 열람 요청 권리(the right of access), 정정 요청 권리(the right to rectification), 삭제 요청 권리(the right to erasure), 처리 제한 요청 권리(the right to restrict processing), 데이터 이동 권리(the right to data portability), 처리 거부 요청 권리(the right to object), 개인정보의 자동 프로파일링 및 활용에 대한 결정 권리(rights in relation to automated decision making and profiling) 등이 있습니다.

이 중, 삭제 요청 권리(the right to erasure)는 기존 GDPR 초안의 잊힐 권리(the right to forgotten)에서 명칭이 바뀌었습니다. 개인정보의 자동 프로파일링 및 활용에 대한 결정 권리(rights in relation to automated decision making and profiling)는 마케팅의 일환으로 개인의 직업, 취미, 위치 등이 자동 수집,처리되어 활용되는 경우에 대해 데이터 주체자인 사용자에게 고지, 활용 여부 결정 및 거부할 수 있는 권리 등에 대한 것을 다루고 있습니다.

실제 GDPR의 적용은 업계 내에서는 꽤 비중있게 다루어지고 있습니다. 미국 다국적 기업들의 고위급 임원들을 대상으로 진행한 PwC의 2017년 설문조사(PwC Pulse Survey, 2017) 결과를 보면, GDPR의 이행을 매우 중요하게 생각하는 것을 알 수 있습니다. 실제 절반 이상이 데이터 보호에 있어 GDPR을 우선 순위의 과제로 꼽았으며, 77%의 응답자가 GDPR의 대응에 1백만 달러 이상을 지출할 계획이 있다고 답변한 바 있습니다.

또한, 기업들은 GDPR를 위험 관리 측면에서 대응 방안을 모색하고 있는 것으로 보입니다. 실제로, 응답자의 64%는 GDPR에 대응하기 위한 위험요소 감소 전략으로 유럽 내 데이터센터의 중앙집중화를 꼽았고, 54%는 유럽인의 개인정보를 익명화할 계획이라고 답했습니다. 32%가 유럽 내 사업 규모를 축소할 계획이라고 응답했고, 유럽시장에서 철수할 의향도 있다고 답한 응답자도 26%였습니다.

GDPR의 실제 법적 효력은 유의미한 것으로 판단되며, 실제로 지난해 GDPR이 발효되자마자 구글과 페이스북이 곧바로 제소된 바 있습니다. 제소를 주도한 비영리단체 NOYB(None of Your Business)는 구글의 개인정보 처리 관행 중 투명성과 동의절차 등이 GDPR 위반에 해당된다고 주장했습니다. GDPR은 개인정보 처리 과정을 투명하게 밝혀야 한다고 규정하고 있으며, 또 서비스 가입 등을 조건으로 동의를 강요하는 행위도 금지하고 있습니다. 이후 '19년 1월 프랑스의 개인정보 감독기구(CNIL)는 구글에 GDPR 위반 혐의로 5천만 유로(한화 약 624억원)의 벌금을 부과한다고 밝혔으며, 이는 NOYB 이외 프랑스 온라인 권리 단체인 LQDN도 추가로 제소한 결과입니다.

이와 같은 GDPR의 영향력은 전세계를 향하고 있으며, 이에 영향을 받아 각국 또한 새로운 규정들을 만들고 있습니다. 하기의 지도는 WFA(세계광고주연합)에서 만든 이미지로 주요국가의 개인정보보호 규정들의 현황을 보여주는 그림입니다.

3. 가명정보 및 익명정보의 필요성

GDPR에서는 가명정보 또는 익명정보 개념을 적극 도입하고 있습니다. 즉 개인정보를 가명정보 또는 익명정보로 전환해 공익영역과 상업적 목적을 포함한 과학적 목적 등에 이용자 동의 없이 활용할 수 있도록 열어주자는 것입니다. 가명정보와 익명정보를 비교한 내용은 하기와 같습니다.

<가명정보, 익명정보의 비교(출처: http://www.newspim.com/news/view/20191028000876)>

즉, 익명처리된 데이터는 해당 데이터를 통해 영구적으로 개인을 식별할 수 없는 데이터를 뜻하며, 가명화(Pseudonymisation)는 개인정보에 추가 정보가 있어야 개인을 알아볼 수 있도록 식별 가능성을 떨어뜨리는 과정을 뜻합니다. 그러나 가명화된 데이터의 활용 가능성에 대해서는 각국에 따라 다르게 정의하고 있습니다.

특히 최근 다양하게 발생하고 있는 의료 영상 인공지능의 경우, 병원에서 데이터를 공유할 때 IRB에서 승인을 받아야 하는데 이 과정이 매우 복잡합니다. 누가 누구에게 무슨 데이터를 언제 주어서 언제 파기할 것인지 명시하고, 데이터를 취급하는 쪽은 IRB에게 교육을 받아야 하고, 데이터 취급자가 변경되는 등 이벤트마다 승인을 모두 새로 받아야 하는 식으로 관리가 철저히 이루어집니다. 이는 환자 이름을 지우는 정도의 비식별화로는 해결될 수 없는 문제입니다. 다만, 개인정보 보호법들은 익명화된 데이터는 개인정보를 갖고 있지 않다고 규정하고 있어 여기에서 자유로워질 수 있습니다.

미국은 빅데이터 이용 및 분석 과정에 개인정보처리를 제한하는 일반법이 없어 개인정보를 폭넓게 활용 가능하며, 보호가 필요한 분야마다 개별법으로 규율하고 있습니다. EU는 GDPR에 가명화 개념을 정의해 공적 기록, 과학 역사 연구, 통계 목적으로 개인정보를 가명화하면 그걸 자유롭게 이용할 수 있게 하고 있습니다. 실제 GDPR에서의 개인정보, 가명정보, 익명정보의 사용 규정에 대한 내용은 하기 테이블에서 다루고 있습니다. 일본은 일반법으로 개인정보보호법을 두고 있으며, 기업 보호의무 규정, 제한 없이 활용 가능한 '익명가공정보' 개념, 이를 취급하는 사업자에 별도의무 부과 규정을 담고 있습니다. 일본은 최근 개정을 통해 공공 데이터를 민간기업에 제공할 수 있는 '비식별가공정보' 개념도 추가되었습니다.

<GDPR 의 개인정보 / 가명정보 / 익명정보 비교(출처: IAPP)>

그러나 익명화된 데이터는 인공지능의 학습 데이터로 사용되기 어렵다는 단점이 있습니다. 데이터 익명화는, 원본 데이터를 파괴하거나 노이즈를 추가하는 과정이라고 할 수 있습니다. 즉, 원본과 비교해서 무언가 차이가 있어야만 합니다. 따라서, 기계는 원본 데이터와 다른 값을 지닌 데이터로 인식하게 되고, 통상적으로 익명화된 데이터로 학습된 모델은 정확도가 떨어지게 됩니다. 이러한, 방식의 데이터 변조는 해커들의 머신러닝 공격 수단으로도 활용된 바 있습니다. 실제 멈춤 표지판에 스티커를 붙였더니 자동 주행 차량이 ‘속도 제한’으로 오인한 케이스도 발표된 바 있습니다.

<멈춤(STOP) 표지판에 스티커를 붙였더니 AI 모델이 ‘속도 제한’으로 오인한 케이스(출처:IAPP)>

상기 내용들에 대하여 상세히 서술하면 다음과 같습니다. 주어진 하나의 이미지를 익명화하는 방법으로 여러 가지 방법을 생각할 수 있겠습니다. 단순히 얼굴의 일부분을 마스킹하는 방법이 있겠고, 이미지를 전체적으로 블러(blur) 처리하는 방법이 있고, 다른 이미지와 합성 처리하는 방법이 있을 것입니다. 그러나 해당 방법들은 원본을 인식할 수 없거나 머신러닝에 필요한 특징점들을 잃어버리기 때문에, 이들 모두 적절한 방법은 아닙니다.

<이미지 익명화 방법의 예시. (좌로부터 원본, 마스크, 블러, 합성)>

따라서 GDRP과 같은 개인정보보호법을 위반하지 않으면서도 인공지능의 학습에 이용할 수 있도록 데이터를 거래할 수 있도록 하는 방법이 개발된다면, 시장에서 이용될 만한 니즈가 있을 것입니다.

4. 마치며..

GDPR의 적용 이슈가 현업에 등장한 지 그리 오랜 시간이 지나지 않아서 이 이슈가 실제 데이터 거래 시장에 어떤 영향을 끼칠지에 대해서는 아직 검증된 바 없습니다. 우선 당장 떠오르는 의문들은 다음과 같습니다.

- 몇 년 전부터 GAN을 통해 생성된 face set을 통해 인공지능 학습을 수행 가능하다는 아티클을 본 적 있습니다. 그러나 소수의 현업 관계자에 문의했을 때 GAN의 데이터만으로는 완벽한 학습이 불가능해서 실제 사람의 얼굴 데이터가 필요하다고 답변 받은 바 있습니다. 과연 GAN 데이터가 어느 정도의 규모로 실제 얼굴 데이터를 대체 가능한지, 데이터 거래비용을 어느 정도로 감소시켜 줄 수 있는지에 대해서는 추가 확인이 필요합니다.

- 대중의 데이터로부터 인공지능 학습을 수행하는 업체 중 가장 잘 알려진 업체들은 의료영상 인공지능을 구축하는 V사, L사, J사 등이 있을 것입니다. 이 업체들은 주로 MRI, 엑스레이, CT 영상 등을 다루고 있는데, 사람의 골격 등과 어느 정도 관계된 해당 데이터들은 익명화가 필요한 대상이 맞을 듯 합니다. 그러나 사람의 세포와 관계된 병리 이미지들 또한 익명화의 대상이 될 지에 대해서는 IRB 규정을 보다 자세히 살펴 봐야 할 듯 합니다. 디지털 병리학 관련된 내용은 다음에 상세히 기술 예정입니다.