유승훈

머신러닝을 위한 실전 데이터셋(2) - 데이터 합성 본문

책 리뷰/머신러닝을 위한 실전 데이터셋

머신러닝을 위한 실전 데이터셋(2) - 데이터 합성

seunghuni96 2021. 2. 20. 17:36

본 도서는 한빛미디어 도서 서평단 <나는 리뷰어다 2021>로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다.

앞장에서 합성 데이터란 무엇이고, 어떻게 활용되고 있는지 등의 개괄적인 내용을 살펴봤다면, 이번 장에서는 데이터 합성에 있어 신경써야 할 주요사항들을 소개하고 있습니다.

 

데이터 합성 기술을 사용할때는, 데이터를 합성하는 것이 타 개인정보 강화기술을 사용하는것보다 좋은 방법인지 판단해야 합니다.

 

데이터 합성의 핵심요소

프로세스 - 데이터 파이프라인에 합성기술 통합.

구조 - 데이터 생성을 위한 기술, 능력, 교육 등의 요소.

 

기술선택을 위한 의사결정

 

식별화 가능성 스펙트럼

 - 데이터에서 신원, 정체를 알게 될 확률을 기반으로 한 개인정보 - 비개인정보 판단.

 

PET 선택의 절충

 - 프라이버시-데이터 효용성

   : 개인정보 보호기술인 PET는 어쨌든 데이터의 변환을 야기합니다. 반면 데이터는 변환될수록 효용성이       감소합니다. 프라이버시와 데이터 효용성 둘 중 하나만 극단적인 것은 좋지 않기 때문에 조직 내에서

     여러 사항을 고려하여 수용가능한 타협점을 찾아야 합니다. 

 

 - 변환에 더해 데이터의 활용에 있어 전반적인 리스크 관리를 위해 통제기법이 필요합니다. 이는 조직이       전반적인 위험을 관리해왔던 보안, 개인정보 관행이 될 수 있습니다.

 

결정기준

 앞서 언급했던 프라이버시나 데이터 효용성의 균형도 중요하지만, PET를 결정하는 것은 크게 네 가지의

 기준을 갖습니다.

 

  •  프라이버시 : 허용가능한 임계값인가? + 그 임계값이 제대로 지켜지고 있는가?

  •  데이터 효용성 : Task나 목표에 따른 효용성 기준 설정.

  •  비용 : PET 구현이나 PET 후 데이터를 처리하고 인프라를 구축하는데 소요되는 비용

  •  소비자 신뢰

 이러한 기준들은 어떤 답이 정해져 있는 것은 아닙니다. 조직마다 우선순위, 문화, 위험허용도, 과거 경험 등의 수많은 요소에 차이가 있기 때문에 충분한 검토를 통해 어떤 기술을 선택할지 결정해야 합니다.

 

PET 고려하기

크게 두 PET를 소개하고 있습니다. 이 기법들과 데이터 합성을 비교해서 생각해보면 좋을 것 같습니다.

 

가명화

  •  이름, 사회보장번호(주민등록번호)와 같은 "직접식별자의 변환"

  •  가명 데이터의 공유 상황에 대한 제한(개인정보 동의 의무가 없으나, 일정 기준하에서는 식별가능성이 존재하지 않는다.)

  •  개인식별정보 별도 보관(필요한 통제의 감소)

 비식별화

  •  고유숫자, 코드의 제거, 일반화. - 처리 후 남는 정보를 통한 개인식별이 불가해야함.

  •  식별확률 + 통제기법을 활용한 식별가능성의 위험 관리

데이터 변환과 비용은 서로 상쇄되는 관계에 있습니다. 때문에 Task나 조건(예산 등)에 따른 절충안을 찾는 것이 필요합니다.

 

데이터의 합성

데이터를 합성하는 것은 크게 준비 - 합성 단계로 나뉩니다.

 

데이터 준비

 데이터분석 프로젝트에서와 동일한 전처리로 생각할 수 있습니다. 오류제거, 표준화 등이 있습니다. 데이터를 합성한 후에는 매핑을 통한 처리가 불가능하기 때문에 이 단계에서 매핑을 통한 처리도 이루어집니다.

 

데이터 합성

 실제 데이터는 개별 데이터셋일수도 있고, 요약, 교차된 집계 데이터일수도, 두 가지가 조합된 형태의 데이터일수도 있습니다. 데이터를 합성하는 것은 의사결정나무, 딥러닝, 반복비례적합 등 다양한 알고리즘이 활용될 수 있습니다. 

 

 데이터를 합성한 뒤에는 효용성 평가를 통해 데이터의 신뢰도를 증명해야 합니다. 실제 데이터와 합성 데이터를 통계적으로 비교할수도 있고, 실제 데이터와 동일한 분석과정을 합성 데이터에 적용하여 비교하는 방법도 있습니다. 소비자 혹은 분석가가 데이터의 효용성 신뢰를 위해 효용셩 평가에 대한 문서화도 필요합니다.

 

 합성 데이터가 개인과 관련되어 있거나, 정황상 프라이버시 문제가 발생할 수 있다고 판단되는 경우, 프라이버시 보장 평가 또한 필요합니다. 

 

데이터 합성 프로세스

 이러한 과정에서 데이터 공급자가 직접 데이터를 준비하고 합성단계를 수행해서 데이터 소비자/분석가에게 전달할수도 있고, 준비/합성 단계를 전부 신뢰할수있는 제 3자에게 맡기거나, 합성 단계만 제 3자에게 맡길수도 있습니다.

 

 

 

Comments