유승훈

머신러닝을 위한 실전 데이터셋(6) - 합성 데이터의 신원 식별 본문

책 리뷰/머신러닝을 위한 실전 데이터셋

머신러닝을 위한 실전 데이터셋(6) - 합성 데이터의 신원 식별

seunghuni96 2021. 2. 22. 00:25

본 도서는 한빛미디어 도서 서평단 <나는 리뷰어다 2021>로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다.

앞장에서는 데이터 합성이 실제로 어떻게 이루어지는지를 살펴보았습니다. 이번 장에서는 데이터 합성에서 큰 이슈인 합성 데이터의 개인정보, 프라이버시 문제에 대해서 다루고 있습니다.

 

합성데이터와 원본 데이터는 1-1로 매칭되지는 않기 때문에, 개인정보 위험을 무시해도 된다는 통념이 있습니다. 하지만 합성 데이터를 생성하는 과정에서 모델이 실제 데이터에 과적합 될 수 있습니다. 과적합된 모델을 통해 생성된 합성 데이터는 실제 데이터에 매핑될 가능성이 존재합니다.

 

노출 유형

합성 데이터에서도 다양한 방식으로 개인정보, 프라이버시 이슈가 있을 수 있습니다. 신원 노출, 조합을 통핸 새로운 정보 노출, 속성 노출 등의 문제가 발생할 수 있습니다.

 

개인정보보호법

본 절에서는 유럽의 일반 데이터 보호 규정, 캘리포니아 소비자 개인정보 보호, 미국 의료보험 이전과 책임에 관한 법률에 대해서 다루고 있습니다. 단순한 설명이나 차이에 대한 것이 아니라,

  • 합성 데이터의 생성을 위한 실제 데이터셋의 활용

  • 합성 데이터의 생성을 위한 실제 데이터셋의 타사 서비스 공급업체와의 공유

  • 합성 후의 데이터에 대한 규제, 영향 여부

이렇게 세 가지에 대해 다루고 있습니다. 방법이나 중점사항에는 차이가 있으나, 결국 개인정보 문제가 야기되지 않는 선에서 데이터를 최대한 효율적으로 활용하고자 하는 방안을 모색하고 있습니다.

Comments