유승훈

머신러닝을 위한 실전 데이터셋(5) - 데이터 합성 방법 본문

책 리뷰/머신러닝을 위한 실전 데이터셋

머신러닝을 위한 실전 데이터셋(5) - 데이터 합성 방법

seunghuni96 2021. 2. 22. 00:17

본 도서는 한빛미디어 도서 서평단 <나는 리뷰어다 2021>로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다.

앞장에서는 실제 데이터의 대체제로서의 합성 데이터가 얼마나 실제 데이터를 대체할 수 있는가를 평가하는 "효용성"에 대해 알아보았습니다. 이번 장에서는 데이터 합성이 어떻게 이루어지는지를 보고자 합니다.

 

합성데이터 생성 이론

다변량 정규분포에서의 표본추출 - 변수의 분포가 정규분포임을 알고 있을 때 효과적입니다.

지정된 한계 분포로부터의 상관관계 유도 - 전통적인 통계분포(정규분포, 지수분포 등)에서 데이터를 샘플링하면서 원하는 상관관계를 유도합니다. 이 또한 실제 데이터가 전통적인 분포들에 적합한 경우에 효과적입니다.

코플러 - 합성하는 변수들의 상관관계를 유지하는 한계분포를 모델링합니다.

 

실제 합성 데이터 생성

전통적인 분포, 머신러닝, 딥러닝 등의 다양한 합성 방법론이 연구되었고, 실제로 활용되고 있습니다. 합성한 후 효용성 퍙가에 있어 상관관계, 구별가능성 모델링 등이 사용됩니다.

 

다양한 방법들이 연구, 활용되고 있지만, 데이터의 유형이나 소모 비용, 시간 등을 종합적으로 고려한 선택이 필요합니다.

Comments