유승훈

머신러닝을 위한 실전 데이터셋(3) - 시작: 분포적합 본문

책 리뷰/머신러닝을 위한 실전 데이터셋

머신러닝을 위한 실전 데이터셋(3) - 시작: 분포적합

seunghuni96 2021. 2. 20. 19:39

본 도서는 한빛미디어 도서 서평단 <나는 리뷰어다 2021>로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다.

앞장에서는 데이터 합성에 있어 신경써야할 주요 사항들에 대해서 소개하고, 합성 프로세스에 대해서 소개했습니다. 이번장에서는 데이터 합성의 두 요소인 프로세스와 구조 중에서 프로세스에 대해서 살펴보고자 합니다. 

 

데이터합성에서 프로세스라 함은, 원 데이터의 분포와 구조가 모델링되어 합성 데이터도 같은 성질을 부여하고자 하는 것입니다. 이번 장에서 살펴보고자 하는 것이 데이터의 분포입니다.

 

데이터의 분포

데이터는 다양한 분포를 갖습니다. 여러 성질이 존재하는 만큼 그 형태도 다양한 것입니다. 수치형 데이터는 고등학교 수학에서 배웠던 정규분포부터, 베이즈, 푸아송, 로그분포 등 다양한 종류의 통계적인 분포가 있습니다. 

 

이외에도 범주형 데이터의 특징을 책에서는 "요인분포"로 설명하고 있습니다. 범주형 데이터는 크게

  • 출생, 결혼, 사망 등의 순서가 있는 경우 (Sequence)

  • 요일처럼 준 시퀀스가 있는 경우 (Semi-Sequence)

  • 순서가 없는 경우 (색상, 종류 등..)

세 가지로 나눌 수 있습니다. 범주형 데이터는 일반적인 분석기법에 그대로 활용하는 것이 아니라, 숫자로의 변환을 거쳐야 합니다. 가장 많이 활용되는 것이 표현하고자 하는 인덱스를 1로, 나머지를 0으로 두는 One-Hot Encoding입니다. 컬럼에 0아니면 1이고, 확률로 나타낼 수 있다는 장점이 있으나, 데이터의 범주가 많을 경우 그 만큼 컬럼이 늘어나면서 데이터가 커지기 때문에 주의해야 합니다.

 

이외에도 시계열 데이터나, 구조화가 가능한 비정형 데이터가 활용될 수 있습니다.

 

실제 데이터에 분포 적합시키기

모든 데이터가 한가지 분포, 일변량 분포로 설명되지 않는 경우가 많습니다. 때문에 다차원을 고려하는 다변량 확률분포가 많이 활용됩니다.

 

확률분포로 부터 데이터를 생성한다는 것은, 분포로부터 데이터를 샘플링한다는 의미입니다. 데이터와 확률분포가 얼마나 잘 맞는지는 여러 통계적인 측정방법이 있습니다. 그 중 카이-제곱 검정과 콜모고로프-스미르노프 테스트가 많이 활용됩니다.

 

 

 

 

Comments