일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 모두를 위한 딥러닝
- Udacity
- 주피터노트북 커널 추가
- MySQL
- 주피터노트북 커널 제거
- pandas
- 데이터분석
- 한빛미디어
- 주피터노트북
- regression
- lol api
- 경사하강법
- overfitting
- ubuntu
- Linear Regression
- 주피터 노트북 테마
- deep learning
- 딥러닝
- 주피터테마
- 주피터노트북 커널 목록
- 회귀분석
- Git
- Python
- random forest
- GitHub
- 나는리뷰어다2021
- jupytertheme
- feature scaling
- deeplearning
- Machine Learning
- Today
- Total
유승훈
머신러닝을 위한 실전 데이터셋(4) - 합성 데이터의 효용성 평가 본문
본 도서는 한빛미디어 도서 서평단 <나는 리뷰어다 2021>로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다.
앞장에서는 데이터를 합성하는데 있어 원 데이터의 분포를 어떤 방식으로 활용하고 있는지를 보았습니다.
이번 장에서는 합성 데이터의 효용성 평가에 대해서 소개하고자 합니다.
합성 데이터의 효용성
합성 데이터의 효용성이 중요하다는 것은 앞서 계속해서 언급된 바 있습니다. 다시한번 정리하면, 합성 데이터와 원본 데이터에 동일한 분석 방법을 적용했을 때, 유사한 분석결과를 내는 것을 의미합니다. 꼭 정확히 일치하지는 않아도 됩니다. 데이터가 합성된 뒤에 소비자, 혹은 분석가가 어떻게 사용할지를 알고 있다면, 그에 맞는 효용성 높은 합성을 할 수 있지만, 이를 아는 경우는 거의 없습니다.
합성 데이터의 효용성 평가에는 다양한 방법들이 활용되고 있고, 그 방법들을 여기서 살펴보고자 합니다.
합성 데이터의 효용성 프레임워크
분석 복제
분석 복제는 원본 데이터와 합성 데이터에 동일한 프로세스를 적용한다고 했을 때, 동일한 결과를 내는가?를 평가합니다. 이를 통해 합성 데이터가 실제 데이터를 대체할 수 있는가를 평가합니다. 책에서는 의사결정나무 모델을 활용하여 데이터를 비교했습니다. 그 결과 실제 데이터와 합성 데이터가 동일한 의사결정나무를 만들었고, 트리모델에서 볼 수 있는 Feature Importance의 순서 또한 정확하게 일치했습니다.
효용성 메트릭
이는 통계적인 분포를 기반으로 합니다. 간단하게는 일변량 분포를 비교할수도 있고, 그 외에 IQR, 상관계수, MAD등 다양한 통계적인 지표를 활용할 수 있습니다. 데이터 분석의 EDA에서 활용하는 Histogram, Boxplot 같은 시각화를 통한 비교도 가능하지만, 진단, 의심 정도일 뿐 시각화만을 기반으로 결정하는 것은 좋은 방법이 아닙니다.
예측모델에서의 정확도
직접 예측모델을 사용하여 정확도를 측정할수도 있습니다. 하지만 데이터 분석에는 다양한 모델이 활용되고 있기 때문에, 어떤 모델이 활용될 것인지를 딱 짚어서 측정하는것은 어렵습니다. 따라서 "모든 모델 테스트"를 하곤 합니다.
구별가능성
예측모델을 통해 원본 데이터와 합성 데이터의 구별 가능성을 보기도 합니다. 우리가 흔히 아는 Binary Classification을 하듯이 원본 데이터와 합성 데이터를 분류하는 모델을 만들어서 분류가 잘 되는지, 아닌지를 보는 것입니다.
'책 리뷰 > 머신러닝을 위한 실전 데이터셋' 카테고리의 다른 글
머신러닝을 위한 실전 데이터셋(6) - 합성 데이터의 신원 식별 (0) | 2021.02.22 |
---|---|
머신러닝을 위한 실전 데이터셋(5) - 데이터 합성 방법 (0) | 2021.02.22 |
머신러닝을 위한 실전 데이터셋(3) - 시작: 분포적합 (0) | 2021.02.20 |
머신러닝을 위한 실전 데이터셋(2) - 데이터 합성 (0) | 2021.02.20 |
머신러닝을 위한 실전 데이터셋(1) - 합성데이터 생성 소개 (0) | 2021.02.04 |