Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Linear Regression
- 주피터노트북 커널 제거
- Git
- 한빛미디어
- Python
- 회귀분석
- 주피터노트북 커널 목록
- 주피터테마
- 나는리뷰어다2021
- feature scaling
- 모두를 위한 딥러닝
- Machine Learning
- 딥러닝
- 주피터노트북
- jupytertheme
- ubuntu
- 데이터분석
- GitHub
- MySQL
- 경사하강법
- lol api
- Udacity
- pandas
- deep learning
- random forest
- 주피터노트북 커널 추가
- 주피터 노트북 테마
- deeplearning
- regression
- overfitting
Archives
- Today
- Total
유승훈
머신러닝을 위한 실전 데이터셋(5) - 데이터 합성 방법 본문
본 도서는 한빛미디어 도서 서평단 <나는 리뷰어다 2021>로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다.
앞장에서는 실제 데이터의 대체제로서의 합성 데이터가 얼마나 실제 데이터를 대체할 수 있는가를 평가하는 "효용성"에 대해 알아보았습니다. 이번 장에서는 데이터 합성이 어떻게 이루어지는지를 보고자 합니다.
합성데이터 생성 이론
다변량 정규분포에서의 표본추출 - 변수의 분포가 정규분포임을 알고 있을 때 효과적입니다.
지정된 한계 분포로부터의 상관관계 유도 - 전통적인 통계분포(정규분포, 지수분포 등)에서 데이터를 샘플링하면서 원하는 상관관계를 유도합니다. 이 또한 실제 데이터가 전통적인 분포들에 적합한 경우에 효과적입니다.
코플러 - 합성하는 변수들의 상관관계를 유지하는 한계분포를 모델링합니다.
실제 합성 데이터 생성
전통적인 분포, 머신러닝, 딥러닝 등의 다양한 합성 방법론이 연구되었고, 실제로 활용되고 있습니다. 합성한 후 효용성 퍙가에 있어 상관관계, 구별가능성 모델링 등이 사용됩니다.
다양한 방법들이 연구, 활용되고 있지만, 데이터의 유형이나 소모 비용, 시간 등을 종합적으로 고려한 선택이 필요합니다.
'책 리뷰 > 머신러닝을 위한 실전 데이터셋' 카테고리의 다른 글
머신러닝을 위한 실전 데이터셋(6) - 합성 데이터의 신원 식별 (0) | 2021.02.22 |
---|---|
머신러닝을 위한 실전 데이터셋(4) - 합성 데이터의 효용성 평가 (0) | 2021.02.21 |
머신러닝을 위한 실전 데이터셋(3) - 시작: 분포적합 (0) | 2021.02.20 |
머신러닝을 위한 실전 데이터셋(2) - 데이터 합성 (0) | 2021.02.20 |
머신러닝을 위한 실전 데이터셋(1) - 합성데이터 생성 소개 (0) | 2021.02.04 |
Comments