일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Udacity
- deep learning
- regression
- 주피터노트북 커널 추가
- overfitting
- feature scaling
- lol api
- 주피터 노트북 테마
- deeplearning
- 주피터노트북 커널 제거
- 경사하강법
- 주피터노트북 커널 목록
- 모두를 위한 딥러닝
- GitHub
- ubuntu
- Linear Regression
- 한빛미디어
- 주피터노트북
- 딥러닝
- Python
- random forest
- 주피터테마
- Machine Learning
- 데이터분석
- 나는리뷰어다2021
- Git
- pandas
- jupytertheme
- MySQL
- 회귀분석
- Today
- Total
목록책 리뷰/머신러닝을 위한 실전 데이터셋 (6)
유승훈

본 도서는 한빛미디어 도서 서평단 로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다. 앞장에서는 데이터 합성이 실제로 어떻게 이루어지는지를 살펴보았습니다. 이번 장에서는 데이터 합성에서 큰 이슈인 합성 데이터의 개인정보, 프라이버시 문제에 대해서 다루고 있습니다. 합성데이터와 원본 데이터는 1-1로 매칭되지는 않기 때문에, 개인정보 위험을 무시해도 된다는 통념이 있습니다. 하지만 합성 데이터를 생성하는 과정에서 모델이 실제 데이터에 과적합 될 수 있습니다. 과적합된 모델을 통해 생성된 합성 데이터는 실제 데이터에 매핑될 가능성이 존재합니다. 노출 유형 합성 데이터에서도 다양한 방식으로 개인정보, 프라이버시 이슈가 있을 수 있습니다. 신원 노출, 조합을 통핸 새로운 정보 ..

본 도서는 한빛미디어 도서 서평단 로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다. 앞장에서는 실제 데이터의 대체제로서의 합성 데이터가 얼마나 실제 데이터를 대체할 수 있는가를 평가하는 "효용성"에 대해 알아보았습니다. 이번 장에서는 데이터 합성이 어떻게 이루어지는지를 보고자 합니다. 합성데이터 생성 이론 다변량 정규분포에서의 표본추출 - 변수의 분포가 정규분포임을 알고 있을 때 효과적입니다. 지정된 한계 분포로부터의 상관관계 유도 - 전통적인 통계분포(정규분포, 지수분포 등)에서 데이터를 샘플링하면서 원하는 상관관계를 유도합니다. 이 또한 실제 데이터가 전통적인 분포들에 적합한 경우에 효과적입니다. 코플러 - 합성하는 변수들의 상관관계를 유지하는 한계분포를 모델링합니..

본 도서는 한빛미디어 도서 서평단 로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다. 앞장에서는 데이터를 합성하는데 있어 원 데이터의 분포를 어떤 방식으로 활용하고 있는지를 보았습니다. 이번 장에서는 합성 데이터의 효용성 평가에 대해서 소개하고자 합니다. 합성 데이터의 효용성 합성 데이터의 효용성이 중요하다는 것은 앞서 계속해서 언급된 바 있습니다. 다시한번 정리하면, 합성 데이터와 원본 데이터에 동일한 분석 방법을 적용했을 때, 유사한 분석결과를 내는 것을 의미합니다. 꼭 정확히 일치하지는 않아도 됩니다. 데이터가 합성된 뒤에 소비자, 혹은 분석가가 어떻게 사용할지를 알고 있다면, 그에 맞는 효용성 높은 합성을 할 수 있지만, 이를 아는 경우는 거의 없습니다. 합성 데..

본 도서는 한빛미디어 도서 서평단 로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다. 앞장에서는 데이터 합성에 있어 신경써야할 주요 사항들에 대해서 소개하고, 합성 프로세스에 대해서 소개했습니다. 이번장에서는 데이터 합성의 두 요소인 프로세스와 구조 중에서 프로세스에 대해서 살펴보고자 합니다. 데이터합성에서 프로세스라 함은, 원 데이터의 분포와 구조가 모델링되어 합성 데이터도 같은 성질을 부여하고자 하는 것입니다. 이번 장에서 살펴보고자 하는 것이 데이터의 분포입니다. 데이터의 분포 데이터는 다양한 분포를 갖습니다. 여러 성질이 존재하는 만큼 그 형태도 다양한 것입니다. 수치형 데이터는 고등학교 수학에서 배웠던 정규분포부터, 베이즈, 푸아송, 로그분포 등 다양한 종류의 ..