'책 리뷰/머신러닝을 위한 실전 데이터셋' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

목록책 리뷰/머신러닝을 위한 실전 데이터셋 (6)

유승훈

머신러닝을 위한 실전 데이터셋(6) - 합성 데이터의 신원 식별

본 도서는 한빛미디어 도서 서평단 로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다. 앞장에서는 데이터 합성이 실제로 어떻게 이루어지는지를 살펴보았습니다. 이번 장에서는 데이터 합성에서 큰 이슈인 합성 데이터의 개인정보, 프라이버시 문제에 대해서 다루고 있습니다. 합성데이터와 원본 데이터는 1-1로 매칭되지는 않기 때문에, 개인정보 위험을 무시해도 된다는 통념이 있습니다. 하지만 합성 데이터를 생성하는 과정에서 모델이 실제 데이터에 과적합 될 수 있습니다. 과적합된 모델을 통해 생성된 합성 데이터는 실제 데이터에 매핑될 가능성이 존재합니다. 노출 유형 합성 데이터에서도 다양한 방식으로 개인정보, 프라이버시 이슈가 있을 수 있습니다. 신원 노출, 조합을 통핸 새로운 정보 ..

책 리뷰/머신러닝을 위한 실전 데이터셋 2021. 2. 22. 00:25

머신러닝을 위한 실전 데이터셋(5) - 데이터 합성 방법

본 도서는 한빛미디어 도서 서평단 로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다. 앞장에서는 실제 데이터의 대체제로서의 합성 데이터가 얼마나 실제 데이터를 대체할 수 있는가를 평가하는 "효용성"에 대해 알아보았습니다. 이번 장에서는 데이터 합성이 어떻게 이루어지는지를 보고자 합니다. 합성데이터 생성 이론 다변량 정규분포에서의 표본추출 - 변수의 분포가 정규분포임을 알고 있을 때 효과적입니다. 지정된 한계 분포로부터의 상관관계 유도 - 전통적인 통계분포(정규분포, 지수분포 등)에서 데이터를 샘플링하면서 원하는 상관관계를 유도합니다. 이 또한 실제 데이터가 전통적인 분포들에 적합한 경우에 효과적입니다. 코플러 - 합성하는 변수들의 상관관계를 유지하는 한계분포를 모델링합니..

책 리뷰/머신러닝을 위한 실전 데이터셋 2021. 2. 22. 00:17

머신러닝을 위한 실전 데이터셋(4) - 합성 데이터의 효용성 평가

본 도서는 한빛미디어 도서 서평단 로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다. 앞장에서는 데이터를 합성하는데 있어 원 데이터의 분포를 어떤 방식으로 활용하고 있는지를 보았습니다. 이번 장에서는 합성 데이터의 효용성 평가에 대해서 소개하고자 합니다. 합성 데이터의 효용성 합성 데이터의 효용성이 중요하다는 것은 앞서 계속해서 언급된 바 있습니다. 다시한번 정리하면, 합성 데이터와 원본 데이터에 동일한 분석 방법을 적용했을 때, 유사한 분석결과를 내는 것을 의미합니다. 꼭 정확히 일치하지는 않아도 됩니다. 데이터가 합성된 뒤에 소비자, 혹은 분석가가 어떻게 사용할지를 알고 있다면, 그에 맞는 효용성 높은 합성을 할 수 있지만, 이를 아는 경우는 거의 없습니다. 합성 데..

책 리뷰/머신러닝을 위한 실전 데이터셋 2021. 2. 21. 15:55

머신러닝을 위한 실전 데이터셋(3) - 시작: 분포적합

본 도서는 한빛미디어 도서 서평단 로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다. 앞장에서는 데이터 합성에 있어 신경써야할 주요 사항들에 대해서 소개하고, 합성 프로세스에 대해서 소개했습니다. 이번장에서는 데이터 합성의 두 요소인 프로세스와 구조 중에서 프로세스에 대해서 살펴보고자 합니다. 데이터합성에서 프로세스라 함은, 원 데이터의 분포와 구조가 모델링되어 합성 데이터도 같은 성질을 부여하고자 하는 것입니다. 이번 장에서 살펴보고자 하는 것이 데이터의 분포입니다. 데이터의 분포 데이터는 다양한 분포를 갖습니다. 여러 성질이 존재하는 만큼 그 형태도 다양한 것입니다. 수치형 데이터는 고등학교 수학에서 배웠던 정규분포부터, 베이즈, 푸아송, 로그분포 등 다양한 종류의 ..

책 리뷰/머신러닝을 위한 실전 데이터셋 2021. 2. 20. 19:39

Prev 1 2 Next

목록책 리뷰/머신러닝을 위한 실전 데이터셋 (6)

유승훈

티스토리툴바