일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- GitHub
- 경사하강법
- 주피터 노트북 테마
- 주피터노트북
- 딥러닝
- 주피터노트북 커널 목록
- 데이터분석
- 주피터노트북 커널 제거
- ubuntu
- 모두를 위한 딥러닝
- regression
- deeplearning
- MySQL
- 나는리뷰어다2021
- overfitting
- pandas
- random forest
- jupytertheme
- Machine Learning
- Udacity
- 주피터노트북 커널 추가
- 한빛미디어
- deep learning
- Linear Regression
- 회귀분석
- 주피터테마
- lol api
- Python
- Git
- feature scaling
- Today
- Total
목록regression (3)
유승훈

Feature Selection의 기본은 우리가 가진 데이터의 트렌드와 패턴을 잘 파악할 수 있는 최소한의 변수를 선택하는 것입니다. 우리의 Machine Learning Algorithm은 우리가 넣은 Feature들이 좋은 만큼 좋은 성능을 내기 때문입니다. 좋지 않은 Feature는 오히려 Algorithm의 성능을 떨어뜨릴 수 있습니다. "Garbage in, Gabage out"이라는 말이 있죠. Feature Selection은 크게 두 개의 Task가 있습니다. 첫번째는 최고의 Feature들을 고르는 것입니다. 이는 도움이 되지 않는 Feature를 제거하는 것이기도 합니다. 두번째는 새로운 Feature를 만드는 것입니다. 우리가 데이터에서 끌어낸 패턴을 새로운 Feature로 추가하는 ..

앞선 글에서 이어집니다. Intro to machine learning - (6) Regression(1) 이번 챕터는 회귀분석에 대한 내용입니다. 보충이 필요한 내용은 학교에서 들었던 회귀분석 강의 내용을 첨부했습니다. 이전 강의에서 배웠던 알고리즘들이 이산형 Y 문제를 푸는 것들이었습니 seunghuni96.tistory.com 두 그래프에 있는 회귀식(회귀선)의 성능은 비슷해보여도, 큰 차이가 있습니다. 앞서 언급했던 SSE로 비교를 해 보면, 왼쪽보다 오른쪽 그래프의 SSE가 더 큽니다. 데이터가 많기 때문에 실제 데이터와 회귀식으로 예측한 값의 차이의 제곱합을 계산할 때, 경우의 수 자체가 커지기 때문입니다. 이처럼 SSE는 단순히 데이터가 많아질 때 값 자체가 커진다는 단점을 갖습니다. 일반적..

이번 챕터는 회귀분석에 대한 내용입니다. 보충이 필요한 내용은 학교에서 들었던 회귀분석 강의 내용을 첨부했습니다. 이전 강의에서 배웠던 알고리즘들이 이산형 Y 문제를 푸는 것들이었습니다. 하지만 데이터로 푸는 문제가 Y를 이산형으로 가질수도 있습니다. 키, 몸무게, 집값 등등.. 이산형 Y인 문제를 푸는 알고리즘들 중 회귀분석(Regression)이 있습니다. 간단하게 데이터를 가장 잘 설명하는 선을 긋는 알고리즘이라고 이야기 할 수 있습니다. 독립변수가 하나인 단순회귀분석은 Y=aX+b의 형태로 정의됩니다. 예시에서는 Y가 net worth, X가 Age가 됩니다. 기울기(Slope)인 a는 X의 변화에 따른 Y의 변화량을 의미합니다. a가 커질수록 X의 변화에 따른 Y의 변화량은 커지고, 반대로 a가..