일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 모두를 위한 딥러닝
- deep learning
- 주피터노트북 커널 목록
- 주피터 노트북 테마
- pandas
- 데이터분석
- 주피터노트북
- overfitting
- 회귀분석
- 주피터테마
- Git
- 주피터노트북 커널 제거
- jupytertheme
- random forest
- 경사하강법
- regression
- Python
- 나는리뷰어다2021
- lol api
- ubuntu
- Machine Learning
- 딥러닝
- 한빛미디어
- GitHub
- feature scaling
- Udacity
- deeplearning
- 주피터노트북 커널 추가
- Linear Regression
- MySQL
- Today
- Total
목록회귀분석 (5)
유승훈
지난 챕터까지 선형 회귀분석에 대해 공부했습니다. 일반적인 선형 회귀분석은 회귀문제, 즉 연속형 변수를 예측하는데 사용하는 알고리즘입니다. 하지만 성공/실패, 합격/불합격, 남성/여성 등과 같이 두 Class 중 하나로 예측하는 이진분류 문제를 푸는데 회귀분석의 한 종류인 Logistic Regression을 사용할 수 있습니다. A와 B 둘 중 하나로 분류하는 Task가 이진분류, Binary Classification입니다. 시험에서는 통과/불통과, 스팸에서는 스팸/비스팸 등 두 가지 Class를 분류합니다. X변수들로 Y가 두 Class 중 어떤 것에 속할지를 예측하는 것입니다. Class가 두개가 아니라 3개, 4개로 더 많아지면 Multi-class Classification이라고 합니다. 전에..
이전에는 독립변수와 종속변수가 각각 하나씩인 Linear Regression에 대해서 살펴보았습니다. 이번에는 독립변수가 여러개인 다중회귀분석, Multi Variable Linear Regression에 대해서 살펴보겠습니다. 이전 강의에서는 공부시간(X)으로 시험점수(Y)를 설명하고자 했습니다. 하지만 시험점수는 공부시간 외에도 수업에서의 집중도, 교수님에 대한 이해, 수업의 분야, 스타일 등 여러 요소가 영향을 미칠 수 있습니다. 실제로 하나의 독립변수보다 여러개의 독립변수로 예측하는 것이 더 좋은 성능을 보입니다. 변수가 하나일때, 우리가 썼던 가설이 변수가 여러개가 되면 어떻게 될까요? 위와 같이 변수가 늘어난 만큼 가중치의 개수도 늘어납니다. Cost Function에는 바뀐 가설이 들어온 것..
본 글은 모두를 위한 딥러닝 강의를 듣고 작성한 글입니다. 앞선 강의에서 Linear Regression의 기본 개념에 대해 살펴보았습니다. 간단하게 Review하면, 이 Cost, 즉 비용이 적을수록 우리의 Line, Hypothesis가 실제 데이터를 잘 대변하고 있다고 볼 수 있습니다. Linear Regression의 목적은 Cost를 최소화하는 W와 b를 찾는 것입니다. 우리가 썼던 앞선 가정에서 y절편인 b를 생략해봅시다. 이런 식의 가정입니다. 사실 나중에 `W`가 Matrix가 되면, b를 그 안에 집어넣을 수 있으니 크게 구조가 달라진 것은 아닙니다. 주어진 데이터를 기반으로 Cost를 계산하면, W=0, Cost=4.67 W=1, Cost=0 W=2, Cost=4.67 W=3, Cost..
앞선 글에서 이어집니다. Intro to machine learning - (6) Regression(1) 이번 챕터는 회귀분석에 대한 내용입니다. 보충이 필요한 내용은 학교에서 들었던 회귀분석 강의 내용을 첨부했습니다. 이전 강의에서 배웠던 알고리즘들이 이산형 Y 문제를 푸는 것들이었습니 seunghuni96.tistory.com 두 그래프에 있는 회귀식(회귀선)의 성능은 비슷해보여도, 큰 차이가 있습니다. 앞서 언급했던 SSE로 비교를 해 보면, 왼쪽보다 오른쪽 그래프의 SSE가 더 큽니다. 데이터가 많기 때문에 실제 데이터와 회귀식으로 예측한 값의 차이의 제곱합을 계산할 때, 경우의 수 자체가 커지기 때문입니다. 이처럼 SSE는 단순히 데이터가 많아질 때 값 자체가 커진다는 단점을 갖습니다. 일반적..