일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- pandas
- 주피터노트북 커널 추가
- lol api
- regression
- GitHub
- 주피터 노트북 테마
- 회귀분석
- Machine Learning
- 주피터노트북
- 주피터노트북 커널 목록
- deep learning
- deeplearning
- 한빛미디어
- 주피터노트북 커널 제거
- 딥러닝
- Linear Regression
- ubuntu
- MySQL
- 데이터분석
- 경사하강법
- Python
- overfitting
- jupytertheme
- 모두를 위한 딥러닝
- feature scaling
- 주피터테마
- random forest
- Udacity
- Git
- 나는리뷰어다2021
- Today
- Total
목록Udacity (11)
유승훈
이번 강의에서는 Text 데이터를 처리하는 것에 대해 소개했습니다. seunghunii/simple_examples Contribute to seunghunii/simple_examples development by creating an account on GitHub. github.com 보통은 예제코드가 간단하게 모델 돌려보는 정도여서 따로 정리하지 않았는데, 이번에는 처음보는 코드여서 Jupyter에 정리해두었습니다. 실습에서 사용한 코드 전체는 위의 링크에서 확인할 수 있습니다. Text데이터를 SVM같은 알고리즘에 활용하려면 어떻게 처리해야할까요? 기본적으로 모든 문서의 길이는 같지 않습니다. 때문에 개별적인 Feature로 만들기가 쉽지 않습니다. 그래서, 우리는 Bag of words라는 것..
Cameron과 Sarah의 몸무게, 키, 옷 사이즈 데이터가 있습니다. 새로운 사람인 Chris의 몸무게, 키를 기반으로 옷 사이즈를 예측하고자 한다. 보면 Chris의 키와 몸무게가 Sarah보다는 Cameron과 가깝기 때문에 L 사이즈의 옷을 입어야 할 것 같네요.(S,L 사이즈만 있고, M은 없습니다.) 하지만 우리가 가진 데이터가 키와 몸무게라는 사전지식이 없다고 생각해봅시다. 단순히 숫자로만 보고 키+몸무게를 평가지표로 활용하면, Chris의 키+몸무게가 Cameron의 합 보다는 Sarah의 합과의 차이가 적은 것을 볼 수 있습니다. 그럼 Cameron은 S 사이즈의 옷을 입어야 할까요? 왜 같은 데이터임에도 이런 차이를 보이는 걸까요? 이는 키와 몸무게의 단위 차이에 있습니다. 키는 대략..
Clustering은 Unsupervised Learning, 비지도학습 중 하나입니다. 정답이나 Label이 따로 존재하지 않고, 데이터에서 구조나 패턴을 발굴하는 것이 목표입니다. 첫번째 Plot은 데이터를 크게 3개의 그룹으로 묶어볼 수 있습니다. 나중에 새로운 데이터가 들어왔을 때, 그 데이터의 주변에 있는 데이터에 따라 어떤 그룹에 속할지를 정할 수 있습니다. 이러한 Task는 Clustering이라고 합니다. 두번째 Plot은 데이터가 두개의 차원으로 그려져있습니다. 고차원의 데이터가 연관성이 높은 경우, 저차원으로 변환하면서 연관성을 낮추는 처리를 할 수 있습니다. 이러한 Task는 Dimensionality Reduction, 차원축소라고 합니다. Clustering에 대해서 먼저 살펴보면..
이번 강의에서는 이상치, Outlier에 대해 설명하고 있습니다. Outliers, 이상치는 "평균적인 데이터의 패턴과 많이 다른 형태의 데이터"로 정의할 수 있습니다. 위의 데이터에서는 연두색으로 표시한 데이터를 이상치로 볼 수 있습니다. Outlier 하나 때문에 나머지 데이터를 잘 설명하는 Line C에서 Line A로 회귀선이 변화하는 것을 볼 수 있습니다. 이처럼 Outlier는 모델의 Error를 증가시키기도 하고, 설명력을 감소시킵니다. 회귀분석이나 분산분석같은 통계적인 기본가정들을 훼손할수도 있습니다. Outlier가 생기는 이유에 대해서 이야기해보자면, 데이터를 수집, 입력, 샘플링하는 과정에서 발생할수도 있고, 별다른 이유없이 자연적으로 생기는 경우도 있습니다. 센서 오작동이나 데이터의..