일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 데이터분석
- regression
- feature scaling
- 주피터테마
- GitHub
- Git
- deep learning
- overfitting
- Machine Learning
- jupytertheme
- 주피터노트북
- MySQL
- 주피터노트북 커널 목록
- pandas
- random forest
- ubuntu
- lol api
- 회귀분석
- 주피터 노트북 테마
- 경사하강법
- deeplearning
- Udacity
- 한빛미디어
- Python
- 모두를 위한 딥러닝
- 주피터노트북 커널 제거
- 딥러닝
- 주피터노트북 커널 추가
- 나는리뷰어다2021
- Linear Regression
- Today
- Total
목록전체 글 (73)
유승훈

Python에서 range 함수를 많이 씁니다. 숫자 리스트 자체를 만들어서 쓰기도 하고, For loop를 통해서 편리하게 인자를 전달 할 수 있습니다. 보통은 정수값을 넣어서 쓰는 경우가 많은데, 종종 위와 같이 실수 데이터 처리가 필요한 경우도 있습니다. 그럴 때 range에 실수를 넣으면 "TypeError: 'float' object cannot be interpreted as an integer" 이런 에러가 발생합니다. "float을 integer로 해석할 수 없다"는 것인데, 이유가 무엇일까요? range는 정수형만을 인자로 받습니다. 따라서 실수는 처리할수가 없는 것이죠. 이럴때 Numpy의 arrange를 사용할 수 있습니다. range와 비슷하지만 몇가지 차이점이 있습니다. 1. ra..

Cameron과 Sarah의 몸무게, 키, 옷 사이즈 데이터가 있습니다. 새로운 사람인 Chris의 몸무게, 키를 기반으로 옷 사이즈를 예측하고자 한다. 보면 Chris의 키와 몸무게가 Sarah보다는 Cameron과 가깝기 때문에 L 사이즈의 옷을 입어야 할 것 같네요.(S,L 사이즈만 있고, M은 없습니다.) 하지만 우리가 가진 데이터가 키와 몸무게라는 사전지식이 없다고 생각해봅시다. 단순히 숫자로만 보고 키+몸무게를 평가지표로 활용하면, Chris의 키+몸무게가 Cameron의 합 보다는 Sarah의 합과의 차이가 적은 것을 볼 수 있습니다. 그럼 Cameron은 S 사이즈의 옷을 입어야 할까요? 왜 같은 데이터임에도 이런 차이를 보이는 걸까요? 이는 키와 몸무게의 단위 차이에 있습니다. 키는 대략..

Clustering은 Unsupervised Learning, 비지도학습 중 하나입니다. 정답이나 Label이 따로 존재하지 않고, 데이터에서 구조나 패턴을 발굴하는 것이 목표입니다. 첫번째 Plot은 데이터를 크게 3개의 그룹으로 묶어볼 수 있습니다. 나중에 새로운 데이터가 들어왔을 때, 그 데이터의 주변에 있는 데이터에 따라 어떤 그룹에 속할지를 정할 수 있습니다. 이러한 Task는 Clustering이라고 합니다. 두번째 Plot은 데이터가 두개의 차원으로 그려져있습니다. 고차원의 데이터가 연관성이 높은 경우, 저차원으로 변환하면서 연관성을 낮추는 처리를 할 수 있습니다. 이러한 Task는 Dimensionality Reduction, 차원축소라고 합니다. Clustering에 대해서 먼저 살펴보면..

이번 강의에서는 이상치, Outlier에 대해 설명하고 있습니다. Outliers, 이상치는 "평균적인 데이터의 패턴과 많이 다른 형태의 데이터"로 정의할 수 있습니다. 위의 데이터에서는 연두색으로 표시한 데이터를 이상치로 볼 수 있습니다. Outlier 하나 때문에 나머지 데이터를 잘 설명하는 Line C에서 Line A로 회귀선이 변화하는 것을 볼 수 있습니다. 이처럼 Outlier는 모델의 Error를 증가시키기도 하고, 설명력을 감소시킵니다. 회귀분석이나 분산분석같은 통계적인 기본가정들을 훼손할수도 있습니다. Outlier가 생기는 이유에 대해서 이야기해보자면, 데이터를 수집, 입력, 샘플링하는 과정에서 발생할수도 있고, 별다른 이유없이 자연적으로 생기는 경우도 있습니다. 센서 오작동이나 데이터의..