일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- regression
- Git
- deep learning
- 주피터노트북 커널 제거
- pandas
- feature scaling
- Udacity
- 주피터노트북 커널 목록
- MySQL
- 주피터테마
- 나는리뷰어다2021
- 모두를 위한 딥러닝
- ubuntu
- GitHub
- deeplearning
- 딥러닝
- Machine Learning
- lol api
- Linear Regression
- Python
- 주피터노트북 커널 추가
- random forest
- overfitting
- 한빛미디어
- 주피터노트북
- 데이터분석
- 회귀분석
- 주피터 노트북 테마
- jupytertheme
- 경사하강법
- Today
- Total
목록전체 글 (73)
유승훈

본 글은 모두를 위한 딥러닝 강의를 듣고 작성한 글입니다. 우리가 쓰는 많은 App, 서비스들은 Explicit Programming인 경우가 많습니다. 즉, 상황에 따른 입력, 출력, 데이터 처리 등이 다 프로그래밍 되어 있는 것입니다. 하지만 사회가 계속해서 발전하면서 그에 따른 문제도 다양하고 복잡하게 발전하고 있습니다. 모든 Task를 명시적으로 프로그래밍 할 수가 없게 된 것입니다. 경우의 수가 너무 많은 경우도 있고, 규칙이 너무 많아서 프로그래밍 할 수가 없는 경우도 있습니다. 이에 1959년, Arthur Samuel이라는 교수님이 일일히 프로그래밍하지 않고, 자료나 현상에서 컴퓨터가 직접 배우게 하면 어떨까?한 것이 머신러닝의 시작입니다. 이 배우는 것, "학습"을 위해서는 어떤 데이터가..

본 도서는 한빛미디어 도서 서평단 로 선정되어 받은 도서입니다. 리뷰 작성 겸 각 챕터를 간단하게 정리해보고자 합니다. 기계학습 기술이 계속된 발전을 거듭하면서, 더 복잡한 문제를 풀고자 하는 시도가 계속되고 있습니다. 이는 당연히 풀고자 하는 문제에 맞는 고품질의 데이터를 필요로 하지만, 이러한 데이터를 항상 확보할 수 있는 것은 아닙니다. 따라서 데이터 합성기술을 통해 문제를 해결하고자 하는 시도가 계속되고 있습니다. 합성데이터란? 개념적인 정의는, 실제 데이터는 아니지만, 실제 데이터를 기반으로 생성된 데이터입니다. 이는 실제 데이터와 동일한 통계적인 속성을 갖습니다. 합성 데이터, 즉 가상으로 만들어진 이 데이터가 실제 데이터를 얼마나 대체할 수 있는가는 '효용성 척도'로 나타냅니다. 합성 데이터..

강의는 지난번 Evaluation Metrics에서 사실상 끝났고, 이번에는 Wrap-up 느낌의 챕터입니다. 강의에서 배웠던 Task 프로세스를 보면, 데이터나 연구 호기심으로부터 정보를 Feature의 형태로 가져옵니다. 가지고 있는 데이터를 알고리즘에 넣고 훈련시킨 뒤, 결과 혹은 성능을 평가하는 과정을 거칩니다. 필요에 따라 변수 생성, 모델 훈련 단계로 다시 돌아와서 필요하다고 판단되는 처리를 한 뒤, 다시 진행할수도 있습니다. 이를 단계별로 살펴보면, 데이터셋/연구 호기심 단계에서는 충분한 양의 데이터를 가지고 있는가? 문제를 제대로 정의하고 있는가? 우리가 가진 문제에 제대로 답할 수 있는 충분한/올바른 변수를 가지고 있는가? 이 세 가지를 유념해야 합니다. 분석 전에 어떤 방향으로 분석을 ..

앞에서 배웠던 머신러닝 알고리즘들을 학습시키는 것도 중요하지만, 결과를 비교, 평가하고 어떤 것을 실제로 활용할 것인지를 결정하는 것도 중요합니다. Classification에서 가장 직관적으로 분류 성능을 나타내는 지표는 Accuracy입니다. $\frac{TP + TN}{TP + FP + TN + FN}$ 전체 Class 중에서 Class와 상관없이 올바르게 분류된 Class의 비율을 의미합니다. 많이 쓰이는 평가지표이지만, 단점이 없는 것은 아닙니다. 불균형 Class에는 올바르지 않다. => 작은 Class의 분모는 매우 작기 때문에, 많은 Class의 Accuracy보다 평가지표로서의 신뢰성이 떨어집니다. 예를 들어, 암 발병 여부를 예측한다고 하면, 양성보다 음성인 사람들의 수가 많기 때문에 ..