유승훈

Intro to machine learning - (5) Datasets and Questions 본문

강의정리/udacity - machine learning

Intro to machine learning - (5) Datasets and Questions

seunghuni96 2021. 1. 11. 23:40

이번 챕터는 강의가 별로 없었습니다. 간단한 내용을 소개하고, Enron Dataset을 활용하여 퀴즈를 푸는 식이었습니다. 챕터라기 보다는 앞의 챕터에서 부족했던 내용을 살짝 보충하는 느낌이었네요.

 

파산한 Enron이라는 회사의 이메일 데이터를 소개하고 있습니다. 이 회사는 기업사기, 비리의 대표적인 사례로 꼽히고 있는데, 메일 데이터를 통해 사람들이 보고자 하는 것은 여러가지가 있을 수 있습니다.

 

범죄혐의가 발각되어 기소된 사람일 수 있고, 벌금만 내고 기소되지 않고 나온 사람일 수 있고, 아니면 면죄를 대가로 증언을 한 사람일수도 있습니다. 어떤 사람을 분류해내느냐에 따라서 Task가 달라집니다.

 

 

다음으로는 Train Data의 Size에 대해 이야기하고 있습니다.

Enron 데이터를 통해 분류문제를 풀 때, 1000개의 데이터 중 800개는 Train, 200개는 Test로 나누어 사용했다고 합니다.

800개의 Train Data를 다시 200개씩 나누어서 학습에 활용했는데, Train Data의 크기가 커질때마다 Test Data를 통해 검증한 성능이 계속해서 좋아지는 것을 볼 수 있습니다. 단계적으로 Train Data만 추가했을 뿐, 다른 처리는 하지 않았다고 합니다.

 

물론 충분한 데이터가 확보되어 있을 때에는 문제가 되지 않지만, 많은 Train Data를 확보하는 것은 알고리즘의 성능에 큰 도움이 된다고 이야기합니다.

 

 

마지막으로는 Data의 Type에 대해 소개합니다. Numerical, Categorical, Time Series, Text 네 가지가 있습니다.

 

Numerical Data는 말 그대로 숫자 데이터입니다. 키, 몸무게 등의 연속형 변수가 있고, 맞은 문제의 수, 만난 사람의 수 등의 이산형 변수로 나눌 수 있습니다. 약간 헷갈릴 수 있는데, 변수가 어떤 구간 안의 모든 값을 가질 수 있다면 연속형, 취할 수 있는 값을 하나하나 셀 수 있다면 이산형 변수로 분류합니다.

 

Categorical Data는 특성을 나타냅니다. 성별, 고향, 학력, 환자의 상태 등이 있을 수 있죠. Categorical Data도 숫자값을 가질 수 있는데, 여기서는 수학적인 의미를 갖지는 않기 때문에 우리가 Numeric Data에서 하는 더하기, 평균, 순서 등의 처리를 할 수는 없습니다. 성별, 고향처럼 크기나 숫자의 의미가 없는 변수가 있고, 학력, 환자의 상태같이 크기나 순서가 의미를 갖는 변수가 있습니다.

 

Time Series는 말 그대로 시간의 흐름에 따라 쌓인 데이터입니다. 금융이나 주식에서 상당히 많이 쓰이는 Data Type입니다.

 

마지막으로 Text는 말 그대로 Text Data입니다.

Comments