유승훈

데이터가 뛰어노는 AI 놀이터, 캐글 리뷰 본문

책 리뷰/종합 리뷰

데이터가 뛰어노는 AI 놀이터, 캐글 리뷰

seunghuni96 2021. 6. 21. 04:00

본 도서는 한빛미디어 도서 서평단 <나는 리뷰어다 2021>로 선정되어 받은 도서입니다.

최근에는 캐글 뿐 아니라 데이콘, 빅콘테스트, 기타 공모전 등 다양한 곳에서 데이터와 관련한 경진대회들이 열리고 있습니다. 캐글은 그 중에서도 세계적으로 유명한 플랫폼이죠. 이 책은 예측모델 경진대회에 참가하기 위한 전반적인 흐름을 다루고 있습니다.

 

처음에는 경진대회가 무엇인지, 어떤 흐름으로 이루어지는지에 대해 소개합니다. 대회의 종류와 방식, 좋은 성과를 내는 것, 즉 상위권에 드는 것이 어떤 의미를 갖는지, 평가는 어떻게 이루어지는지 등에 대한 이야기입니다. 그 다음에는 예측 모델을 만드는 일반적인 순서대로 진행됩니다.

 

결측값 처리, 변수 변환, 집계 등의 Feature(변수) 처리, 모델을 만들고, 그 성능을 평가하는 방식, 그리고 보다 더 나은 예측 성능을 위해 모델의 파라미터를 튜닝하고, 여러 모델들을 합쳐 예측하는 앙상블에 대한 내용들이 각 챕터별로 소개되어 있습니다.

 

캐글 뿐 아니라 다른 예측 모델 경진대회에도 적용할 수 있는 방법들이어서 좋았습니다. 단계별로 많이 쓰이는 방법들, 또 많이 쓰이지 않더라도 활용 가능한 방법들이 소개되고 있습니다. 초보자들을 위한 책이라고 소개되고 있는데, 꼭 캐글이 아니더라도 데이터 경진대회에 참가하여 결과물을 제출해 본 뒤에 책을 보면서 공부하는 것도 좋을 것 같다는 생각이 들었습니다. 대회에 참가할 때 종종 들춰보게 될 것 같아요.

Comments