머신러닝을 위한 실전 데이터셋 리뷰
본 도서는 한빛미디어 도서 서평단 <나는 리뷰어다 2021>로 선정되어 받은 도서입니다.
머신러닝, 인공지능 같이 “데이터”와 관련된 기술은 계속해서 발전하고 있습니다. 또한 그로스 해킹, 퍼포먼스 마케팅 등 다양한 영역에서 데이터를 활용하여 성과를 개선하고, 기획의 토대로 삼고 있습니다.
활용범위가 넓어지면서, 우리는 데이터를 통해 더 복잡하고, 더 어려운 문제를 풀고자 합니다. 학습이 불가능하다고 했던 MLP도 계속된 발전으로 알파고도 만들고, 텍스트로 컴퓨터에게 명령하는 것 등의 연구를 가능하게 했죠.
하지만 데이터를 활용하는 것은 개인정보, 법률, 비용, 조직문화 등 다방면의 고려가 필요합니다. 풀고자하는 문제가 복잡할 때는 그에 맞게 복잡한 데이터가 필요하고, 개인정보 등의 프라이버시 이슈를 해결해야하기도 합니다. 이럴 때 실제 데이터가 아니라 “합성 데이터”를 구축하여 실제 데이터의 대체제로서 활용하고자 하는 연구가 계속되고 있습니다.
이 책은 “합성 데이터”에 대해서 소개하고 있습니다. 고도화된 합성기법이나 기술에 대해서는 소개하고 있지 않지만, 실제 데이터를 활용하는데 어려움이 있어 합성 데이터에 대해 공부하고자 하는 분들에게는 좋은 책이라고 생각합니다.
좋았던 점은 다양한 사례를 제시한다는 점이었습니다. 우리가 데이터를 합성하는 것은 데이터를 제대로 활용하고자 함인데, 여러 분야의 산업에서는 합성 데이터가 어떻게 활용되는지, 의사결정을 할 때 분야의 특성상 고려해야할 사항은 무엇인지 등의 이야기가 있어 좋았습니다.
또한 실제 데이터를 통한 설명도 이해하는데 도움을 주었습니다.
아쉬웠던 점은 해외 서적의 번역이다보니 한국의 사례가 없다는 것이었습니다. 또한 데이터 합성에 있어 입문자들에게 많은 내용을 소개하고자 하다보니 책과 함께 추가적인 학습이 필요해보입니다.
실무에서 데이터를 보는 분석가나 기획자 등의 분들이 실제 데이터를 활용하는데 있어 겪는 불편함을 해결하고자 하는데 있어 데이터 합성을 고민한다면, 좋은 선택이 될 것이라고 생각합니다.