관심있는 것들 정리

[리뷰] 혼자 공부하는 데이터 분석 with 파이썬 본문

카테고리 없음

[리뷰] 혼자 공부하는 데이터 분석 with 파이썬

내공강화 2023. 2. 23. 19:55

 

 

한빛미디어에서 나온 머신러닝, 데이터 사이언스 관련 서적들 중 상당수가 본 책의 저자인 박해선님이 번역한 것들이었다. 책을 읽을 때마다 자연스럽고 읽기 편한 번역 내용 뿐만 아니라 곳곳마다 빽빽이 들어차있는 각주와 미주들을 보면서 도메인 지식을 제대로 가지고 번역을 하셨구나 생각을 했었고, 박해선님이 번역한 책은 믿고 사서 읽었는데, 이 책은 직접 글을 쓰신 책이라 처음부터 기대를 가지고 책을 읽기 시작했다.

 

책을 다 읽고 나서 느낀 건, 책이 목표로 하는 방향에 딱 맞게 책의 내용과 설명이 되어있다는 생각이 들었다. 간단히 책을 요약해보면 다음과 같다.

 1. 혼자 공부할 때 책이 어떻게 진행될 것이며, 각 챕터마다 어떤 내용을 다루는 지 어떤 순서로 내용이 기술되어 있는지 단순 목차가 아닌 로드맵 형식의 그림으로 한눈에 보기 쉽게 되어있다.

 2. 공부에 필요한 툴에 대해 설명하고, 어디서든 쉽게 공부할 수 있도록 코랩 사용 설명이 나옵니다.

 3. 툴은 있으니, 공부할 때 사용할 데이터는 어디서 어떻게 구하는 지 설명을 해 줍니다. 이 때 웹 스크래핑을 이용하여 데이터를 얻어오는 방법도 함께 알려줍니다.

 4. 데이터를 얻었지만 내가 원하는 형태로 가공이 필요할 수 있으니 그에 맞게 가공하는 기술을 상세히 알려줍니다.

 5. 가공한 데이터를 가지고 원하는 데이터를 어떻게 얻어내는 지, python의 pandas, numpy와 같은 툴로 분석하는 방법을 간단히 설명하고, 분석한 내용들을 시각화 하는 방법을 차근차근 알려줍니다.

 6. 기본적인 통계 내용을 넘어서서, 머신러닝을 이용해 회귀분석을 하는 방법을 배워보고, 가설을 세우고 검정하는 내용까지 진행을 합니다.

 

어찌 보면 보통의 책과 별 차이가 없다 느낄 수 있는데, 여러 다른 책들을 볼 때 이 개념을 굳이 왜 써야하지? 이런 건 어디에 적용하지 하는 내용을 회사에서 있을 법한 간단한 이야기들을 풀어나가면서 하나씩 예를 들어가며 설명을 해 주기 때문에, 다양한 적용 예를 알기는 힘들지만, 아.. 이런 때는 이렇게 써 볼 수 있겠구나 하는 감을 익힐 수 있게 해 준다.

그런 면에서 저자분이 많은 고심을 했다는 생각이 들었다. 책을 읽으면서 아 이부분은 좀 더 알려주면 좋을걸… 이라는 아쉬움도 있는 부분들이 있었으나, 사실 처음 이 내용을 접하는 분들의 입장에서는 500페이지가까운 책의 내용도 버거운데 더 넣는다는게… 사실 개인적인 욕심일 뿐… 저자분은 내용을 얼마만큼 넣는 것이 초보자분들이 질리지 않고 책을 끝까지 완주할 수 있을까 하는 부분을 많이 고민하셨을 거라 생각한다. 

 

개인적으로 이 책이 좀 더 맘에 들었던 것은 다음과 같이 중요한 부분마다 요약한 내용을 말풍선으로 다시 한번 짚어주는 부분이 있다는 것이다.

 

 

그리고 손으로 그린 듯한 예쁜 그림으로 이해하기 쉽게 중요한 부분마다 설명을 해주는 부분도 마음에 든다.

 

 

각 챕터의 끝에는 부분 작성한 코드들을 다시 요약해 재활용 가능한 전체 함수형태로 다시 구현해 두었고, 어떤 내용을 다루었는지 다시 짚어주는 것도 이 책의 장점으로 생각된다.

 

다만, 책에서 사용된 예제는 책에는 이미 전처리가 완료된 것을 google drive에 올려두고 해당 예제를 필요 시 다운받아 사용할 수 있게 되어있지만, 실제 다운 받아보면, 그렇지 않은 부분들이 간혹 있다. 책 뒷부분에 자주 사용되는 ns_book7 예제는 발행년도에 연도를 나타내는 정수 데이터뿐만 아니라 다른 데이터도 섞여 있는데, 이 부분에 대해서는 앞부터 차근차근 내용을 읽고 따라하기를 했다면 큰 문제없이 불필요한 데이터를 스스로 제거할 수 있을 것이다. 하지만 그게 잘 안되는 분들은 아무래도 책의 예제 따라하는데 어려움을 겪을 수 있을 것이라 생각된다. 필요 시 해당 csv 파일을 엑셀을 이용해 불필요한 데이터를 제거하는 것도 하나의 방법일 수 있다. 여기서 MAC 환경에서 엑셀을 이용하는 분들의 경우 ns_book7.csv를 앍어들이면 글자가 encoding 문제로 깨져버려 이러한 수동 작업도 하기 힘들 수 있다. 그래서 다음 페이지에 처리 내용을 정리해 두었으니 필요 시 참고가 될 수 있을 것으로 생각되어 링크를 달아둔다.

 

https://manime.tistory.com/entry/pandas에서-저장한-UTF8형식-csv-파일을-MAC-Excel에서-제대로-못-읽을-때-대처방법

 

퇴근 후 조금씩 시간을 내어 책을 읽느라 책을 다 보는데 시간이 이 주 가까이 걸렸지만, 지루하지 않게 재밌게 책을 읽을 수 있었다. 본 리뷰를 할 수 있는 기회를 준 한빛미디어에 감사하다고 하고 싶다.

 

본 리뷰는 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

반응형