최근 국내 데이터 산업의 시장규모는 20조원을 돌파했고 최근 3년간의 연평균 시장 성장률은 11.3%라고 한다. 

 

데이터를 의사결정에 활용하는 산업이 늘어남에 따라 데이터 직군의 수요는 계속 늘고 있다고 하는데 막상 데이터 분석의 실무를 접해볼 수 있는 일은 쉽지 않다.

 

“어쩌다 데이터 분석” 은 저자 본인이 데이터 분석을 밑바닥 부터 공부한 경험을 바탕으로 하여 데이터 분석 과정에 대한 합리적인 학습 과정을 제시 한다. 또한 초심자 때 우선적으로 배워야 할 핵심 내용 및 같이 배우면 좋을만한 내용을 수록 했다.

 

책의 특징 적인 내용은 아래와 같다.

 

#데이터 분석

친절하게도 데이터 분석의 세계를 설명하는 것으로 시작 한다.

데이터 분석은 정보 또는 인사이트를 도출 하거나 패턴을 찾기 위한 목적으로 분석 언어나 알고리즘을 활용 하여 원본 데이터로부터 결론을 이끌어 내는 작업이다. 데이터 분석 과정을 5단계로 나누어 설명 하고 데이터 분석에 왜 파이썬을 사용하는 지에 대해서도 설명 한다.

 

#파이썬

간단히 파이썬 사용법에 대해서도 설명하지만 정말 간단하기는 하다. (개인적으로 파이썬을 입문해야 한다면 처음 시작하는 파이썬을 추천 한다) 또한 데이터 분석을 위해 사용하는 파이썬의 라이브러리 4대장을 소개 하고 기본적인 사용법 및 활용법을 배운다.

 

- 넘파이 (NumPy) : 산술 계산과 통계 작업의 기본
- 판다스 (pandas) : 구조화된 데이터를 처리 하는 방대한 기능을 제공 하는 라이브러리
- 맷플롯립 (matplotlib) : 판다스와 잘 연동되는 기본적인 시각화 라이브러리
- 시본(seaborn) : 맷플롯립을 토대로 돌아가는 고급 데이터 시각화 라이브러리

 

#EDA
EDA는 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정으로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정이다.

 

최종장에서는 넷플릭스의 데이터를 가지고 EDA 과정에 중심을 둔 데이터 분석 과정을 실습 하는 것으로 마무리 한다. 실제 데이터 분석 과정을 설계하기 전에 반드시 필요한 과정으로 이 과정을 거쳐서 좀 더 효율적이고 적합한 데이터 분석 과정을 설계 할 수 있다. (데이터 분석 과정 설계는 이 책의 수준을 벗어나는 부분이다.)

 

#추천대상

데이터 입문자에게는 더할나위 없는 선택이다. 혹시 아래 중 하나에 해당한다면 꼭 한번 읽어 보기를 권한다.

 

1) 데이터 직군 커리어를 준비하는 취업준비생
2) 파이썬 기초를 알고 있지만 어떻게 활용 해야 할지를 모르는 초급 개발자 
3) 자고 일어나 보니 데이터 분석을 시작 해야 하는 직장인

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”

 

 

+ Recent posts