처음 시작하는 R 데이터 분석



1) 서평시작

지은이 머리말에 적힌 대로 “데이터 분석에 처음으로 도전하는 사람을 위한 책” 이다.

데이터 분석하는 과정 전체를 간단하게 설명 해주고, 데이터분석 실전 프로젝트 예제를 통해 전체 과정을 한번 실습 할 수 있게 해준다. 그 과정에서 프로그래밍 언어 R을 사용 하는 여러 방법을 알려 주고 있다. 


2) 책의 구성

7일 완성 학습 로드맵이라는 부제를 내세워서 챕터와 별개로 7단계로 학습할 과정을 나누어 제시하고 있다. 


3) 학습준비하기

작업환경 세팅은 항상 재미 있다.


4) 데이터 수집 및 가공

분석할 데이터를 준비 하는 단계이다. 그 전에 먼저 데이터 분석의 단계와, 데이터의 구조에 대해서 배운다. 데이터 세트, 데이터 프레임 등 모르는 용어가 막 등장 한다. 하지만 뭐 “다 아는 것들이구먼…”

txt 나 csv 로 된 데이터를 불러오는 것은 늘상 하던 작업이지만, R 을 사용해서 하니 굉장히 편했다.

데이터 분석을 위한 기초 통계 분석 함수를 소개 하는 부분에서는 약간 좌절이었다. 이래서 수학공부가 필요 하다.


5) 치킨집이 가장 많은 지역 찾기

불과 5장의 내용으로 원하는 목적에 맞는 결과를 도출 할 수 있었다. 그림을 빼면 정말로 얼마 되지 않는 내용이다.  

도수분포표를 만들고 데이터프레임으로 변환 한뒤 이것을 트리맵으로 시각화 하는 과정이 간단하게 이루어 졌다.


6) 감상

대작 게임의 튜토리얼을 막 끝낸 느낌이다. 데이터 분석이 뭔지 잘 몰랐는데, 간단하게 나마 데이터분석에 대한 감을 잡을 수 있었고 기본적인 것을 배울 수 있었다.


데이터 분석이라는게 데이터를 획득 하고 정리해서 잘 저장하는 것이 반이라는 생각이 들었다. 나머지 반은 데이터에서 무엇을 얻고자 하는지 하는 목적의식 및 domain knowledge.


프로그래밍 언어 R에 관해서는 이게 왜 대표적 데이터 분석용 프로그래밍언어인지 잘 알것 같다. 생각보다 많은 작업을 정말 단순하게 할 수 있었고  정리, 분석, 시각화 까지의 모든 과정에 필요한 도구를 제공해 주는 것이 놀라웠다.


반대로 R이 아닌 내가 알고 있는 프로그래밍 언어로 이 작업을 했을 때의 걸렸을 시간을 생각 해 보니 더욱 그러 했다. 다양한 언어를 배워야 하는 이유 이다.


+ Recent posts