반응형

한빛미디어 혼공학습단 9기 미션 진행합니다.

도서 : 혼자 공부하는 데이터 분석 with 파이썬

저자 : 박해선

출판 : 한빛미디어

---

04-1 통계로 요약하기

* 평균은 데이터값을 모두 더한 후 데이터 개수로 나눈 값입니다. 평균은 일상생활에서도 널리 사용되기 때문에 이해하기 쉽지만, 어떤 기준으로 평균을 계산하는지에 따라 조금씩 다른 의미를 가질 수 있습니다.

* 중앙값은 전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 중간에 위치한 값입니다. 전체 데이터 개수가 짝수일 때는 중간의 두 데이터의 평균을 계산합니다.

* 분위수는 순서대로 나열된 데이터를 일정한 간격으로 나누는 기준입니다. 예를 들어 사분위수는 데이터를 4등분하여, 25%, 50%, 75%에 위치한 값입니다. 백분위수는 데이터를 100개의 구간으로 나눕니다.

* 분산은 데이터가 평균에서 얼마나 멀리 퍼져 있는지를 알려줍니다. 각 데이터를 평균에서 뺀 다음 제곱한 후 전체 데이터가 개수로 나누어 구합니다.

* 표준편차는 분산의 제곱근으로 분산과 마찬가지로 데이터의 분포 정도를 알려 줍니다. 표준편차는 워본 데이터와 단위가 같기 때문에 분산보다 해석하기 쉽습니다.

* 최빈값은 데이터에서 가장 많이 등장하는 값을 알려 줍니다. 최빈값은 숫자와 문자 데이터에 모두 적용할 수 있습니다.

 
04-2 분포 요약하기
* 맷플롯립은 파이썬의 대표적인 그래프 패키지입니다. 산점도, 히스토그램, 상사 수염 그림을 비롯하여 막대 그래프, 선 그래프 등 많은 종류의 그래프를 지원합니다. 또한 그래프의 구성 요소를 다양하게 제어할 수 있는 많은 옵션을 제공합니다.

* 산점도는 데이터를 2차원 평면 또는 3차원 공간에 점으로 표시하는 그래프입니다. 차원의 제약으로 일반적으로 두 개 또는 세 개의 특성을 표현할 수 있지만, 점의 색깔을 달리하여 한 개의 특성을 더 표현할 수도 있습니다.

* 히스토그램은 데이터를 일정 구간으로 나누어 구간에 속한 데이터 개수(도수)를 막대로 표현하는 그래프입니다. 데이터가 어떤 부부넹 집중되어 분포되어 있는지 잘 볼 수 있습니다.

* 그래프가 한쪽에 편중되어 그려진다면 x, y축을 로그 스케일로 바꾸어 그릴 수 있습니다. 수치를 로그로 간결하게 표시할 수 있어 넓은 범위의 데이터를 표시하기 좋습니다.

* 상자 수염 그림은 사분위수, 최솟값, 최대값을 사용해 여러 특성의 분포를 비교할 수 있는 그래프입니다. 제1사분위수와 제3사분위수를 사용해 상자를 그리고, 상자의 IQR 거리의 1.5배 범위 안에서 가장 멀리 떨어진 데이터까지 수직선(수염)을 그려서 분포를 표현합니다.

[독백] 음... 원래 계획데로 뭔가 잘 안되고 있다........ 음 ... 아무튼 혼공 끝나고 다시 곱씹어볼 생각이다. 처음에 혼공 들어갈때는 이렇게 빡센지를 몰랐다 .... ㅡ0ㅡ;;;; 혼공족장이 알려준 Q&A나 저자와의 대화를 할려면 정말 엄청난 노력이 필요하다...... 

※ 본 내용의 저작권은 한빛미디어 및 저자 박해선님에게 있습니다.

반응형

+ Recent posts