[Pandas] 기술통계(descriptive statistics) 함수
기술 통계
기술통계란? 측정이나 실험에서 수집한 자료(data)의 정리, 요약, 해석, 표현 등을 통해 자료의 특성을 규명하는 통계적 방법
모듈 import
import pandas as pd
기술 통계 함수
- 데이터프레임을 이루는 정보 요약
df.info()
: 메모리 사용량, 각 컬럼별 데이터타입 등을 알 수 있음
- 데이터프레임의 행, 열의 수
df.shape
: (행의수, 열의수) 형식 확인 가능
- 데이터프레임의 행의 수
len(df)
- unique 값에 대한 빈도수
df.value_counts()
normalize
: 빈도가 아닌 비율 반환 (bool, 기본값 : Fasle)sort
: 빈도별로 정렬 (bool, 기본값 : True)ascending
: 오름차순 정렬 (bool, 기본값 : False)dropna
: Na 값을 포함하는 행 수 포함 여부 (bool, 기본값 : True)
- 특정 컬럼의 unique 값에 대한 빈도수
df[컬럼명].value_counts()
- 특정 컬럼의 unique 값
df[컬럼명].unique()
- 특정 컬럼의 unique 개수
df[컬럼명].nunique()
- 수치형 변수에 대한 기술통계
df.describe()
- 수치형 데이터에 대한 count, mean, std, min, 25%, 50%, 75%, max 값 확인
- 범주형 변수에 대한 기술통계
df.describe(include="object")
또는df.describe(include="O")
- 범주형 변수에 대한 count, unique, top, freq 값 확인
- 집계 함수
df.sum(axis, skipna)
- 행을 기준으로 더하기(defaulf), 열을 기준으로 더하기(axis=1)
- skipna(기본값:True) : 결과 계산 시, NA/Null 제외
df.count(axis)
- 행을 기준으로 Null값 제외 셀의 개수(defaulf)
- 열을 기준으로 Null값 제외 셀의 개수(axis=1)
-
df.median()
: 중앙값 반환 df.quantile(q, axis)
: 요청된 축에 대해 지정된 분위수의 값을 반환- q : 계산할 분위 수 (기본값 : .5) : 0 <= q <= 1
- 행을 기준 (기본값 : axis=0), 열을 기준 (axis=1)
예) df.quantile([.25, .75])
: 1사분위와 3사분위에 해당하는 값 반환
-
df.min()
: 최솟값 -
df.max()
: 최댓값 -
df.mean()
: 평균 -
df.var()
: 분산 df.std()
: 표준편차
Reference
개인 공부 기록용 블로그입니다
오류나 틀린 부분이 있을 경우 댓글 혹은 메일로 따끔하게 지적해주시면 감사하겠습니다 :)
댓글남기기