기술 통계

기술통계란? 측정이나 실험에서 수집한 자료(data)의 정리, 요약, 해석, 표현 등을 통해 자료의 특성을 규명하는 통계적 방법

모듈 import

import pandas as pd

기술 통계 함수

  • 데이터프레임을 이루는 정보 요약
    • df.info() : 메모리 사용량, 각 컬럼별 데이터타입 등을 알 수 있음
  • 데이터프레임의 행, 열의 수
    • df.shape : (행의수, 열의수) 형식 확인 가능
  • 데이터프레임의 행의 수
    • len(df)
  • unique 값에 대한 빈도수
    • df.value_counts()
      • normalize : 빈도가 아닌 비율 반환 (bool, 기본값 : Fasle)
      • sort : 빈도별로 정렬 (bool, 기본값 : True)
      • ascending : 오름차순 정렬 (bool, 기본값 : False)
      • dropna : Na 값을 포함하는 행 수 포함 여부 (bool, 기본값 : True)
  • 특정 컬럼의 unique 값에 대한 빈도수
    • df[컬럼명].value_counts()
  • 특정 컬럼의 unique 값
    • df[컬럼명].unique()
  • 특정 컬럼의 unique 개수
    • df[컬럼명].nunique()
  • 수치형 변수에 대한 기술통계
    • df.describe()
    • 수치형 데이터에 대한 count, mean, std, min, 25%, 50%, 75%, max 값 확인
  • 범주형 변수에 대한 기술통계
    • df.describe(include="object") 또는 df.describe(include="O")
    • 범주형 변수에 대한 count, unique, top, freq 값 확인
  • 집계 함수
    • df.sum(axis, skipna)
      • 행을 기준으로 더하기(defaulf), 열을 기준으로 더하기(axis=1)
      • skipna(기본값:True) : 결과 계산 시, NA/Null 제외
    • df.count(axis)
      • 행을 기준으로 Null값 제외 셀의 개수(defaulf)
      • 열을 기준으로 Null값 제외 셀의 개수(axis=1)
    • df.median() : 중앙값 반환

    • df.quantile(q, axis) : 요청된 축에 대해 지정된 분위수의 값을 반환
      • q : 계산할 분위 수 (기본값 : .5) : 0 <= q <= 1
      • 행을 기준 (기본값 : axis=0), 열을 기준 (axis=1)
      • 예) df.quantile([.25, .75]) : 1사분위와 3사분위에 해당하는 값 반환
    • df.min() : 최솟값

    • df.max() : 최댓값

    • df.mean() : 평균

    • df.var() : 분산

    • df.std() : 표준편차


Reference


개인 공부 기록용 블로그입니다
오류나 틀린 부분이 있을 경우 댓글 혹은 메일로 따끔하게 지적해주시면 감사하겠습니다 :)

카테고리:

업데이트:

댓글남기기