본문 바로가기
자격증/[빅분기] 빅데이터분석기사

[작업형3] 범주형 데이터 분석 - 카이제곱검정

by 바다의 공간 2024. 11. 8.

범주형 데이터 분석 - 퇴근후딴짓

적합도 검정

  • 관찰도수기대도수의 차이
  •   1 2  
    탕수육 찍먹 부먹  
    부산 60% 40% 기대값
    수원 1,1,2,2,1 관찰값
  • 빈도(count)로 변경 (관찰값, 기대값)
  • ↓ 사용방법
  • scipy.stats.chisquare(observed, expected)
    • observed: 관찰된 빈도 리스트
    • expected: 기대 빈도 리스트
    • observed  = 위 값으로 보면 [3,2] 이렇게 나옵
    • expected = [0.6*5  ,0.4*5]를 넣으면 됩니다.
    • 이렇게 넣으면 검정통계량, pvalue값을 뽑을 수 있습니다.

 

독립성 검정

  • 두 변수가 서로 독립적인지(연관성이 있는지) 확인
  • 교차표 테이블로 만들기
    • 문제에서 표로 주어졌을 때
    • 로우(원) 데이터가 주어졌을 때

교차표(표로 주어졌을때) / 로우(원) 데이터 로

  • 로우(원)데이터는 교차표 형태로 만들어주면됩니다.
  • 그 이후에 아래함수를 이용해서 독립성검정을 해주면 됩니다.
  • scipy.stats.chi2_contingency(table, correction=True)
    • table: 교차표
    • correction: 연속성 보정 (기본값 True, 말아야하면 False)

동질성 검정

  • 두 개 이상의 집단에서 동질성을 갖는지 확인
  • 검정 절차는 독립성과 같음