본문 바로가기
[수학]/R로 배우는 통계학

[통계학/R] 빈도분석 : 빈도분석을 사용하는 경우, 카이 제곱 검정(Chi-Square Test), R 빈도분석 실습 코드

by seom-j 2023. 7. 17.

 

📌 빈도분석을 사용하는 경우

범주형 변수 → 범주형 변수의 독립성 검정 (단방향임에  유의)

(이때, 하나의 변수의 값 변화가 다른 변수 값 변화에 영향을 주지 않는 상황을 독립이라 함)

 

ex)

성별에 따른 음주 여부

자가 존재 여부에 따른 결혼 여부

 

귀무가설 : 두 변수는 독립이다.

대립가설 : 두 변수는 독립이 아니다.

 

➡️ Chi-Square Test, 카이 제곱 검정을 사용하여 검정 진행

 

 

📌 Chi-Square Test

카이 제곱 검정이 가능한 두가지 방법

  • chisq.test(혼동행렬)
  • CrossTable(x, y = , chisq = TRUE, expected = TRUE, fisher = FALSE)

 

Chi-Square Test를 수행할 경우 기대빈도수(X-squared, Chi^2)값과 p-value값을 얻을 수 있음

이를 통해 확인할 수 있는 것들은 다음과 같음

 

기대 빈도수 값 : 5 이하면 Fisher’s Exact Test를 수행해야 함

p-value : 가설의 검정 가능

 

 

📌 Chi-Square Test  실습

chisq.test(혼동행렬)

install.packages("MASS")
library(MASS)

tbl = table(survay$Smoke, survay$Exer)
chisq.test(tbl)

 

CrossTable(x, y = , chisq = TRUE, expected = TRUE, fisher = FALSE)

install.packages("gmodels")
library(gmodels)
CrossTable(x = survay$Smoke, y = survay$Exer, chisq = TRUE, expected = TRUE, fisher = FALSE)

 

Smoke(흡연 여부)열과 Exer(운동 여부)열을 가진 survay 데이터 셋이 존재할 때,

위 코드중 하나를 수행할 경우 기대빈도수(X-squared, Chi^2)값과 p-value값을 얻을 수 있음

 

다음과 같은 값이 나오는 것을 확인할 수 있는데,

Chi^2값(기대빈도수)이 5 이상이므로 추가 정확검정을 진행할 필요가 없으며

p-value가 0.05보다 크므로 귀무가설이 맞다고 볼 수 있음

 

➡️ 두 변수는 독립임을 알 수 있음

➡️ 흡연 여부는 운동 여부에 서로 영향을 주지 않음을 알 수 있음