📌 빈도분석을 사용하는 경우
범주형 변수 → 범주형 변수의 독립성 검정 (단방향임에 유의)
(이때, 하나의 변수의 값 변화가 다른 변수 값 변화에 영향을 주지 않는 상황을 독립이라 함)
ex)
성별에 따른 음주 여부
자가 존재 여부에 따른 결혼 여부
귀무가설 : 두 변수는 독립이다.
대립가설 : 두 변수는 독립이 아니다.
➡️ Chi-Square Test, 카이 제곱 검정을 사용하여 검정 진행
📌 Chi-Square Test
카이 제곱 검정이 가능한 두가지 방법
- chisq.test(혼동행렬)
- CrossTable(x, y = , chisq = TRUE, expected = TRUE, fisher = FALSE)
Chi-Square Test를 수행할 경우 기대빈도수(X-squared, Chi^2)값과 p-value값을 얻을 수 있음
이를 통해 확인할 수 있는 것들은 다음과 같음
기대 빈도수 값 : 5 이하면 Fisher’s Exact Test를 수행해야 함
p-value : 가설의 검정 가능
📌 Chi-Square Test 실습
chisq.test(혼동행렬)
install.packages("MASS")
library(MASS)
tbl = table(survay$Smoke, survay$Exer)
chisq.test(tbl)
CrossTable(x, y = , chisq = TRUE, expected = TRUE, fisher = FALSE)
install.packages("gmodels")
library(gmodels)
CrossTable(x = survay$Smoke, y = survay$Exer, chisq = TRUE, expected = TRUE, fisher = FALSE)
Smoke(흡연 여부)열과 Exer(운동 여부)열을 가진 survay 데이터 셋이 존재할 때,
위 코드중 하나를 수행할 경우 기대빈도수(X-squared, Chi^2)값과 p-value값을 얻을 수 있음
다음과 같은 값이 나오는 것을 확인할 수 있는데,
Chi^2값(기대빈도수)이 5 이상이므로 추가 정확검정을 진행할 필요가 없으며
p-value가 0.05보다 크므로 귀무가설이 맞다고 볼 수 있음
➡️ 두 변수는 독립임을 알 수 있음
➡️ 흡연 여부는 운동 여부에 서로 영향을 주지 않음을 알 수 있음