본문 바로가기
[수학]/R로 배우는 통계학

[통계학/R] 통계학과 기계학습의 차이, 통계학 기본 개념 : 연구조사의 순서 및 종류, 척도, 가설의 검정, 귀무 가설과 대립가설, p-value란?

by seom-j 2023. 7. 12.

 

📌 통계학과 기계학습의 차이

: “가설검정”

 

통계학

자료 → 통계분석 → 정보 → 의사결정 → 결론

이 과정에서 의사결정을 내릴 수 있는 정보를 만들어야 하는데,

여기에 가설(Hypothesis)검정(Test)이 사용됨

 

 

📌 연구조사의 순서

문제 제기 → 연구 설계 → 자료 수집 → 통계적 분석 → 결과의 해석

우린 <통계적 분석 → 결과의 해석>의 과정을 자세히 배움

 

 

📌 연구조사의 종류

실험연구

: 연구의 과정이 실험의 결과를 연구

일반적으로 처리집단과 통제집단의 비교 !

 

경험연구

: 이미 일어나고 있는 현상에 대해 객관적으로 관찰하여 그 결과를 연구

임의로 연구의 대상을 통제할 수 없는 경우

 

< 서베이 연구 >

: 조사 대상에게 특정 질문들에 답하게 하여 자료 수집

→ 경험 연구의 일종 (앙케이트라고도 함)

서베이 연구의 편의

무응답 편의 : 응답자와 무응답자들의 차이

응답 편의 : 응답자들의 올바르지 못한 정보 제공에서 발생

선택 편의 : 선택된 집단이 모집단을 대표하지 못할 경우

→ 등으로 사실을 왜곡할 수 있음, 반드시 발생 !

 

 

📌 척도

수치형 척도

: 수로 구성된 척도

ex) 나이, 월급 등

 

범규형(명목형) 척도

: 수로 구성되지 않은 척도

ex) 성별, 결혼 유무 등

 

➡️ 척도의 조합에 따라 통계 분석의 방법이 정해져있으므로, 척도 파악 중요 !

 

 

📌 가설의 검정

통계적 검정

: 주장이 맞다는 것을 확실한 근거(가설의 검정)를 통해 입증하는 것

“가설의 검정”이 가장 핵심적인 내용임

 

귀무 가설, 영 가설 (H0)

: 주장과 반대되는 사실 (잠정적 주장)

대립 가설, 연구 가설 (H1)

: 주장하고 싶은 사실

➡️ H0과 H0은 서로 상호 배반적인 주장

 

가설의 검정

: 귀무가설을 충분히 기각할 사유가 있는지 확인하는 과정

귀무가설을 인정하기엔 이러한 상황, 증거, 결과가 나오기 어려움을 증명

 

p-value

: 일단 귀무 가설 인정, 그럼에도 불구하고 나의 주장이 발생할 확률

귀무 가설 속에서 나의 주장이 우연일 확률

p-value가 낮을수록 희박하다는 상황이 많이 발생

즉, 값이 특정 임계값(주로 0.05)보다 작다면 대립 가설이 맞다고 판단

⬇️ R에서의 p-value 사용 예시 - 상관계수의 유의성 검정

# --- 가설 검정 ---
# 상관계수의 유의성 검정(다양한 검정, 추출 방법 등 설정 가능)
cor.test(mtcars$drat, mtcars$wt, alternative = "two.sided", method = "pearson") 
# p-value = 4.784 * 10^-6 = 0.00004784 < 0.05
# 대립가설이 맞음, 상관관계 분석에서의 대립가설은 무엇인가?
# alternative hypothesis : true correlation is not equal to 0
# 즉, 두 변수간의 상관관계 존재한다는 것이 대립가설임

# H0 : correlation coefficient = 0 (No correlation)
# H1 : correlation coefficient !=0 (Some correlation)

# 대립가설(H1)이 맞으므로, 두 값 사이에는 -0.71정도의 반비례 관계 존재