📌 통계학과 기계학습의 차이
: “가설검정”
통계학
자료 → 통계분석 → 정보 → 의사결정 → 결론
이 과정에서 의사결정을 내릴 수 있는 정보를 만들어야 하는데,
여기에 가설(Hypothesis)과 검정(Test)이 사용됨
📌 연구조사의 순서
문제 제기 → 연구 설계 → 자료 수집 → 통계적 분석 → 결과의 해석
우린 <통계적 분석 → 결과의 해석>의 과정을 자세히 배움
📌 연구조사의 종류
실험연구
: 연구의 과정이 실험의 결과를 연구
일반적으로 처리집단과 통제집단의 비교 !
경험연구
: 이미 일어나고 있는 현상에 대해 객관적으로 관찰하여 그 결과를 연구
임의로 연구의 대상을 통제할 수 없는 경우
『
< 서베이 연구 >
: 조사 대상에게 특정 질문들에 답하게 하여 자료 수집
→ 경험 연구의 일종 (앙케이트라고도 함)
서베이 연구의 편의
무응답 편의 : 응답자와 무응답자들의 차이
응답 편의 : 응답자들의 올바르지 못한 정보 제공에서 발생
선택 편의 : 선택된 집단이 모집단을 대표하지 못할 경우
→ 등으로 사실을 왜곡할 수 있음, 반드시 발생 !
』
📌 척도
수치형 척도
: 수로 구성된 척도
ex) 나이, 월급 등
범규형(명목형) 척도
: 수로 구성되지 않은 척도
ex) 성별, 결혼 유무 등
➡️ 척도의 조합에 따라 통계 분석의 방법이 정해져있으므로, 척도 파악 중요 !
📌 가설의 검정
통계적 검정
: 주장이 맞다는 것을 확실한 근거(가설의 검정)를 통해 입증하는 것
“가설의 검정”이 가장 핵심적인 내용임
귀무 가설, 영 가설 (H0)
: 주장과 반대되는 사실 (잠정적 주장)
대립 가설, 연구 가설 (H1)
: 주장하고 싶은 사실
➡️ H0과 H0은 서로 상호 배반적인 주장
가설의 검정
: 귀무가설을 충분히 기각할 사유가 있는지 확인하는 과정
귀무가설을 인정하기엔 이러한 상황, 증거, 결과가 나오기 어려움을 증명
p-value
: 일단 귀무 가설 인정, 그럼에도 불구하고 나의 주장이 발생할 확률
귀무 가설 속에서 나의 주장이 우연일 확률
p-value가 낮을수록 희박하다는 상황이 많이 발생
즉, 값이 특정 임계값(주로 0.05)보다 작다면 대립 가설이 맞다고 판단
⬇️ R에서의 p-value 사용 예시 - 상관계수의 유의성 검정
# --- 가설 검정 ---
# 상관계수의 유의성 검정(다양한 검정, 추출 방법 등 설정 가능)
cor.test(mtcars$drat, mtcars$wt, alternative = "two.sided", method = "pearson")
# p-value = 4.784 * 10^-6 = 0.00004784 < 0.05
# 대립가설이 맞음, 상관관계 분석에서의 대립가설은 무엇인가?
# alternative hypothesis : true correlation is not equal to 0
# 즉, 두 변수간의 상관관계 존재한다는 것이 대립가설임
# H0 : correlation coefficient = 0 (No correlation)
# H1 : correlation coefficient !=0 (Some correlation)
# 대립가설(H1)이 맞으므로, 두 값 사이에는 -0.71정도의 반비례 관계 존재