iglooo

[강의] 기초연구방법론 - 서울교육대학교/홍성두 (5강; 추리통계를 위한 기초지식) 본문

일상/열렬한 삶

[강의] 기초연구방법론 - 서울교육대학교/홍성두 (5강; 추리통계를 위한 기초지식)

BARRON 2021. 3. 9. 08:42
반응형

추리통계를 위한 기초지식

기술통계
- 추리통계로 넘어가기 이전에 선행적인 통계
- 자료정리, 요약, 자료의 있는 그대로

추측통계, 추리통계
- 모집단의 특성 추론, 미래 예측

자료수집한 다음에 기술통계를 통해 평균 분산 표준편차를 먼저 제시한 후에 추리통계를 산출 

 

기술통계 (51, 52)
- 자료수집 및 정리
- 자료 형태 표현
- 자료의 특성값 도출
- 수집한 데이터의 주요 특성을 분석 및 기술하는 통계방법
예시; 평균값, 중위수, 최빈수, 최댓값, 최소값, 범위, 분산, 표준편차 ...
사례; H대학교 A과의 최근 5년간 4학년 학생들의 과목별 성적을 분석해서 학생들의 성적변화 추세치를 본다. 
- 어떻게 변했구나

추리통계
- 표본으로부터 관찰하고자 하는 특성값 도출 
- 표본은 모집단을 잘 대표해야 한다
- 이를 바탕으로 모집단의 특성 파악 
- 수집한 데이터에서 표본(sample)을 추출, 특성을 파악하여 전체 데이터(모집단)의 특성으로 일반화할 수 있는지 여부를 판단, 모집단의 특성을 추정하는 것이 목적
- 간단히 표본을 기초로 향후의 일을 예측하는 것에 초점

예시; 선거철 후보자의 지지도 조사
사례; B공장의 라인별 제품의 불량률을 알아보기 위해 일정한 시간간격으로 제품을 추출하여 분석
- 표본을 뽑아서 전체를 예측 

 

기술통계 (53)
SPSS - 분석 - 기술통계 - N(표본수) 최소값 최대값 평균 표준편차 분산 
- 성별, 혈액형의 최소값 최대값 평균은 큰 의미 X
- 성별이 몇명, 혈액형별, 학년이 몇명 있는지 '빈도분석' 하는 것이 더 의미가 있다
- 프리퀀시(빈도) - 성별, 혈액형, 몇명씩 있는지 - 범주형 자료, 이산형 자료
- 디스크립티브 - 연령, 연속형 자료

중심극한정리와 확률분포 ★

중심극한정리의 개념 
- 동일한 확률분포를 가진 독립확률변수 N개의 평균의 분포는 N이 적당히 크다면 정규분포에 가까워진다는 정리이다. 
- 표본이 많을수록 정규분포에 쏠린다. 가운데가 높고 양옆에 작은 정규분포의 특성이 있다. 

N사이즈가 5이상 ~ 30정도되면 정규분포에 가까워진다. (표본수)
- 추리통계를 하는데 있어서 적당
- 연구문제나 연구상황에 따라 다름, 그래도 1은 아니고 5는 좀 넘어야 좋지 않을까~ 

확률분포의 개념 
- 확률변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다. 주사위를 던졌을 때 나오는 눈에 대한 확률변수가 있을 때, 그 변수의 확률분포는 이산균등분포가 된다. 
- 주사위, 동전 

 


대표적인 확률분포 (54)
- 무수히 많은 확률분포 중에서 분포의 특성을 파악하여 함수로 나타낼 수 있는 대표적인 확률분포들 

이산확률분포
- 변수의 값이 명확하고 그 수도 한정적임, 
- 주사위 수 나올 확률, 정수, 정확함 자연수
- 이항분포, 초기하분포, 포아송분포

연속확률분포
- 변수값을 정확하게 떨어지는 수치로 표현하기는 어렵고 변수의 개수도 무한정임 
- 실수 
- 카이제곱 분포, T분포(T검정), 정규분포, F분포(검정)

= 대부분의 통계는 그 특성을 알 수 있는 이러한 분포들을 이용해서 추정 및 가설검정을 수행함 

 

 

이산확률변수 (55)
- 0, 1, 2 떨어져 있음 정수 명확한 값
- 2개의 동전을 던져서 나오는 앞면의 수 


연속확률변수
- 정확한 값 X 무한정, 연속량 
- 통계학을 수강하는 학생들의 평균 키(키를 100%정확하게 측정하면 정수X- 속성의 불명확성?)
- 키를 측정하는 도구가 정수일 뿐, 그 정수가 100%는 아니기 때문에 

 

T분포 (56)
- Student t 분포 
- 5, 13 정도 정규분포를 따른다

 

포아송분포(57)
- 단위시간안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포

가설검정, 유의수준, 오류 

가설검정 

통계적 가설검정
- 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미한다. 간단히 가설 검정이라고 부르는 경우가 많다. 

통계적 가설
- 통계적 가설을 통계학에서 사용하는 용어로, 하나의 특정 주장을 모수를 이용해 나타낸 형태를 지칭한다. 가령 '한국성인여자의 신장은 크다'는 통계적 가설이 될 수 없다. (맞고 틀리고 판단이 불가능) 하지만 '한국 성인여자의 평균신장은 160cm이다'는 통계적 가설이 될 수 있다. (맞고 틀리고를 판단할 수 있기 떄문에) 평균신장은 여기서 '모집단 특성을 나타내는 모수'의 역할을 수행하게 된다.  통계적 가설은 귀무가설(영가설)과 이와 반대에 있는 대립가설로 나타낸다. 

가설검증의 단계
1. 유의수준의 결정(어느정도 되면 통계적으로 유의하다90, 95, 99%), 귀무가설과 대립가설 설정
2. 검정통계량의 설정
3. 기각역의 설정
4. 검정통계량 계산
5. 통계적 의사 결정 

유의수준
- 통계적인 가설검정에서 사용되는 기준값
- 일반적으로 유의수준은 a로 표시하고 95%의 신뢰도를 기준으로 한다면 (1-0.95)인 0.05값이 유의수준 값이 된다. 가설검정의 절차에서 유의수준 값과 유의확률 값을 비교하여 통계적 유의성을 검정하게 된다. 
- 유의수준 값보다 값이 작냐 크냐로 결정 

통계적 유의성 
- 모집단에 대한 가설이 가지는 통계적 의미를 말한다. 
- 어떤 실험 결과 자료를 두고 "통계적으로 유의하다"라고 하는 것은 확률적으로 봐서 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻이다. 반대로 "통계적으로 유의하지 않다"라고 하는 것은 실험결과가 단순한 우연일 수도 있다는 뜻이다. 
- 가설 검정에서 통계값과 연구자가 설정한 수준(유의수준)을 비교 판단하여 영가설(귀무가설)을 기각할 떄, 연구가설이 "통계적으로 유의하다"라고 한다.
- 다만 검정통계량은 표본크기의 함수이므로 표본크기가 커질수록 검정통계량의 값은 커져서 실질적으로는 유의성이 없어도 통계적으로는 유의한 것으로 판정될 수 있다. 이때의 오류는 1종오류가 된다. 즉, 통계적 유의성은 오류가능성을 동반한다. 
 - 표본크기가 많을수록 페널티를 당하는 현상이 생기기도 한다. 
- 통계적 진리, 한시적 진리는 객관적 진리라고 할 수 없다. 확률적으로만 유의하다. 

유의확률
- 통계적 가설 검정에서 유의확률 또는 p-값은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다. 실험의 유의확률은 실험의 표본공간에서 정의되는 확률변수로서, 0~1사이의 값을 가진다.
- 완벽한 0, 1은 없당  
- p-값은 귀무가설이 맞다는 전제하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률이다.
- p-value(p값)은 관찰된 데이터가 귀무가설과 양립하는 정도를 0에서 1사이의 수치로 표현한 것이다. p값은 작을수록 그 정도가 약하다고 보며, 특정값(대게 0.05나 0.01등) 보다 작을 경우 귀무가설을 기각하는 것이 관례이지만 여기에는 여러가지 문제들이 있다. 

오류
- 가설을 통계학적인 방법을 통해 검증하는 경우, 올바로 검증하지 못할 가능성 즉, 오류를 범할 가능성이 있는데 이러한 오류로는 제1종 오류와 제2종 오류가 있다. 

제 1종 오류
- 가설이 올바른데도 불구하고 그 가설이 틀렸다고 판정하는 경우이다. 즉, 우리가 검증하고자 하는 가설(귀무가설)이 옳은데도 그것을 기각하는 경우이다. 

제 2종 오류
- 가설이 올바르지 못한데도(즉 틀렸음에도)불구하고 그 가설이 올바르다고 판정하는 경우를 말한다. 즉, 우리가 검증하고자 하는 가설(귀무가설)이 옳지 않은데도 그것을 채택하는 경우를 말한다. 이 양자의 어느 경우든 가설검증의 대상이 되는 문제설정의 자체는 올바르다는 것을 전제로 하고 있다. 

이에 대해 우리들이 범하기 쉬운 오류는 잘못된 문제를 해결하려고 시도하는 경우이다. 
이것을 제 3종 오류라고 한다. 
제 3종 오류
- 해결해야할 문제를 정확히 파악하여 잘못 정의된 문제를 해결하려는 어리석음을 피하기 위한 것이다. 
 즉 제 3종 오류를 피하기 위해서 우리는 문제분석이 필요하다. 
 앞의 통계학의 가설검정에서 제시되고 있는 제 1종 오류와 제 2종 오류를 정책대안의 선택과 관련지어 보면, 
 제 1종 오류의 경우는 문제해결에 적절한 대안을 적절치 못하다고 잘못 판단한 경우에 해당되고
 제 2종 오류는 적절치 못한 대안을 적절하다고 잘못 판단한 경우에 해당된다. 
 이와같은 제 1종 오류와 제 2종 오류의 개념을 유추하여 의사결정의 논의와 관련시켜 개발한 제 3종 오류의 개념은 의사결정의 대상이 되는 문제자체를 잘못 정의한 경우를 가리키는 것이다. 
- 문제설정 자체가 잘못된 경우, 1종 2종까지 갈 것도 없음 (공공서비스의 행정분야)
- 잘못된 문제설정의 의제로 삼는 경우 => 잘못된 행정정책 = 오류

반응형
Comments