서울대 경제통계학 강의 Review - 3부

업데이트:

2부 포스팅 이후 3부 강의를 듣기까지 시간이 꽤 걸렸다.

3부 강의가 6주차까지 있어 내용이 꽤 많고 프로젝트도 병행하느라 좀 늦었다.

예전 ADSP 자격증 취득 때 공부했던 통계 개념은 그냥 외운 느낌이라면 강의를 전부 듣고 난 지금은 통계 기본 개념들이 많이 정리된 느낌이다.

1-1. 표본조사

표본추출

image

편의(bias)

표본이 보이는 모집단과의 체계적인 차이를 편의라고 한다.

  • 표본추출편의(sample selection bias) : 확률적으로 표본이 모집단을 대표하지 못함
  • 무응답편의(non-response bias) : 응답하지 않는 사람들은 응답하는 사람들과 체계적으로 다를 수 있음
  • 응답편의(response bias) : 응답이 속마음과 다름
  • 가구편의(household bias) : 표본으로 뽑힐 확률은 가구원수가 많은 가구의 구성원이 가구원수가 적은 가구의 구성원보다 낮음

표본추출방법

  • 할당추출 : 모집단의 구성비에 따라 다양한 특성의 사람들을 뽑도록 미리 관측치수를 할당하여 표본추출 (조사원의 자의가 개입되어 표본의 신뢰성이 떨어짐)
  • 단순무작위추출 (실제로 표본을 추출할 때 모집단 전체로부터 단순무작위추출하기는 매우 어렵다 → 다단계군집추출 이용)
    • 모집단에서 임의로 표본을 추출
    • 한번 뽑은 것은 복원하지 않음
    • 단순무작위표본
  • 다단계군집추출 : 각 단계마다 확률적 방법을 써서 표본을 추출한다 (모든 편의를 없앨 수 있는 것은 아니다)

확률오차

편의가 없더라도 확률오차 때문에 추정치는 참값과 다르다. 추정치는 참값으로부터 확률오차만큼 벗어난다.

표준오차

  • 표준오차는 확률오차의 전형적인 크기

  • 표본합의 표준오차, 표본평균의 표준오차, 표본비율의 표준오차는 표본합, 표본평균, 표본비율이 해당 기댓값으로부터 어느 정도나 떨어져 있는지 알려줌
  • “수식어 없는 표준오차는 없다.” 표본합의 표준오차, 표본평균의 표준오차, 표본비율의 표준오차 등 구체적인 표준오차가 있을 뿐이다.

2-1. 표본추출과 확률오차

표본크기와 표준오차

  • 단순무작위표본에서 표본의 구성비는 그 기대값이 모집단의 구성비와 같다.
  • 하지만 실제 표본의 구성비는 모집단의 구성비와 확률오차만큼 차이가 난다.
  • 이때 확률오차의 크기는?
    • 확률적 표본에서 표준오차는 확률오차의 표준적인 크기를 나타낸다.
  • 표본크기가 커지면 표준오차는 어떻게 되는가?
    • 표본합의 표준오차는 표본크기의 제곱근으로 곱해져 증가
    • 표본비율의 표준오차는 표본크기의 제곱근으로 나누어져 감소
    • 표본크기의 제곱근이 중요 : 제곱근 법칙

모비율 추정의 정확도

모집단이 표본에 비해 충분히 큰 경우, 모집단의 크기는 모비율 추정치의 정확도와 무관하다. (복원추출이든 비복원추출이든 상관없다.)

보정계수

비복원추출의 표준오차 = 복원추출의 표준오차 x 보정계수

\[보정계수 = \sqrt{N-n \over N - 1}\]
  • 보정계수는 표본에 비해 모집단이 충분히 큰 경우 1에 가깝다. 사실상 이때는 보정하지 않아도 된다.
  • 그 경우 표본비율의 표준오차는 표본의 절대적 크기에 의존하며, 모집단 크기에 대비한 표본의 상대적 크기에 의존하지 않는다.
  • 콜레스테롤 검사를 할 때 몸무게 200kg의 씨름 선수에게서 채취하는 혈액의 양과 몸무게 20kg의 유치원생에게서 채취하는 혈액의 양이 다르지 않다.

0-1 상자의 표준편차

\[상자의 표준편차 = \sqrt{(상자 안 1의 비율)*(상자 안 0의 비율)}\]

현실적으로 상자 내 1의 비율은 알려져 있지 않음. 두 가지 선택이 가능함

  • 상자 안 1의 비율(모비율)을 표본비율로 대체한 공식 사용
  • 좀 더 보수적인 방법으로 0-1 상자의 표준편차를 그 최대값인 1/2로 대체한 공식 사용. 이 공식의 사용이 보수적인 이유는 상자로부터 한 장의 카드를 뽑을 때 그 결과의 불확실성은 1이 나올지 안 나올지 반신반의할 때 가장 커지기 때문이다. 표준편차의 최대값 = 1/2

신뢰도와 신뢰구간

표본비율 = 모비율 + 확률오차

  • 표본비율 ± 1 SE의 구간은 68%의 신뢰도를 가진 신뢰구간
  • 표본비율 ± 2 SE의 구간은 95%의 신뢰도를 가진 신뢰구간
  • 표본비율 ± 3 SE의 구간은 99.7%의 신뢰도를 가진 신뢰구간

신뢰도의 해석

신뢰도는 ‘정확히~’가 아니라 ‘대략~’ 이라고 말해야 한다.

  • 표본비율의 표준오차 공식에 모비율 대신 표본비율 내지 1/2을 대입했다.
  • 표본비율의 확률히스토그램을 정규분포로 근사시켜 사용했다.

표본비율이 0% 또는 100%에 가까울 경우 표본비율의 분포를 정규분포로 근사시키려면 표본크기가 충분히 커야 한다. 표본비율이 50%에 가까운 경우는 표본크기가 아주 크지 않아도 그 분포를 정규분포로 잘 근사시킬 수 있다.

신뢰구간의 해석

신뢰구간은 표본에 의해 결정되며, 표본이 바뀌면 신뢰구간도 바뀌게 된다. 표본이 바뀌면 신뢰구간의 중심도 달라지고 신뢰구간의 길이도 달라진다.

표본을 반복적으로 추출하여 신뢰구간을 반복적으로 구해 보는 경우, 구한 전체 신뢰구간의 95% 정도가 ‘표본비율±2SE’라는 신뢰구간 내에 모비율을 포함하고 나머지 5%는 포함하지 않는다.

3-1. 평균의 정확성

모표준편차, 표본표준편차, 표본평균의 표준오차

모표준편차 = 상자의 표준편차 (σ)

  • 상자로부터 하나의 값을 추출할 때 이 값이 상자의 평균(모평균)으로부터 얼마나 떨어져 있는가를 나타내는 지표

표본표준편차 (SD)

  • 표본 내 하나의 값이 표본평균과 얼마나 떨어져 있는가를 나타내는 지표. 이는 상자의 표준편차에 대한 추정량임

표본평균의 표준오차 (표본평균의 SE)

  • 추출한 값들의 평균(표본평균)이 모평균과 얼마나 떨어져 있는가를 나타내는 지표
  • 표본평균의 표준오차 = 모표준편차 / √표본크기 ≈ 표본표준편차 / √표본크기
  • 표본평균의 표준오차는 표본크기의 제곱근에 반비례하여 감소

표본분포

표본평균의 표본분포란 표본평균의 확률히스토그램을 말한다. 표본평균을 얻는 과정을 무한히 반복 시행하여 얻은 수 없이 많은 표본평균들을 가지고 그린 표본평균의 히스토그램

  • 표본합과 표본평균의 히스토그램은 스케일만 다를 뿐 전반적 모양은 똑같다.
  • 표본크기가 크면 중심극한정리에 의해 각각의 히스토그램에 대한 정규 근사가 가능하다.

모평균에 대한 신뢰구간 구하기

전체 2만5천 가구의 평균소득에 대한 95% 신뢰구간은 표본평균으로부터 그 표준오차의 2배를 가감함으로써 얻는다.

→ 왜 표준편차대신 표준오차를 쓰는가?

  • 표준편차 : 추출한 한 장의 카드가 모평균으로부터 떨어져 있는 정도
  • 표본평균의 표준오차 : 추출한 카드들의 평균이 모평균으로부터 떨어져 있는 정도
  • 모평균에 대해 추론할 때 카드 한 장에 든 정보를 이용하지 않고 카드들의 평균에 든 정보를 이용하므로 표준편차가 아닌 표본평균의 표준오차를 사용해야 한다.

→ 신뢰구간을 구할 때 표준정규분포곡선을 쓰는 근거는?

  • 중심극한정리 : 개별관측치의 히스토그램이 정규분포곡선과 다르더라도 표본평균의 확률히스토그램은 표본크기가 커지면 그 모양이 정규분포곡선과 유사해진다. 모평균에 대한 추론에 있어서 표본평균을 사용함에 주목하라.

표준오차

  1. 합에 대한 추론 → 표본합의 표준오차 = √표본크기 x (상자의 표준편차)

  2. 평균에 대한 추론 → 표본평균의 표준오차 = (상자의 표준편차) / √표본크기

  3. 개수에 대한 추론 → 표본개수의 표준오차 = 0-1 상자로부터의 표본합의 표준오차

  4. 비율에 대한 추론 → 표본비율의 표준오차 = (0-1 상자의 표준편차) / √표본크기

일반적으로 각종 표준오차 공식에 등장하는 상자의 표준편차는 모르므로 이를 계산해서 아는 표본표준편차로 대체해서 공식을 사용한다.

  • 표본평균과 모평균 사이에 확률오차만큼 차이 존재
  • 확률오차가 작으면 신뢰도가 높고 확률오차가 크면 신뢰도가 낮다
  • 확률오차의 전반적 크기는 표준오차로부터 알 수 있다.
  • 표본평균의 표준오차는 표본표준편차를 표본크기의 제곱근으로 나누어 추정한다.

측정오차

측정과정에 확률오차가 개입되기 때문에, 측정치는 참값과 확률오차(측정오차)만큼의 차이를 보인다.

→ 반복측정을 하여 측정치들을 평균하면 측정오차가 줄어 측정의 신뢰성이 증가한다.

모집단과 표본의 관계

  • 모집단 : 관심의 대상이 되는 개념상의 집단

  • 표본 : 실제로 분석하게 되는 자료

  • 모평균 : 모집단으로부터 자료 하나를 추출할 때의 기대값

  • 모표준편차 : 모평균으로부터의 편차를 제곱하여 그 기대값을 구한 뒤 제곱근을 취한 것

  • 표본평균 : 표본평균은 개별 관측치가 표본에서 어떤 값을 취할지 그 기대값을 알려준다. 이때의 기대값은 표본 내 자료 분포에 따라 구한 기대값이다.

  • 표본분산 : 개별 관측치를 표본평균으로부터의 편차로 표현해 보자. 표본분산은 편차 제곱의 표본 내 기대값에 해당된다. 이때의 기대값은 표본 내 자료 분포에 따라 구한 기대값이다.

3-2. 유의성 검정

귀무가설과 대립가설

  • 귀무가설 (null hypothesis) : 차이는 우연이다. 상자의 평균은 0이다.
  • 대립가설 (alternative hypothesis) : 차이는 실질적이다. 상자의 평균은 음수이다.
  • 귀무가설이든 대립가설이든 하나의 가설은 상자모형에 대한 하나의 진술로 표현된다.

검정통계량

z-통계량 또는 t-통계량이 널리 사용됨

이들 통계량은 자료에서 얻은 통계치와 귀무가설 수치의 표준화된 차이

\[z-통계량\; or\; t-통계량 = {통계량 - 기대값 \over 통계량의 표준오차}\]

p-값은 관측된 유의수준

  • p-값은 귀무가설이 옳다는 가정 하에서 실제 관측된 값 또는 그 이상 극단적인 검정통계량 값을 얻을 확률을 의미한다.
  • p-값을 관측된 유의수준이라고도 부른다.
  • p-값이 작아질수록 귀무가설에 대항하는 반대의 근거는 강해진다.

가설 검정의 원리

가설 검정의 원리는 ‘모순에 의한 논증법’ (argument by contradiction)

  • 귀무가설의 주장이 옳다면 어떻게 자료 상으로 그렇게 극단적인 차이가 나타날 수 있을까? (“귀무가설이 틀리지 않고서야 어찌 이런일이 …”)

  • α : 미리 설정된 유의수준으로서, 관측된 유의수준인 p-값 판정의 기준으로 사용된다. α의 값으로는 통상 5% 내지 1%의 값이 사용됨
  • p-값 ≤ α : 유의수준 α에서 귀무가설 기각 (통계적으로 유의하다.)
  • p-값 ≥ α : 유의수준 α에서 귀무가설 기각 못함 (통계적으로 유의하지 않다.)

단측검정과 양측검정

대립가설의 주장이 방향성을 가지면 단측검정이고 방향성을 갖지 않으면 양측검정이다.

image

가설검정에서의 오류

image

  • 제 1종 오류 = “생이별의 오류” : 애인이 변심하지 않았는데도 변심했다고 잘못 판단하여 생이별하는 오류

  • 제 2종 오류 = “착각의 오류” : 애인이 변심했는데도 여전히 자기를 좋아하는 줄 착각하고 자르지 못하는 오류

  • 검정력(power) = 1 - 제2종 오류의 가능성

귀무가설을 기각해야 하는 상황에서 제대로 기각하는 결정을 내릴 확률인 ‘자를 때 자르는 힘’이 바로 검정력

제 1종 오류와 제 2종 오류

  • 제 1종 오류를 범할 확률 : 미리 설정된 유의수준보다 작거나 같음. 즉, 미리 설정한 유의수준=제 1종 오류를 범할 확률의 상한
  • 유의수준을 미리 일정 정도로 설정함으로써 제 1종 오류를 범할 확률을 통제한 채 가설검정을 수행함. 일반적으로 1%, 5%, 10%가 주로 사용됨.
  • 제 1종 오류를 범할 가능성과 제 2종 오류를 범할 가능성간에는 상충관계가 존재함.

4-1. 두 집단간 평균의 차이 검정

두 집단이 독립이면 두 표본평균의 차이의 표준오차는 아래와 같다

\[제곱근 \; 분산합\; 공식 = \sqrt {Var(\bar X) + Var(\bar Y)}\]

두 평균의 비교

\[z = {관측된\;차이 - 기대된\;차이 \over 관측된\;차이의\;표준오차}\]
  • 관측된 차이 = 두 평균의 차
  • 기대된 차이 = 0
  • 관측된 차이의 표준오차
  • 평균1의 표준오차 = 평균1의 표준편차 / √표본개수
    • 평균2의 표준오차 = 평균2의 표준편차 / √표본개수
  • 두 평균 차이의 표준오차 = √평균1의 표준오차² + 평균2의 표준오차²

4-2. 회귀분석과 유의성 검정

기울기와 절편 추정량의 표준오차

\[\eqalign{SE(a)&=\sigma \sqrt{\frac 1 n + \frac {\bar x^2} {\sum\limits_{i=1}^n(x_i-\bar x)^2}},\quad SE(b)&=\frac {\sigma} {\sqrt{\sum\limits_{i=1}^n(x_i-\bar x)^2}}\\ \hat {SE}(a)&=\hat \sigma \sqrt{\frac 1 n}+\frac {\bar x^2} {\sum\limits_{i=1}^n(x_i-\bar x)^2},\quad \hat {SE}(b)&=\frac {\hat \sigma} {\sqrt{\sum\limits_{i=1}^n(x_i-\bar x)^2}}}\]

σ : 회귀분석 오차의 표준편차

σ-hat : 회귀분석 오차의 표준편차에 대한 추정치 (RMSE)

기울기에 대한 추론

단순회귀분석모형의 기울기에 대해 귀무가설 : β = 0 (즉, 기울기가 0이다, x가 y를 설명 못한다.)

신뢰구간의 구축

  • 기울기에 대한 95% 신뢰구간 b ± 2SE(b)를 구해 β를 포함하고 있는지 확인. 포함하지 않으면 5% 유의수준에서 귀무가설 기각

t-값의 계산

  • 기울기 추정치의 t-값을 보고 판정

  • l t l ≥ 2 이면 귀무가설 기각

    \[t = {b - β_0 \over SE(b)}\]

개별값 예측의 예측구간과 평균값 예측의 예측구간

단순회귀분석 모형에서 개별값의 95% 예측구간 :

\[\hat y_0\pm2\hat {SE}(y_0-\hat y_0)=a+bx_0\pm2\hat\sigma\sqrt{1+ \frac 1 n+\frac {(x_0-\bar x)^2} {\sum\limits_{i=1}^n(x_i-\bar x)^2}}\]

단순회귀분석 모형에서 평균값의 95% 예측구간 :

\[\hat {y_0}\pm2\hat{SE}(E_{y_0}-\hat {y_0})=a+bx_0\pm2\hat\sigma\sqrt{\frac 1 n+\frac {(x_0-\bar x)^2} {\sum\limits_{i=1}^n(x_i-\bar x)^2}}\]

Point : 개별값을 예측하기가 평균값을 예측하기보다 더 어렵다. (왜? 1이 존재하기때문)

5-1. χ² - 검정

카이제곱검정

범주별로 관측된 빈도와 기대빈도의 차이를 봄으로써 하나의 확률모형이 전반적으로 자료를 얼마나 잘 설명하는지 검정하는데 사용

\[χ^2 = \sum {(관측도수-기대도수)^2 \over 기대도수}\]

χ²-통계량이 크다는 것은 관측된 도수와 기대도수가 전반적으로 큰 차이를 보임을 뜻한다.

1부터 6까지 숫자가 적힌 카드가 들어 있는 상자에서 복원추출

  • 상자의 평균이 3.5라는 가설을 검정 → z-검정, t-검정
    • z-검정 또는 t-검정은 평균만 주어져 있을 때 관측된 자료를 이 상자로부터 무작위 추출한 결과로 볼 수 있는지 알려준다.
  • 각 카드가 나올 확률이 1/6 씩이라는 가설을 검정 → χ² 검정
    • χ²-검정은 상자의 내용 구성이 알려져 있을 때 관측된 자료를 이 상자로부터 무작위 추출한 결과로 볼 수 있는지 알려준다.

카이제곱검정의 구조

image

2

6-1. 유의성 검정에 대한 보충설명

결과가 유의한가

우연과 필연을 나눌 절대적인 기준은 없다.

  • 5.1%의 p-값과 4.9%의 p-값은 엇비슷
  • 그런데도 5%의 자의적 기준을 매우 당연한 것으로 받아들이고 있음
  • 심지어 ‘유의하다’, ‘유의하지 않다’라고 말로만 보고하는 지경

연구자는 자료를 요약 정리하고 어떤 검정을 사용했는지 밝혀야 하며 p-값을 보고해야 한다.

모형의 역할

유의성 검정을 하기 위해서는 “우연의 의미를 잘 정의하기 위하여” 상자모형이 필요하다.

  • 유의성 검정은 모순에 의한 논증법
  • 우연이라고 보기엔 극단적인 것으로 판단되면 귀무가설 기각

만약 유의성 검정이 전체 모집단을 대상으로 한 자료에 기반하고 있다면 주의해야 한다.

  • 통계적 추론 자체가 무의미
  • 전국민을 대상으로 조사하는 센서스 자료에는 표본추출 과정에서 발생하는 우연은 처음부터 존재하지 않는다.

‘제멋대로 추출한 편의표본’으로는 제대로 된 유의성 검정을 할 수 없다.

카테고리:

업데이트:

댓글남기기