[빅데이터분석기사] [2-3]빅데이터 탐색 통계기법 이해

Certificate/빅데이터 분석기사

[빅데이터분석기사] [2-3]빅데이터 탐색 통계기법 이해

손똘 2023. 8. 29. 18:34

데이터 요약

1.기술통계

기술통계 : 관측을 통해 얻은 데이터에서 그 데이터의특징을 규명하기 위한 통계적 기법
추리통계 : 수집된 데이터를 기반으로 모집단의 특성을 추론하고 예측하는데 사용하는 통계적 기법
모수통계 : 모집단의 특성에 대한 정보가 충분하기 대문에 표본 통계량으로 모수 추정이 가능한 통계기법
비모수통계 : 현상이 명목척나 서열척도로 측정되어 모집단의 분표형태나 모수의 특징을 추론해 내기 어려운 경우에 사용하는 기법
단일변량 통계분석 : 하나의 변수를 대상으로 하는 통계분석
다변량 통계분석 : 두 개 이상의 변수들을 대상으로 하는 통계분석

2.표본추출

통계분석의 기본개념

모집단
- 모집단이란 분석을 위해 관심이 있는 대상 전체
- 목표모집단 : 조사 목적에 의해 개념상 규정된 모집단
- 조사가능모집단 : 표본 추출을 위해 규정된 모집단
- 유한모집단 : 모집단의 종류로는 추출 단위가 유한한 모집단
표본추출
- 표본이란 모집단에서 선택된 개체를 의미하는데, 표본을 추출하는 이유는 모집단 전체에 대한 분석이 사실상 불가능하다는 제약 때문이다.
  1. 표본추출 기법
    - 단순 무작위 추출 : 랜덤, 제비뽑기
    - 계통 추출 : 첫 번째 추출단위를 임의추출, 두 번째 추출단위부터는 일정한 간격으로 표본을 추출
    - 층화 추출 : 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식, 내부적으로 동질적이고, 외부적으로 이질적이어야 한다.
    - 군집추출 : 여러 군집으로 나누고, 일부 군집의 전체를 추출하는 방식, 층화 추출법은 집단 내에서는 동질적이지만 집단 간 차이가 이질적인 반면 집락추출법은 집단내에서 이질적이고 집단 간 차이가 동질적이다.
  2. 비확률 표본추출
    - 판단추출 : 조사자의 판단에 따라 표본을 선택하는 경우
    - 할당추출 : 자신의 판단에 따라 선택하는 경우
    - 편의추출 : 편리성에 기준을 둔 표본선정
  3. 자료측정 방법
    1. 측정과 척도
      - 표본추출을 통해 얻은 자료들을 데이터로 만들기 위해서는 자료측정을 수행해야 한다.
      - 관계를 부여하기 위해 사용되는 규칙을 척도라고 한다.
    2. 척도의 종류
      - 명목척도 : 대상을 분류하기 위함
      - 서열척도 : 대소만 구분 가능, 양적인 비교는 할 수 없다.
      - 등간척도 : 순위를 부여하되 양적인 비교가 가능하다. 단, 절대 0점이 존재하지 않는다.
      - 비율척도 : 절대 영점이 존재하여 비율계산 가능한 척도, 모든 연산 가능
확률분포
1. 확률의 의의
  - 실험의 모든 결과들의 발생 가능성이 동일하며 그 결과들이 상호 배타적일 때 사용하는 개념
  - 사상 E가 발생할 확률 P(E) = $\frac{사상E의발생횟수}{실험의총반복횟수}$
  - 확률의 공리(가정조건)
  - 표본공간을 이루는 한 사상이 발생할 확률은 0부터 1까지의 값을 갖는다.
2. 표본공간
  - 실험에서 발생할 수 있는 모든 결과의 집합: S 또는 Ω ($\omega$)
  - 사상또는 사건
    1. 단순 사상 : 단 하나의 출현값을 포함하고 있는 사상
    2. 전체 사상 : 표본공간의 모든 원소를 포함하고 있는 사상
  - 사상의 종류
    1. 공사상 : 표본공간의 어떤 원소도 갖고 있는 않는 사상
    2. 여사상 : 사상 A가 일어나지 않을 사상으로 $A^c$로 나타낸다
      P($A^c$)= 1-P(A), P(A)+P($A^c$) = 1
    3. 배반사상 : A와 B 두 사상이 동시에 일어날 수 없는 사상
      $A\cap$B = $\varnothing $
    4. 독립사상 : A와 B 두 사상이 서로 영향을 미치지 않으면 A와B는 독립이라고 한다.
      P(A$\cap$B) = P(A)P(B)
3. 확률법칙
  1. 덧셈의 일반법칙
    - 두 사상이 상호 배타적이지 않을 경우에 적용
      P(A$\cup$B) = P(A) + P(B) - P(A$\cap$B)
    - 만일 두 사건 A와 B가 서로 배반이라면(A$\cap$B = $\varnothing$ )
      P(A$\cup$B) = P(A) + P(B)
  2. 조건부 확률
    - 사상 B가 일어났다는 조건 아래서 사상 A가 일어날 조건부 확률을 P(AIB)와 같이 표시하고, 다음과 같이 정의한다.
      P(AIB) = $\frac{P(A \cap B)}{P(B)}$ , P(B) >0
  3. 독립법칙
    - 한 사상이 이미 발생하였다는 사실을 알더라도 다른 사상이 발생할 확률에 아무런 영향을 미칠 수 없을 때 두 사상은 통계적 독립성의 관계에 있다고 말한다.
      P(BIA) = P(B)
      P(AIB)= P(A)
  4. 베이즈 정리
    - 어떠한 사상의 발생확률을 구할 때 실증적 정보는 고려하지 않았다. 이러한 확률을 사전확률 이라고 한다
    - 추가적인 표본정보에 입각하여 사전확률을 경신하여 사후확률을 만드는데 베이즈 정리가 이용된다.
4. 확률변수와 확률분포
  1. 이산형 확률변수
    - 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현
    - 각 이산점에 있어서 확률의 크기를 표현하는 함수를 확률질량함수라고 한다.
    - E(X) = $\sum_{x}x\cdot f(x)$
  2. 연속형 확률변수
    - 한 점에서의 확률은 0이되고 0보다 큰값 갖는 사건의 구간에서의 확률값이 된다.
    - 확률밀도함수라고 한다
    - $\int_{\infty}^{\infty} x \cdot f(x)dx$
  3. 결합확률분포
    - 두 확률변수 X,Y의 모든 값과 이에 대응하는 확률을 표나 그림으로 나타낸 것을 말한다
5. 확률분포의 유형
  1. 이산 확률분포 : 확률변수가 정수의 값을 가지는 경우로 베르누이 분포, 이항 분포, 포아송분포, 초기하분포, 기하분포, 다항분포 등이 있다.
    - 베르누이 시행
      - 각 시행의 결과는 상호 배타적인 두 사건으로 구분
      - 각 시행은 서로 독립적이다
      - 베르누이 시행을 n번 독립적으로 반복시행 했을 때의 확률변수 X를 성공 또는 실패라고 하면 X의 분포는 이항분포를 따른다.
      - 베르누이시행과 이항분포의 차이는 반복시행 실시 여부에 있다.
      - 기댓값 E(X) = p, 분산(var(X)) = pq
    - 이항분포
      - 베르누이 실험 또는 시행에 기초한다
      - 확률실험을 몇 번 실행하여 어떤 한가지 결과가 나오는 수를 변수값으로 부여할 때 이 변수를 이항확률변수라 한다.
      - 이항확률변수와 관련된 확률분포를 이항확률분포라고 한다.
      - 어떤 시행에서 사건 A가 일어날 확률은 p, 일어나지 않을 확류을 (1-p) =q,
        이 시행을 독립적으로 n회 되풀이 할 때
      - 기댓값 E(X) =np, 분산 Var(X) =npq
      - 이항분포의 확률질량함수 $f(x) =_nC_xp^xq^{n-x}$
    - 초기하 분포
      - 성공할 확률이 매회 일정한 경우(서로 독립사건)는 이항분포를 이용하고, 일정하지 않을 경우(서로 종속사건)에는 초기하 분포를 이용한다.
      - 복원(독립사건) - 이항분포 , 비복원(종속사) - 이산확률분포
    - 포아송 분포
      - 이항분포가 주어진 횟수의 시행중에서 사건횟수에 적용되는 분포임에 반하여,포아송 분포는 단위 시간당 또는 단위 공간당 사건발생 횟수에 적용되는 분포이다.
      - 포아송 분포의 확률질량 함수
      - 포아송 분포의 성립조건
        
        독립성 : 서로 중복되지 않는 다른 시간 동안 또는 영역내에서 일어나는 사건의 횟수와 독립
        
        비례성 : 짧은 시간 동안 또는 작은 영역내에서 사건이 한번 발생할 확률은 시간길이 또는 영역의 면적에 비례한다
        
        비집락성 : 짧은 시간 동안 영역 내에서 사건이 두 번 이상 발생할 확률은 매우 작기 때문에 무시할 수 있다.
        
        기댓값(EX) = $\lambda$ , 분산(Var(x) = $\lambda$, 기댓값과 분산이 같다.
  2. 연속 확률분포 : 확률변수가 소수점의 값을 포함하는 실수의 값을 가지는 경우로 정규 분포, 표준정규분포, 지수 분포, t분포, F-분포, 카이제곱 분포 등이 있다.
    - 정규분포
      - 가우스분포
      - 통계적 측정 및 가설 검정이론의 기본이 된다.
      - 분포의 평균과 표준편차로 결정
      - 평균을 중심으로 대칭적 종모양의 형태
      - 정규곡선과 X축 사이의 전체 면적은 1이다.
    - 표준정규분포(z분포)
      - 평균과 표준편차에 따라 모양과 위치가 달라지기 때문에 서로 다른 두 정규분포의 성격을 비교하거나 확률을 계산하기 위해서는 표준화가 필요하다.
      - $Z = \frac{X-\mu}{\sigma}$,Z~N(0,1)
        X: 확률변수 , $\mu$ : 평균 , $\sigma$ : 표준편차
      - 확률변수 X가 평균$\mu$와 분산 $\sigma^2$를 갖는 정규분포을 따를 때 값P(a<X<b)는 다음과 같이 표현할 수 있다.
      - 확률밀도함수의 평균과 표준편차의 관계가 표준정규분포인 경우 다음과 같다.
    - t분포
      - 모집단이 정규분포를 따르지만 모표준편차를 알 수 없을 뿐만 아니라 표본크기가 30개를 넘지 못하는경우 t분포를 따른다.
      - 모평균, 모평균의 차 또는 회귀계수의 추정이나 검정에 활용한다.
    - 카이제곱분포
      - $x^2$분포는 t분포와 정규분포와는 달리 좌우 대칭이 아니며 오른쪽으로 긴 꼬리를 갖는다.
      - 모분산이 특정한 값을 갖는지 여부를 검정하는데 사용되며 두 범주간 변수간의 독립성 검정과 적합도 검정을 하는데 주로 사용한다.
    - F분포
      - 두 집단의 분산의 동일성 검정에 사용된다. (카이제곱과 비례)
용어정리
- 기댓값의 특성
  - E(a) =a
  - E(bx) = bE(x)
  - E(a+bx) = a+bE(x)
  - E(x+y) = E(x) +E(y)
  - E(ax+by) = aE(x)+bE(y)
- 분산의 특징
  - Var(a) =0
  - Var(a+x) = Var(x)
  - Var(bx) = $b^2$Var(x)
  - Var(x+y) = Var(x) + Var(y) [ x, y는 독립적인 확률변수]
  - Var(x+y) = Var(x) + Var(y) +2Cov(x,y) [ x, y는 종속적인 확률변수]
표본 분포
- 확률변수의 확률분포를 알고 있음을 전제로 모집단의 평균과 분산을 계산했을 뿐만 아니라 확률변수가 어떤 값을 취할 확률을 구하였다.
- 그러나 실제로는 모평균과 모분산을 모르기 때문에 표본을 추출하여 이들의 값을 추정하게 된다. 이를 통계적 추론이라고 한다.
- 표본분포란 주어진 모집단으로부터 크기 n의 확률표본을 수없이 반복하여 추출한 결과로 얻는 표본통계량의 확률분포를 말한다.
  
  용어정리
  - 모집단 : 관심의대상이 되는 전체 집단을 의미
  - 표본 : 모집단의 일부분으로, 원하는 정보를 얻기 위해 수행한 관측 과정을 통하여 실제로 얻어진 측정결과의 집합이다
  - 모수 : 모집단의 특성을 수치로 나타낸 것
  - 통계량 : 표본의 특성을 수치로 나타낸 것

표본평균의 표본분포

표본평균의 분포는 모집단이 정규모집단에 따라 그 분포가 다르게 나타난다
1. 모집단의 분포가(N,$\mu$, $\sigma^2$) 일 때 무한모집단(복원추출)에 의한 표본평균의 분포
  - 모집단의 분포가 정규분포를 따를 때, 표본평균의 분포도 정규분포를 따른다
2. 모집단분포가 정규분포가 아닐 때 표본평균의 분포
  - 모집단의 분포가 정규분포가 아닐 경우 표본평균 $ \overline{X}$가 정규분포를 따른다고 할 수 없다.
  - 그러나 표본의 크기가 충분히 클 때는 표본평균 $ \overline{X}$의 분포는 정규분포로 볼 수 있다.
  - 이것은 중심극한정리에 근거를 두고 있다.

중심극한정리

정규분포가 아니더라도 표본크기 n$\geq $30 이면 평균 $ \overline{X}$의 표본문포는 기댓값의 모평균 $\mu$이고, 분산이 $\frac{\sigma ^{2}}{n}$인 정규분포에 근사한다.
이 중심극한정리로 말미엄아 모집단분포가 균등분포, 이항분포, 지수분포를 따르더라도 표본크기가 상당히 크면 모집단의 특성을 추정하는데 정규분포의 이점을 활용할 수 있다.

추론통계

추정의 의의
- 대부분의 비즈니스 상황에는 모집단에 관한 정보를 알 수 없기 때문에 표본추출을 통한 표본 통계량에 입각하여 모수를 추정하게 된다.
- 이는 통계적 추정으로서 귀납적 추리라고도 한다
통계적 추정의 종류
1. 점추정
  - 모수를 단일치로 추측하는 방법으로,그 신뢰도를 나타낼 수 없다는 단점이 있다.
2. 구간추정
  - 모수를 포함한다고 추측되는 구간을 구하는 방법이다.
    구간추정은 모수의 추정치와 신뢰도를 함께 구할 수 있다.
바람직한 통계적 추정량의 결정기준
1. 불편성추정량 이란 모든 가능한 추정치의 평균이 모수의 참과 같아야 하는 것이다
  - 모수 $\theta $ 의 불편추정량이란 점 추정량 $\widehat{\theta}$의 표본분포의 기댓값이 모수 $\theta $와 같을 때 점추정량을 $\widehat{\theta}$을 말한다.
  - E($\widehat{\theta}$) = $\theta $
  - 추정량의 표본분포의 기댓값이 모수의 참값과 차이가 나면 편의 또는 바이어스라고 한다.
2. 효율 추정량
  - 불편추정량 중에서 그의 분산이 작은 추정량을 말한다.
3. 일치 추정량
  - 표본크기가 증가할수록 추정량 $\widehat{\theta}$이 모수 $\theta $에 더욱 근접하는 추정량을 말한다
4. 충족 추정량
  - 모수 $\theta $를 추정하기 위하여 추출하는 동일한 크기의 표본으로부터 가장 많은 정보를 제공하는 추정

저작자표시 비영리