Certificate/빅데이터 분석기사

[빅데이터 분석기사] [2-2] 빅데이터 탐색 데이터 탐색

손똘 2023. 8. 29. 14:34
반응형

1.데이터 탐색 기초

  • 데이터 특징을 파악하는 과정으로서 주로 변수 파악, 통계량 산출, 상관 분석 등을 수행하며, 시각화를 통해 데이터에 대한 인사이트를 얻는다

데이터 분석 접근방법

  1. 확증적 데이터 분석(CDA, Confirmatory Data Analysis)
    • 가설을 설정한 후, 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석방법
    • 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등의 통계적 추론을 하는 분석방법으로 설문조사나 논문에 관한 내용을 입증하는 데 사용
  2. 탐색적 데이터 분석(EDA, Exploratory Data Anaysis)
    • 데이터의 특징과 내재하는 구조적관계를 알아내기 위한 기법들을 총칭
    • 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정
    • EDA는 규칙을 가진 형식적인 과정이 아니며, 데이터에 대해 사고하는 과정이라고 정의 할 수 있다.

#탐색적 데이터 분석의 4가지 주제

  1. 저항성(Resistance)의 강조
    • 데이터 일부가 파손되었을때 영향을 적게 받는 성질
    • 이상값에 민감한 평균보다 중앙값 사용을 선호
  2. 잔차(Residual) 계산
    • 각 개별 관측값이 주요 경향으로부터 얼마나 벗어나 있는지를 알려주는 지표
    • 잔차의 계산을 통해 주경향으로부터 얼마나 벗어나느지를 탐색
  3. 자료변수의 재표현(변수변환 : Re-Expression)을 통한 다각적 시도
    • 데이터 분석을 단순화하여 해석하는데 도움이 되도록 원자료를 변환
  4. 그래프를 통한 현시성(Recelation)
    • 데이터 구조를 효율적으로 파악하고 데이터 안에 숨어있는 정보를 효율적으로 보여주기 위해 다양한 시각화를 이용

#탐색적 자료분석 방법

  1. 수치적인 요약(기술통계)
    • 평균, 중앙값, 최빈값
    • 표준편차, 분산(Variance)
    • 사분위수 범위(Interquartile Range)
    • 첨도(Kurtosis), 왜도(Skewness)
  2. 그래프에 의한 요약
    • 히스토그램
    • 데이터 분포
    • 상자그림
    • 산점도

#탐색적 자료분석의 주요 확인사항

  • 데이터의 결측치 유무, 이상치 유무를 확인한다.
  • 데이터 분포상의 이상형태를 확인한다.
  • 데이터의 개별 속성값은 예상한 범위 분포의 기초 통계량을 통해 확인한다.
  • 개별 데이터 간의 상관성을 산점도를 통해서 확인한다.

 

2.상관관계 분석

상관분석의 이해

  • 데이터 안의 두 변수 간 상관관계의 정도를 측정하는 것으로 하나의 변수가 다른 변수와 얼마나 관련성을 갖고 변화하는지를 알아보기 위해 사용
  • 이를 측정하는 방법에는 피어슨 상관계수, 스피어만 상관계수, 켄달의 순위상관계수 등이 있다.

공분산과 상관계수

    1. 공분산
      • 두 변수 사이의  상관성을 나타내는 지표
      • 두 변수 X와 Y를 가정할 때, 공분산이란 X의 증감에 따른 Y의 증감에 따른 척도
      • (X - μX)(Y-μY)의 기댓값을 의미하며, Cov(X-Y)로 표시한다. 
      • 공분산이랑 동시에 2개의 변수값들을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느정도 산포 되어 있는가를 나타내는 지표
      • Cov(X,Y) = E[(X-μX)(Y-μY)]
      • Cov(X,Y) = E(XY) - E(X)E(Y)
      • Cov(X,Y) = Cov(Y,X)
      • Cov(aX + b, cY + d = acCov(X,Y), 단 a,b,c,d 상수
      • 만일 X와 Y가 독립이라면, Cov(X,Y) = 0은 반드시 성립
      • Cov(X,Y)=0이라고 해서 X와 Y는 반드시 독립이라고 할 수는 없다.
      • 측정단위가 달라지면 공분산의 값이 달라지므로 단순히 공분산의 값으로만 두변수 사이의 관계성을 알기 어렵다.
      • 두 변수 사이의 공분산을 표준화 하는 것이 필요한데 상관계수는 바로 이 공분산을 표준화한 값이라고 할 수 있다.

상관계수

 

수치적 데이터 변수의 상관분석

  1. 피어슨 상관계수(모수적 검정)
    • 대상변수들의 측정에 사용된 척도가 등간. 비율 척도일 때 하나의 변수와 다른 변수간의 관련성을 분석하는데 이용

순서적 데이터 변수의 상관분석

  1. 스피어만 상관계수
    • 상관관계를 분석하고자 하는 두 연속형 변수의 분포가 심각하게 정규분포를 벗어난 경우 또는 두 변수가 순위 척도 자료일 때 사용
    • 피어슨 상관계수와 마찬가지로 값의 범위는 -1 ~ 1 이며 1은 한쪽의 순위가 증가함에 따라 다른 쪽의 순위도 증가함을 뜻하고, -1은 한쪽의 순위가 증가할 때 다른족의 순위는 감소함을 뜻한다.
    • 피어슨 상관계수와 달리 비선형 관계의 연관성을 파악할 수 있다는 장점이 있다.
    • 데이터에 순위만 매길 수 있다면 적용이 가능함
    • 연속형 데이터에 적합한 피어슨 상관계수와 달리 이산형 데이터,순서형 데이터에 적용이 가능하다.
    • 비모수적 검정

기초 통계량 추출 및 이해

  대푯값

  • 대푯값은 분포의 중심위치를 나타내는 측정치이다.

 평균

  • 어떤 값을 중심으로 분포되어 있는지를 알기 위해 사용
  •  평균의 정의 : $\overline{x} = \sum_{i=1}^{n}x_i/n$
  • 평균은 이상치(비정상적인 속성 값을 지닌 데이터)에 의해 영향을 받이받는다는 단점이 있다.

 중앙값

  • 평균이 가진 단점으로 인해 위치를 나타내는 또 다른 통계치인 중앙값이 사용
  • 자료의 수 n이 홀수이면 (n+1)/2번째 자료의 값
  • 자료의 수 n이 짝수이면 n/2번째와 (n/2+1)번째 자료의 값을 평균한 값
  • 중앙값은 이상치에 의한 영향을 덜 받으며, 데이터 분포가 비대칭이면 평균보다 더 의미 있는 지표가 된다.

 최빈치

  • 평균이 가진 단점으로 인해 위치를 나타내는 또 다른 통계치인 중앙값이 사용
  • 평균이 가진 단점으로 인해 데이터의 위치를 나타내는 또 다른 통계치
  • 최빈치는 가장 많은 빈도를 갖는 데이터를 의미한다

 사분위수

  • 데이터 표본을 4개의 동일한 부분으로 나눈 값

 산포도

  • 중앙 위치만 알고 있으면 자료 전체에 대한 정보를 얻는데 한계가 있다
  • 최댓값과 최솟값의 차이
  • 사분위수 범위(IQR) : 제 3사분위수와 제 1사분위수의 차이를 말한다
  • 평균 절대편차 : 관측치들의 평균값으로부터 떨어져 있는 거리를 말한다.
  • 평균편차(MD) = $\frac{1}{n}\sum \left|x_i-\overline{x} \right|$

*사분편차 : 제3 사분위수에서 제1사분쉬를 뺀 값의 1/2값이다.

*분산과 표준편차 : 분산은 편차의 제곱의 합을 자료의 수로 나눈 값이다.

*표준편차(σ) = $\sqrt{분산}$

*변이계수(변동계수, CV) 

  • 표준편차를 산술평균으로 나눈 값
  • 평균의 차이가 큰 두 집단의 산포를 비교할 때 사용
  • 단위가 다른 두 집단의 산포를 비교할 때 사용
  • 변이계수 값이 큰 분포보다 작은 분포가 상대적으로 평균에 더 밀집되어 있음을 의미 

비대칭도

  1. 왜도 : 자료분포의 모양이 어느 쪽으로 얼마만큼 기울어져 있는가, 즉 비대칭 정도를 나타내는 척도이다.
  2. 첨도 : 분포도가 얼마나 중심에 집중되어 있는가, 분포의 중심이 얼마나 뾰족한가를 측정
반응형