Certificate/빅데이터 분석기사
[빅데이터 분석기사] [2-2] 빅데이터 탐색 데이터 탐색
손똘
2023. 8. 29. 14:34
반응형
1.데이터 탐색 기초
- 데이터 특징을 파악하는 과정으로서 주로 변수 파악, 통계량 산출, 상관 분석 등을 수행하며, 시각화를 통해 데이터에 대한 인사이트를 얻는다
데이터 분석 접근방법
- 확증적 데이터 분석(CDA, Confirmatory Data Analysis)
- 가설을 설정한 후, 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석방법
- 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등의 통계적 추론을 하는 분석방법으로 설문조사나 논문에 관한 내용을 입증하는 데 사용
- 탐색적 데이터 분석(EDA, Exploratory Data Anaysis)
- 데이터의 특징과 내재하는 구조적관계를 알아내기 위한 기법들을 총칭
- 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정
- EDA는 규칙을 가진 형식적인 과정이 아니며, 데이터에 대해 사고하는 과정이라고 정의 할 수 있다.
#탐색적 데이터 분석의 4가지 주제
- 저항성(Resistance)의 강조
- 데이터 일부가 파손되었을때 영향을 적게 받는 성질
- 이상값에 민감한 평균보다 중앙값 사용을 선호
- 잔차(Residual) 계산
- 각 개별 관측값이 주요 경향으로부터 얼마나 벗어나 있는지를 알려주는 지표
- 잔차의 계산을 통해 주경향으로부터 얼마나 벗어나느지를 탐색
- 자료변수의 재표현(변수변환 : Re-Expression)을 통한 다각적 시도
- 데이터 분석을 단순화하여 해석하는데 도움이 되도록 원자료를 변환
- 그래프를 통한 현시성(Recelation)
- 데이터 구조를 효율적으로 파악하고 데이터 안에 숨어있는 정보를 효율적으로 보여주기 위해 다양한 시각화를 이용
#탐색적 자료분석 방법
- 수치적인 요약(기술통계)
- 평균, 중앙값, 최빈값
- 표준편차, 분산(Variance)
- 사분위수 범위(Interquartile Range)
- 첨도(Kurtosis), 왜도(Skewness)
- 그래프에 의한 요약
- 히스토그램
- 데이터 분포
- 상자그림
- 산점도
#탐색적 자료분석의 주요 확인사항
- 데이터의 결측치 유무, 이상치 유무를 확인한다.
- 데이터 분포상의 이상형태를 확인한다.
- 데이터의 개별 속성값은 예상한 범위 분포의 기초 통계량을 통해 확인한다.
- 개별 데이터 간의 상관성을 산점도를 통해서 확인한다.
2.상관관계 분석
상관분석의 이해
- 데이터 안의 두 변수 간 상관관계의 정도를 측정하는 것으로 하나의 변수가 다른 변수와 얼마나 관련성을 갖고 변화하는지를 알아보기 위해 사용
- 이를 측정하는 방법에는 피어슨 상관계수, 스피어만 상관계수, 켄달의 순위상관계수 등이 있다.
공분산과 상관계수
- 공분산
- 두 변수 사이의 상관성을 나타내는 지표
- 두 변수 X와 Y를 가정할 때, 공분산이란 X의 증감에 따른 Y의 증감에 따른 척도
- (X - μX)(Y-μY)의 기댓값을 의미하며, Cov(X-Y)로 표시한다.
- 공분산이랑 동시에 2개의 변수값들을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느정도 산포 되어 있는가를 나타내는 지표
- Cov(X,Y) = E[(X-μX)(Y-μY)]
- Cov(X,Y) = E(XY) - E(X)E(Y)
- Cov(X,Y) = Cov(Y,X)
- Cov(aX + b, cY + d = acCov(X,Y), 단 a,b,c,d 상수
- 만일 X와 Y가 독립이라면, Cov(X,Y) = 0은 반드시 성립
- Cov(X,Y)=0이라고 해서 X와 Y는 반드시 독립이라고 할 수는 없다.
- 측정단위가 달라지면 공분산의 값이 달라지므로 단순히 공분산의 값으로만 두변수 사이의 관계성을 알기 어렵다.
- 두 변수 사이의 공분산을 표준화 하는 것이 필요한데 상관계수는 바로 이 공분산을 표준화한 값이라고 할 수 있다.
상관계수
수치적 데이터 변수의 상관분석
- 피어슨 상관계수(모수적 검정)
- 대상변수들의 측정에 사용된 척도가 등간. 비율 척도일 때 하나의 변수와 다른 변수간의 관련성을 분석하는데 이용
순서적 데이터 변수의 상관분석
- 스피어만 상관계수
- 상관관계를 분석하고자 하는 두 연속형 변수의 분포가 심각하게 정규분포를 벗어난 경우 또는 두 변수가 순위 척도 자료일 때 사용
- 피어슨 상관계수와 마찬가지로 값의 범위는 -1 ~ 1 이며 1은 한쪽의 순위가 증가함에 따라 다른 쪽의 순위도 증가함을 뜻하고, -1은 한쪽의 순위가 증가할 때 다른족의 순위는 감소함을 뜻한다.
- 피어슨 상관계수와 달리 비선형 관계의 연관성을 파악할 수 있다는 장점이 있다.
- 데이터에 순위만 매길 수 있다면 적용이 가능함
- 연속형 데이터에 적합한 피어슨 상관계수와 달리 이산형 데이터,순서형 데이터에 적용이 가능하다.
- 비모수적 검정
기초 통계량 추출 및 이해
대푯값
- 대푯값은 분포의 중심위치를 나타내는 측정치이다.
평균
- 어떤 값을 중심으로 분포되어 있는지를 알기 위해 사용
- 평균의 정의 : $\overline{x} = \sum_{i=1}^{n}x_i/n$
- 평균은 이상치(비정상적인 속성 값을 지닌 데이터)에 의해 영향을 받이받는다는 단점이 있다.
중앙값
- 평균이 가진 단점으로 인해 위치를 나타내는 또 다른 통계치인 중앙값이 사용
- 자료의 수 n이 홀수이면 (n+1)/2번째 자료의 값
- 자료의 수 n이 짝수이면 n/2번째와 (n/2+1)번째 자료의 값을 평균한 값
- 중앙값은 이상치에 의한 영향을 덜 받으며, 데이터 분포가 비대칭이면 평균보다 더 의미 있는 지표가 된다.
최빈치
- 평균이 가진 단점으로 인해 위치를 나타내는 또 다른 통계치인 중앙값이 사용
- 평균이 가진 단점으로 인해 데이터의 위치를 나타내는 또 다른 통계치
- 최빈치는 가장 많은 빈도를 갖는 데이터를 의미한다
사분위수
- 데이터 표본을 4개의 동일한 부분으로 나눈 값
산포도
- 중앙 위치만 알고 있으면 자료 전체에 대한 정보를 얻는데 한계가 있다
- 최댓값과 최솟값의 차이
- 사분위수 범위(IQR) : 제 3사분위수와 제 1사분위수의 차이를 말한다
- 평균 절대편차 : 관측치들의 평균값으로부터 떨어져 있는 거리를 말한다.
- 평균편차(MD) = $\frac{1}{n}\sum \left|x_i-\overline{x} \right|$
*사분편차 : 제3 사분위수에서 제1사분쉬를 뺀 값의 1/2값이다.
*분산과 표준편차 : 분산은 편차의 제곱의 합을 자료의 수로 나눈 값이다.
*표준편차(σ) = $\sqrt{분산}$
*변이계수(변동계수, CV)
- 표준편차를 산술평균으로 나눈 값
- 평균의 차이가 큰 두 집단의 산포를 비교할 때 사용
- 단위가 다른 두 집단의 산포를 비교할 때 사용
- 변이계수 값이 큰 분포보다 작은 분포가 상대적으로 평균에 더 밀집되어 있음을 의미
비대칭도
- 왜도 : 자료분포의 모양이 어느 쪽으로 얼마만큼 기울어져 있는가, 즉 비대칭 정도를 나타내는 척도이다.
- 첨도 : 분포도가 얼마나 중심에 집중되어 있는가, 분포의 중심이 얼마나 뾰족한가를 측정
반응형