SyntaxHighlighter.all(); 'Certificate/빅데이터 분석기사' 카테고리의 글 목록 :: 또르의 개발노트 ss
반응형

5.인공지능, 머신러닝, 딥러닝

  • 딥러닝은 머신러닝의 한 종류로 인공신경망(ANN)에 기반을 둔 학습 방법
  • 머신러닝은 정형데이터 학습에 딥러닝은 이미지, 소리, 텍스트와 같은 비정형 데이터 학습에 주로 사용
  • 딥러닝 학습에넌 DNN, CNN, RNN, GAN, 전이학습 등의 다양한 종류 있음
  • 전이학습 : 풍부한 데이터를 이용해서 학습된 pre-trained model을 가져와 부족한 사용자 데이터 환경에 맞도록 새롭게 모델을 학습시키는 일련의 과정
  1. 인공신경망(ANN) 모형
    • 인공신경망을 이용하면 분류 및 예측을 할 수 있음
    • 인공신경망은 입력층, 은닉층, 출력층 3개의 층으로 구성(SLP:은닉층 없음, MLP :1개 이상의 은닉층)
    • 각 층에 뉴런(=Perceptron, Node)이 여러 개 포함되어 있음
    • 학습: 입력에 대한 올바른 출력이 나오도록 가중치를 조절하는 것 
    • 파라미터(매개변수) : 가중치(weight)
    • 하이퍼 파라미터 : 인공신경망의 학습률(learning rate), 배치크기, hidden unit, hidden layer 

*SLP의 한계

  • SLP는 단순한 문제 해결만 가능함
  • 즉, 1개의 선으로 나눌 수 있는 AND, OR, NOR 등의 문제는 해결할 수 있지만, 두개의 선이 필요한 XOR는 해결할 수 없음 -> 복잡한 문제는 MLP 이용

*인공신경망(ANN)의 학습 방법

  1. FORWARD PROPAGATION
    • 모든 weight(=parameter)의 임의 값 초기화
    • 입력(X), weight를 사용하여 예측 값 구하기
  2. 손실/비용/에러 구하기
    • 예측 값과 실제 값을 손실함수에 적용하여 구함
  3. BACKWARD PROPAGATION
    • 손실을 반영하여 weight 값 갱신하기
    • 이대, 손실함수에 대한 기울기 미분이 발생
      W = W - $\alpha \frac{d}{dW}cost(W,b)$
  4. 경사하강법
    • 비용 함수 기울기를 낮은 쪽에서 계속 이동시켜 극값에 이를 때까지 반복시키는 것
    • 비용 함수의 기울기의 최소값을 찾아내는 머신러닝 알고리즘
    • 비용 함수 기울기를 최소화 하기 위해 parameter(=Weight)를 반복적으로 조정하는 과정
  5. 경사 하강법 과정
    • 다음의 과정을 n회 반복 수행, 비용 함수 기울기 최소값을 향해 수렴
      1. 임의의 Weight값으로 초기화
      2. Cost 계산(적절한 Cost Function 사용)
      3. Weight 값 갱신 :  W = W -$\alpha \frac{d}{dW}cost(W,b)$
    • n, learning rate(hyper-parameter) 가 적절해야 함

*퍼셉트론(Perceptron)

  • 생물학적 뇌의 뉴런을 모방하여 만든 인공신경망(ANN)의 기본 단위

*기울기 소실

  • 역전파 알고리즘은 출력층에서 입력층으로 오차 gradient를 흘려 보내면서, 각 뉴런의 입력 값에 대한 손실함수의 gradient를 계산 함
  • 이렇게 계산된 gradient를 사용하여 각 가중치 매개변수를 업데이트 해 줌
  • 다층신경망에서는 역전파 알고리즘이 입력층으로 갈 수록 Gradient가 점차적으로 작아져 0에 수렴하여, weight가 업데이트 되지 않는 현상
  • activation function으로 sigmoid 함수를 사용할 때 발생 -> 해결을 위해 ReLU 등 다른 함수 사용

*신경망 활성화 함수

  • 출력을 내보낼 때 사용하는 삼수로, 주로 비선형 함수를 사용 함
  • 가중치 값을 학습할 때 에러가 적게 나도록 돕는 역할을 함
  • 풀고자 하는 문제 종류에 따라 활성화 함수의 선택이 달라지며, Layer마다 다르게 사용할 수 있음
  • 함수 종류 : 선형-항등, 비선형-계산, 부호, sigmoid, ReLU, Leaky ReLU, Maxout, tanh, softmax 

*활성화 함수의 종류

  • 항등함수 : X값 그대로 
  • 계단함수 : 0 또는 1
  • 부호함수 : -1 또는 1 
  • sigmoid함수 : 
    • 연속형 0~1, Logistic 함수라 불리기도함
    • 선형적인 멀티-퍼셉트론에서 비선형 값을 얻기 위해 사용
    • $\frac{1}{1+e^{-x}}$
  • softmax함수 : 
    • 각 클래스에 속할 확률 값을 출력함, 속할 확률이 가장 높은 클래스로 예측함
    • 모든 logits(출력)의 합이 1이 되도록 output을 정규화 한 것
    • sigmoid 함수의 일반화된 형태로 결과가 다 범주인 경우 각 범주에 속할 사후 확률을 제공하는 활성화 함수
      (3개 이상)
  • ReLU(Rectified Linear Unit)
    • 학습이 빠르고 미분값이 0,1 두 개 중 하나이기 때문에 자원 소모가 적어 일반적으로 쓰는 함수 중 한가지
    • x<0 인 경우 Dying ReLU 현상이 발생함
  • Leaky ReLU
    • 0보다 작은 입력에 대해 기울기를 주어 Dying ReLU 현상 보완
  • ELU(Exponential Linear Unit)
    • 입력이 음수일때 exponential을 활용한 함수를 사용하여  Dying ReLU 문제 해결
    • X<0일때 지수함수 계산 비용 발생
  • tanh(Hyperbolic Tangent)
    • sigmoid의 중심 값을 0으로 이동한 것
    • 학습시간 지연 해소, Vnishing Gradient 발생

*손실함수

  • Loss/Cost : 실제 값과 예측 값의 차이로 '오차'를 의미함
  • Loss Function의 예 : 분류 - Cross Entropy, 회구 - Mean Square Error

*Learning Rate(학습률)

  • 학습의 속도를 나타내는 것, weight update 시 함께 곱해지는 값
  • Learning Rate가 작을 경우 wieght 변경 속도가 느려 학습시간이 오래 걸릴 수 있음
  • Learming Rate가 클 경우 곡선의 최저점을 이탈 할 수 있다

*Mini batch 학습

  • 모든 학습 데이터에 대해 loss를 계산하는 것은 시간이 오래 걸리므로, 데이터의 일부를 사용해 학습한다.
  • Epoch
    • 모든 DataSet이 Netural Network 전체에 대한 학습을 1회 수행한 것
    • 1Epoch만으로 학습은 충분하지 않음
  • Batch Size
    • Single Batch 내 학습용 Data Size
  • Iterations
    • 1 Epoch를 달성하기 위한 batch 개수
    • Iterations = 전체 데이터수 / Batch_Size

*Normalization

  • 학습을 더 빨리하고, local minima에 빠지는 가능성을 줄이기 위해 사용함
  • MinMaxScaler : 0~1사이 값으로 변경, StandardScaler : 평균0, 분산 1의 값으로 변경
    • Unnomalized
      • 타원 모양
      • 수평으로 이동할 때와 수직으로 이동할 때 변화량 불균형 발생으로 Gradient
        Descnet 알고리즘을 적용하기 어려울 수 있음
      • Learning rate를 작게 해야 함
    • Normalized
      • 구모양
      • Gradient Descent를 적용하여 쉽고 빠르게 최적화 지점을 찾을 수 있음
      • Learning rate에 민감하지 않음

*Optimization(경사하강법)

  • Learning Rate 및 Gradient 부분 값을 적절하게 수정하여 학습 속도를 높이고 안정적인 결과를 얻고록 함
  • Plateau(평지) 현상 해결
  • ZigZag 현상 해결 : w 갱신 행렬의 부호가 동일하여 w 목표점을 지그재그로 찾아가는 현상
  • 극소점을 찾은 뒤 더 이상 학습이 되지 않는 현상 해결
    • Optimizer의 종류
      • Gradient 수정 : Momentum, NAG
      • Learning Rate  수정 : AdagRrad, AdaDelta, RMSProp
      • Gradient, Learning Rate 모두 수정 : Adam, Nadam

*다층신경망학습과 Layer, Node

  • 다층신경망은 단층신경망에 비해 훈련이 어려움
  • 레이어가 많아지면 기울기 소실 문제가 발생할 수 있음
  • 은닉층 수와 은닉 층의 노드수 결정은 분석가가 분석 경험에 의해 설정
    • 은닉 층 노드가 너무 적으면
      • 네트워크가 복잡한 의사결정 경계를 만들 수 없음
      • Underfitting 문제 발생
    • 은닉 층 노드가 너무 많으면
      • 복잡성을 잡아낼 수 있지만, 일반화가 어렵다
      • 과적합(Overfitting)문제 발생
    • Layer, Node를 사용한 과적합 해결
      • 매개변수의 수를 줄인다
      • 은닉층 수를 줄인다
      • 노드 수를 줄인다
    • 반복, 데이터, 규제를 사용한 과적합 해결
      • epoch 수를 줄인다
      • early stopping 기법을 사용한다
      • 데이터의 양을 늘인다
      • Regularization을 사용한다
    • Regularization의 종류
      • L1/L2 Regularization
      • Dropout
      • DropConnect

*Regularization -Overfitting 해결법

  • 데이터 양을 늘림
  • Regularization 사용
  • Batch Normalization : Mini-batch의 평균, 분산을 이용해 Normalization 실행

*인공 신경망 모형의 장/단점

  • 장점
    • 변수의 수가 많거나 입,출력변수 간에 복잡한 비선형 관계에 유용
    • 이상치 잡음에 대해서도 민감하게 반응하지 않음
    • 입력변수와 결과변수가 연속형이나 이산형인 경우 모두 처리 가능
  • 단점
    • 결과에 대한 해석이 쉽지 않음
    • 최적의 모형을 도출하는 것이 상대적으로 어려움
    • 모형이 복잡하면 훈련 과정에 시간이 많이 소요되고, 과적합되지 쉬움
    • 데이터를 정규화 하지 않으면 지역해에 빠질 위험이 있음

DeepLearning

  • 딥러닝 - DNN(Deep Neural Network)을 이용한 머신러닝 기법
  • DNN은 hidden layer가 2개 이상인 Network을 의미함
  • 다층의 layer를 통해 복잡한 데이터 학습이 가능하도록 함
  • 알고리즘 및 GPU 발전이 딥러닝의 부흥을 이끔
  • Input, Hidden, Ouput layer로 구성된 모형으로 각층을 연결하는 Node 가중치를 학습함
  • Overfitting이 심하게 일어나고 학습시간이 오래 걸림

*CNN

  • Convolution Neural Networks, 합성곱 신경망
  • 이미지 데이터 사용
  • classfication, localization, object detection, instance segmentation
  • Convolution Layer, Fully Connected Layer로 구성
    • 구조
      • Input Image : 이미지를 하나 입력으로 취함
      • Convolutional Layers : Feature Extraction을 수행하는 layer
        • Convolution Layer + ReLU : Feature 추출, 의미 없는 특징을 zero화
        • Pooling Layer : Feature 개수 축소, 중요한 Feature만 유지 (선택적 작업)
      • Fully-Connected Layer : 비선형 조합 학습 및 분류 작업 수행
      • Output Class: 작업의 결과

*Convolution(합성곱)

  • Filter(=Convolution Kernel Matrix)를 적용하여 입력에 대해 특정 성분에 대해서만 뽑아내는 작업
    • 예) 사선 정보, 직선 정보, 동그란 정보, 각진 정보...
    • 알고 싶은 특정 성분에 따라 필터의 모양이 다름
    • CNN은 필터를 갱신하면서 학습하는 것임
  • Image에 특정 필터를 Convolution한 결과를 Feature Map 이라고 함
  • Feature Map은 Image에 적용된 Filter 개수 만큼의 Channel을 갖게됨
    • n개의 Filter가 적용된 경우 n개 Channel 
  • Stride : Filter를 순회하는 간격, Stride가 2로 설종되면 2칸 씩 이동하면서 Convolution 하게 됨

*Padding

  •  Convolution Layer에서 Fiter를 사용하여 Feature Map을 생성할 때, 이미지 크기가 작어지는 것을 막기 위해 테두리에 Filter 크기를 고려하여 특정 값(일반적으로 0 )으로 채우는 작업

*Pooling

  • Convolution Layer의 Output을 Input으로 받아 Feature Map의 크기를 줄이거나 특정 데이터를 강종하는 용도로 사용
  • Max Pooling, Min Pooling, Average Pooling 등의 종류가 있음
  • Pooling Size를 Stride로 지정하며, 이 크기에 따라 줄어드는 양이 결정됨
  • 입력 데이터의 행, 열 크기는 Pooling 사이즈의 배수(나누어 떨어지는 수)이어야 함

*Fully Connected Layer

  • Flatten Layer : CNN의 데이터를 Fully Connected Neural Network의 형태로 변경하는 layer
    • 입력 데이터의 Shape 변경만 수행
  • Softmax Layer : Flatten Layer의 출력을 입력으로 사용하며, 분류 클래스에 매칭 시키는 Layer
    • 분류 작업을 실행해 결과를 얻게 됨

*RNN(Recurrent Neural Networks, 순환 신경망)

  • 이전 상태가 다음 판단에 영향을 주는 경우 사용
  • RNN, LSTM, GRU : 자연어, 음성신호, 주식과 같은 연속적인 데이터에 적합한 모델
    • RNN Cell: 출력을 다시 입력으로 사용하여 기억 하도록 한 것
    • LSTN Cell : 장기, 단기 기억을 구분하여 저장하는 방식
    • GRU Cell : LSTM의 간소화된 버전
  • Sequence Gneration : 책, 코딩, 음악, 춤, 영상 등을 학습하여 비슷하게 만들어 냄
  • Image Captioning :Image -> Sequence of words
  • Question Anserwing, Machine Translation
  • 장기 의존성 문제
    • 은닉층의 과거 정보가 마지막까지 전달되지 못하는 현상
    • 시퀀스 데이터의 길이가 길어질수록 과거의 중요한 정보에 대한 학습이 어려워지는 문제

*LSTM

  • RNN의 장기 의존성 문제를 해결한 문제
  • 3개 Gate(Forget, Input, Output) 및 Cell state, Cell state Update, Hidden State로 구성

*GRU

  • RNN의 장기 의존성 문제를 해결한 모델
  • 2개 Gate(Reset, Update)

 

 

반응형
반응형

용어정리

  •  독립변수
    • 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수, 설명 변수라고도 함
    • 입력 값이나 원인을 나타내는 변수 , y=f(x)에서 x에 해당하는 
  • 종속변수
    • 독립변수의 영향을 받아 값이 변화하는 수 , 분석의 대상이 되는 변수
    • 결과물이나 효과를 나타내는 변수, y= f(x)에서 y에 해당하는 것
  • 잔차
    • 계산에 의해 얻어진 이론 값과 실제 관측이나 측정에 의해 얻어진 값의 차이
    • 오차(Error) - 모집단, 잔차 - 표본집단

회귀 분석

  • 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법
  • 독립변수의 값에 의해 종속변수의 값을 예측하기 위함
  • 일반 선형회귀는 종속변수가 연속형 변수일 때 가능
  1. 선형 회귀 모형
    • 종속변수 y와 한 개 이상의 독립변수 X와의 선형 상관 관계를 모델링하는 회귀분석 기법
    • 한 개의 독립변수 : 단순 선형회귀, 둘 이상의 독립변수 : 다중 선형 회귀
  2. 단순 선형 회귀 모형(독립변수 1개)
    • $Y_i$ = $\beta_iX_i$+$\varepsilon_i$ = i=1,2,$\cdots $, n
    • $Y_i$ : 종속변수
    • $X_i$ : 독립변수
    • $\varepsilon_i$ : 에러(error)
    • $\beta_0$ : 선형회귀식의 절편
    • $\beta_1$ : 기울기, 회귀계수(coefficient)
  3. 회귀 모형의 종류
    1. 단순 선형회귀
      • 하나의 특성(독립변수)를 가지고 Target을 예측하기 위한 선형 함수를 찾는것
      • $\widehat{y}$ =ax + b
    2. 다중 선형회귀
      • 여러 개의 특성을 활용해서 Target을 계측하는 회귀 모델을 만듦
      • $\widehat{y}$ = a[0]x[0] + a[1]x[1] + ... a[n]x[n] + b
    3. 다항 회귀
      • 입력 Feature에 대해 1차 -> n차 식으로 변형
      • 데이터가 단순한 직선의 형태가 아닌 비선형 형태인 경우 선형 모델을 사용하여 비선형 데이터를 학습하기 위한 방법
      • $\widehat{y}$  = a[0]x + $a[1]x^2$ + b  # 1차식을 2차식으로 변형한 경우
  4. 회귀 모형의 가정
    • 선형성 : 독립변수의 변화에 따라 종속변수도 선형적으로 변화하는 선형모형이다
    • 독립성 : 잔차와 독립변수의 값이 관련되어 있지 않다
    • 정규성 : 잔차항이 정규분포를 이뤄야 한다
    • 등분산성 : 잔차항들의 분포는 동일한 분산을 갖는다
    • 비상관성 : 잔차들끼리 상관이 없어야 한다

 *Normal Q-Q plot

  • 정규성, 잔차가 정규분포를 잘 따르고 있는지를 확인하는 그래프
  • 잔차들이 그래프 대각선 상에 있어야 이상적인

*Scale-Location

  • 등분산성, y축이 표준화 잔차를 나타내며, 기울기 0인 직선이 이상적임

*이상값(Outliler)

  • 숫자와 함께 표시된 것

*Residuals vs Fitted는 선형성, 등분산성에 대해 알아 볼 수 있는 그래프

  • 선형성: y값의 기울기가 0인 직선이 이상적
  • 등분산성: 점의 위치가 전체 그래프에 고르게 분포하는 것이 이상적

*Residuals vs Leverage

  • 회귀 분석에는 잔차의 크기가 큰 데이터가 Outlier가 되는데 이 중에서도 주로 관심을 가지는 것은 Leverage와 Residual의 크기가 모두 큰 데이터임
  • Leverage : 종속변수 값이 예측 값에 미치는 영향을 나타낸 값
  • Cook's distance는 Leverage와 Residual를 동시에 보기 위한 기준으로 그림에서 빨간색 점선으로 표시임
  • Leverage가 커지거나 Residual의 크기가 커지면 Cook's distance 값이 커짐
  • 일반적으로 1값이 넘어가면 관측치를 영향점으로 판별

데이터의 정규성 검정

  • 데이터의 정규성 검정 종류
    1. Q-Q plot
      • 그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법
      • 대각선 참조선을 따라 값들이 분포하게 되면 정규성을 만족한다고 할 수 있음
    2. Histogram
      • 구간별 돗수를 그래프로 표시하여 시각적으로 정규분포를 확인하는 방법
    3. Shapiro-Wilk test
      • 데이터의 분포가 정규분포를 따르는지 알아보는 검정
      • 귀무가설은 정규분포를 따른다로 p-value 0.05보다 크면 정규성을 가정하게 됨
    4. Komogorob-Smirnov test
      • K-S test, 두 모집단의 분포가 같은 지 검정하는 것
      • p-value가 0.05보다 크면 정규성을 가정하게 됨

 과적합

*과적합의 문제와 해결방법

  • 주어진 샘플들의 설명변수와 종속변수의 관계를 필요이상 너무 자세하고 복잡하게 분석
  • 샘플에 심취한 모델로 새로운 데이터가 주어졌을 때 제대로 예측해내기 어려울 수 있음
  • 해결 방법으로 Feature의 개수를 줄이거나, Regularization, Dropout을 수행하는 방법이 있음
  1. 정칙화(Regularization) 개념
    • 베타$\beta$값에 제약을 주어 모델에 변화를 주는 것
    • $_lamda$ 값은 정칙화 모형을 조정하는 hyper parameter(=사용자가 정하는 값)
    • $_lamda$ 값이 클수록 제약이 커져 적은 변수가 사용되고, 해석이 쉬워지지만 underfitting 됨
    • $_lamda$ 값이 작아질수록 제약이 많은 변수가 사용되고, 해석이 어려워지며 overfitting 됨
    • Ridge, Lasso, ElasticNet등이 있으며 과대적합 및 다중공선성 문제 해결용도로 사용할 수 있다
  2. norm : 선형대수학에서 벡터의 크기 또는 길이를 측정하는 방법
    • L1 norm(=Manhattan norm) - 벡터의 모든 성분의 절대값을 더함
    • L2 norm(=Euclidean norm) - 출발점에서 도착점까지의 거리를 직선거리로 측정함
  3. 라쏘(Lasso) 회귀 특징
    • L1 norm을 패널티를 가진 선형 회귀 방법, 회귀계수의 절대값이 클수록 패널티 부여
    • MSE가 최소가 되게 하는 $_beta$(회귀계수)를 찾는 동시에 $_beta$의 절대값들의 합이 최소가 되게 해야함
    • 변수 선택이 가능하며, 변수간 상관관계가 높으면 성능이 떨어짐
    • 회귀계수의 모든 원소가 0이 되거나 0에 가깝게 되게 해야 함 => 불필요 특성 제거
    • 어떤 특성은 모델을 만들 때 사용되지 않게됨
  4. 라쏘(Lasso) 회귀 장점
    • 제약 조건을 통해 일반화된 모형을 찾음
    • 가중치들이 0이 되게 함으로써 그에 해당하는 특성을 제외해 줌
    • 모델에서 가장 중요한 특성이 무엇인지 알게 되는 등 모델 해석력이 좋아짐
  5. Ridge 회귀 특성
    • L2 norm을 사용해 패널티는 주는 방식
    • Lasso는 회귀계수들이 0이 되지만, Ridgw의 회귀계수들은 0에 가까워질 뿐 0이되지 않는다.
    • 변수 선택 불가능, 변수 간 상관관계가 높은 상황에서 좋은 성능
    • 특성이 많은데 특성의 중요도가 전체적으로 비슷하다면 Ridge가 좀 더 괜찬은 모델을 찾아줄 것
  6. ElasticNet 회귀 특성
    • L1,L2 norm regularization
    • 변수 선택 가능, 변수 간 상관관계를 반영한 정규화
  7. 변수 선택 방법
    • 회귀분석을 위한설명 변수 선택방법
      1. 모든 가능한 조합
        • 모든 가능한 독립변수의 조합에 대한 회귀모형을 고려해 AIC, BIC의 기준으로 적합한 회귀 모형선택
        • AIC, BIC : 최소자승법의 $R^2$와 비슷한 역할을 하며, 적합성을 측정해주는 지표로 $R^2$는 큰 값이 좋지만, AIC, BIC는 작은 값이 좋음
      2. 후진제거법 
        • Backward Elimination, 독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장적은 영향을 주는 변수로부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하고, 이때 모형을 선택
      3. 전진선택법
        • Foward Selection, 절편만 있는 모델에서 출발해 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법
      4. 단계별 선택법
        • Stepwise method, 모든 변수가 포함된 모델에서 출발해 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져있는 변수 중에서 기준 통계치를 가장 개선 시키는 변수를 추가함
      5. 회귀모델에서 변수 선택을 위한 판단기준
        • Mallow's Cp, AIC, BIC등이 있으며, 값이 작을 수록 좋음

분석 기법

1.로지스틱 회귀

  • 로지스틱 회귀분석의 시그모이드 함수식 $y= \frac{1}{1+e^{-x}}$
    1. 선형 회귀 분석
      • Regression
      • 정규분포를 따름
      • 종속변수는 연속형
      • -∞ ~ ∞ 사이의 값
      • 모형 탐색 : 최소자승법
      • 모형 검색 : F-test, t-test
      • 선형성 및 오차항에 대한 가정 있음
    2. 로지스틱 회귀 분석
      • Classification(분류분석), 지도학습
      • 이상분포를 따름
      • 종속변수는 범주형
      • 0 ~ 1사이의 확률 값
      • 최대우도법,가중최소자승법(WLS)
      • 모형 검정 : $X^2$test
      • WLS(Weigthed Least Squares) : 회귀 모수의 오차항 분산에 반비례하는 가중치를 부여하여 가중 오차제곱합을 최소화 하는 방법

*선형 회귀, 로지스틱 회귀의 공통점 

    • 지도 학습
    • 결정계수는 모두 파라미터
    • 독립변수는 연속형, 범주형 모두 사용

*종속변수를 전체 실수 범위로 확장하여 분석하고, sigmoid 함수를 사용해 연속형 0~1값으로 변경

  1. probability 
    • 0 ~ 1 사이의 값
  2. odds 
    • 성공률 / 실패률, Pi(1-Pi), Pi= 성공률
    • 로지스틱의 회귀계수, 확률에 대해  0~∞ 로 변환한 값
  3. log odds
    • og(odds), odds값에 log를 취함
    • 선형화의 하나, 값의 범위를 전체 실수 범위로 확장
    • log = as + b형태로 선형분석이 가능해짐
  4. sigmoid 
    • log odds 값을 연속형 0~1 사이의 확률 값으로 바꾸는 함수
    • Logistic 함수라 불리기도 하며, 비선형적 값을 얻기 위해 사용
    • 이항 분류의 경우 확률 값이 높은것을 1 아닌것을 0으로 분류

*승산비 : 관심있는 사건이 발생할 상대 비율, x=1일 때, y=1이 되는 상대적 비율

  • odds_a/ odds_b = exp(coef) = exp(5.140336) = 170.7731385
  • 로지스틱 회귀에서 exp(x1)의 의미(단, x1 : 회귀계수)
  • 나머지 변수가 주어질 때 x1이 한 단위 증가할 때마다 성공(Y=1)의 ODDS가 몇 배 증가하는지를 나타냄

*일반화 선형 모형 GLM : Generalized Linear Model

  • 종속변수가 정규분포를 따르지 않는 경우 사용되는 모델
  • 일반선형모델보다 유연성이 높고, 비 정규적인 종속변수에 대해 적합한 모델을 제공함
  • 대표적인 알반화 선형 모형은 로지스틱 회귀
  • 종속변수의 분포에 따른 정준 연결 함수
  • 포아송 분포:log함소 , 정규분호: 항등 함수, 이항분포: 로짓, 감마분포 : 역수함

*일반 선형 모형 : General Linear Model

  • 종속변수가 정규분포를 따르는 경우 사용
  • 하나 이상의 독립변수가 종속변수에 영향을 미치는 경우를 분석할 대 사용
  • 예)회귀분석

2.의사결정나무

  • 의사 결정 규칙을 나무구조로 나타내 전체 자료를 몇 개의 소집단으로 분류하거나 예측(=회귀)를 수행하는 분석 방법
  • 분석과정이 직관적이고 이해하기 쉬움
  • 같은 종류의 값/클래스로만 이루어진 경우 분리되지 않음
  • 뿌리마디(root node)
  • 자식마디(child node)
  • 부모마디(parent node)
  • 최종마디(terminal node)
  • 중간마디(internal node)
  • 가지(branch)
  • 깊이(depth)

특징

  • 목적은 새로운 데이터를 분류하거나 값을 예측하는 것이다
  • 분리 변수 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받는다
  • 부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성해 나간다(불순도 감소)

종류

  • 목표변수(=종속변수)가 이산형인 경우 : 분류나무
  • 목표변수가 연속형인 경우 : 회귀나무

장점

  • 구조가 단순하여 해석이 용이함
  • 비모수적 모형으로 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요함
  • 범주형(이산형)과 수치형(연속형)변수를 모두 사용할 수 있음

단점

  • 분류 기준값의 경계선 부근의 자료 값에 대해서는 오차가 큼(비연속성)
  • 각 예측변수의 효과를 파악하기 어려움
  • 새로운 자료에 대한 예측이 불안정할 수 있음(overfitting 가능성 높음)

*독립변수 = 설명변수, 예측변수, Feature

*종속변수 = 목표변수, 반응변수, Label

 

분리기준

  • Split criterion, 새로운 가지를 만드는 기준을 어떻게 정해야 할까?
  • 순수도가 높아지는 방향으로 분리
  • 불확실성이 낮아지는 방향

정지규칙

  • 더 이상 분리가 일어나지 않고 현재의 마디가 최종마디가 되도록 하는 규칙
  • 불순도 감소량이 아주 작을 때 정지함

가지치기 규칙

  • 어느 가지를 쳐내야 예측력이 좋은 나무가 될까?
  • 최종 노드가 너무 많으면 Overfitting 가능성이 커짐, 이를 해결하기 위해 사용
  • 가지치기 규측은 별도 규칙을 제공하거나 경험에 의해 실행할 수 있음
  • 가지치기의 비용함수를 최소로 하는 분기를 찾아내도록 학습
  • Information Gain이란 어떤 속성을 선택함으로 인해 데이터를 더 잘 구분하게 되는것을 의미함 (불확실성 감소)

*목표변수가 범주 형일때  사용하는 지포(분류에서 사용)

  1. 지니 지수
    • 분수도 측정 지표, 값이 작을수록 순수도가 높음(분류가 잘 됨)
    • 가장 작은 값을 갖는 예측 변수와 이때의 최적분리에 의해 자식 마디 형성
    • Gini(T) = 1 - $ \sum $(각 범주별수/전체수)$^2$  1- $\sum_{i=1}^k P_i^{2}$
  2. 엔트로피 지수
    • 불순도 측정 지표, 가장 작은 값을 갖는 방법 선택
    • Entropy(T) = - $\sum_{i=1}^{k}P_ilog_2P_i$
  3. 카이제곱 통계량의 유의 확률(p-value) 
    • 가장 작은 값을 갖는 방법 선택

*의사결정나무를 위한 알고리즘

  • CHAID, CART, ID2, C5.0, C4.5가 있으며 하향식 접근 방법을 이용한다

*알고리즘 별 분리, 정지 기준변수 선택법

알고리즘 이산형 목표변수(분류나무) 연속형 목표변수(회귀나무)
CART
(Classification And Regression Tree)
지니지수 분산 감소량
C5.0 엔트로피지수  
CHAID
(Chi-squared Automatic Interaction Detection)
카이제곱 통계량의 p-value ANOVA F-통계량 - p-value

3.SVN(Support Vector Machine)

  • 지도 학습 모델로 회귀 분석 및 분류(이항, 다항 모두 상용) 분석에 모두 사용함
  • 본류 모델은 서로 다른 분류에 속한 데이터 간의 간격이 최대가 되는 선을찾아 이를 기준으로 데이터를 분류하는 모델로, 선형 분류 및 비선형 분류에 사용할 수 있음
  • 비선형 분류를 위해서는 데이터를 고차원 특징 공안으로 사상하는 작업이 필요하며, 이를 효율적으로 하기위해 커널 트릭을 사용하기도 
  • 고차항이 될수록 특성의 중요도는 감소함
  • 데이터가 많아질수록 최적화를 위한 테스트 과정이 많아져 속도가 느린편에 속함(큰 데이터셋에 부적합)
  • 노이즈가 많은 데이터 셋에 overfitting 될 수 있어 적합하지 않음, 모델분 석 결과에 대한 설명력 부족

*Kernel

  • linear, sigmoid, polynomial, RBF(Radial Basis Function, 가우시안 커널)등이 있음
  • Polynomial Kernel: 사용자가 지정한 차수의 다항식을 활용

*C

  • C는 training data를 정확히 구분하지 아니면 decision boundary를 일반화할지를 결정
  • C가 크면 training 포인트를 정확히 구분, C가 작으면 Smooth한 decision boundary를 그림
  • decision boundary는 C가 크면 더 굴곡지고, c가 작으면 직선에 가까움

*Gamma 

  • Gamma가 크면 reach가 좁고, Gamma가 작다면 reach가 멀다는 뜻
  • reach는 decision boundary의 굴곡에 영향을 주는 데이터의 범위
  • decision boundarysms Gamma가 크면 더 굴곡지고, Gamma가 작으면 직선에 가까움
  • 큰 C, Gamma -> 과대적합 위험

4.앙상블(Ensemble)기법

  • 분류와 회귀에 관한 모형이 존재함
  • 여러 개의 분류/회귀 모형에 의한 결과를 종합하여 분류의 정확도/회귀의 설명력을 높이는 방
  • 적절한 표본추출법으로 데이터에서 여러 개의 훈련용 데이터 집합을 만들어 각 데이터 집합에 하나의 모형을 만들어 결합하는 방법(Bagging)
  • 약하게 학습 된 여러 모형들을 결합하여 사용
  • 성능을 분산시키기 때문에 과대적합(overfitting)감소 효과가 있음

*종류

  1. Voting 
    • 서로 다른 여러 개 알고리즘 모델 사용
    • 각 모델의 결과를 취합하여 많은 결과 또는 높은 확률로 나온 것을 최종 결과로 채택 
    • 각 모델 별 가중치를 다르게 부여하여 사용할 수 있음
      • Hard voting
        • 각 모델의 예측 결과 중 많은 것을 선택
        • 1 예측 3표, 2예측 1표 -> 1예측 선택
      • Soft voting
        • 각 모델의 클래스 확률을 구하고 평균 높은 확률을 선택
        • 1예측 : (0.9 + 0.8 + 0.3 + 0.4) / 4 = 0.6 => 1예측 선택
        • 2예측 : (0.1 + 0.2 + 0.7 + 0.6) / 4 = 0.4 
  2. Bagging 
    • 서로 다른 훈련 데이터 샘플로 훈련, 서로 같은 알고리즘 모델 결합, 병렬 학습
    • 원 데이터에서 중복을 허용하는 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 모델을 생성하는 기법
    • 여러 모델이 병렬로 학습, 그 결과를 집계하는 방식
    • 같은 데이터가 여러 번 추출될 수도 있고, 어떤 데이터는 추출되지 않을 수 있음
    • 대표적 알고리즘 : Random Forest
  3. Boosting
    • 여러 모델이 순차적으로 학습, 학습이 잘못된 데이터에 가중치를 부여하여 표본 추출
    • 맞추기 어려운 문제를 맞추는데 초점이 맞춰져 있고, 이상치에 약함
    • 대표적 알고리즘 : AdaBoost, GradientBoost (XGBoost, Light GBM) 등 - Leaf-wise-node 방법을 사용하는 알고리즘
  4. Stacking - 서로 다른 여러 모델의 학습 결과를 구하고, 그 학습 결과를 다른 모델의 데이터 셋으로  학습해 최종 결과를 구

*랜덤 포레스트

  • 의사결정나무를 기반으로 하는 앙상블 모형으로, 배깅(Bagging)에 랜덤 과정을 추가한 방법
  • 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때 모든 예측변수에서 최적의 분할을 선택하는 대신, 설명변수의 일부분만을 고려함으로 성능을 높이는 방법 사용
  • 여러 개 의사결정 나무를 사용해 하나의 나무를 사용할 때보다 과적합 문제를 피할 수 있음
  • 단, 너무 많은 모형의 사용은 오히려 과적합을 발생시킬 수 있음(모형의 개수는 hyper parameter)

 

5.인공지능, 머신러닝, 딥러닝

  • 딥러닝은 머신러닝의 한 종류로 인공신경망(ANN)에 기반을 둔 학습 방법
  • 머신러닝은 정형데이터 학습에 딥러닝은 이미지, 소리, 텍스트와 같은 비정형 데이터 학습에 주로 사용
  • 딥러닝 학습에넌 DNN, CNN, RNN, GAN, 전이학습 등의 다양한 종류 있음
  • 전이학습 : 풍부한 데이터를 이용해서 학습된 pre-trained model을 가져와 부족한 사용자 데이터 환경에 맞도록 새롭게 모델을 학습시키는 일련의 과정
  1. 인공신경망(ANN) 모형
    • 인공신경망을 이용하면 분류 및 예측을 할 수 있음
    • 인공신경망은 입력층, 은닉층, 출력층 3개의 층으로 구성(SLP:은닉층 없음, MLP :1개 이상의 은닉층)
    • 각 층에 뉴런(=Perceptron, Node)이 여러 개 포함되어 있음
    • 학습: 입력에 대한 올바른 출력이 나오도록 가중치를 조절하는 것 
    • 파라미터(매개변수) : 가중치(weight)
    • 하이퍼 파라미터 : 인공신경망의 학습률(learning rate), 배치크기, hidden unit, hidden layer 

*SLP의 한계

  • SLP는 단순한 문제 해결만 가능함
  • 즉, 1개의 선으로 나눌 수 있는 AND, OR, NOR 등의 문제는 해결할 수 있지만, 두개의 선이 필요한 XOR는 해결할 수 없음 -> 복잡한 문제는 MLP 이용

*인공신경망(ANN)의 학습 방법

  1. FORWARD PROPAGATION
    • 모든 weight(=parameter)의 임의 값 초기화
    • 입력(X), weight를 사용하여 예측 값 구하기
  2. 손실/비용/에러 구하기
    • 예측 값과 실제 값을 손실함수에 적용하여 구함
  3. BACKWARD PROPAGATION
    • 손실을 반영하여 weight 값 갱신하기
    • 이대, 손실함수에 대한 기울기 미분이 발생
      W = W - $\alpha \frac{d}{dW}cost(W,b)$
  4. 경사하강법
    • 비용 함수 기울기를 낮은 쪽에서 계속 이동시켜 극값에 이를 때까지 반복시키는 것
    • 비용 함수의 기울기의 최소값을 찾아내는 머신러닝 알고리즘
    • 비용 함수 기울기를 최소화 하기 위해 parameter(=Weight)를 반복적으로 조정하는 과정
  5. 경사 하강법 과정
    • 다음의 과정을 n회 반복 수행, 비용 함수 기울기 최소값을 향해 수렴
      1. 임의의 Weight값으로 초기화
      2. Cost 계산(적절한 Cost Function 사용)
      3. Weight 값 갱신 :  W = W -$\alpha \frac{d}{dW}cost(W,b)$
    • n, learning rate(hyper-parameter) 가 적절해야 함

*퍼셉트론(Perceptron)

  • 생물학적 뇌의 뉴런을 모방하여 만든 인공신경망(ANN)의 기본 단위

*기울기 소실

  • 역전파 알고리즘은 출력층에서 입력층으로 오차 gradient를 흘려 보내면서, 각 뉴런의 입력 값에 대한 손실함수의 gradient를 계산 함
  • 이렇게 계산된 gradient를 사용하여 각 가중치 매개변수를 업데이트 해 줌
  • 다층신경망에서는 역전파 알고리즘이 입력층으로 갈 수록 Gradient가 점차적으로 작아져 0에 수렴하여, weight가 업데이트 되지 않는 현상
  • activation function으로 sigmoid 함수를 사용할 때 발생 -> 해결을 위해 ReLU 등 다른 함수 사용

*신경망 활성화 함수

  • 출력을 내보낼 때 사용하는 삼수로, 주로 비선형 함수를 사용 함
  • 가중치 값을 학습할 때 에러가 적게 나도록 돕는 역할을 함
  • 풀고자 하는 문제 종류에 따라 활성화 함수의 선택이 달라지며, Layer마다 다르게 사용할 수 있음
  • 함수 종류 : 선형-항등, 비선형-계산, 부호, sigmoid, ReLU, Leaky ReLU, Maxout, tanh, softmax 

*활성화 함수의 종류

  • 항등함수 : X값 그대로 
  • 계단함수 : 0 또는 1
  • 부호함수 : -1 또는 1 
  • sigmoid함수 : 
    • 연속형 0~1, Logistic 함수라 불리기도함
    • 선형적인 멀티-퍼셉트론에서 비선형 값을 얻기 위해 사용
    • $\frac{1}{1+e^{-x}}$
  • softmax함수 : 
    • 각 클래스에 속할 확률 값을 출력함, 속할 확률이 가장 높은 클래스로 예측함
    • 모든 logits(출력)의 합이 1이 되도록 output을 정규화 한 것
    • sigmoid 함수의 일반화된 형태로 결과가 다 범주인 경우 각 범주에 속할 사후 확률을 제공하는 활성화 함수
      (3개 이상)
  • ReLU(Rectified Linear Unit)
    • 학습이 빠르고 미분값이 0,1 두 개 중 하나이기 때문에 자원 소모가 적어 일반적으로 쓰는 함수 중 한가지
    • x<0 인 경우 Dying ReLU 현상이 발생함
  • Leaky ReLU
    • 0보다 작은 입력에 대해 기울기를 주어 Dying ReLU 현상 보완
  • ELU(Exponential Linear Unit)
    • 입력이 음수일때 exponential을 활용한 함수를 사용하여  Dying ReLU 문제 해결
    • X<0일때 지수함수 계산 비용 발생
  • tanh(Hyperbolic Tangent)
    • sigmoid의 중심 값을 0으로 이동한 것
    • 학습시간 지연 해소, Vnishing Gradient 발생

*손실함수

  • Loss/Cost : 실제 값과 예측 값의 차이로 '오차'를 의미함
  • Loss Function의 예 : 분류 - Cross Entropy, 회구 - Mean Square Error

*Learning Rate(학습률)

  • 학습의 속도를 나타내는 것, weight update 시 함께 곱해지는 값
  • Learning Rate가 작을 경우 wieght 변경 속도가 느려 학습시간이 오래 걸릴 수 있음
  • Learming Rate가 클 경우 곡선의 최저점을 이탈 할 수 있다

*Mini batch 학습

  • 모든 학습 데이터에 대해 loss를 계산하는 것은 시간이 오래 걸리므로, 데이터의 일부를 사용해 학습한다.
  • Epoch
    • 모든 DataSet이 Netural Network 전체에 대한 학습을 1회 수행한 것
    • 1Epoch만으로 학습은 충분하지 않음
  • Batch Size
    • Single Batch 내 학습용 Data Size
  • Iterations
    • 1 Epoch를 달성하기 위한 batch 개수
    • Iterations = 전체 데이터수 / Batch_Size

*Normalization

  • 학습을 더 빨리하고, local minima에 빠지는 가능성을 줄이기 위해 사용함
  • MinMaxScaler : 0~1사이 값으로 변경, StandardScaler : 평균0, 분산 1의 값으로 변경
    • Unnomalized
      • 타원 모양
      • 수평으로 이동할 때와 수직으로 이동할 때 변화량 불균형 발생으로 Gradient
        Descnet 알고리즘을 적용하기 어려울 수 있음
      • Learning rate를 작게 해야 함
    • Normalized
      • 구모양
      • Gradient Descent를 적용하여 쉽고 빠르게 최적화 지점을 찾을 수 있음
      • Learning rate에 민감하지 않음

*Optimization

  • Learning Rate 및 Gradient 부분 값을 적절하게 수정하여 학습 속도를 높이고 안정적인 결과를 얻고록 함
  • Plateau(평지) 현상 해결
  • ZigZag 현상 해결 : w 갱신 행렬의 부호가 동일하여 w 목표점을 지그재그로 찾아가는 현상
  • 극소점을 찾은 뒤 더 이상 학습이 되지 않는 현상 해결
    • Optimizer의 종류
      • Gradient 수정 : Momentum, NAG
      • Learning Rate  수정 : AdagRrad, AdaDelta, RMSProp
      • Gradient, Learning Rate 모두 수정 : Adam, Nadam

*다층신경망학습과 Layer, Node

  • 다층신경망은 단층신경망에 비해 훈련이 어려움
  • 레이어가 많아지면 기울기 소실 문제가 발생할 수 있음
  • 은닉층 수와 은닉 층의 노드수 결정은 분석가가 분석 경험에 의해 설정
    • 은닉 층 노드가 너무 적으면
      • 네트워크가 복잡한 의사결정 경계를 만들 수 없음
      • Underfitting 문제 발생
    • 은닉 층 노드가 너무 많으면
      • 복잡성을 잡아낼 수 있지만, 일반화가 어렵다
      • 과적합(Overfitting)문제 발생
    • Layer, Node를 사용한 과적합 해결
      • 매개변수의 수를 줄인다
      • 은닉층 수를 줄인다
      • 노드 수를 줄인다
    • 반복, 데이터, 규제를 사용한 과적합 해결
      • epoch 수를 줄인다
      • early stopping 기법을 사용한다
      • 데이터의 양을 늘인다
      • Regularization을 사용한다
    • Regularization의 종류
      • L1/L2 Regularization
      • Dropout
      • DropConnect

*Regularization -Overfitting 해결법

  • 데이터 양을 늘림
  • Regularization 사용
  • Batch Normalization : Mini-batch의 평균, 분산을 이용해 Normalization 실행

*인공 신경망 모형의 장/단점

  • 장점
    • 변수의 수가 많거나 입,출력변수 간에 복잡한 비선형 관계에 유용
    • 이상치 잡음에 대해서도 민감하게 반응하지 않음
    • 입력변수와 결과변수가 연속형이나 이산형인 경우 모두 처리 가능
  • 단점
    • 결과에 대한 해석이 쉽지 않음
    • 최적의 모형을 도출하는 것이 상대적으로 어려움
    • 모형이 복잡하면 훈련 과정에 시간이 많이 소요되고, 과적합되지 쉬움
    • 데이터를 정규화 하지 않으면 지역해에 빠질 위험이 있음

 

반응형
반응형

홀드아웃(Hold Out)

  • 원천 데이터를 랜덤하게 두 개로 분리하여 성능을 평가하는 방법
  • 하나는 모형 학습 및 구축을 위한 훈련용 자료, 다른 하나는 성과평가를 위한 테스트용 자료로 사용
  • 훈련용 데이터는 다시 훈련과 검증 자료로 나눠 사용할 수 있음
  • 즉, 데이터를 학습 , 검증, 시험(테스트) 세트 세 가지로 분할하여 사용할 수 있음
  • 7:3 또는 8:2 등의 비율로 학습 데이터와 테스트 데이터로 분할함 
  • 일반적으로 랜덤추출 방법을 활용하여 데이터가 편향되지 않도록 함
  • 과대적합(overitting) 발생 여부 확인을 위해 train, test에 대해 평가 후 비교 ( train >> test 면 과대 적합)

*데이터 분할 시 주의사항

  • 학습 데이터와 테스트 데이터는 겹쳐서는 안됨
  • 검증 데이터와 테스트 데이터는 일치할 수 있음
  • 학습데이터가 부족하면 알고리즘 학습이 어려울 수 있음
  • 불균형 데이터의 경우 불균형 범주의 비율을 유지하도록 분할하기도 함

 

교차검증(Cross Validation)

  • 데이터가 충분하지 않을 경우 Hold-Out으로 나누면 많은 양의 분산 발생
  • 이에 대한 해결책으로 교차검증을 사용 할 수 있음, 데이터가 충분하지 않은 경우 사용
  • 클래스 불균형 데이터에는 적합하지 않음
  • 주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 모형을 평가하는 방법
  • K-Fold 교차검증
    1. 전체 데이터를 shuffle
    2. k개로 데이터를 분할
    3. k번째 하부 집합을 검증용 자료, k-1개의 훈련용 자료로 사용하여 k번 반복 측정
    4. 결과를 평균 낸 값을 최종 평가로 사용함
      K >= 2 사용 한다
  1. LOOCV(Leave-One-Out Cross Validation)
    • 1개의 관측값만 validation set으로 사용하고, 나머지 n-1개를 train set으로 사용함, n번 학습 진행
    • K=n인 경우의 교차검증
    • 학습 후 n개의 MSE를 평균하여 최종 MSE를 계산함
    • 매우 많은 반복 학습으로 시간이 오래 걸림
    • 주로 데이터가 한정적이고, 새로운 데이터에 대한 정확한 에러 예측을 하고 싶을때 사용함

 

붓스트랩(Bootstrap)

  • 평가를 반복하는 측면에서 교차검증과 유사하지만 훈련용 자료를 반복 재선정한다는 점에서 차이가 있는 평가 방법
  • 붓스트랩은 관측치를 한 번 이상 훈련용 자료로 사용하는 복원추출법에 기반함
  • 전체 데이터 양이 크지 않을 경우에 가장 적합
  • 훈련 데이터를 63.2%사용하는 0.632 붓트랩이 있음 (사용하지 않는 비율 : 36.8%)
반응형
반응형

1.분석 모형 선정

  • 통계분석: 기술통계, 추론통계
  • 데이터 마이닝 : 분류,추정,예측,연관,군집,기술 분석
  • 머신러닝 : 지도학습(분류,회귀), 비지도학습(군집,차원축소,연관), 준지도학습, 강화 학습
  • 딥러닝 : DNN, CNN, RNN, GAN

*데이터 마이닝 : 대용량 데이터 속에서 유용한 정보를 발견하는 과정, 기대 및 기대하지 못했던 정보를 찾을 수 있는 기술로 가치 있는 정보를 만들어 의사 결정에 저용하여 이익을 극대화 시키는 것을 목표로 함

  1. 분류
  2. 추정
  3. 예측
  4. 연관분석
  5. 군집
  6. 기술

*지도학습 

  • X를 사용해 Y를 예측할 때, 학습 데이터에 X, Y 데이터가 모두 존재하는 학습
  • X를 독립변수, Y를 종속변수라고 하며, Y에는 실제 값, 예측 값이 존재함
  • 회귀, 분류 모델이 있음
    1. 회귀
      • 예측 값이 실제 값보다 크거나 작거나 사이 값일 수 있음
      • 부모 키를 사용해 딸의 키 예측, 판매량 예측, 집값 예측
    2. 분류
      • 예측 값이 실제 값에서 주어진 데이터 범주(종류)로 제한됨
      • 화물의 정시 도착 여부 예측, 생존 여부 예측, 품종 예측, 이미지 숫자 예측

*비지도학습

  • 학습 데이터 X에 대한 데이터만 존재하는 학습
  • 군집, 연관모델, 차원 축소 등 있음
    1. 군집
      • 데이터를 특성에 따라 구분되는 몇 개의 그룹으로 나누는 학습
      • 고객을 3개 그룹으로 나눔(그룹내 서로 유사한 특성, 범주형 결과)
    2. 연관
      • 항목들 간의 '조건-결과'식으로 표현되는 유용한 패턴을 발견하는 것
      • 지지도, 신뢰도, 향상도 등으로 연속형 결과

*준지도학습

  • Y(출력, 레이블)이 표시된 데이터와 표시되지 않은 데이터를 모두 훈련에 사용
  • 훈련 데이터는 레이블이 표시된 데이터가 적고 표시되지 않은 데이터를 많이 갖고 있음
  • 훈련 데이터에 레이블을 표시하는 것에 비용이 많이 들고 어려울 때 사용

*강화학습

  • 강화 학습의 대상이 되는 컴퓨터를 프로그램을 에이전트라고함
  • 에이전트가 주어진 상태에 대해 최적의 행동을 선택하는 학습 방법
  • 주어진 상태에 맞춘 행동의 결과에 대한 보상을 주며, 컴퓨터는 보상을 이용하여 성능을 향상시킴
  • 에이전트는 주어진 상태에서 자신이 취할 행동을 표현하는 정책을 수립
  • 게임, 로솝 제어 등에 적용
  • 에이전트가 최대의 보상을 받을 수 있는 정책을 수립하도록 학습시키는 것이 목표

*통계

  • 불확실하고 잘 알려지지 않은 사실과 대상에 관련된 자료를 수집 및 요약정리하고, 이를 바탕으로 해석 및 분석하는데 필요한 이론과 방법을 과학적으로 제시하는 분석 모형
    1. 기술통계
      • 확률, 통계적으로 정리, 요약하는 기초적인 통계 값 산출
    2. 상관분석(선형관계)
      • 단순 상관 분석, 다중/다변량 상관분석
      • 범주형 순위/서열척도 변수 : 스피어만 상관계수
      • 연속형 변수 : 피어슨 상관계
    3. 선형분석
      • 회귀(연속형 종속변수) - 단순 회귀, 다중 회귀, 다항 회귀
      • 분류(범주형 종속변수) - 로지스틱 회귀
    4. 교차분석
      • 범주형 명목척도 변수 사이의 연관성을 파악하기 위해 사용
      • 범주형 빈도를 사용해 교차표 작성, 카이-제곱 적합도, 독립성, 동질성 검정
    5. 분산 분석
      • 연속형 변수의 그룹별 평균 차이 : 일원, 이원, 다변량 분산 분석
    6. 주성분 분석
      • 차원 축소를 위해 사용되는 방법
    7. 시계열 분석
      • 시계열 데이터 분석, AR, MA, ARMA, ARIMA 등의 모형

*분석 모형 정의

  • 분석 모형을 선정하고 모형에 적합한 변수를 선택하여 모형의 사양을 작성하는것
    1. 지도학습
      • 회귀분석 : 선형회귀, 다항 회귀, Ridge, Lasso, ElasticNet
      • 분류분석 : 로지스틱 회귀
      • 회귀 및 분류 분석 : KNN, SVM(서포트벡터머신), 의사결정트리(Decision Tree), 앙상블, 인공신경망
                                        앙상블 : Bagging, Boostring, Voting, Stacking
    2. 비지도 학습
      • 군집분석 : K-means, DBSCAN, SOM, EM 알고리즘 및 매우 다양한 기법
      • 연관분석 : Apriori, FP-Growth
    3. Prameter : 모델의 학습 결과로 얻어지는 산출물
    4. Hyper parameter : 모델의 학습을 돕기 위해 사용자가 직접 설정해 주는 값 

2.분석 모형 구축의 절차

  1. 요건정의
    • 요구 사항 도출
    • 분석 추진 계획 수립(분석 계획서, WBS 작성)
    • 요구사항 확정
  2. 데이터분석 모델링
    • 모델링 마트 설계 : 데이터 수집, 데이터 전처리, 데이터 마트 설계,구축
    • 탐색적 분석 : 탐색적 데이터 분석, 유의 변수 도출
    • 모델링 : 모형 후보 선정, 데이터 분할, 모형 학습, 최적화
    • 성능 평가 : 평가지표 기반 성능평가, 모형 학습 파라메터 조정
    • 운영 테스트 : 
  3. 검증 및 테스트
    • 운영 환경 테스트
    • 비즈니스 영향도 평가
  4. 적용
    • 운영 시스템 적용
    • 주기적 모델 업데이트

*기계학습 모델 구축 절차

  1. 과제정의
  2. 데이터 수집
  3. EDA 및 데이터 전처리
  4. 모델 학습
  5. 모델 성능 평가

3.분석 도구 선정, 데이터 분할

  1. 엑셀,스프레드 시트
    • GUI 환경, 전문가가 아니더라도 쉽게 학습/사용 할 수 있음
    • 일반 비즈니스에서 사용하는 데이터 고나리와 분석을 위한 프로그램
    • 뛰어난 시각화, 데이터 처리, 분석 도구 및 함수 지원, 다른 사람과 실시간 공동 작업 가능
  2. R 프로그램
    • 통계 분석 및 데이터 마이닝 알고리즘 지원
    • 분석 결과를 직관적으로 이해할 수 있는 수준 높은 시각화 도구 지원
    • 객체 지향 언어이며 함수형 언어, 새로운 함수를 생성하여 사용할 수 있음
  3. SAS
    • Statistical Analysis System
    • 통계분석 소프트웨어, 통계 전문가들이 활용하며, 보고서 작성 및 그래픽이 가능
  4. SPSS
    • Statistical Package for Social Science
    • 사회과학의 데이터 분석을 위해 고안된 프로그램, GUI환경
  5. Python
    • 간단하고 쉬운 문법, 데이터 분석 관련 다양한 라이브러리 제공, 높은 생산력
    • 객체 지향 언어, 오픈 소스, 범용 프로그램

 

 

반응형
반응형

데이터 요약

1.기술통계

  • 기술통계 : 관측을 통해 얻은 데이터에서 그 데이터의특징을 규명하기 위한 통계적 기법
  • 추리통계 : 수집된 데이터를 기반으로 모집단의 특성을 추론하고 예측하는데 사용하는 통계적 기법
  • 모수통계 : 모집단의 특성에 대한 정보가 충분하기 대문에 표본 통계량으로 모수 추정이 가능한 통계기법
  • 비모수통계 :  현상이 명목척나 서열척도로 측정되어 모집단의 분표형태나 모수의 특징을 추론해 내기 어려운 경우에 사용하는 기법
  • 단일변량 통계분석 : 하나의 변수를 대상으로 하는 통계분석 
  • 다변량 통계분석 : 두 개 이상의 변수들을 대상으로 하는 통계분석

2.표본추출

 통계분석의 기본개념

  1. 모집단
    • 모집단이란 분석을 위해 관심이 있는 대상 전체
    • 목표모집단 : 조사 목적에 의해 개념상 규정된 모집단
    • 조사가능모집단 : 표본 추출을 위해 규정된 모집단
    • 유한모집단 : 모집단의 종류로는 추출 단위가 유한한 모집단
  2. 표본추출
    • 표본이란 모집단에서 선택된 개체를 의미하는데, 표본을 추출하는 이유는 모집단 전체에 대한 분석이 사실상 불가능하다는 제약 때문이다.
      1. 표본추출 기법
        • 단순 무작위 추출 : 랜덤, 제비뽑기
        • 계통 추출 : 첫 번째 추출단위를 임의추출, 두 번째 추출단위부터는 일정한 간격으로 표본을 추출
        • 층화 추출 : 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식, 내부적으로 동질적이고, 외부적으로 이질적이어야 한다.
        • 군집추출 : 여러 군집으로 나누고, 일부 군집의 전체를 추출하는 방식, 층화 추출법은 집단 내에서는 동질적이지만 집단 간 차이가 이질적인 반면 집락추출법은 집단내에서 이질적이고 집단 간 차이가 동질적이다.
      2. 비확률 표본추출
        • 판단추출 : 조사자의 판단에 따라 표본을 선택하는 경우
        • 할당추출 : 자신의 판단에 따라 선택하는 경우
        • 편의추출 : 편리성에 기준을 둔 표본선정
      3. 자료측정 방법
        1. 측정과 척도
          • 표본추출을 통해 얻은 자료들을 데이터로 만들기 위해서는 자료측정을 수행해야 한다.
          • 관계를 부여하기 위해 사용되는 규칙을 척도라고 한다.
        2. 척도의 종류
          • 명목척도 : 대상을 분류하기 위함
          • 서열척도 : 대소만 구분 가능, 양적인 비교는 할 수 없다.
          • 등간척도 : 순위를 부여하되 양적인 비교가 가능하다. 단, 절대 0점이 존재하지 않는다.
          • 비율척도 : 절대 영점이 존재하여 비율계산 가능한 척도, 모든 연산 가능
  3. 확률분포
    1. 확률의 의의
      • 실험의 모든 결과들의 발생 가능성이 동일하며 그 결과들이 상호 배타적일 때 사용하는 개념
      • 사상 E가 발생할 확률 P(E) = $\frac{사상E의발생횟수}{실험의총반복횟수}$
      • 확률의 공리(가정조건)
      • 표본공간을 이루는 한 사상이 발생할 확률은 0부터 1까지의 값을 갖는다.
    2. 표본공간
      • 실험에서 발생할 수 있는 모든 결과의 집합: S 또는 Ω ($\omega$) 
      • 사상또는 사건
        1. 단순 사상 : 단 하나의 출현값을 포함하고 있는 사상
        2. 전체 사상 : 표본공간의 모든 원소를 포함하고 있는 사상
      • 사상의 종류
        1. 공사상 : 표본공간의 어떤 원소도 갖고 있는 않는 사상
        2. 여사상 : 사상 A가 일어나지 않을 사상으로 $A^c$로 나타낸다
          P($A^c$)= 1-P(A), P(A)+P($A^c$) = 1
        3. 배반사상 : A와 B 두 사상이 동시에 일어날 수 없는 사상
          $A\cap$B = $\varnothing $
        4. 독립사상 : A와 B 두 사상이 서로 영향을 미치지 않으면 A와B는 독립이라고 한다.
          P(A$\cap$B) = P(A)P(B)
    3. 확률법칙
      1. 덧셈의 일반법칙
        • 두 사상이 상호 배타적이지 않을 경우에 적용
          P(A$\cup$B) = P(A) + P(B) - P(A$\cap$B)
        • 만일 두 사건 A와 B가 서로 배반이라면(A$\cap$B = $\varnothing$ )
          P(A$\cup$B) = P(A) + P(B)
      2. 조건부 확률
        • 사상 B가 일어났다는 조건 아래서 사상 A가 일어날 조건부 확률을 P(AIB)와 같이 표시하고, 다음과 같이 정의한다.
          P(AIB) = $\frac{P(A \cap B)}{P(B)}$ , P(B) >0
      3. 독립법칙
        • 한 사상이 이미 발생하였다는 사실을 알더라도 다른 사상이 발생할 확률에 아무런 영향을 미칠 수 없을 때 두 사상은 통계적 독립성의 관계에 있다고 말한다.
          P(BIA) = P(B)
          P(AIB)=  P(A)
      4. 베이즈 정리
        • 어떠한 사상의 발생확률을 구할 때 실증적 정보는 고려하지 않았다. 이러한 확률을 사전확률 이라고 한다
        • 추가적인 표본정보에 입각하여 사전확률을 경신하여 사후확률을 만드는데 베이즈 정리가 이용된다.
    4. 확률변수와 확률분포
      1. 이산형 확률변수
        • 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현
        • 각 이산점에 있어서 확률의 크기를 표현하는 함수를 확률질량함수라고 한다.
        • E(X) = $\sum_{x}x\cdot f(x)$
      2. 연속형 확률변수
        • 한 점에서의 확률은 0이되고 0보다 큰값 갖는 사건의 구간에서의 확률값이 된다.
        • 확률밀도함수라고 한다
        • $\int_{\infty}^{\infty} x \cdot f(x)dx$
      3. 결합확률분포
        • 두 확률변수 X,Y의 모든 값과 이에 대응하는 확률을 표나 그림으로 나타낸 것을 말한다
    5. 확률분포의 유형
      1. 이산 확률분포 : 확률변수가 정수의 값을 가지는 경우로 베르누이 분포, 이항 분포, 포아송분포, 초기하분포, 기하분포, 다항분포 등이 있다.
        • 베르누이 시행 
          • 각 시행의 결과는 상호 배타적인 두 사건으로 구분
          • 각 시행은 서로 독립적이다
          • 베르누이 시행을 n번 독립적으로 반복시행 했을 때의 확률변수 X를 성공 또는 실패라고 하면 X의 분포는 이항분포를 따른다.
          • 베르누이시행과 이항분포의 차이는 반복시행 실시 여부에 있다.
          • 기댓값 E(X) = p, 분산(var(X)) = pq
        • 이항분포
          • 베르누이 실험 또는 시행에 기초한다
          • 확률실험을 몇 번 실행하여 어떤 한가지 결과가 나오는 수를 변수값으로 부여할 때 이 변수를 이항확률변수라 한다.
          • 이항확률변수와 관련된 확률분포를 이항확률분포라고 한다.
          • 어떤 시행에서 사건 A가 일어날 확률은 p, 일어나지 않을 확류을 (1-p) =q,
            이 시행을 독립적으로 n회 되풀이 할 때
          • 기댓값 E(X) =np, 분산 Var(X) =npq
          • 이항분포의 확률질량함수 $f(x) =_nC_xp^xq^{n-x}$
        • 초기하 분포
          • 성공할 확률이 매회 일정한 경우(서로 독립사건)는 이항분포를 이용하고, 일정하지 않을 경우(서로 종속사건)에는 초기하 분포를 이용한다.
          • 복원(독립사건) - 이항분포 , 비복원(종속사) - 이산확률분포
        • 포아송 분포
          • 이항분포가 주어진 횟수의 시행중에서 사건횟수에 적용되는 분포임에 반하여,포아송 분포는 단위 시간당 또는 단위 공간당 사건발생 횟수에 적용되는 분포이다.
          • 포아송 분포의 확률질량 함수
          • 포아송 분포의 성립조건
            1. 독립성 : 서로 중복되지 않는 다른 시간 동안 또는 영역내에서 일어나는 사건의 횟수와 독립
            2. 비례성 : 짧은 시간 동안 또는 작은 영역내에서 사건이 한번 발생할 확률은 시간길이 또는 영역의 면적에 비례한다
            3. 비집락성 : 짧은 시간 동안 영역 내에서 사건이 두 번 이상 발생할 확률은 매우 작기 때문에 무시할 수 있다.
            4. 기댓값(EX) = $\lambda$ , 분산(Var(x) = $\lambda$, 기댓값과 분산이 같다.
      2. 연속 확률분포 : 확률변수가 소수점의 값을 포함하는 실수의 값을 가지는 경우로 정규 분포, 표준정규분포, 지수 분포, t분포, F-분포, 카이제곱 분포 등이 있다.
        • 정규분포
          • 가우스분포
          • 통계적 측정 및 가설 검정이론의 기본이 된다.
          • 분포의 평균과 표준편차로 결정
          • 평균을 중심으로 대칭적 종모양의 형태
          • 정규곡선과 X축 사이의 전체 면적은 1이다.
        • 표준정규분포(z분포)
          • 평균과 표준편차에 따라 모양과 위치가 달라지기 때문에 서로 다른 두 정규분포의 성격을 비교하거나 확률을 계산하기 위해서는 표준화가 필요하다.
          • $Z = \frac{X-\mu}{\sigma}$,Z~N(0,1)
            X: 확률변수 , $\mu$ : 평균 , $\sigma$ : 표준편차  
          • 확률변수 X가 평균$\mu$와 분산  $\sigma^2$를 갖는 정규분포을 따를 때 값P(a<X<b)는 다음과 같이 표현할 수 있다.
          • 확률밀도함수의 평균과 표준편차의 관계가 표준정규분포인 경우 다음과 같다. 
        • t분포
          • 모집단이 정규분포를 따르지만 모표준편차를 알 수 없을 뿐만 아니라 표본크기가 30개를 넘지 못하는경우 t분포를 따른다.
          • 모평균, 모평균의 차 또는 회귀계수의 추정이나 검정에 활용한다.
        • 카이제곱분포
          • $x^2$분포는 t분포와 정규분포와는 달리 좌우 대칭이 아니며 오른쪽으로 긴 꼬리를 갖는다. 
          • 모분산이 특정한 값을 갖는지 여부를 검정하는데 사용되며 두 범주간 변수간의 독립성 검정과 적합도 검정을 하는데 주로 사용한다.
        • F분포
          • 두 집단의 분산의 동일성 검정에 사용된다. (카이제곱과 비례)
  4. 용어정리
    • 기댓값의 특성
      • E(a) =a
      • E(bx) = bE(x)
      • E(a+bx) = a+bE(x)
      • E(x+y) = E(x) +E(y)
      • E(ax+by) = aE(x)+bE(y)
    • 분산의 특징
      • Var(a) =0
      • Var(a+x) = Var(x)
      • Var(bx) = $b^2$Var(x)
      • Var(x+y) = Var(x) + Var(y)  [ x, y는 독립적인 확률변수]
      • Var(x+y) = Var(x) + Var(y) +2Cov(x,y) [ x, y는 종속적인 확률변수]
  5. 표본 분포
    • 확률변수의 확률분포를 알고 있음을 전제로 모집단의 평균과 분산을 계산했을 뿐만 아니라 확률변수가 어떤 값을 취할 확률을 구하였다.
    • 그러나 실제로는 모평균과 모분산을 모르기 때문에 표본을 추출하여 이들의 값을 추정하게 된다. 이를 통계적 추론이라고 한다.
    • 표본분포란 주어진 모집단으로부터 크기 n의 확률표본을 수없이 반복하여 추출한 결과로 얻는 표본통계량의 확률분포를 말한다.

      용어정리 
      • 모집단 : 관심의대상이 되는 전체 집단을 의미
      • 표본 : 모집단의 일부분으로, 원하는 정보를 얻기 위해 수행한 관측 과정을 통하여 실제로 얻어진 측정결과의 집합이다
      • 모수 : 모집단의 특성을 수치로 나타낸 것
      • 통계량 : 표본의 특성을 수치로 나타낸 것

표본평균의 표본분포

  • 표본평균의 분포는 모집단이 정규모집단에 따라 그 분포가 다르게 나타난다
    1. 모집단의 분포가(N,$\mu$, $\sigma^2$) 일 때 무한모집단(복원추출)에 의한 표본평균의 분포
      • 모집단의 분포가 정규분포를 따를 때, 표본평균의 분포도 정규분포를 따른다
    2. 모집단분포가 정규분포가 아닐 때 표본평균의 분포
      • 모집단의 분포가 정규분포가 아닐 경우 표본평균 $ \overline{X}$가 정규분포를 따른다고 할 수 없다.
      • 그러나 표본의 크기가 충분히 클 때는 표본평균 $ \overline{X}$의 분포는 정규분포로 볼 수 있다.
      • 이것은 중심극한정리에 근거를 두고 있다.

중심극한정리

  • 정규분포가 아니더라도 표본크기 n$\geq $30 이면 평균 $ \overline{X}$의 표본문포는 기댓값의 모평균 $\mu$이고, 분산이 $\frac{\sigma ^{2}}{n}$인 정규분포에 근사한다.
  • 이 중심극한정리로 말미엄아 모집단분포가 균등분포, 이항분포, 지수분포를 따르더라도 표본크기가 상당히 크면 모집단의 특성을 추정하는데 정규분포의 이점을 활용할 수 있다.

추론통계

  1. 추정의 의의
    • 대부분의 비즈니스 상황에는 모집단에 관한 정보를 알 수 없기 때문에 표본추출을 통한 표본 통계량에 입각하여 모수를 추정하게 된다.
    • 이는 통계적 추정으로서 귀납적 추리라고도 한다
  2. 통계적 추정의 종류
    1. 점추정
      • 모수를 단일치로 추측하는 방법으로,그 신뢰도를 나타낼 수 없다는 단점이 있다.
    2. 구간추정
      • 모수를 포함한다고 추측되는 구간을 구하는 방법이다.
        구간추정은 모수의 추정치와 신뢰도를 함께 구할 수 있다.
  3. 바람직한 통계적 추정량의 결정기준
    1. 불편성추정량 이란 모든 가능한 추정치의 평균이 모수의 참과 같아야 하는 것이다
      • 모수 $\theta $ 의 불편추정량이란 점 추정량 $\widehat{\theta}$의 표본분포의 기댓값이 모수 $\theta $와 같을 때 점추정량을 $\widehat{\theta}$을 말한다.
      • E($\widehat{\theta}$) = $\theta $
      • 추정량의 표본분포의 기댓값이 모수의 참값과 차이가 나면 편의 또는 바이어스라고 한다.
    2. 효율 추정량
      • 불편추정량 중에서 그의 분산이 작은 추정량을 말한다.
    3. 일치 추정량
      • 표본크기가 증가할수록 추정량  $\widehat{\theta}$이 모수 $\theta $에 더욱 근접하는 추정량을 말한다
    4. 충족 추정량
      • 모수  $\theta $를 추정하기 위하여 추출하는 동일한 크기의 표본으로부터 가장 많은 정보를 제공하는 추정

 

 

 

반응형
반응형

1.데이터 탐색 기초

  • 데이터 특징을 파악하는 과정으로서 주로 변수 파악, 통계량 산출, 상관 분석 등을 수행하며, 시각화를 통해 데이터에 대한 인사이트를 얻는다

데이터 분석 접근방법

  1. 확증적 데이터 분석(CDA, Confirmatory Data Analysis)
    • 가설을 설정한 후, 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석방법
    • 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등의 통계적 추론을 하는 분석방법으로 설문조사나 논문에 관한 내용을 입증하는 데 사용
  2. 탐색적 데이터 분석(EDA, Exploratory Data Anaysis)
    • 데이터의 특징과 내재하는 구조적관계를 알아내기 위한 기법들을 총칭
    • 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정
    • EDA는 규칙을 가진 형식적인 과정이 아니며, 데이터에 대해 사고하는 과정이라고 정의 할 수 있다.

#탐색적 데이터 분석의 4가지 주제

  1. 저항성(Resistance)의 강조
    • 데이터 일부가 파손되었을때 영향을 적게 받는 성질
    • 이상값에 민감한 평균보다 중앙값 사용을 선호
  2. 잔차(Residual) 계산
    • 각 개별 관측값이 주요 경향으로부터 얼마나 벗어나 있는지를 알려주는 지표
    • 잔차의 계산을 통해 주경향으로부터 얼마나 벗어나느지를 탐색
  3. 자료변수의 재표현(변수변환 : Re-Expression)을 통한 다각적 시도
    • 데이터 분석을 단순화하여 해석하는데 도움이 되도록 원자료를 변환
  4. 그래프를 통한 현시성(Recelation)
    • 데이터 구조를 효율적으로 파악하고 데이터 안에 숨어있는 정보를 효율적으로 보여주기 위해 다양한 시각화를 이용

#탐색적 자료분석 방법

  1. 수치적인 요약(기술통계)
    • 평균, 중앙값, 최빈값
    • 표준편차, 분산(Variance)
    • 사분위수 범위(Interquartile Range)
    • 첨도(Kurtosis), 왜도(Skewness)
  2. 그래프에 의한 요약
    • 히스토그램
    • 데이터 분포
    • 상자그림
    • 산점도

#탐색적 자료분석의 주요 확인사항

  • 데이터의 결측치 유무, 이상치 유무를 확인한다.
  • 데이터 분포상의 이상형태를 확인한다.
  • 데이터의 개별 속성값은 예상한 범위 분포의 기초 통계량을 통해 확인한다.
  • 개별 데이터 간의 상관성을 산점도를 통해서 확인한다.

 

2.상관관계 분석

상관분석의 이해

  • 데이터 안의 두 변수 간 상관관계의 정도를 측정하는 것으로 하나의 변수가 다른 변수와 얼마나 관련성을 갖고 변화하는지를 알아보기 위해 사용
  • 이를 측정하는 방법에는 피어슨 상관계수, 스피어만 상관계수, 켄달의 순위상관계수 등이 있다.

공분산과 상관계수

    1. 공분산
      • 두 변수 사이의  상관성을 나타내는 지표
      • 두 변수 X와 Y를 가정할 때, 공분산이란 X의 증감에 따른 Y의 증감에 따른 척도
      • (X - μX)(Y-μY)의 기댓값을 의미하며, Cov(X-Y)로 표시한다. 
      • 공분산이랑 동시에 2개의 변수값들을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느정도 산포 되어 있는가를 나타내는 지표
      • Cov(X,Y) = E[(X-μX)(Y-μY)]
      • Cov(X,Y) = E(XY) - E(X)E(Y)
      • Cov(X,Y) = Cov(Y,X)
      • Cov(aX + b, cY + d = acCov(X,Y), 단 a,b,c,d 상수
      • 만일 X와 Y가 독립이라면, Cov(X,Y) = 0은 반드시 성립
      • Cov(X,Y)=0이라고 해서 X와 Y는 반드시 독립이라고 할 수는 없다.
      • 측정단위가 달라지면 공분산의 값이 달라지므로 단순히 공분산의 값으로만 두변수 사이의 관계성을 알기 어렵다.
      • 두 변수 사이의 공분산을 표준화 하는 것이 필요한데 상관계수는 바로 이 공분산을 표준화한 값이라고 할 수 있다.

상관계수

 

수치적 데이터 변수의 상관분석

  1. 피어슨 상관계수(모수적 검정)
    • 대상변수들의 측정에 사용된 척도가 등간. 비율 척도일 때 하나의 변수와 다른 변수간의 관련성을 분석하는데 이용

순서적 데이터 변수의 상관분석

  1. 스피어만 상관계수
    • 상관관계를 분석하고자 하는 두 연속형 변수의 분포가 심각하게 정규분포를 벗어난 경우 또는 두 변수가 순위 척도 자료일 때 사용
    • 피어슨 상관계수와 마찬가지로 값의 범위는 -1 ~ 1 이며 1은 한쪽의 순위가 증가함에 따라 다른 쪽의 순위도 증가함을 뜻하고, -1은 한쪽의 순위가 증가할 때 다른족의 순위는 감소함을 뜻한다.
    • 피어슨 상관계수와 달리 비선형 관계의 연관성을 파악할 수 있다는 장점이 있다.
    • 데이터에 순위만 매길 수 있다면 적용이 가능함
    • 연속형 데이터에 적합한 피어슨 상관계수와 달리 이산형 데이터,순서형 데이터에 적용이 가능하다.
    • 비모수적 검정

기초 통계량 추출 및 이해

  대푯값

  • 대푯값은 분포의 중심위치를 나타내는 측정치이다.

 평균

  • 어떤 값을 중심으로 분포되어 있는지를 알기 위해 사용
  •  평균의 정의 : $\overline{x} = \sum_{i=1}^{n}x_i/n$
  • 평균은 이상치(비정상적인 속성 값을 지닌 데이터)에 의해 영향을 받이받는다는 단점이 있다.

 중앙값

  • 평균이 가진 단점으로 인해 위치를 나타내는 또 다른 통계치인 중앙값이 사용
  • 자료의 수 n이 홀수이면 (n+1)/2번째 자료의 값
  • 자료의 수 n이 짝수이면 n/2번째와 (n/2+1)번째 자료의 값을 평균한 값
  • 중앙값은 이상치에 의한 영향을 덜 받으며, 데이터 분포가 비대칭이면 평균보다 더 의미 있는 지표가 된다.

 최빈치

  • 평균이 가진 단점으로 인해 위치를 나타내는 또 다른 통계치인 중앙값이 사용
  • 평균이 가진 단점으로 인해 데이터의 위치를 나타내는 또 다른 통계치
  • 최빈치는 가장 많은 빈도를 갖는 데이터를 의미한다

 사분위수

  • 데이터 표본을 4개의 동일한 부분으로 나눈 값

 산포도

  • 중앙 위치만 알고 있으면 자료 전체에 대한 정보를 얻는데 한계가 있다
  • 최댓값과 최솟값의 차이
  • 사분위수 범위(IQR) : 제 3사분위수와 제 1사분위수의 차이를 말한다
  • 평균 절대편차 : 관측치들의 평균값으로부터 떨어져 있는 거리를 말한다.
  • 평균편차(MD) = $\frac{1}{n}\sum \left|x_i-\overline{x} \right|$

*사분편차 : 제3 사분위수에서 제1사분쉬를 뺀 값의 1/2값이다.

*분산과 표준편차 : 분산은 편차의 제곱의 합을 자료의 수로 나눈 값이다.

*표준편차(σ) = $\sqrt{분산}$

*변이계수(변동계수, CV) 

  • 표준편차를 산술평균으로 나눈 값
  • 평균의 차이가 큰 두 집단의 산포를 비교할 때 사용
  • 단위가 다른 두 집단의 산포를 비교할 때 사용
  • 변이계수 값이 큰 분포보다 작은 분포가 상대적으로 평균에 더 밀집되어 있음을 의미 

비대칭도

  1. 왜도 : 자료분포의 모양이 어느 쪽으로 얼마만큼 기울어져 있는가, 즉 비대칭 정도를 나타내는 척도이다.
  2. 첨도 : 분포도가 얼마나 중심에 집중되어 있는가, 분포의 중심이 얼마나 뾰족한가를 측정
반응형
반응형

결측값(Missing Value) 

  • 데이터가 입력되지 않고 누락된 값
  • NA, N/A, NULL, 공백, NaN 등 다양하게 표기됨
  • 분석에 영향을 미치기 때문에 반드시 처리

단순 대치법(Single Imputation)

  1. 완전 분석법
    • 불완료 자료 모두 무시
    • 관측된 자료 중 일부를 무시하게되어 효율성 상실, 통계적 추론의 타당성 문제 발생
  2. 평균 대치법
    • 데이터의 평균, 중앙값, 최빈값 등으로 결측값 대치
    • 결측값 발생이 다른 변수와 관계 있는 경우 유용
  3. 단순 확률 대치
    • 평균 대치법에 적절한 확률 값을 부여하여 대치하는 방법
    • 평균 대치법에서 추정한 표준오차의 과소추정문제를 보완하고자 고안됨
    • Hot-Deck : 진행 중인 연구에서 비슷한 성향을 가진 응답자의 자료로 대체
    • Cold-Deck : 외부 출처 또는 이전의 비슷한 연구에서 대체할 자료를 가져옴

다중 대치법

  • 단순 대치법을 m번 수행하여 m개의 가성적 완료 자료를 만듦
  • 여러 개의 대치된 표본이 생성, 값은 값으로 결측 자료를 대치할 수 없음
  • 추저양 표준오차의 과소추정 및 계산의 난해성 문제를 가지고 있음

이상값(Outlier)

  • 일반적인 다른 값과 멀리 떨어져 있는 값(거리, 밀도)
  • 노이즈, 이상값은 정형 데이터보다 반정형, 비정형 데이터에서 많이 발생
  • 분포를 왜곡할 수 있으나 실제 오류인지 통계적으로 검증할 수 없으므로 제거 여부는 해당 분야의 전문가와 상의하여 판별하여야 함
  • 반드시 제거해야 하는 것은 아니며, 분석의 목적이나 종류에 따라 적절한 판단이 필요함

이상값 발생 원인

  1. 의도하지 않은 잘못 입력/측정/실험된 데이터 
    • 입력/측정/실험의 잘못으로 발생하는 데이터 
    • 잘못된 측정도구 사용, 실험조건의 동일하지 않음
  2. 고의적인 이상값
    • 응답자의 고의적인 거짓에 의해 발생하는 데이터
  3. 데이터 표본 설정 오류
    • 표본이 해당 집단의 특정 세부 그룹을 충분히 대표하지 못할 경우
  4. 처리오류 
    • 데이터를 분석하거나 처리하는 과정에서 발생할 수 있는 오류

이상값 검출 방법

  1. ESD(Extreme Studentized Deviation)
    • µ - 3σ < 정상데이터 < µ+3σ      (µ : 평균, σ: 표준편차)
  2. 사분위수사용
    • IQR = Q3- Q1 (IQR: 데이터의 가운데 50%, Interauartile Range)
    • Q1 - 1.5 * IQR < 정상데이터 < Q3+1.5 * IQR ( Q1: 제1사분위수, Q3: 제3사분위수)
  3. 기하평균
  4. 데이터 시각화
    • 히스토그램, 밀도차트, 상자그림, 산포도, 진차도 등
  5. 분석 기법 활용
    • 비지도 학습의 군집 기법 사용 : 군집으로 정의되지 않는 영역을 outlier로 판단
    • 마할라노비스 거리 : 데이터 밀도(분산)을 고려한 거리, 다변량 이상치 판단에 대표적 방법
    • LOF(Local Outlier Factor) : 관측치 주변의 밀도와 근접한 관측치 주변 밀도의 상대적 비교를 통해 검출
    • iForest(Isolation Forest) : 의사결정나무를 이용, 분할 횟수로 이상값 검출, 관측치 사이의 거리, 밀도에 의존하지 않음

이상값 처리 방법

  1. 삭제
    • 이상값 제거하는 방법, 양극단 값을 모두 제거함
    • 실제 데이터를 모두 반영한 결과가 아니기 때문에 적절하지 않을 수 있음
  2. 대체
    • 하한값보다 작은 것을 하한값, 상한값보다 큰 것을 상한값으로 대체
    • 평균, 중위수 등의 대푯값으로 대체
  3. 변환
    • 오른쪽 꼬리가 긴 경우 : 로그(log) 변환, 제곱 루트 변환, 큰 값을 작게 만들기
    • 왼쪽 꼬리가 긴 경우 : 지수 변환, 제곱 변환, 작은 값을 크게 만들기

이상값 & 대표값 , 산포, 분석기법

  1. 이상값 영향 많이 받음
    • 평균분산, 표준편차 , Range 등
    • 앙상블 - Boosting
    • 비지도 - 군집 - 비계층적 - k-means
  2. 이상값 영향 적게 받음
    • 중앙값
    • 지도학습 - 분류/회귀 - kNN
    • 비지도 - 군집 - 비계층적 - DBSCAN

이상값 검색 활용 응용 시스템

  • 부정사용방지 시스템
  • 의료, 사기탐지, 침입탐지 

 

*편향(bias): 추정량의 기댓값 - 실제값 (=모수의 값)

*결측치(missing value) : 값이 관찰되지 않은 것

*편차(deviation) : 변량에서 평균을 뺀 값, 편차의 절대값이 작을수록 평균에 가까이 있음

 

*변수

  • RDBMS에서 속성, 열 이라고 부르는것, 머신 러닝에서는 통계학의 영향으로 변수로 사용

*변수유형

  • 입력(X)용 : 독립변수, 변수, 속성, 예측변수, 설명변수차원, 관측치
  • 출력(Y)용 : 종속변수, 라벨, 클래스, 목푯값, 결과변수, 반응 변수

*샘플

  • RDBMS에서 레코드, 행이라고 부르는 것
  • 많은 Sample이 있을 때 보다 좋은 데이터 분석, 모델 생성이 가능함
  • 과대적합을 방지하고 모델의 훈련 및 평가에도 도움이 됨

변수 선택

  • 모델을 단순화하여 데이터 분석 결과를 해석하기 쉽게함
  • 훈련 시간 축소, 과대적합 줄이는데 도움이 됨
  • 모델의 정확도 및 성능 향상 기여

변수 선택 기법

  1. 필터 기법(filter)
    • 통계적 측정 방법 사용
    • 정보소득, 카이제곱 검정
    • 피셔 스코어, 상관계수
    • 주로 래퍼 기법 사용 전 전처리에 사용됨
  2. 래퍼 기법(Wrapper)
    • 변수의 일부로 모델링 후, 그 결과를 확인하는 작업을 반복하여 가장 성능 좋은 변수 조합을 찾는 방법
    • 전진 선택법, 후진 제거법, 단계적 선택법
    • 필터 방법보다 예측 정확도가 높음
  3. 임베디드 기법(Embedded
    • 모델 자체에 포함된 변수 선택 기법
    • 모델의 학습, 생성 과정에서 최적의 변수 선택
    • Ridgw, Lasso, ElasticNet, 의사결정나무

차원 축소

  • 차원 = 변수의 수, 차원이 증가할 수록 모델의 정확도가 떨어질 수 있음 #차원의 저주
  • 독립변수간 강한 상관관계가 있는 경우 모델의 정확도와 신뢰성이 떨어짐 #다중공선성
  • 변수의 정보를 최대한 유지하면서 변수의 개수를 줄이는 통계 기법
  • 목적 - 데이터 분석의 효율성 측면에서 복잡도를 축소하고, 과적합을 방지하며, 해석력을 확보하는 것
  • 작은 차원만으로 로보스트(Robust)한 결과를 도출할 수 있다면 많은 차원을 다루는 것보다 효율적

#차원의저주

  • 데이터의 차원이 증가할수록 데이터를 표현할 수 있는 공간은 기하급수적으로 증가하는 것에 반해 데이터의 수는 변하지 않기 때문에 발생
  • 차원이 증가하면서 개별 차원 내의 학습 데이터 수가 차원의 수보다 적어지면서 성능이 저하되는 현상(sparse)
  • 모델링 과정에서 저장공간과 처리시간이 불필요하게 증가되어 성능이 저하
  • 표본의 수가 적을 때 더욱 심화되며 민감하게 반응

#다중공선성

  • 모형의 일부 설명변수가 다른 설명변수와 높은 상관관계가 있을 때 발생
  • 중대한 다중공선성은 회귀계수의 분산을 증가시켜 모델을 불안정하고 해석하기 어렵게 만듦
  • VIF(variance inflation factor)를 측정하여 10이 넘으면 다중공선성이 존재한다고 봄

해결방법

  • 높은 상관 관계가 있는 설명변수를 모형에서 제거 
  • 다양한 변수 선택, 차원 축소 방법을 사용 할 수 있음, PCA(주성분분석)
  • 설명변수를 제거하면 대부분 R2 (결정계수)가 감소
  • 변수축소: 주성분 분석, 요인분석, 다차원 척도법 등의 변수축소 기법 사용
  • Ridge, Lasso, ElasticNet 회귀 분석 활용(+과대적합 해결)
  • Mean Centering(평균대치법) 방법 : 모든 변수를 각 변수의 평균값으로 뺀 뒤에 회귀분석

차원축소 기법

  1. 다차원척도법(MDS, Multi Dimensional Scaling) - 각 개체간 거리(유사성)를 측정하는 기법
  2. 주성분분석(PCA, Principal Component Analysis) 
    • n개의 관측치와 p개의 변수로 구성된 데이터를 상관관계가 없는 k개의 변수로 구성된 데이터로 축소
    • 요약된 변수는 기존 변수의 선형 조합으로 생성
    • 데이터의 분산을 최대한 보존하는 새로운 축을 찾고 그 축에 데이터를 사영 시키는 분석기법
  3. 요인분석 - 변수들 간의 상관관계를 고려하여 서로 유사한 변수들끼리 묶어주는 방법
  4. 특이값 분해(SVD, Singular Value Decomposition) - 
    • PCA와 LDA가 정방행렬에 대한 작업이었다면, 정방행렬이 아닌 비정방행렬에 대해 적용이 가능하다
    • 적용분야 : 데이터 축소, 영상처리 및 압축, 이상치 감지
  5. 선형 판별분석(LDA, Linear Discriminant Analysis) 
    • PCA는 입력된 데이터의 공분산행렬을 구해서 고유벡터와 고유값을 구해 차원을 축소시키지만, LDA는 클래스 내부 분산과 클래스 간 분산 행렬을 생성한 다음 이들의 고유벡터와 고유값을 구해 축소
    • PCA 비지도 학습, LDA는 지도학습

요인분석과 주성분분석의 차이

  1. 생성되는 변수들의 관계
  2. 생성되는 변수의 의미
  3. 생성되는 변수의 수

파생변수

  • 상황에만 유의미하지 않게 논리적 타당성과 대표성을 나타나게 할 필요가 있다.
  • 기존 변수에 특정 조건 혹은 함수 등을 사용하여 새롭게 재정의한 변수

요약변수

  • 단순 데이터를 종합한 변수
  • 재사용이 높고 다른 많은 모델을 공통으로 사용 가능

변수변환 

  • 변환을 통해 자료 해석이 용이하게 하는 작업
  1. 변수변환의 목적
    • 분포의 대칭화
    • 산포를 균일하기 하기 위함
    • 변수사이의 관계를 단순하게 표현하기 위함

정규변환

  1. 로그변환
    • 데이터간 편차를 줄여 왜도(Skewness)와 첨도(Kurtosis)를 줄일 수 있기 때문에 정규성이 높아진다
    • 큰 수를 작게 만들 경우와 복잡한 계산을 간편하게 만들 경우에 사용한다.
  2. 제곱근 변환
    • 오른쪽 긴 꼬리를 갖는 분포를 대칭화에 유용
  3. 지수변환
    • 작은 숫자의 크기를 크게 넓혀주는 역할
  4. 박스-칵스(Box-Cox)변환
    • 데이터를 정규분포에 가깝게 만들거나 데이터의 분산을 안정화
    •   yλ = ( yλ -1) / λ, λ≠0), (log(y), λ=0)
    • Yeo-Johnson 변환과 비교하여 0 혹은 음수인 경우에 적용에 한게가 있다. 

범주형 변환

  1. 구간화(Bining)
    • 변수 구간화는 변수변환의 방법 중 하나로 주어진 연속형 변수를 범주형 또는 순위형 변수로 변환
  2. 더미변수(Dummy Vriable)
    • 범주형 변수를 연속형 변수로 변환한 것
  3. 데이터 인코딩
    • 범주형 데이터를 숫자 형태로 바꾸는 작업
    • 레이블 인코딩 : 범주형 데이터를 숫자로 일대일 매핑해주는 인코딩 방식
    • 원-핫 인코딩: 여러 값 중 하나만 활성화하는 인코딩
    • 타켓 인코딩 : 평균값으로 범주를 대체하는 방법
    • 오디널 인코딩 : 변수의 순서를 유지하는 인코딩 방식. 순서가 중요한 특성에 대해서 사용되어야 한다

데이터 스케일링

  • 인공지능 학습을 위해 데이터를 입력할 때 데이터 별로 그 데이터 값들의 범위가 다르다면 컴퓨터가 이해하기 어렵게 된다. 그럼으로 각 변수들의 범위 혹은 분포를 같게 만드는 작업
  • 입력변수만 스케일링 하고 결과 변수는 스케일링을 하지 말아야 한다.
  1. 최소-최대 정규화
    • 데이터를 정규화하는 가장 일반적인 방법
    • 모든 Feature에 대해 각각의 최소값을 0, 최대값은 1로, 다른 값들은 0과 1사이의 값으로 변환
    • 최소값이 20이고 최대값이 40인 경우, 30은 중간이므로 0.5로 변환된다. (X-Min)/(Max -Min)
  2. Z-점수 표준화
    • Z = (X-평균) / (표준편차)를 통해 X라는 값을 Z라는 Z - 점수 표준화로 변환 할 수 있다.
  3. 기타 스케일링 종류
    • 최대절대 스케일 : 최대 절대값이 0이 각각 1,0으로 되도록 스케일링
    • 로버스트 스케일 : ((X-MEDIAN)/IQR) 아웃라이어의 영향을 최소화한 기법이다

불균형 데이터처리

  • 클래스 하나에만 데이터가 편중되는 경우가 발생
  • 큰 비중을 차지하는 클래스에 편향되어 학습
  • 분포가 작은 값에 대한 Precision은 낮을 수 있고, 분포가 작은 클래스의 재현율이 낮아지는 문제가 발생할 수 있다.
  • 과적합 문제가 발생 할 수 이음

해결기법

  1. 언더 샘플링 : 다수의 클래스 샘플들을 제거, 정보의 손실을 초래하게 되다는 문제점
  2. Random Under Sampling : 불균형 데이터셋을 무작위 언더 샘플링
  3. Tomek Link : 서로 다른 클래스에 속하는 한 쌍의 데이터로 서로에게 더 가까운 다른데이터가 존재하지 않는 것
  4. CNN(Condensed Nearest Neighbour) :  최근접인 클래스 분포 데이터를 삭제하면서 샘플링하는 방법

오버 샘플링

  • 소수 클래스를 위한 샘플을 생성하는 방식으로 정보 손실을 피할 수 있으나 과적합을 초래할 수 있다.
    1. Random Over Sampling
      • 소수의 클래스 데이터를 반복해서 넣는 것으로 가중치를 증가시키는 것과 유사
    2. ADASYN(Adaptive Synthetic Sampling)
      • 소수클래스 주변에 얼만큼 많은 다수의 관측지가 있는지를 정량한 한 지표
    3. SMOTE
      • 소수 범주에서 가상의 데이터를 생성하는 방법
    4. Borderline-SMOTE
      • 소수 클래스 샘플과 다수 클래스 샘플 간의 경계를 기준으로 SMOTE 방식의 합성 방법

임계값 이동

  • 분류를 시행할 때 사용되는 임계값을 양성과 음성의 비율을 이용해 조정해 가는 방법을 임계값 이동이라 한다.
  • 학습단계에서는 변화 없이 학습하고 검정 단계에서 임계값을 이동한다.

 

반응형
반응형

▶데이터 수집

:데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것이다.

 

1)비즈니스 도메인과 원천 데이터 정보 수집

  1. 비즈니스 도메인 정보
    • 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스로부터 관련 정보를 습득 한다.
    • 도메인 전문가 인터뷰를 통해 데이터의 종류, 유형, 특징 정보를 습득
  2. 원전 데이터 정보
    • 데이터의 수집 가능성 : 원천 데이터 수집의 용이성과 데이터 발생 빈도를 탐색하고, 데이터 활용에 있어서 전처리 및 후처리 비용을 대략 산정
    • 데이터의 보안 : 수집 대상 데이터의 개인정보 포함여부, 지적 재산권 존재 여부를 판단하여 데이터 분석 시 발생할 수 있는 문제를 예방
    • 데이터 정확성 : 데이터 분석 목적에 맞는 적절한 데이터 항목이 존재하고, 적절한 데이터 품질이 확보될 수 있는지 탐색
    • 수집난이도  :  원천 데이터의 존재 위치, 데이터의 유형, 데이터 수집 용량, 구축비용, 정제과정의 복잡성을 고려하여 데이터를 탐색
    • 수집비용 : 데이터를 수집하기 위해 발생할 수 있는 데이터 획득 비용을 산정

 2)내, 외부 데이터 수집

  1. 데이터의 종류
    • 내부 데이터는 조직 내부의 서비스 시스템, 네트워크 및 서버장비, 마케팅 관련 시스템 등으로부터 생성되는 데이터를 말한다
    • 외부 데이터는 다양한 소셜 데이터, 특정 기관 데이터, M2M 데이터, LOD등으로 나눌 수 있음
  2. 데이터 수집 주기
    • 내부 데이터는 조직 내부에서 습득할 수 있는 데이터로 실시간으로 수집하여 분석할 수 있도록 한다.
    • 외부 데이터는 일괄 수집으로 끝날지, 일정 주기로 데이터를 수집할지를 결정하여 수집 데이터 관리 정책을 정해야 한다.
  3. 데이터의 수집 방법
    • 내부 데이터는 분석에 적합한 정형화된 형식으로 수집되기 때문에 가공에 많은 노력을 기울이지 않아도 된다.
    • 외부 데이터는 분석 목표에 맞는 데이터를 탐색, 수집하고, 분석 목표에 맞게 수집 데이터를 변환하는 노력이 필요하다.

3)데이터 수집 기술

  1. 데이터 유형별 데이터 수집 기술
정형
데이터
ETL
(Extract Transform Load)
데이터를 추출 및 가공하여 데이터 웨어하우스에 저장하는 기술
FTP
(File Transfer Protocol)
TCP/IP나 UDP 프로토콜을 통해 원격지 시스템으로부터 파일을 송수신하는 기술
API
(Application
Programming Interface)
솔루션 제조사 및 3rd part 소프트웨어로 제공되는 도구
DBToDB 데이터베이스 관리시스템 간 데이터를 동기화 또는 전송하는 방법
스쿱(Sqoop) 관계형 데이터베이스와 하둡 간 데이터를 전송하는 방법
비정형
데이터
크롤링(Crawling) 인터넷상에서 제공되는 다양한 웹 사이트로부터 정보를 수집하는 기술
RSS
(Rich Site Summary)
웹사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜
Open API 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API
척화(Chukwa) 분산 시스템으로부터 데이터를 수집, 하둡 파일 시스템에 저장 실시간으로 분석할 수 있는 기능을 제공
카프카(Kafka) 대용량 실시간 로그처리를 위한 분산 스트리밍 플랫폼 기술
반정형
데이터
플럼(Flume) 분삭 환경에서 대량의 로그 데이터를 수집 전송하고 분석하는 기능을 제공
스크라이브(Scribe) 다수의 수집 대상 서버로부터 실시간으로 데이터를 수집, 분산 시스템에 데이터를 저장하는 기능을 제공
센싱(Sencing) 센서로부터 수집 및 생성된 데이터를 네트워크를 통해 활용하여 수집하는 기능을 제공
스트리밍(Streaming) 네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술 

▶데이터 유형 및 속성 파악

1)데이터 수집 세부 계획 작성

  • 데이터 유형, 위치, 크기, 보관방식, 수집주기, 확보비용, 데이터 이관 절차를 조사하여 세부 계획서를 작성

2)데이터 위치 및 비용

  • 수집 데이터의 원천에 따라 내부 데이터와 외부 데이터로 구분하고 여러 요소를 고려하여 비용 산정

3)수집되는 데이터 형태

  • HTML, XML, JSON

4)데이터 저장 방식

  • 파일 시스템, 관계형 데이터베이스, 분산처리 데이터베이스

5)데이터 적정설 검증

  • 데이터 누락점검, 소스 데이터와 비교, 데이터의 정확성 점검, 보안 사항 점검, 저작권 점검, 대량 트래픽 발생여부

▶데이터 변환

:데이터를 하나의 표현형식에서 다른 형식으로 변형하는 과정

  1. 데이터 변환 방식의 종류
    • 관계형 데이터 베이스 - 비정형에서 정형데이터 형태로 저장하는 방식
    • 분산데이터 저장(HDFS) - 수집데이터를 분산파일시스템으로 저장하는 방식
    • 데이터웨어하우스 - 주제별, 시계열적으로 저장하는 방식
    • NoSQL - 키-값 형태로 저장하는 방식
  2. 데이터 변환 수행 자료
    • 데이터 수집계획서
    • 데이터 변환 솔루션
    • 소프트웨어 아키텍처 개념도
    • 수집 솔루션 매뉴얼
    • 하둡 오퍼레이션 매뉴얼

2)데이터베이스 구조 설계

  • 수집 데이터를 저장하기 위한 데이터베이스 구조 설계
    1. DBMS 구축 여부 결정
    2. 저장 데이터베이스 결정
    3. DBMS 설치
    4. 테이블 구조 설계

3)비정형/반정형 데이터의 전환

:데이터 전처리나 후처리가 수행되기 전에 비정형/반정형 데이터를 구조적 형태로 전환하여 저장하는 과정이다

  1. 수집 데이터의 속성 구조 파악
  2. 데이터 수집 절차에 대한 수행코드 정의
  3. 데이터 저장 프로그램 작성
  4. 데이터베이스에 저장

4)융합 데이터베이스 설계

  • 데이터의 유형과 의미를 파악하여 활용 목적별 융합 DB를 설계
  • 활용 업무데이터 요구사항을 분석하고, 데이터 표준화 활동 및 모델링 과정을 수행하여야 함
  1. 요구사항분석
  2. 데이터표준화와 모델링 수행

5)고려사항

  • 정형화된 데이터베이스로 변환함에 집중
  • 수집 데이터의 속성 구조를 정확히 파악
  • 활용 업무 목적을 정확히 판단하는 것이 중요하고, 쉽게 자동화 구축될 수 있도록 설계

▶데이터 비식별화

1)비식별화 개요

  • 사람의 판단에 따라 가공하여 개인을 알아볼 수 없도록 하는 조치 
  1. 식별자(Identifier)와 속성자(Attribute value)
    • 식별자는 개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름을 말한다.
    • 데이터셋에 포함된 식별자는 원칙적으로 삭제조치하며, 데이터 이용 목적상 필요한 식별자는 비식별 조치 후 활용한다.
    • 속성자는 개인과 관련된 정보로서 다른 정보와 쉽게 결합하는 경우 특정 개인을 알아볼 수도 있는 정보를 말한다.
    • 데이터셋에 포함된 속성자도 데이터 이용 목적과 관련이 없는 경우에는 원칙적으로 삭제하며, 데이터 이용 목적과 관련이 있을 경우 가명처리, 총계처리 등의 기법을 활용하여 비식별 조치한다.
  2. 비식별 조치 방법
    • 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹 등 여러 가지 기법을 단독 또는 복합적으로 활용
    • 각각의 기법에는 이를 구현할 수 있는 다양한 세부기술이 있으며, 데이터 이용목적과 기법볍 장, 단점 등을 고려하여 적절한 기법, 세부기술을 선택, 활용한다.

2)적정성 평가

  • 적정성 평가 시 프라이버시 보호 모델 중 최소한의 수단으로 k-익명성을 활용하며, 필요시 추가적인 평가모델(l-다양성, t-근접성)을 활용한다.
  1. k-익명성 : 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상 비식별 되도록 하는 기법
  2. l-다양성 : 특정인 추론이 안된다고 해도 민간함 정보의 다양성을 높여 추론 가능성을 낮추는 기법
  3. t-근접성 : l-다양성뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법

▶데이터 품질 검증

1)데이터 품질관리

  1. 데이터 품질 관리의 정의
    :가치성, 정확성, 유용성 있는 데이터를 확보하고 ,신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동
  2. 데이어 품질 관리의 중요성
    • 분석 결과의 신뢰성은 분석 데이터의 신뢰성과 직접 연계된다
    • 빅데이터의 특성을 반영한 데이터 품질 관리 체계를 구축하여 효과적인 분석결과를 도출하여야 한다.

2)데이터 품질

  1. 정형 데이터 품질 기준
    : 정형 데이터에 대한 품질 기준은 일반적으로 완전성, 유일성, 유효성, 일관성, 정확성 5개의 품질 기준으로 나눌 수 있다.
  2. 비정형 데이터 품질 기준
    :비정형 컨텐츠 자체에 대한 품질 기준은 컨텐츠 유형에 따라 다소 다를 수있다.
    • 기능성
    • 신뢰성
    • 사용성
    • 효율성
    • 이식성

3)데이터 품질 진단 기법

  1. 정형 데이터 품질 진단
    :정형 데이터의 품질은 데이터 프로파일링 기법을 통해 진단할 수 있다.
  2. 비정형 데이터 품질 진단
    :비정형 데이터의 품질 진단은 품질 세부 기준을 정하여 항목별 체크리스트를 작성하여 진단한다.

4)데이터 품질 검증 수행

  • 수집  데이터 품질 보증 체계를 수집하여 품질 점검 수행 후 품질검증 결과서를 작성
  • 품질 점검 수행 과정에서 데이터 오류수정이 용이하지 않을 경우 데이터를 재수집
반응형
반응형

분석작업개요

:분석 작업 계획을 수립하ㅣ 위해 데이터 처리 프로세스 전체에 대한 이해가 필요하며, 데이터 처리 영역과

데이터 분석 영역으로 구분 할 수 있다.

 

1)데이터 처리 영역

: 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적인 환경을 제공하는 영역

  • 데이터 소스
  • 데이터 수집
  • 데이터 저장
  • 데이터 처리

2)데이터 분석 영역

:저장되어 있는 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후, 데이터 분석을 직접 수행하고 그 결과를 표현하는 영역

  1. 데이터 분석 - NCS(국가직무능력표준)
    • 도메인 이슈 도출
    • 분석목표 수립
    • 프로젝트 계획 수립
    • 보유 데이터 자산 확인
  2. 데이터 표현
    • 빅데이터 분석 결과 시각화

데이터 확보 계획

1)데이터 확보를 위한 사전 검토사항

  1. 필요 데이터의 정의
  2. 보유 데이터의 현황파악
  3. 분석 데이텨의 유형
  4. 편향되지 않고 충분한 양의 데이터 규모
  5. 내부 데이터의 사용
  6. 외부 데이터의 수집

2)분석에 필요한 변수 정의

:데이터 분석 요건에 따라 도출된 활용 시나리오에 적합한 데이터의 유형 및 분석 변수를 정의

  1. 데이터 수집 기획
    • 데이터 수집 기법을 활용하여 필요 데이터를 배치 자동화로 수집
    • 데이터 거래소, 공공 데이터에 적재된 분야별 데이터를 분류하고 선별
  2. 분석 변수 정의
    • 빅데이터의 특징을 고려하여 분석 변수 생성을 기획
    • 분석 변수 유형과 형성 알고리즘을 이용하여 분석 유형을 도출

3)분석 변수 생성 프로세스 정의

:분석 대상에 대해 객관적으로 인식하고 논리적 인과관계 분석 및 데이터 간 상관관계 분석을 위한 분석 변수 생성 프로세스를 정의

  1. 객관적 사실 기반의 문제 접근
    • 명확한 문제 인식을 위하여 분석적이고 가정에 의한 접근 방법과 함께 무엇이 문제인지를 파악하여 객관적 관찬 데이터 유형 식별
  2. 데이터의 상관분석
  3. 프로토타입을 통한 분석 변수 접근

4)생성된 분석 변수의 정제를 위한 점검항목 정의

:분석 기획 단계에서 도출된 문제 인식, 해결을 위한 개념적 대안 설계를 통해 도출된 데이터에 대해 가용성을 평가하고 점검항목을 정의

  1. 분석 변수 점검의 필요성
    • 가용성과 적정성이 부족할 경우 문제 해결 및 활용 시나리오 적용을 통해 가치 있는 결과를 도출하기 어려움
    • 실행 전 분석 변수를 논리적 지표에 따라 점검
  2. 분석 변수 점검항목 정의
분류 점검항목
데이터수집 데이터 적정성
데이터 가용성
대체 분석 데이터 유무
데이터적합성 데이터 중복
분석 변수별 범위
분석 변수별 연관성
특징변수 특징 변수 사용
변수 간 결합 가능 여부
타당성 편익/비용 검증
기술적 타당성

5)생성된 분석 변수의 전처리 방법 수립

:데이터 정제를 위한 점검항목 정의 후 이에 맞게 논리적 모형 설계를 위한 데이터 전처리 방법 수립

  1. 데이터 전처리 수행
    • 비즈니스 도메인에서 추출한 정형, 반정형, 비정형 데이터를 분석 및 처리에 적합한 데이터 형태로 조작
    • 데이터 정제, 통합, 축소, 변화을 반복적으로 수행하여 분석 변수로 활용
  2. 빅데이터 분석 프로세스 수행
    • 완전히 자동화하여 처리하는 것은 어려움
    • 전처리 과정은 정제와 통합을 통해 60~80% 처리됨

6)생성 변수의 검증 방안 수립

  1. 분석 변수의 데이터 검증 방안 수립
    • 모든 개별 데이터에 대한 타당성 보장보다는 빅데이터 개념 및 특성 측면에서 관리되어야 하는 항목과 수준에 대해 품질 검증을 정의
구분 품질 관리 접근 방법
대량 데이터 -데이터 사용자 오류는 무시
-타당성에 치명적인 예외 상황만 탐지
정밀 데이터 -환경 및 상황에 따라 판단
-데이터 전체가 나타내는 의미를 중심으로 검증 기준 정의
데이터 출처 불명확 -목적이나 사전 통제 없이 생상된 데이터에 대한 별도 품질 기준 정의
  • 빅데이터 품질 관리 및 검증은 정확성보다는 데이터의 양이 충분한지에 대한 충분성 개념하에 조직의 비즈니스 영역 및 목적에 따라 검증한다
구분 품질 검증 전략
정확성
(Accuracy)
-데이터 사용 목적에 따라 데이터 정확성의 기준 상이하게 적용
완전성
(Completeness)

-필요한 데이터인지 식별하는 수준으로 품질 요소 적용
적시성
(Timeliness)
-소멸성이 강한 데이터에 대한 품질 기준 판단
-웹로그 데이터, 트윗 데이터 등 지속적으로 생성 소멸하는 데이터에 대한 품질 기준 수립
일관성
(Consistency)
-동일한 데이터의 경우에도 사용 목적에 따라 데이터의 의미가 달라지기 때문에 분석 요건에 따른 검증 요소 적용

2.데이터 검증 체계 수립

  • 수집한 데이터의 출처가 명확한지 검증
  • 중복된 데이터가 존재하는지, 정보 활용에 컴플라이언스 이슈가 없는지 검증
  • 다양성이 확보되었는지, 데이터셋이 충분한지 검증
  • 주요 품질 지표의 조건을 만족하는지, 분석, 검증, 테스트 데이터가 분리되어 있는지 품질 지표를 분석 및 검증

분석 절차와 작업계획

1)분석절차

:데이터 분석의 시발점이 되는 문제 인식에서부터 시작하여 데이터를 확보하고 분석하여 결과를 도출 및 제시하는 단계까지의 일반적인 과정을 정형화한 프로세스

  1. 특징
    • 데이터 분석을 수행하기 위한 기본적인 과정을 명시
    • 분석 방법론을 구성하는 최소 요건
    • 상황에 따라 단계를 추가할 수도 있으며 생략 가능
  2. 일반적인 분석 절차
    • 문제인식 - 연구조사 - 모형화 -데이터 수집- 데이터 분석 - 분석 결과 제시
  3. 분석 절차 적용 시 고려사항
    • 문제에 대한 구체적 정의가 없다면 데이터 마이닝 기반으로 데이터를 분석하여 인사이트를 발굴하거나 반복적으로 데이터 분석을 시도항 개선 결과를 도출

2)작업계획

:분석 작업은  데이터 분석 업무를 수행하기 위한 전반적인 작업 내용들을 세부적으로 정의하는 과정

  1. 분석 작업 계획 수립
    • 프로젝트 소요비용 배분
    • 프로젝트 작업분할구조 수립
    • 프로젝트 업무 분장 계획 및 배분
  2. 분석 작업 계획수립을 위한 작업분할구조
    • 데이터 분석과제 정의
    • 데이터 준비 및 탐색
    • 데이터 분석 모델링 및 검증
    • 산출물 정리

3)분석목표정의서

:문제의 개선방향에 맞는 현실적인 분석목표를 수립하여 필요한 데이터에 대한 정보나 분석 타당성 검토 및 성과측정 방법 등을 정리한 정의서

  1. 분석목표정의서 구성요소
    • 원천 데이터 조사
    • 분석 방안 및 적용 가능성 판단
    • 성과평가 기준
  2. 분석목표정의서 작성 방법
    • 분석 목적을 설정하고 세무 목표를 수립
    • 필요 데이터를 정의하고, 분석 방법과 데이터 수집 및 분석 난이도, 수행 주기, 분석 결과에 대한 검증 기준 설계
    • 도메인 이슈 도출을 통한 개선 방향을 토대로 목표 수준을 정리

분석 프로젝트 관리

1)분석 프로젝트

:과제 형태로 도출된 분석 기회를 프로젝트화하여 그 가치를 증명하기 위한 수단

  1. 분석 프로젝트의 특징
    • 지속적인 반복이 요구되는 분석 프로세스의 특징을 이해하여 프로젝트 관리방안 수립
    • 프로젝트 기한 내에 가능한 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업 필요
  2. 분석 프로젝트의 추가적 속성
    • 데이터 크기
    • 데이터 복잡도
    • 속도
    • 분석 모형의 복잡도
    • 정확도와 정밀도
  3. 분석가의 역할
    • 데이터 영역과 비즈니스 영역의 중간에서 현황을 이해하고 분석 모형을 통한 조율을 수행하는 조정자의 역할과 분석 프로젝트 관리 역할을 수행한다

 2)분석 프로젝트 관리

  1. 효율적인 데이터 분석 수행을 위한 필요성
  2. 분석 프로젝트의 관리 방안

 

3)분석 프로젝트의 영역별 주요 관리 항목

  1. 범위관리
  2. 일정관리
  3. 원가관리
  4. 품질관리
  5. 통합관리
  6. 조달관리
  7. 인적자원 관리
  8. 위험 관리
  9. 의사소통 관리
  10. 이해관리자 관리
반응형
반응형

데이터 분석

:인사이트를 발굴하고 이를 공유하여 의사결정을 지원하는것을 목표로 데이터를 정의, 수집, 변환, 모델링, 시각화 하는 과정

 1)데이터 분석의 현황

  • 대다수 기업들은 빅데이터가 갖고있는 잠재력을 규명하는 초기 프로젝트에 머무름
  • 분석적 방법과 성과에 대한 이해의 부족

2)데이터 분석의 지향점

  1. 전략적 통찰이 없는 데이터 분석 배제
  2. 일차원적인 데이터 분석 지양
  3. 전략 도출을 위한 가치 기반 데이터 분석 지향

3)데이터 분석에 대한 회의론

  • 솔루션을 도입한 후 어떻게 활용하여가치를 창출할 수 있을지 과제를 수행하는 상황에서 방치
  • 현재 소개되고 있는 빅데이터 분석 성공사례들의 대다수가 기존 데이터 분석 프로젝트를 재포장한 경우임

4)데이터 분석시 고려사항

  • 데이터 분석은 규모가 아니라 어떤 시각과 통장을 얻을 수 있는가의 문제
  • 시장과 고객 변화에 효과적으로 대응하는 것이 중요

데이터 분석 기획

:의도했던 결과를 도출할 수 있도록 관리할 수 있는 방안을 사전에 계획하는 작업

1)분석 기획의 특징

  1. 분석 대상과 방법에 따른 분류

데이터 분석 주제 유형

 2. 목표 시점에 따른 분류

  • 단기적 접근 방식(과제 중심) - Quick - Win 방식으로 분석
  • 중장기적 접근 방식(마스터 플랜 접근) - 전사적으로 장기적 관점에서 과제를 도출하여 수행
  • 혼합 방식(분석 기획 시 적합) - 마스터 플랜을 수립하고 장기적 관점에서 접근하는 것이 바람직

2)분석 기획 시 필요역량

  1. 분석 기획을 위한 기본적인 소양
    • 도메인 지식, 정보기술, 수학 및 통계학적 지식이라는 3가지 역량에 대한 균형 잡힌 시각을 갖고서 분석의 방향성과 계획을 수립
  2. 프로젝트 관리 역량과 리더십
    • 3가지 소양과 함께 프로젝트 관리 역량과 분석 프로젝트를 잘 이끌어 갈 리더십이 중요

3)분석 기획시 고려사항

  1. 사용 가능한 데이터 확인
  2. 적합한 사례 탐색
  3. 분석 수행시 발생 가능한 요소 고려

 

분석 마스터 플랜과 로드맵 설정

1)분석 마스터 플랜

:과제의 목적이나 목표에 따라 전체적인 방향성을 제시하는 기본 계획

  1. 분석 마스터플랜 수립 절차
    • 데이터 분석 과제들을 빠짐없의 정의
    • 중요도와 난이도를 고려하여 우선순위 결정
    • 단기와 중장기로 나누어 분석 로드맵 수립
  2. 정보전략계획(ISP: Information Strategy Planning)
    • 정보기술 및 시스템을 전략적으로 활용하기 위한 중장기 마스터 플랜을 수립하는 절차
    • 새로운 기회나 문제점을 도출
    • 시스템 구축 우선순위 결정

2)분석 과제 우선순위 평가기준

  1. IT 프로젝트의 과제 우선순위 평가기준
    • 전략적 중요도
    • 실행 용이성
  2. 데이터 분석 프로젝트의 우선순위 평가기준
    • 투자비용 요소
    • 비즈니스 효과
  3. 분석 ROI요소를 구려한 과제 우선순위 평가기준
    • 시급성 - 전략적 중요도, 목표가치(KPI)
    • 난이도 - 데이터 획득/가공/저장 비용, 분석 수준 등 

3) 분석 과제 우선순위 선정 및 조정

  1. 포트폴리오 사분면 분석 기법 활용 : 난이도와 시급성을 기준으로 분석 과제 유형을 4분면에 배치

 

 2. 매트릭스 내 분석 과제 우선순위 선정

  • 가장 우선적으로 분석 과제 적용이 필요한 영역 → 3사분면
  • 우선순위가 낮은 영역 → 2사분면
  • 적용 우선순위 기준 시급성 → 3 - 4 - 1 - 2
  • 적용 우선순위 기준 난이도 → 3 - 1 - 4 - 2

  3. 매트릭스 내 분석 과제 우선순위 조정 가능  4. 분석 과제 우선순위 조정시 고려사항

  • 기술적 요소에 따른 적용 우선순위 조정
  • 분석 범위에 따른 우선순위 조정

4)분석 로드맵 설정

  1. 분석 로드맵 수립 절차
    • 우선순위를 결정하여 단계적 구현 로드맵 수립
    • 단계별 추진하고자 하는 목표를 명확하게 정의
    • 단계별 추진 내용을 정렬
  2. 세부적인 일정계획 수립
    • 반복적인 정련과정을 통해 프로젝트의 완성도를 높여 나감
    • 데이터 수집 및 확보와 분석 데이터 준비 단계는 순차적으로 진행
    • 순차형과 반복형을 혼합하여 사용

분석 문제 정의

1)분석 문제 정의 개요

  1. 분석 과제 도출
  2. 대표적인 분석 과제 도출 방법 - 하향식 접근 방식(문제가 주어지고 해법을 찾아가는 방식), 상향식 접근 방식(데이터를 기반으로 문제의 재정의 및 해결방안 탐색)
  3. 최적의 의사결정을 위한 혼합방식
    • 동적인 환경에서 발산과 수렴 단계를 반복적으로 수행하여 상호 보완을 통해 분석의 가치 극대화
    • 상향식 접근 방식 : 가능한 옵션 도출
    • 하향식 접근 방식 : 도출된 옵션을 분석하고 검증
  4. 분석 과제 정의
    • 다양한 방식으로 도출한 분석 과제들을 명확하게 정의하여 작성
    • 분석 프로젝트를 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공 여부를 판단할 수 있는 자료로 사용

2)하향식 접근 방식(Top Down Approach)

  1. 문제 탐색 
  2. 문제 정의
  3. 해결방안 탐색
  4. 타당성 평가

3)하향식 접근 방식의 문제 탐색 방법

  1. 비즈니스 모델 캔버스를 활용한 과제 발굴
    • 업무단위(Operation) : 내부 프로세스 및 주요 자원과 관련하여 주제 도출
    • 제품단위(Product) : 생산 및 제공하는 제품이나 서비스를 개선하기 위한 주제 도출
    • 고객단위(Cusomer) : 제품이나 서비스를 제공받는 사용자나 고객 또는 이를 제공하는 채널관점에서 주제 도출
    • 규제와 감사 영역(Audit & Regulation) : 제품 생산과 전달 과정에서 발생하는 규제나 보안 관점에서 주제 도출
    • 지원 인프라 영역(IT & Human Resource) : 시스템영역과 이를 운영 및 관리하는 인력의 관점에서 주제 도출
  2. 분석 기회 발굴의 범위 확장
    • 거시적 관점 - 사회 , 기술, 경제, 환경, 정치 영역
    • 경쟁자 확대 관점 - 대체재, 경쟁자, 신규 진입자 영역
    • 시장의 니즈 탐색 관점 - 고객, 채널, 영향자들 영역
    • 역량의 재해석 관점 - 내부 역량, 파트너와 네트워크 영역

4)상향식 접근 방식(Bottom Up Approach)

  1. 상향식 접근기반 전통적 분석 사고 극복방안
    • 디자인 사고 접근법 : 현장 관찰과 감정이입, 대상 관점으로의 전환을 수행
    • 비지도학습 방법에 의한 수행 : 목표값을 사전에 학습하거나 정의하지 않고 데이터 자체만으로 결과를 도출
    • 빅데이터 환경에서의 분석 : 인과관계 분석을 위해 가설 설정하고 이를 검증하기 위해 모집단으로부터 표분 추출
  2. 상향식 접근 방식의 문제 해결 방법
    • 프로토타이핑 접근법 : 분석을 시도해 보고 그 결과를 확인하면서 반복적으로 개선해 나가는 방식

데이터 분석방안

1)분석 방법론

  1. 분석 방법론의 구성요건
    • 상세한 절차(Procedures)
    • 방법(Methods)
    • 도구와 기법(Tools & Techniques)
    • 템플릿과 산출물(Templates & Outputs)
    • 어느 정도의 지식만 있으면 활용 가능한 수준의 난이도
  2. 분석 방법론의 생성과정(선순환)

2)계층적 프로세스 모델 구성

  1. 최상위 계층 - 단계(Phase)
  2. 중간 계층 - 태스트(Task)
  3. 최하위 계층 - 스탭(Step)

3)소프트웨어개발생명주기 활용

  • 구성요소 (계획 - 요구분석 - 설계 - 구현 - 시험 - 유지보수)
  1. 폭포수 모형(Waterfall Model) : 분석, 설계, 개발, 구현, 시험 및 유지보수 과정을 순차적으로 접근하는 방법
  2. 프로토 타입(Prototype Model) : 일시적으로 간략히 구현한 다음 다시 요구사항을 반영하는 과정을 반복
  3. 나선형 모형(Spiral Model) : 점진적으로 완벽한 시스템으로 개발 하는 모형
  4. 반복적 모형(Iterative Development Model) : 일부분을 반복적으로 개발하여 최종 시스템으로 완성
    • 증분형 모형(Incremental Model) : 일부분을 반복적으로 개발하여 대상범위를 확대해 최종제품을 완성하는 방법
    • 진화형 모형(Evolution Model) : 핵심부분을 개발한 후 구성요소를 지속적으로 발전시켜 나가는 방법
  5. 소프트웨어개발생명주기 모형 선정 기준
    • 프로젝트의 규모와 성격
    • 개발에 사용되는 방법과 도구
    • 개발에 소요되는 시간과 비용
    • 개발과정에서의 통제수단과 소프트웨어 산출물 인도 방식

4)KDD 분석 방법론

:KDD(Knowledge Discovery in Database)는 통계적인 패턴이나 지식을 탐색하는 데 활용 할 수 있도록 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스

  1. KDD 분석 방법론의 9가지 프로세스
    • 분석 대상 비즈니스 도메인의 이해
    • 분석 대상 데이터셋 선택과 생성
    • 데이터에 포함되어 있는 잡음과 이상값 등을 제거하는 정제작업이나 선처리
    • 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
    • 분석 목적에 맞는 데이터 마이닝 기법 선택
    • 분석 목적에 맞는 데이터 마이닝 알고리즘 선택
    • 데이터 마이닝 시행
    • 데이터 마이닝 결과에 대한 해석
    • 데이터 마이닝에서 발견된 지식 활용
  2. KDD 분석 방법론의 분석절차
    • 데이터셋 선택
    • 데이터 전처리
    • 데이터 변환
    • 데이터 마이닝
    • 데이터 마이닝 결과 평가 

5)CRISP-DM 분석 방법론

:CRISP-DM(Cross Industry Standard Process for Data Mining)은 계층적 프로세스 모델로써 4계층으로 구성된 데이터 마이닝 프로세스

  1. 4계층
    • 최상위 레벨 : 여러 개의 단계(Phases)로 구성
    • 일반화 태스크 : 데이터 마이닝의 단일 프로세스를 수행하는 단위
    • 세분화 태스크 : 일반화 태스크를 구체적으로 수행
    • 프로세스 실행 : 데이터 마이닝을 구체적으로 실행
  2. 분석절차
    • 업무이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개

6)SEMMA 분석 방법론

:SEMMA(Sample, Explore, Modify, Model and Assess)는 SAS Institute의 주도로 만들어진 기술과 통계 중심의 데이터 마이닝 프로세스

  1. 특징
    • 데이터 마이닝 프로젝트의 모델링 작업에 중점을 둠
  2. 분석절차
    • 추출(Sample) - 탐색(Explore) - 수정(Modify) - 모델링(Model) - 평가(Assess)

빅데이터 분석 방법론

1)빅데이터 분석 방법론 개요

:응용 서비스 개발을 귀한 3계층으로 구성됨

  • 단계(Phase) - 데이터 분석을 수행하기 위한 절차
  • 태스크(Task) - 각 단계별로 수행되어야 하는 세부 업무
  • 스탭(Stemp) - 단기간 내에 수행 가능한 워크패키지. 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
  • 각 단계별로 세부 태스크와 스텝이 정의 되어 있다.

2)개발 절차  

  1. 분석 기획
    • 비즈니스 이해 및 범위 설정 
    • 프로젝트 정의 및 계획 수립
    • 프로젝트 위험계획 수립
  2. 데이터 준비
    • 필요데이터 정의
    • 데이터 스토어 설계
    • 데이터 수집 및 정합성 점검
  3. 데이터 분석
    • 분석용 데이터 준비
    • 텍스트 분석
    • 탐색적 분석
    • 모델링
    • 모델 평가 및 검증
  4. 시스템 구현
    • 설계 및 구현
    • 시스템 테스트 및 운영
  5. 평가 및 전개
    • 모델 발전계획 수립
    • 프로젝트 평가 보고

 

데이터 분석 거버넌스

1)데이터 분석 거버넌스 개요

  1. 필요성
      • 데이터 분석 업무를 하나의 기업 문화로 정착하고 이를 지속적으로 고도화 해 나가기 위해 필요
  2. 구성요소
    • 수행 조직(Organization)
    • 운영 프로세스(Process)
    • 지원 인프라(System)
    • 데이터 거버넌스(Data)
    • 교육 및 마인드 육성 체계(Human Resource)

2)데이터 분석 기획과 관리를 수행하는 조직

  • 집중형/ 기능형/ 분산형 조직구조

3)데이터 분석 과제 기획과 운영 프로세스 

  1. 데이터 분석 과제 관리 프로세스 구성
    • 과제발굴 단계
    • 과제 수행 및 모니터링 단계

4)데이터 분석 지원 인프라

  1. 데이터 분석 플랫폼 구축 : 기획하는 단계부터 장기적, 지속적, 안정적으로 활용 할 수 있도록 고려
  2. 데이터 분석 플랫폼 정의 : 데이터 분석 서비스를 위한 응용프로그램이 실핼될 수 있는 환경과 기초를 다루는 컴퓨터 시스템
  3. 특징 : 프로그래밍 및 실행, 이를 서비스할 수 있는 환경을 제공
  4. 개별 시스템을 추가하지 않으면서도 추가적인 서비스 제공 가능(확장성 증대)
  5. 데이터 분석 플랫폼의 구성요소
    • 분석 서비스 제공 엔진
    • 분석 애플리케이션
    • 분석 서비스 제공 API
    • 데이터처리 Framework
    • 분석엔진
    • 분석 라이브러리
    • 운영체제(OS)
    • 하드웨어

5)데이터 거버넌스

  1. 주요 관리대상
    • 마스터 데이터 - 데이터를 처리 및 조작하기위해 사용되는 기본 데이터
    • 메타 데이터 - 다른 데이터를 설명하기 위해 사용되는 데이터
    • 데이터 사전 - 효과적인 데이터 자원관리를 위해 다른 자료와의 관계 등을 저장해놓은 데이터
  2. 구성요소 
    • 원칙(Principle)
    • 조직(Organization)
    • 프로세스(Process)
  3. 데이터 거버넌스 체계
    • 데이터 표준화
    • 데이터 관리체계
    • 데이터 저장소 관리
    • 표준화 활동

데이터 분석 수준진단

1)데이터 분석 수준진단 개요

  1. 필요성
    • 조직 경쟁력 강화를 위한 데이터 분석의 도입 여부와 활용을 위해 현 상태에 대한 명확한 점검 필요
  2. 목표
    • 현재 수행하고 있는 데이터 분석 수준을 명확이 이해하고, 수준진단 결과를 바탕으로 미래 목표수준을 정의
  3. 분석 수준진단 프레임워크
    • 6개 영역의 분석 준비도와 3개 영역의 분석 성숙도를 동시에 평가할 수 있다.

2)분석 준비도(Readiness)

  1. 정의
    • 조직 내 데이터 분석 업무 도입을 목적으로 현재 수준을 파악하기 위한 진단 방법
  2. 원리
    • 총 6가지 영역을 대상으로 현재 수준을 파악
    • 각 진단 결과 전체 요건 중 일정 수준 이상 충족하면 데이터 분석 업무를 도입
  3. 데이터 분석 준비도 프레임워크

3)분석 성숙도 모델

  1. 분석 성숙도 모델의 정의
    • 데이터 분석 능력 및 데이터 분석 결과 활용에 대한 조직의 성숙도 수준을 평가하여 현재 상태를 점검하는 방법
  2. 분석 성숙도 모델의 특징
    • 비즈니스 부문, 조직 및 역량 부문, IT 부문 총 3개 부문을 대상으로 실시한다
    • 성숙도 수준에 따라 도입, 활용, 확산, 최적화 단계로 구분
  3. 분석 성숙도 모델의 상세화

4)분석 수준진단 결과

  1. 분석 준비도 및 성숙도 진단 결과
    • 조직의 현재 데이터 분석 수준을 객관적으로 파악
  2. 사분면 분석
    • 데이터 분석 관점에서 4가지 유형으로 데이터 분석 수준진단 결과를 구분
반응형

+ Recent posts