SyntaxHighlighter.all(); 또르의 개발노트 :: 또르의 개발노트 ss
반응형

1.분석 모형 선정

  • 통계분석: 기술통계, 추론통계
  • 데이터 마이닝 : 분류,추정,예측,연관,군집,기술 분석
  • 머신러닝 : 지도학습(분류,회귀), 비지도학습(군집,차원축소,연관), 준지도학습, 강화 학습
  • 딥러닝 : DNN, CNN, RNN, GAN

*데이터 마이닝 : 대용량 데이터 속에서 유용한 정보를 발견하는 과정, 기대 및 기대하지 못했던 정보를 찾을 수 있는 기술로 가치 있는 정보를 만들어 의사 결정에 저용하여 이익을 극대화 시키는 것을 목표로 함

  1. 분류
  2. 추정
  3. 예측
  4. 연관분석
  5. 군집
  6. 기술

*지도학습 

  • X를 사용해 Y를 예측할 때, 학습 데이터에 X, Y 데이터가 모두 존재하는 학습
  • X를 독립변수, Y를 종속변수라고 하며, Y에는 실제 값, 예측 값이 존재함
  • 회귀, 분류 모델이 있음
    1. 회귀
      • 예측 값이 실제 값보다 크거나 작거나 사이 값일 수 있음
      • 부모 키를 사용해 딸의 키 예측, 판매량 예측, 집값 예측
    2. 분류
      • 예측 값이 실제 값에서 주어진 데이터 범주(종류)로 제한됨
      • 화물의 정시 도착 여부 예측, 생존 여부 예측, 품종 예측, 이미지 숫자 예측

*비지도학습

  • 학습 데이터 X에 대한 데이터만 존재하는 학습
  • 군집, 연관모델, 차원 축소 등 있음
    1. 군집
      • 데이터를 특성에 따라 구분되는 몇 개의 그룹으로 나누는 학습
      • 고객을 3개 그룹으로 나눔(그룹내 서로 유사한 특성, 범주형 결과)
    2. 연관
      • 항목들 간의 '조건-결과'식으로 표현되는 유용한 패턴을 발견하는 것
      • 지지도, 신뢰도, 향상도 등으로 연속형 결과

*준지도학습

  • Y(출력, 레이블)이 표시된 데이터와 표시되지 않은 데이터를 모두 훈련에 사용
  • 훈련 데이터는 레이블이 표시된 데이터가 적고 표시되지 않은 데이터를 많이 갖고 있음
  • 훈련 데이터에 레이블을 표시하는 것에 비용이 많이 들고 어려울 때 사용

*강화학습

  • 강화 학습의 대상이 되는 컴퓨터를 프로그램을 에이전트라고함
  • 에이전트가 주어진 상태에 대해 최적의 행동을 선택하는 학습 방법
  • 주어진 상태에 맞춘 행동의 결과에 대한 보상을 주며, 컴퓨터는 보상을 이용하여 성능을 향상시킴
  • 에이전트는 주어진 상태에서 자신이 취할 행동을 표현하는 정책을 수립
  • 게임, 로솝 제어 등에 적용
  • 에이전트가 최대의 보상을 받을 수 있는 정책을 수립하도록 학습시키는 것이 목표

*통계

  • 불확실하고 잘 알려지지 않은 사실과 대상에 관련된 자료를 수집 및 요약정리하고, 이를 바탕으로 해석 및 분석하는데 필요한 이론과 방법을 과학적으로 제시하는 분석 모형
    1. 기술통계
      • 확률, 통계적으로 정리, 요약하는 기초적인 통계 값 산출
    2. 상관분석(선형관계)
      • 단순 상관 분석, 다중/다변량 상관분석
      • 범주형 순위/서열척도 변수 : 스피어만 상관계수
      • 연속형 변수 : 피어슨 상관계
    3. 선형분석
      • 회귀(연속형 종속변수) - 단순 회귀, 다중 회귀, 다항 회귀
      • 분류(범주형 종속변수) - 로지스틱 회귀
    4. 교차분석
      • 범주형 명목척도 변수 사이의 연관성을 파악하기 위해 사용
      • 범주형 빈도를 사용해 교차표 작성, 카이-제곱 적합도, 독립성, 동질성 검정
    5. 분산 분석
      • 연속형 변수의 그룹별 평균 차이 : 일원, 이원, 다변량 분산 분석
    6. 주성분 분석
      • 차원 축소를 위해 사용되는 방법
    7. 시계열 분석
      • 시계열 데이터 분석, AR, MA, ARMA, ARIMA 등의 모형

*분석 모형 정의

  • 분석 모형을 선정하고 모형에 적합한 변수를 선택하여 모형의 사양을 작성하는것
    1. 지도학습
      • 회귀분석 : 선형회귀, 다항 회귀, Ridge, Lasso, ElasticNet
      • 분류분석 : 로지스틱 회귀
      • 회귀 및 분류 분석 : KNN, SVM(서포트벡터머신), 의사결정트리(Decision Tree), 앙상블, 인공신경망
                                        앙상블 : Bagging, Boostring, Voting, Stacking
    2. 비지도 학습
      • 군집분석 : K-means, DBSCAN, SOM, EM 알고리즘 및 매우 다양한 기법
      • 연관분석 : Apriori, FP-Growth
    3. Prameter : 모델의 학습 결과로 얻어지는 산출물
    4. Hyper parameter : 모델의 학습을 돕기 위해 사용자가 직접 설정해 주는 값 

2.분석 모형 구축의 절차

  1. 요건정의
    • 요구 사항 도출
    • 분석 추진 계획 수립(분석 계획서, WBS 작성)
    • 요구사항 확정
  2. 데이터분석 모델링
    • 모델링 마트 설계 : 데이터 수집, 데이터 전처리, 데이터 마트 설계,구축
    • 탐색적 분석 : 탐색적 데이터 분석, 유의 변수 도출
    • 모델링 : 모형 후보 선정, 데이터 분할, 모형 학습, 최적화
    • 성능 평가 : 평가지표 기반 성능평가, 모형 학습 파라메터 조정
    • 운영 테스트 : 
  3. 검증 및 테스트
    • 운영 환경 테스트
    • 비즈니스 영향도 평가
  4. 적용
    • 운영 시스템 적용
    • 주기적 모델 업데이트

*기계학습 모델 구축 절차

  1. 과제정의
  2. 데이터 수집
  3. EDA 및 데이터 전처리
  4. 모델 학습
  5. 모델 성능 평가

3.분석 도구 선정, 데이터 분할

  1. 엑셀,스프레드 시트
    • GUI 환경, 전문가가 아니더라도 쉽게 학습/사용 할 수 있음
    • 일반 비즈니스에서 사용하는 데이터 고나리와 분석을 위한 프로그램
    • 뛰어난 시각화, 데이터 처리, 분석 도구 및 함수 지원, 다른 사람과 실시간 공동 작업 가능
  2. R 프로그램
    • 통계 분석 및 데이터 마이닝 알고리즘 지원
    • 분석 결과를 직관적으로 이해할 수 있는 수준 높은 시각화 도구 지원
    • 객체 지향 언어이며 함수형 언어, 새로운 함수를 생성하여 사용할 수 있음
  3. SAS
    • Statistical Analysis System
    • 통계분석 소프트웨어, 통계 전문가들이 활용하며, 보고서 작성 및 그래픽이 가능
  4. SPSS
    • Statistical Package for Social Science
    • 사회과학의 데이터 분석을 위해 고안된 프로그램, GUI환경
  5. Python
    • 간단하고 쉬운 문법, 데이터 분석 관련 다양한 라이브러리 제공, 높은 생산력
    • 객체 지향 언어, 오픈 소스, 범용 프로그램

 

 

반응형

+ Recent posts