반응형
1.분석 모형 선정
- 통계분석: 기술통계, 추론통계
- 데이터 마이닝 : 분류,추정,예측,연관,군집,기술 분석
- 머신러닝 : 지도학습(분류,회귀), 비지도학습(군집,차원축소,연관), 준지도학습, 강화 학습
- 딥러닝 : DNN, CNN, RNN, GAN
*데이터 마이닝 : 대용량 데이터 속에서 유용한 정보를 발견하는 과정, 기대 및 기대하지 못했던 정보를 찾을 수 있는 기술로 가치 있는 정보를 만들어 의사 결정에 저용하여 이익을 극대화 시키는 것을 목표로 함
- 분류
- 추정
- 예측
- 연관분석
- 군집
- 기술
*지도학습
- X를 사용해 Y를 예측할 때, 학습 데이터에 X, Y 데이터가 모두 존재하는 학습
- X를 독립변수, Y를 종속변수라고 하며, Y에는 실제 값, 예측 값이 존재함
- 회귀, 분류 모델이 있음
- 회귀
- 예측 값이 실제 값보다 크거나 작거나 사이 값일 수 있음
- 부모 키를 사용해 딸의 키 예측, 판매량 예측, 집값 예측
- 분류
- 예측 값이 실제 값에서 주어진 데이터 범주(종류)로 제한됨
- 화물의 정시 도착 여부 예측, 생존 여부 예측, 품종 예측, 이미지 숫자 예측
- 회귀
*비지도학습
- 학습 데이터 X에 대한 데이터만 존재하는 학습
- 군집, 연관모델, 차원 축소 등 있음
- 군집
- 데이터를 특성에 따라 구분되는 몇 개의 그룹으로 나누는 학습
- 고객을 3개 그룹으로 나눔(그룹내 서로 유사한 특성, 범주형 결과)
- 연관
- 항목들 간의 '조건-결과'식으로 표현되는 유용한 패턴을 발견하는 것
- 지지도, 신뢰도, 향상도 등으로 연속형 결과
- 군집
*준지도학습
- Y(출력, 레이블)이 표시된 데이터와 표시되지 않은 데이터를 모두 훈련에 사용
- 훈련 데이터는 레이블이 표시된 데이터가 적고 표시되지 않은 데이터를 많이 갖고 있음
- 훈련 데이터에 레이블을 표시하는 것에 비용이 많이 들고 어려울 때 사용
*강화학습
- 강화 학습의 대상이 되는 컴퓨터를 프로그램을 에이전트라고함
- 에이전트가 주어진 상태에 대해 최적의 행동을 선택하는 학습 방법
- 주어진 상태에 맞춘 행동의 결과에 대한 보상을 주며, 컴퓨터는 보상을 이용하여 성능을 향상시킴
- 에이전트는 주어진 상태에서 자신이 취할 행동을 표현하는 정책을 수립
- 게임, 로솝 제어 등에 적용
- 에이전트가 최대의 보상을 받을 수 있는 정책을 수립하도록 학습시키는 것이 목표
*통계
- 불확실하고 잘 알려지지 않은 사실과 대상에 관련된 자료를 수집 및 요약정리하고, 이를 바탕으로 해석 및 분석하는데 필요한 이론과 방법을 과학적으로 제시하는 분석 모형
- 기술통계
- 확률, 통계적으로 정리, 요약하는 기초적인 통계 값 산출
- 상관분석(선형관계)
- 단순 상관 분석, 다중/다변량 상관분석
- 범주형 순위/서열척도 변수 : 스피어만 상관계수
- 연속형 변수 : 피어슨 상관계
- 선형분석
- 회귀(연속형 종속변수) - 단순 회귀, 다중 회귀, 다항 회귀
- 분류(범주형 종속변수) - 로지스틱 회귀
- 교차분석
- 범주형 명목척도 변수 사이의 연관성을 파악하기 위해 사용
- 범주형 빈도를 사용해 교차표 작성, 카이-제곱 적합도, 독립성, 동질성 검정
- 분산 분석
- 연속형 변수의 그룹별 평균 차이 : 일원, 이원, 다변량 분산 분석
- 주성분 분석
- 차원 축소를 위해 사용되는 방법
- 시계열 분석
- 시계열 데이터 분석, AR, MA, ARMA, ARIMA 등의 모형
- 기술통계
*분석 모형 정의
- 분석 모형을 선정하고 모형에 적합한 변수를 선택하여 모형의 사양을 작성하는것
- 지도학습
- 회귀분석 : 선형회귀, 다항 회귀, Ridge, Lasso, ElasticNet
- 분류분석 : 로지스틱 회귀
- 회귀 및 분류 분석 : KNN, SVM(서포트벡터머신), 의사결정트리(Decision Tree), 앙상블, 인공신경망
앙상블 : Bagging, Boostring, Voting, Stacking
- 비지도 학습
- 군집분석 : K-means, DBSCAN, SOM, EM 알고리즘 및 매우 다양한 기법
- 연관분석 : Apriori, FP-Growth
- Prameter : 모델의 학습 결과로 얻어지는 산출물
- Hyper parameter : 모델의 학습을 돕기 위해 사용자가 직접 설정해 주는 값
- 지도학습
2.분석 모형 구축의 절차
- 요건정의
- 요구 사항 도출
- 분석 추진 계획 수립(분석 계획서, WBS 작성)
- 요구사항 확정
- 데이터분석 모델링
- 모델링 마트 설계 : 데이터 수집, 데이터 전처리, 데이터 마트 설계,구축
- 탐색적 분석 : 탐색적 데이터 분석, 유의 변수 도출
- 모델링 : 모형 후보 선정, 데이터 분할, 모형 학습, 최적화
- 성능 평가 : 평가지표 기반 성능평가, 모형 학습 파라메터 조정
- 운영 테스트 :
- 검증 및 테스트
- 운영 환경 테스트
- 비즈니스 영향도 평가
- 적용
- 운영 시스템 적용
- 주기적 모델 업데이트
*기계학습 모델 구축 절차
- 과제정의
- 데이터 수집
- EDA 및 데이터 전처리
- 모델 학습
- 모델 성능 평가
3.분석 도구 선정, 데이터 분할
- 엑셀,스프레드 시트
- GUI 환경, 전문가가 아니더라도 쉽게 학습/사용 할 수 있음
- 일반 비즈니스에서 사용하는 데이터 고나리와 분석을 위한 프로그램
- 뛰어난 시각화, 데이터 처리, 분석 도구 및 함수 지원, 다른 사람과 실시간 공동 작업 가능
- R 프로그램
- 통계 분석 및 데이터 마이닝 알고리즘 지원
- 분석 결과를 직관적으로 이해할 수 있는 수준 높은 시각화 도구 지원
- 객체 지향 언어이며 함수형 언어, 새로운 함수를 생성하여 사용할 수 있음
- SAS
- Statistical Analysis System
- 통계분석 소프트웨어, 통계 전문가들이 활용하며, 보고서 작성 및 그래픽이 가능
- SPSS
- Statistical Package for Social Science
- 사회과학의 데이터 분석을 위해 고안된 프로그램, GUI환경
- Python
- 간단하고 쉬운 문법, 데이터 분석 관련 다양한 라이브러리 제공, 높은 생산력
- 객체 지향 언어, 오픈 소스, 범용 프로그램
반응형
'Certificate > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터분석기사] [3-3] 빅데이터모델링 - 분석 기법(1/4) (0) | 2023.09.07 |
---|---|
[빅데이터분석기사] [3-2] 빅데이터모델링 - 데이터 분할 (0) | 2023.09.01 |
[빅데이터분석기사] [2-3]빅데이터 탐색 통계기법 이해 (0) | 2023.08.29 |
[빅데이터 분석기사] [2-2] 빅데이터 탐색 데이터 탐색 (0) | 2023.08.29 |
[빅데이터 분석기사] [2-1]빅데이터 탐색 -데이터 전처리 (0) | 2023.08.28 |