▶분석작업개요
:분석 작업 계획을 수립하ㅣ 위해 데이터 처리 프로세스 전체에 대한 이해가 필요하며, 데이터 처리 영역과
데이터 분석 영역으로 구분 할 수 있다.
1)데이터 처리 영역
: 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적인 환경을 제공하는 영역
- 데이터 소스
- 데이터 수집
- 데이터 저장
- 데이터 처리
2)데이터 분석 영역
:저장되어 있는 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후, 데이터 분석을 직접 수행하고 그 결과를 표현하는 영역
- 데이터 분석 - NCS(국가직무능력표준)
- 도메인 이슈 도출
- 분석목표 수립
- 프로젝트 계획 수립
- 보유 데이터 자산 확인
- 데이터 표현
- 빅데이터 분석 결과 시각화
▶데이터 확보 계획
1)데이터 확보를 위한 사전 검토사항
- 필요 데이터의 정의
- 보유 데이터의 현황파악
- 분석 데이텨의 유형
- 편향되지 않고 충분한 양의 데이터 규모
- 내부 데이터의 사용
- 외부 데이터의 수집
2)분석에 필요한 변수 정의
:데이터 분석 요건에 따라 도출된 활용 시나리오에 적합한 데이터의 유형 및 분석 변수를 정의
- 데이터 수집 기획
- 데이터 수집 기법을 활용하여 필요 데이터를 배치 자동화로 수집
- 데이터 거래소, 공공 데이터에 적재된 분야별 데이터를 분류하고 선별
- 분석 변수 정의
- 빅데이터의 특징을 고려하여 분석 변수 생성을 기획
- 분석 변수 유형과 형성 알고리즘을 이용하여 분석 유형을 도출
3)분석 변수 생성 프로세스 정의
:분석 대상에 대해 객관적으로 인식하고 논리적 인과관계 분석 및 데이터 간 상관관계 분석을 위한 분석 변수 생성 프로세스를 정의
- 객관적 사실 기반의 문제 접근
- 명확한 문제 인식을 위하여 분석적이고 가정에 의한 접근 방법과 함께 무엇이 문제인지를 파악하여 객관적 관찬 데이터 유형 식별
- 데이터의 상관분석
- 프로토타입을 통한 분석 변수 접근
4)생성된 분석 변수의 정제를 위한 점검항목 정의
:분석 기획 단계에서 도출된 문제 인식, 해결을 위한 개념적 대안 설계를 통해 도출된 데이터에 대해 가용성을 평가하고 점검항목을 정의
- 분석 변수 점검의 필요성
- 가용성과 적정성이 부족할 경우 문제 해결 및 활용 시나리오 적용을 통해 가치 있는 결과를 도출하기 어려움
- 실행 전 분석 변수를 논리적 지표에 따라 점검
- 분석 변수 점검항목 정의
분류 | 점검항목 |
데이터수집 | 데이터 적정성 |
데이터 가용성 | |
대체 분석 데이터 유무 | |
데이터적합성 | 데이터 중복 |
분석 변수별 범위 | |
분석 변수별 연관성 | |
특징변수 | 특징 변수 사용 |
변수 간 결합 가능 여부 | |
타당성 | 편익/비용 검증 |
기술적 타당성 |
5)생성된 분석 변수의 전처리 방법 수립
:데이터 정제를 위한 점검항목 정의 후 이에 맞게 논리적 모형 설계를 위한 데이터 전처리 방법 수립
- 데이터 전처리 수행
- 비즈니스 도메인에서 추출한 정형, 반정형, 비정형 데이터를 분석 및 처리에 적합한 데이터 형태로 조작
- 데이터 정제, 통합, 축소, 변화을 반복적으로 수행하여 분석 변수로 활용
- 빅데이터 분석 프로세스 수행
- 완전히 자동화하여 처리하는 것은 어려움
- 전처리 과정은 정제와 통합을 통해 60~80% 처리됨
6)생성 변수의 검증 방안 수립
- 분석 변수의 데이터 검증 방안 수립
- 모든 개별 데이터에 대한 타당성 보장보다는 빅데이터 개념 및 특성 측면에서 관리되어야 하는 항목과 수준에 대해 품질 검증을 정의
구분 | 품질 관리 접근 방법 |
대량 데이터 | -데이터 사용자 오류는 무시 -타당성에 치명적인 예외 상황만 탐지 |
정밀 데이터 | -환경 및 상황에 따라 판단 -데이터 전체가 나타내는 의미를 중심으로 검증 기준 정의 |
데이터 출처 불명확 | -목적이나 사전 통제 없이 생상된 데이터에 대한 별도 품질 기준 정의 |
- 빅데이터 품질 관리 및 검증은 정확성보다는 데이터의 양이 충분한지에 대한 충분성 개념하에 조직의 비즈니스 영역 및 목적에 따라 검증한다
구분 | 품질 검증 전략 |
정확성 (Accuracy) |
-데이터 사용 목적에 따라 데이터 정확성의 기준 상이하게 적용 |
완전성 (Completeness) |
-필요한 데이터인지 식별하는 수준으로 품질 요소 적용 |
적시성 (Timeliness) |
-소멸성이 강한 데이터에 대한 품질 기준 판단 -웹로그 데이터, 트윗 데이터 등 지속적으로 생성 소멸하는 데이터에 대한 품질 기준 수립 |
일관성 (Consistency) |
-동일한 데이터의 경우에도 사용 목적에 따라 데이터의 의미가 달라지기 때문에 분석 요건에 따른 검증 요소 적용 |
2.데이터 검증 체계 수립
- 수집한 데이터의 출처가 명확한지 검증
- 중복된 데이터가 존재하는지, 정보 활용에 컴플라이언스 이슈가 없는지 검증
- 다양성이 확보되었는지, 데이터셋이 충분한지 검증
- 주요 품질 지표의 조건을 만족하는지, 분석, 검증, 테스트 데이터가 분리되어 있는지 품질 지표를 분석 및 검증
▶분석 절차와 작업계획
1)분석절차
:데이터 분석의 시발점이 되는 문제 인식에서부터 시작하여 데이터를 확보하고 분석하여 결과를 도출 및 제시하는 단계까지의 일반적인 과정을 정형화한 프로세스
- 특징
- 데이터 분석을 수행하기 위한 기본적인 과정을 명시
- 분석 방법론을 구성하는 최소 요건
- 상황에 따라 단계를 추가할 수도 있으며 생략 가능
- 일반적인 분석 절차
- 문제인식 - 연구조사 - 모형화 -데이터 수집- 데이터 분석 - 분석 결과 제시
- 분석 절차 적용 시 고려사항
- 문제에 대한 구체적 정의가 없다면 데이터 마이닝 기반으로 데이터를 분석하여 인사이트를 발굴하거나 반복적으로 데이터 분석을 시도항 개선 결과를 도출
2)작업계획
:분석 작업은 데이터 분석 업무를 수행하기 위한 전반적인 작업 내용들을 세부적으로 정의하는 과정
- 분석 작업 계획 수립
- 프로젝트 소요비용 배분
- 프로젝트 작업분할구조 수립
- 프로젝트 업무 분장 계획 및 배분
- 분석 작업 계획수립을 위한 작업분할구조
- 데이터 분석과제 정의
- 데이터 준비 및 탐색
- 데이터 분석 모델링 및 검증
- 산출물 정리
3)분석목표정의서
:문제의 개선방향에 맞는 현실적인 분석목표를 수립하여 필요한 데이터에 대한 정보나 분석 타당성 검토 및 성과측정 방법 등을 정리한 정의서
- 분석목표정의서 구성요소
- 원천 데이터 조사
- 분석 방안 및 적용 가능성 판단
- 성과평가 기준
- 분석목표정의서 작성 방법
- 분석 목적을 설정하고 세무 목표를 수립
- 필요 데이터를 정의하고, 분석 방법과 데이터 수집 및 분석 난이도, 수행 주기, 분석 결과에 대한 검증 기준 설계
- 도메인 이슈 도출을 통한 개선 방향을 토대로 목표 수준을 정리
▶분석 프로젝트 관리
1)분석 프로젝트
:과제 형태로 도출된 분석 기회를 프로젝트화하여 그 가치를 증명하기 위한 수단
- 분석 프로젝트의 특징
- 지속적인 반복이 요구되는 분석 프로세스의 특징을 이해하여 프로젝트 관리방안 수립
- 프로젝트 기한 내에 가능한 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업 필요
- 분석 프로젝트의 추가적 속성
- 데이터 크기
- 데이터 복잡도
- 속도
- 분석 모형의 복잡도
- 정확도와 정밀도
- 분석가의 역할
- 데이터 영역과 비즈니스 영역의 중간에서 현황을 이해하고 분석 모형을 통한 조율을 수행하는 조정자의 역할과 분석 프로젝트 관리 역할을 수행한다
2)분석 프로젝트 관리
- 효율적인 데이터 분석 수행을 위한 필요성
- 분석 프로젝트의 관리 방안
3)분석 프로젝트의 영역별 주요 관리 항목
- 범위관리
- 일정관리
- 원가관리
- 품질관리
- 통합관리
- 조달관리
- 인적자원 관리
- 위험 관리
- 의사소통 관리
- 이해관리자 관리
'Certificate > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터 분석기사] [2-1]빅데이터 탐색 -데이터 전처리 (0) | 2023.08.28 |
---|---|
[빅데이터 분석기사] [1-5]데이터 수집 및 저장 계획 - 데이터 수집 및 전환 (0) | 2023.07.12 |
[빅데이터 분석기사] [1-3] 데이터 분석 계획 - 분석 방안 수립 (0) | 2023.06.26 |
[빅데이터 분석기사] [1-2]빅데이터의 이해 - 빅데이터 기술 및 제도 (0) | 2023.06.22 |
[빅데이터 분석기사] [1-1]빅데이터의 이해 - 빅데이터 개요 및 활용 (0) | 2023.06.13 |