SyntaxHighlighter.all(); [빅데이터 분석기사] [1-4] 데이터 분석 계획 - 분석 작업 계획 :: 또르의 개발노트 ss
반응형

분석작업개요

:분석 작업 계획을 수립하ㅣ 위해 데이터 처리 프로세스 전체에 대한 이해가 필요하며, 데이터 처리 영역과

데이터 분석 영역으로 구분 할 수 있다.

 

1)데이터 처리 영역

: 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적인 환경을 제공하는 영역

  • 데이터 소스
  • 데이터 수집
  • 데이터 저장
  • 데이터 처리

2)데이터 분석 영역

:저장되어 있는 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후, 데이터 분석을 직접 수행하고 그 결과를 표현하는 영역

  1. 데이터 분석 - NCS(국가직무능력표준)
    • 도메인 이슈 도출
    • 분석목표 수립
    • 프로젝트 계획 수립
    • 보유 데이터 자산 확인
  2. 데이터 표현
    • 빅데이터 분석 결과 시각화

데이터 확보 계획

1)데이터 확보를 위한 사전 검토사항

  1. 필요 데이터의 정의
  2. 보유 데이터의 현황파악
  3. 분석 데이텨의 유형
  4. 편향되지 않고 충분한 양의 데이터 규모
  5. 내부 데이터의 사용
  6. 외부 데이터의 수집

2)분석에 필요한 변수 정의

:데이터 분석 요건에 따라 도출된 활용 시나리오에 적합한 데이터의 유형 및 분석 변수를 정의

  1. 데이터 수집 기획
    • 데이터 수집 기법을 활용하여 필요 데이터를 배치 자동화로 수집
    • 데이터 거래소, 공공 데이터에 적재된 분야별 데이터를 분류하고 선별
  2. 분석 변수 정의
    • 빅데이터의 특징을 고려하여 분석 변수 생성을 기획
    • 분석 변수 유형과 형성 알고리즘을 이용하여 분석 유형을 도출

3)분석 변수 생성 프로세스 정의

:분석 대상에 대해 객관적으로 인식하고 논리적 인과관계 분석 및 데이터 간 상관관계 분석을 위한 분석 변수 생성 프로세스를 정의

  1. 객관적 사실 기반의 문제 접근
    • 명확한 문제 인식을 위하여 분석적이고 가정에 의한 접근 방법과 함께 무엇이 문제인지를 파악하여 객관적 관찬 데이터 유형 식별
  2. 데이터의 상관분석
  3. 프로토타입을 통한 분석 변수 접근

4)생성된 분석 변수의 정제를 위한 점검항목 정의

:분석 기획 단계에서 도출된 문제 인식, 해결을 위한 개념적 대안 설계를 통해 도출된 데이터에 대해 가용성을 평가하고 점검항목을 정의

  1. 분석 변수 점검의 필요성
    • 가용성과 적정성이 부족할 경우 문제 해결 및 활용 시나리오 적용을 통해 가치 있는 결과를 도출하기 어려움
    • 실행 전 분석 변수를 논리적 지표에 따라 점검
  2. 분석 변수 점검항목 정의
분류 점검항목
데이터수집 데이터 적정성
데이터 가용성
대체 분석 데이터 유무
데이터적합성 데이터 중복
분석 변수별 범위
분석 변수별 연관성
특징변수 특징 변수 사용
변수 간 결합 가능 여부
타당성 편익/비용 검증
기술적 타당성

5)생성된 분석 변수의 전처리 방법 수립

:데이터 정제를 위한 점검항목 정의 후 이에 맞게 논리적 모형 설계를 위한 데이터 전처리 방법 수립

  1. 데이터 전처리 수행
    • 비즈니스 도메인에서 추출한 정형, 반정형, 비정형 데이터를 분석 및 처리에 적합한 데이터 형태로 조작
    • 데이터 정제, 통합, 축소, 변화을 반복적으로 수행하여 분석 변수로 활용
  2. 빅데이터 분석 프로세스 수행
    • 완전히 자동화하여 처리하는 것은 어려움
    • 전처리 과정은 정제와 통합을 통해 60~80% 처리됨

6)생성 변수의 검증 방안 수립

  1. 분석 변수의 데이터 검증 방안 수립
    • 모든 개별 데이터에 대한 타당성 보장보다는 빅데이터 개념 및 특성 측면에서 관리되어야 하는 항목과 수준에 대해 품질 검증을 정의
구분 품질 관리 접근 방법
대량 데이터 -데이터 사용자 오류는 무시
-타당성에 치명적인 예외 상황만 탐지
정밀 데이터 -환경 및 상황에 따라 판단
-데이터 전체가 나타내는 의미를 중심으로 검증 기준 정의
데이터 출처 불명확 -목적이나 사전 통제 없이 생상된 데이터에 대한 별도 품질 기준 정의
  • 빅데이터 품질 관리 및 검증은 정확성보다는 데이터의 양이 충분한지에 대한 충분성 개념하에 조직의 비즈니스 영역 및 목적에 따라 검증한다
구분 품질 검증 전략
정확성
(Accuracy)
-데이터 사용 목적에 따라 데이터 정확성의 기준 상이하게 적용
완전성
(Completeness)

-필요한 데이터인지 식별하는 수준으로 품질 요소 적용
적시성
(Timeliness)
-소멸성이 강한 데이터에 대한 품질 기준 판단
-웹로그 데이터, 트윗 데이터 등 지속적으로 생성 소멸하는 데이터에 대한 품질 기준 수립
일관성
(Consistency)
-동일한 데이터의 경우에도 사용 목적에 따라 데이터의 의미가 달라지기 때문에 분석 요건에 따른 검증 요소 적용

2.데이터 검증 체계 수립

  • 수집한 데이터의 출처가 명확한지 검증
  • 중복된 데이터가 존재하는지, 정보 활용에 컴플라이언스 이슈가 없는지 검증
  • 다양성이 확보되었는지, 데이터셋이 충분한지 검증
  • 주요 품질 지표의 조건을 만족하는지, 분석, 검증, 테스트 데이터가 분리되어 있는지 품질 지표를 분석 및 검증

분석 절차와 작업계획

1)분석절차

:데이터 분석의 시발점이 되는 문제 인식에서부터 시작하여 데이터를 확보하고 분석하여 결과를 도출 및 제시하는 단계까지의 일반적인 과정을 정형화한 프로세스

  1. 특징
    • 데이터 분석을 수행하기 위한 기본적인 과정을 명시
    • 분석 방법론을 구성하는 최소 요건
    • 상황에 따라 단계를 추가할 수도 있으며 생략 가능
  2. 일반적인 분석 절차
    • 문제인식 - 연구조사 - 모형화 -데이터 수집- 데이터 분석 - 분석 결과 제시
  3. 분석 절차 적용 시 고려사항
    • 문제에 대한 구체적 정의가 없다면 데이터 마이닝 기반으로 데이터를 분석하여 인사이트를 발굴하거나 반복적으로 데이터 분석을 시도항 개선 결과를 도출

2)작업계획

:분석 작업은  데이터 분석 업무를 수행하기 위한 전반적인 작업 내용들을 세부적으로 정의하는 과정

  1. 분석 작업 계획 수립
    • 프로젝트 소요비용 배분
    • 프로젝트 작업분할구조 수립
    • 프로젝트 업무 분장 계획 및 배분
  2. 분석 작업 계획수립을 위한 작업분할구조
    • 데이터 분석과제 정의
    • 데이터 준비 및 탐색
    • 데이터 분석 모델링 및 검증
    • 산출물 정리

3)분석목표정의서

:문제의 개선방향에 맞는 현실적인 분석목표를 수립하여 필요한 데이터에 대한 정보나 분석 타당성 검토 및 성과측정 방법 등을 정리한 정의서

  1. 분석목표정의서 구성요소
    • 원천 데이터 조사
    • 분석 방안 및 적용 가능성 판단
    • 성과평가 기준
  2. 분석목표정의서 작성 방법
    • 분석 목적을 설정하고 세무 목표를 수립
    • 필요 데이터를 정의하고, 분석 방법과 데이터 수집 및 분석 난이도, 수행 주기, 분석 결과에 대한 검증 기준 설계
    • 도메인 이슈 도출을 통한 개선 방향을 토대로 목표 수준을 정리

분석 프로젝트 관리

1)분석 프로젝트

:과제 형태로 도출된 분석 기회를 프로젝트화하여 그 가치를 증명하기 위한 수단

  1. 분석 프로젝트의 특징
    • 지속적인 반복이 요구되는 분석 프로세스의 특징을 이해하여 프로젝트 관리방안 수립
    • 프로젝트 기한 내에 가능한 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업 필요
  2. 분석 프로젝트의 추가적 속성
    • 데이터 크기
    • 데이터 복잡도
    • 속도
    • 분석 모형의 복잡도
    • 정확도와 정밀도
  3. 분석가의 역할
    • 데이터 영역과 비즈니스 영역의 중간에서 현황을 이해하고 분석 모형을 통한 조율을 수행하는 조정자의 역할과 분석 프로젝트 관리 역할을 수행한다

 2)분석 프로젝트 관리

  1. 효율적인 데이터 분석 수행을 위한 필요성
  2. 분석 프로젝트의 관리 방안

 

3)분석 프로젝트의 영역별 주요 관리 항목

  1. 범위관리
  2. 일정관리
  3. 원가관리
  4. 품질관리
  5. 통합관리
  6. 조달관리
  7. 인적자원 관리
  8. 위험 관리
  9. 의사소통 관리
  10. 이해관리자 관리
반응형

+ Recent posts