SyntaxHighlighter.all(); [빅데이터 분석기사] [1-5]데이터 수집 및 저장 계획 - 데이터 수집 및 전환 :: 또르의 개발노트 ss
반응형

▶데이터 수집

:데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것이다.

 

1)비즈니스 도메인과 원천 데이터 정보 수집

  1. 비즈니스 도메인 정보
    • 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스로부터 관련 정보를 습득 한다.
    • 도메인 전문가 인터뷰를 통해 데이터의 종류, 유형, 특징 정보를 습득
  2. 원전 데이터 정보
    • 데이터의 수집 가능성 : 원천 데이터 수집의 용이성과 데이터 발생 빈도를 탐색하고, 데이터 활용에 있어서 전처리 및 후처리 비용을 대략 산정
    • 데이터의 보안 : 수집 대상 데이터의 개인정보 포함여부, 지적 재산권 존재 여부를 판단하여 데이터 분석 시 발생할 수 있는 문제를 예방
    • 데이터 정확성 : 데이터 분석 목적에 맞는 적절한 데이터 항목이 존재하고, 적절한 데이터 품질이 확보될 수 있는지 탐색
    • 수집난이도  :  원천 데이터의 존재 위치, 데이터의 유형, 데이터 수집 용량, 구축비용, 정제과정의 복잡성을 고려하여 데이터를 탐색
    • 수집비용 : 데이터를 수집하기 위해 발생할 수 있는 데이터 획득 비용을 산정

 2)내, 외부 데이터 수집

  1. 데이터의 종류
    • 내부 데이터는 조직 내부의 서비스 시스템, 네트워크 및 서버장비, 마케팅 관련 시스템 등으로부터 생성되는 데이터를 말한다
    • 외부 데이터는 다양한 소셜 데이터, 특정 기관 데이터, M2M 데이터, LOD등으로 나눌 수 있음
  2. 데이터 수집 주기
    • 내부 데이터는 조직 내부에서 습득할 수 있는 데이터로 실시간으로 수집하여 분석할 수 있도록 한다.
    • 외부 데이터는 일괄 수집으로 끝날지, 일정 주기로 데이터를 수집할지를 결정하여 수집 데이터 관리 정책을 정해야 한다.
  3. 데이터의 수집 방법
    • 내부 데이터는 분석에 적합한 정형화된 형식으로 수집되기 때문에 가공에 많은 노력을 기울이지 않아도 된다.
    • 외부 데이터는 분석 목표에 맞는 데이터를 탐색, 수집하고, 분석 목표에 맞게 수집 데이터를 변환하는 노력이 필요하다.

3)데이터 수집 기술

  1. 데이터 유형별 데이터 수집 기술
정형
데이터
ETL
(Extract Transform Load)
데이터를 추출 및 가공하여 데이터 웨어하우스에 저장하는 기술
FTP
(File Transfer Protocol)
TCP/IP나 UDP 프로토콜을 통해 원격지 시스템으로부터 파일을 송수신하는 기술
API
(Application
Programming Interface)
솔루션 제조사 및 3rd part 소프트웨어로 제공되는 도구
DBToDB 데이터베이스 관리시스템 간 데이터를 동기화 또는 전송하는 방법
스쿱(Sqoop) 관계형 데이터베이스와 하둡 간 데이터를 전송하는 방법
비정형
데이터
크롤링(Crawling) 인터넷상에서 제공되는 다양한 웹 사이트로부터 정보를 수집하는 기술
RSS
(Rich Site Summary)
웹사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜
Open API 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API
척화(Chukwa) 분산 시스템으로부터 데이터를 수집, 하둡 파일 시스템에 저장 실시간으로 분석할 수 있는 기능을 제공
카프카(Kafka) 대용량 실시간 로그처리를 위한 분산 스트리밍 플랫폼 기술
반정형
데이터
플럼(Flume) 분삭 환경에서 대량의 로그 데이터를 수집 전송하고 분석하는 기능을 제공
스크라이브(Scribe) 다수의 수집 대상 서버로부터 실시간으로 데이터를 수집, 분산 시스템에 데이터를 저장하는 기능을 제공
센싱(Sencing) 센서로부터 수집 및 생성된 데이터를 네트워크를 통해 활용하여 수집하는 기능을 제공
스트리밍(Streaming) 네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술 

▶데이터 유형 및 속성 파악

1)데이터 수집 세부 계획 작성

  • 데이터 유형, 위치, 크기, 보관방식, 수집주기, 확보비용, 데이터 이관 절차를 조사하여 세부 계획서를 작성

2)데이터 위치 및 비용

  • 수집 데이터의 원천에 따라 내부 데이터와 외부 데이터로 구분하고 여러 요소를 고려하여 비용 산정

3)수집되는 데이터 형태

  • HTML, XML, JSON

4)데이터 저장 방식

  • 파일 시스템, 관계형 데이터베이스, 분산처리 데이터베이스

5)데이터 적정설 검증

  • 데이터 누락점검, 소스 데이터와 비교, 데이터의 정확성 점검, 보안 사항 점검, 저작권 점검, 대량 트래픽 발생여부

▶데이터 변환

:데이터를 하나의 표현형식에서 다른 형식으로 변형하는 과정

  1. 데이터 변환 방식의 종류
    • 관계형 데이터 베이스 - 비정형에서 정형데이터 형태로 저장하는 방식
    • 분산데이터 저장(HDFS) - 수집데이터를 분산파일시스템으로 저장하는 방식
    • 데이터웨어하우스 - 주제별, 시계열적으로 저장하는 방식
    • NoSQL - 키-값 형태로 저장하는 방식
  2. 데이터 변환 수행 자료
    • 데이터 수집계획서
    • 데이터 변환 솔루션
    • 소프트웨어 아키텍처 개념도
    • 수집 솔루션 매뉴얼
    • 하둡 오퍼레이션 매뉴얼

2)데이터베이스 구조 설계

  • 수집 데이터를 저장하기 위한 데이터베이스 구조 설계
    1. DBMS 구축 여부 결정
    2. 저장 데이터베이스 결정
    3. DBMS 설치
    4. 테이블 구조 설계

3)비정형/반정형 데이터의 전환

:데이터 전처리나 후처리가 수행되기 전에 비정형/반정형 데이터를 구조적 형태로 전환하여 저장하는 과정이다

  1. 수집 데이터의 속성 구조 파악
  2. 데이터 수집 절차에 대한 수행코드 정의
  3. 데이터 저장 프로그램 작성
  4. 데이터베이스에 저장

4)융합 데이터베이스 설계

  • 데이터의 유형과 의미를 파악하여 활용 목적별 융합 DB를 설계
  • 활용 업무데이터 요구사항을 분석하고, 데이터 표준화 활동 및 모델링 과정을 수행하여야 함
  1. 요구사항분석
  2. 데이터표준화와 모델링 수행

5)고려사항

  • 정형화된 데이터베이스로 변환함에 집중
  • 수집 데이터의 속성 구조를 정확히 파악
  • 활용 업무 목적을 정확히 판단하는 것이 중요하고, 쉽게 자동화 구축될 수 있도록 설계

▶데이터 비식별화

1)비식별화 개요

  • 사람의 판단에 따라 가공하여 개인을 알아볼 수 없도록 하는 조치 
  1. 식별자(Identifier)와 속성자(Attribute value)
    • 식별자는 개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름을 말한다.
    • 데이터셋에 포함된 식별자는 원칙적으로 삭제조치하며, 데이터 이용 목적상 필요한 식별자는 비식별 조치 후 활용한다.
    • 속성자는 개인과 관련된 정보로서 다른 정보와 쉽게 결합하는 경우 특정 개인을 알아볼 수도 있는 정보를 말한다.
    • 데이터셋에 포함된 속성자도 데이터 이용 목적과 관련이 없는 경우에는 원칙적으로 삭제하며, 데이터 이용 목적과 관련이 있을 경우 가명처리, 총계처리 등의 기법을 활용하여 비식별 조치한다.
  2. 비식별 조치 방법
    • 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹 등 여러 가지 기법을 단독 또는 복합적으로 활용
    • 각각의 기법에는 이를 구현할 수 있는 다양한 세부기술이 있으며, 데이터 이용목적과 기법볍 장, 단점 등을 고려하여 적절한 기법, 세부기술을 선택, 활용한다.

2)적정성 평가

  • 적정성 평가 시 프라이버시 보호 모델 중 최소한의 수단으로 k-익명성을 활용하며, 필요시 추가적인 평가모델(l-다양성, t-근접성)을 활용한다.
  1. k-익명성 : 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상 비식별 되도록 하는 기법
  2. l-다양성 : 특정인 추론이 안된다고 해도 민간함 정보의 다양성을 높여 추론 가능성을 낮추는 기법
  3. t-근접성 : l-다양성뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법

▶데이터 품질 검증

1)데이터 품질관리

  1. 데이터 품질 관리의 정의
    :가치성, 정확성, 유용성 있는 데이터를 확보하고 ,신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동
  2. 데이어 품질 관리의 중요성
    • 분석 결과의 신뢰성은 분석 데이터의 신뢰성과 직접 연계된다
    • 빅데이터의 특성을 반영한 데이터 품질 관리 체계를 구축하여 효과적인 분석결과를 도출하여야 한다.

2)데이터 품질

  1. 정형 데이터 품질 기준
    : 정형 데이터에 대한 품질 기준은 일반적으로 완전성, 유일성, 유효성, 일관성, 정확성 5개의 품질 기준으로 나눌 수 있다.
  2. 비정형 데이터 품질 기준
    :비정형 컨텐츠 자체에 대한 품질 기준은 컨텐츠 유형에 따라 다소 다를 수있다.
    • 기능성
    • 신뢰성
    • 사용성
    • 효율성
    • 이식성

3)데이터 품질 진단 기법

  1. 정형 데이터 품질 진단
    :정형 데이터의 품질은 데이터 프로파일링 기법을 통해 진단할 수 있다.
  2. 비정형 데이터 품질 진단
    :비정형 데이터의 품질 진단은 품질 세부 기준을 정하여 항목별 체크리스트를 작성하여 진단한다.

4)데이터 품질 검증 수행

  • 수집  데이터 품질 보증 체계를 수집하여 품질 점검 수행 후 품질검증 결과서를 작성
  • 품질 점검 수행 과정에서 데이터 오류수정이 용이하지 않을 경우 데이터를 재수집
반응형

+ Recent posts