반응형
▶데이터 수집
:데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것이다.
1)비즈니스 도메인과 원천 데이터 정보 수집
- 비즈니스 도메인 정보
- 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스로부터 관련 정보를 습득 한다.
- 도메인 전문가 인터뷰를 통해 데이터의 종류, 유형, 특징 정보를 습득
- 원전 데이터 정보
- 데이터의 수집 가능성 : 원천 데이터 수집의 용이성과 데이터 발생 빈도를 탐색하고, 데이터 활용에 있어서 전처리 및 후처리 비용을 대략 산정
- 데이터의 보안 : 수집 대상 데이터의 개인정보 포함여부, 지적 재산권 존재 여부를 판단하여 데이터 분석 시 발생할 수 있는 문제를 예방
- 데이터 정확성 : 데이터 분석 목적에 맞는 적절한 데이터 항목이 존재하고, 적절한 데이터 품질이 확보될 수 있는지 탐색
- 수집난이도 : 원천 데이터의 존재 위치, 데이터의 유형, 데이터 수집 용량, 구축비용, 정제과정의 복잡성을 고려하여 데이터를 탐색
- 수집비용 : 데이터를 수집하기 위해 발생할 수 있는 데이터 획득 비용을 산정
2)내, 외부 데이터 수집
- 데이터의 종류
- 내부 데이터는 조직 내부의 서비스 시스템, 네트워크 및 서버장비, 마케팅 관련 시스템 등으로부터 생성되는 데이터를 말한다
- 외부 데이터는 다양한 소셜 데이터, 특정 기관 데이터, M2M 데이터, LOD등으로 나눌 수 있음
- 데이터 수집 주기
- 내부 데이터는 조직 내부에서 습득할 수 있는 데이터로 실시간으로 수집하여 분석할 수 있도록 한다.
- 외부 데이터는 일괄 수집으로 끝날지, 일정 주기로 데이터를 수집할지를 결정하여 수집 데이터 관리 정책을 정해야 한다.
- 데이터의 수집 방법
- 내부 데이터는 분석에 적합한 정형화된 형식으로 수집되기 때문에 가공에 많은 노력을 기울이지 않아도 된다.
- 외부 데이터는 분석 목표에 맞는 데이터를 탐색, 수집하고, 분석 목표에 맞게 수집 데이터를 변환하는 노력이 필요하다.
3)데이터 수집 기술
- 데이터 유형별 데이터 수집 기술
| 정형 데이터 |
ETL (Extract Transform Load) |
데이터를 추출 및 가공하여 데이터 웨어하우스에 저장하는 기술 |
| FTP (File Transfer Protocol) |
TCP/IP나 UDP 프로토콜을 통해 원격지 시스템으로부터 파일을 송수신하는 기술 | |
| API (Application Programming Interface) |
솔루션 제조사 및 3rd part 소프트웨어로 제공되는 도구 | |
| DBToDB | 데이터베이스 관리시스템 간 데이터를 동기화 또는 전송하는 방법 | |
| 스쿱(Sqoop) | 관계형 데이터베이스와 하둡 간 데이터를 전송하는 방법 |
| 비정형 데이터 |
크롤링(Crawling) | 인터넷상에서 제공되는 다양한 웹 사이트로부터 정보를 수집하는 기술 |
| RSS (Rich Site Summary) |
웹사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜 | |
| Open API | 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API | |
| 척화(Chukwa) | 분산 시스템으로부터 데이터를 수집, 하둡 파일 시스템에 저장 실시간으로 분석할 수 있는 기능을 제공 | |
| 카프카(Kafka) | 대용량 실시간 로그처리를 위한 분산 스트리밍 플랫폼 기술 |
| 반정형 데이터 |
플럼(Flume) | 분삭 환경에서 대량의 로그 데이터를 수집 전송하고 분석하는 기능을 제공 |
| 스크라이브(Scribe) | 다수의 수집 대상 서버로부터 실시간으로 데이터를 수집, 분산 시스템에 데이터를 저장하는 기능을 제공 | |
| 센싱(Sencing) | 센서로부터 수집 및 생성된 데이터를 네트워크를 통해 활용하여 수집하는 기능을 제공 | |
| 스트리밍(Streaming) | 네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술 |
▶데이터 유형 및 속성 파악
1)데이터 수집 세부 계획 작성
- 데이터 유형, 위치, 크기, 보관방식, 수집주기, 확보비용, 데이터 이관 절차를 조사하여 세부 계획서를 작성
2)데이터 위치 및 비용
- 수집 데이터의 원천에 따라 내부 데이터와 외부 데이터로 구분하고 여러 요소를 고려하여 비용 산정
3)수집되는 데이터 형태
- HTML, XML, JSON
4)데이터 저장 방식
- 파일 시스템, 관계형 데이터베이스, 분산처리 데이터베이스
5)데이터 적정설 검증
- 데이터 누락점검, 소스 데이터와 비교, 데이터의 정확성 점검, 보안 사항 점검, 저작권 점검, 대량 트래픽 발생여부
▶데이터 변환
:데이터를 하나의 표현형식에서 다른 형식으로 변형하는 과정
- 데이터 변환 방식의 종류
- 관계형 데이터 베이스 - 비정형에서 정형데이터 형태로 저장하는 방식
- 분산데이터 저장(HDFS) - 수집데이터를 분산파일시스템으로 저장하는 방식
- 데이터웨어하우스 - 주제별, 시계열적으로 저장하는 방식
- NoSQL - 키-값 형태로 저장하는 방식
- 데이터 변환 수행 자료
- 데이터 수집계획서
- 데이터 변환 솔루션
- 소프트웨어 아키텍처 개념도
- 수집 솔루션 매뉴얼
- 하둡 오퍼레이션 매뉴얼
2)데이터베이스 구조 설계
- 수집 데이터를 저장하기 위한 데이터베이스 구조 설계
- DBMS 구축 여부 결정
- 저장 데이터베이스 결정
- DBMS 설치
- 테이블 구조 설계
3)비정형/반정형 데이터의 전환
:데이터 전처리나 후처리가 수행되기 전에 비정형/반정형 데이터를 구조적 형태로 전환하여 저장하는 과정이다
- 수집 데이터의 속성 구조 파악
- 데이터 수집 절차에 대한 수행코드 정의
- 데이터 저장 프로그램 작성
- 데이터베이스에 저장
4)융합 데이터베이스 설계
- 데이터의 유형과 의미를 파악하여 활용 목적별 융합 DB를 설계
- 활용 업무데이터 요구사항을 분석하고, 데이터 표준화 활동 및 모델링 과정을 수행하여야 함
- 요구사항분석
- 데이터표준화와 모델링 수행
5)고려사항
- 정형화된 데이터베이스로 변환함에 집중
- 수집 데이터의 속성 구조를 정확히 파악
- 활용 업무 목적을 정확히 판단하는 것이 중요하고, 쉽게 자동화 구축될 수 있도록 설계
▶데이터 비식별화
1)비식별화 개요
- 사람의 판단에 따라 가공하여 개인을 알아볼 수 없도록 하는 조치
- 식별자(Identifier)와 속성자(Attribute value)
- 식별자는 개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름을 말한다.
- 데이터셋에 포함된 식별자는 원칙적으로 삭제조치하며, 데이터 이용 목적상 필요한 식별자는 비식별 조치 후 활용한다.
- 속성자는 개인과 관련된 정보로서 다른 정보와 쉽게 결합하는 경우 특정 개인을 알아볼 수도 있는 정보를 말한다.
- 데이터셋에 포함된 속성자도 데이터 이용 목적과 관련이 없는 경우에는 원칙적으로 삭제하며, 데이터 이용 목적과 관련이 있을 경우 가명처리, 총계처리 등의 기법을 활용하여 비식별 조치한다.
- 비식별 조치 방법
- 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹 등 여러 가지 기법을 단독 또는 복합적으로 활용
- 각각의 기법에는 이를 구현할 수 있는 다양한 세부기술이 있으며, 데이터 이용목적과 기법볍 장, 단점 등을 고려하여 적절한 기법, 세부기술을 선택, 활용한다.
2)적정성 평가
- 적정성 평가 시 프라이버시 보호 모델 중 최소한의 수단으로 k-익명성을 활용하며, 필요시 추가적인 평가모델(l-다양성, t-근접성)을 활용한다.
- k-익명성 : 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상 비식별 되도록 하는 기법
- l-다양성 : 특정인 추론이 안된다고 해도 민간함 정보의 다양성을 높여 추론 가능성을 낮추는 기법
- t-근접성 : l-다양성뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법
▶데이터 품질 검증
1)데이터 품질관리
- 데이터 품질 관리의 정의
:가치성, 정확성, 유용성 있는 데이터를 확보하고 ,신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동 - 데이어 품질 관리의 중요성
- 분석 결과의 신뢰성은 분석 데이터의 신뢰성과 직접 연계된다
- 빅데이터의 특성을 반영한 데이터 품질 관리 체계를 구축하여 효과적인 분석결과를 도출하여야 한다.
2)데이터 품질
- 정형 데이터 품질 기준
: 정형 데이터에 대한 품질 기준은 일반적으로 완전성, 유일성, 유효성, 일관성, 정확성 5개의 품질 기준으로 나눌 수 있다. - 비정형 데이터 품질 기준
:비정형 컨텐츠 자체에 대한 품질 기준은 컨텐츠 유형에 따라 다소 다를 수있다.- 기능성
- 신뢰성
- 사용성
- 효율성
- 이식성
3)데이터 품질 진단 기법
- 정형 데이터 품질 진단
:정형 데이터의 품질은 데이터 프로파일링 기법을 통해 진단할 수 있다. - 비정형 데이터 품질 진단
:비정형 데이터의 품질 진단은 품질 세부 기준을 정하여 항목별 체크리스트를 작성하여 진단한다.
4)데이터 품질 검증 수행
- 수집 데이터 품질 보증 체계를 수집하여 품질 점검 수행 후 품질검증 결과서를 작성
- 품질 점검 수행 과정에서 데이터 오류수정이 용이하지 않을 경우 데이터를 재수집
반응형
'Certificate > 빅데이터 분석기사' 카테고리의 다른 글
| [빅데이터 분석기사] [2-2] 빅데이터 탐색 데이터 탐색 (0) | 2023.08.29 |
|---|---|
| [빅데이터 분석기사] [2-1]빅데이터 탐색 -데이터 전처리 (0) | 2023.08.28 |
| [빅데이터 분석기사] [1-4] 데이터 분석 계획 - 분석 작업 계획 (0) | 2023.06.30 |
| [빅데이터 분석기사] [1-3] 데이터 분석 계획 - 분석 방안 수립 (0) | 2023.06.26 |
| [빅데이터 분석기사] [1-2]빅데이터의 이해 - 빅데이터 기술 및 제도 (0) | 2023.06.22 |