SyntaxHighlighter.all(); 'Certificate' 카테고리의 글 목록 (2 Page) :: 또르의 개발노트 ss
반응형

▶빅데이터 플랫폼

: 빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술들을 잘 사용할 수 있도록 준비된 환경

 

1)빅데이터 플랫폼의 등장배경

  1. 비즈니스 요구사항 변화 - 장기적이고 전략적인 접근 필요, 클라우드 컴퓨팅 기반의 분석 환경 등장
  2. 데이터 규모와 처리 복잡도 증가 - 분석 처리가 불가피하며 이를 제어할 수 있는 고도의 기술 필요
  3. 데이터 구조의 변화와 신속성 요구 - 실시간 처리에 대한 요구 증대, 비정형 데이터 증가
  4. 데이터 분석 유연성 증대 - 텍스트, 음성, 이미지, 동영상 등 다양한 요소들의 분석 가능

2)빅데이터 플랫폼의 기능

:부하들을 기술적인 요소들을 결합하여 해소

  1. 컴퓨팅 부하 발생 
  2. 저장 부하 발생
  3. 네트워크 부하 발생

3)빅데이터 플랫폼의 조건

:서비스 사용자와 제공자 어느 한쪽에 치우쳐서는 안되며 모두가 만족할 수있는 환경제공 

 

4)빅데이터 플랫폼 구조

  1. 소프트웨어 계층
    • 데이터 처리 및 분석엔진 - 데이터 처리 및 분석, 워크플로우 구성, 데이터 표현
    • 데이터 수집 및 정제 모듈 - 데이터 추출/변환/적재
    • 서비스 관리 모듈 - 소프트웨어 계층에서 제공하는 서비스 관리
    • 사용자 관리 모듈 - 사용자 관리 , 인증 및 접속 관리 , SLA (Service Level Agreement)관리
    • 모니터링 모듈 - 플랫폼 및 인프라스트럭처 서비스 사용성과 성능 모니터링
    • 보안모듈 - 소프트웨어 계층의 보안 관리 
  2. 플랫폼 계층
    • 사용자요청 파싱 - 사용자가 요청한 내용 파싱
    • 작업 스케줄링 모듈  - 애플리케이션 실행 작업을 스케줄링
    • 데이터 및 자원 할당 모듈 - 초기데이터 할당, 데이터 재할당 및 복제, 초기 자원 할당, 재할당 및 스케일링
    • 프로파일링 모듈 - 자원/애플리케이션 프로파일링, 애플리케이션 시뮬레이션
    • 데이터 관리 모듈 - 사용자 데이터 관리
    • 자원관리 모듈 - 인프라스트럭처 자원 관리
    • 서비스 관리모듈 - 플랫폼 계층에서 제공하는 서비스 관리
    • 사용자 관리모듈 - 인증 및 접속관리, 사용자 서비스 관리, SLA 관리
    • 모니터링 모듈 - 인프라스트럭처 서비스 가용성과 성능을 모니터링
    • 보안모듈 - 소프트웨어 계층의 보안을 관리
  3. 인프라스트럭쳐 계층
    • 사용자 요청 파싱 - 사용자 요청 내용 파싱
    • 자원 배치 모듈 - 초기자원 배치, 자원 재배치 및 스케일링
    • 노트 관리 모듈 - 인프라스트럭처 내의 노트관리
    • 데이터 관리 모듈 - 스토리지 관리
    • 네트워크 관리모듈 - 네트워크 관리
    • 서비스 관리 모듈 - 서비스 관리
    • 사용자 관리모듈 - 인증 및 접속관리, 사용자 서비스 관리, SLA 관리
    • 모니터링 모듈 - 인프라스트럭처 서비스 가용성과 성능을 모니터링
    • 보안모듈 - 소프트웨어 계층의 보안을 관리

*빅데이터 처리기술 

1)빅데이터 처리과정과 요소기술

빅데이터 처리과정

2)빅데이터 수집

  1. 크롤링(Crawling) -분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술
  2. 로그 수집기 - 웹 서버나 시스템의 로그를 수집하는 소프트웨어
  3. 센서 네트워크 - 유비쿼터스 컴퓨팅 구현을 위한 초경량 저전력의 많은 센서들로 구성된 유무선 네트워크
  4. RSS Reader/Open API - 데이터의 생산, 공유, 참여할 수 있는 환경인 웹 2.0을 구현하는 기술
  5. ETL 프로세스 - 데이터의 추출(Extract), 변환(Transform), 적재(Load)의 약어, 다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변환하여 적재하는 과정 

3)빅데이터 저장

  1. NoSQL(Not-only SQL) - SQL을 사용하지 않는 비관계형 데이터베이스
    • 원자성(Atomicity), 일관성(Consistency), 독립성(Isolation), 지속성(Durability) 포기
    • 데이터 업데이트가 즉각
    • Cloudata, Hbase, Cassandra, MongoDB 등이 대표적
  2. 공유 데이터 시스템
    • 일관성, 가용성(Availability), 분할 내성(Partition Tolerance)중에서 최대 두개의 속성만 보유 가능
    • RDBMS보다 높은 성능과 확장성 제공
  3. 병렬 데이터베이스 관리 시스템
    • 여러 디스크에 질의, 갱신, 입출력 등 데이터베이스 처리를 동시에 수행하는 시스템
    • VoltDB, SAP HANA, Vertica, Greenplum, Netezza가 대표적
  4. 분산 파일 시스템 - 네트워크로 공유하는 여러 호스트의 파일에 접근할 수 있는 파일 시스템
    • 데이터를 분산하여 저장하면 데이터 추출 및 가공 시 빠르게 처리 가능
    • GFS(Google File System), HDFS(Hadoop Distributed File System), 아마존 S3 파일 시스템이 대표적
  5. 네트워크 저장 시스템 - 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리하는 시스템
    • SAN(Storage Area Network), NAS(Nerwork Attached Storage) 가 대표적 

 4)빅데이터 처리

  1. 분산 시스템과 병렬 시스템 
    • 분산시스템 - 네트워크상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동하는 기술
    • 병렬시스템 - 문제 해결을 위해 CPU 등의 자원을 데이터 버스나 지역 통신 시스템 등으로 연결하여 구동하는 기술
  2. 분산 병렬 컴퓨팅 - 다수의 독립된 컴퓨팅 자원을 네트워크상에 연결하여 이를 제어하는 미들웨어를 이용해 하나의 시스템으로 동작하게 하는 기술
  3. 하둡(Hadoop) - 분산 처리환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈소스 소프트웨어 프레임워크
  4. 아파치 스파크 - 실시간 분산형 컴퓨팅 플랫폼
  5. 맵리듀스 - 구글에서 개발한 방대한 양의 데이터를 신속하게 처리하는 프로그래밍 모델로 효과적인 병렬 및 분산 처리를 지원

   >맵리듀스 처리단계(Split - Map - Shuffle - Reduce)

  1. 입력 데이터를 읽고 분할(Split)
  2. 분할된 데이터를 할당해 맵 작업 수행, 중간 데이터를 통합 및 재분할(Map)
  3. 통합 및 재분할된 중간 데이터를 셔플한다(Shuffle)
  4. 셔플된 중간 데이터를 이용해 리듀스 작업을 수행(Reduce)
  5. 출력데이터를 생성하고, 맵리듀스 처리를 종료

5)빅데이터 분석

  1. 데이터 분석 방법의 분류
    • 탐구 요인 분석(EFA: Exploratory Factor Analysis) : 데이터 간 상호 관계를 파악하여 데이터를 분석
    • 확인 요인 분석(CFA: Confirmatory Factor Analysis) : 관찰된 변수들의 집합 요소구조를 파악하기 위한 통계적 기법을 통해 데이터를 분석하는 방법
  2. 데이터 분석 방법
    • 분류(Classification) - 미리 알려진 클래스들로 구분되는 학습 데이터셋을 학습시켜 새로 추가되는 데이터가 속할 만한 데이터 셋을 찾는 지도 학습 방법
    • 군집화(Clustering) - 특성이 비슷한 데이터를 하나의 그룹으로 분류하는 방법 , 비지도학습 방법
    • 기계학습(Machine Learning) - 인공지능 분야에서 인간의 학습을 모델링한 방법
    • 텍스트 마이닝(Text Mining) - 자연어 처리 기술을 이용해 인간의 언어로 쓰인 비정형 텍스트에서 유용한 정보를 추출 및 분석 
    • 웹 마이닝(Web Mining) - 인더넷을 통해 수집한 정보를 데이터 마이닝 방법으로 분석
    • 오피니언 마이닝(Opinion Mining) - 소셜 미디어 코멘트 또는 사용자가 만든 콘텐츠에서 표현된 의견을 추출, 분류, 이해하는 응용분야
    • 리얼리티 마이닝(Reality Mining) - 인간관계와 행동 양태 등을 추론하는 응용 분야
    • 소셜 네트워크 분석(Social Network Analysis) - 수학의 그래프 이론을 바탕으로 소셜 네트워크 서비스에서 네트워크 연결 구조와 강도를 분석하여 사용자의 명성 및 영향력을 측정하는 방법
    • 감상 분석(Sentiment Analysis) - 문장의 의미를 파악하여 글의 내용에 긍정 또는 부정, 좋은 또는 나쁨을 분류하거나 만족 또는 불만족 강도를 지수화하는 방법

*빅데이터와 인공지능

1)인공지능(AI: Artificial Intelligence)

  1. 인공지능의 정의
    • 기계를 지능화하는 노력
    • 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직 
  2. 인공지능과 기계학습 및 딥러닝의 관계
    • 인공지능을 논할 때 기계학습과 딥러닝을 혼재하여 사용 
  3. 딥러닝(Deep Learing)의 특징
    • 깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있는 특징
    • 딥러닝 분석기법
      • CNN(Convolutional Neural Network, 합성곱 신경망)
      • RNN(Recurrent Neural Network, 순환 신경망)
      • LSTM(Long Short-Term Memory) 
      • Auto-encoder 등
  4. 기계학습의 종류
    • 지도학습(Supervised Learining) - 학습 데이터로부터 하나의 함수를 유추해내기 위한 방법
    • 비지도학습(Unsupervised Learning) - 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주
    • 준지도학습(Semi-Supervised Learing) - 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용 
    • 강화학습(Reinforcement Learing) - 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 순서를 선택하는 방법 
  5. 기계학습 방법에 따른 인공지능 응용분야
    • 지도학습 - 분류모형, 회귀모형
    • 비지도학습 - 군집분석, 오토인코더(AutoEncoder), 생성적 적대 신경망(Generative Adversarial Network)
    • 강화학습 - 강화학습

Long Short-Term Memory

2)인공지능 데이터 학습의 진화

  1. 전이학습(Transfer Learing) - 주로 이미지, 언어, 텍스트 인식과 같이 지도학습 중 분류모형인 인식문제에 활용 가능 
  2. 전이학습 기반 사전학습모형(Pre-trained Model) - 학습 데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가적인 데이터를 학습시키는 방식
  3. BERT(Bidirectional Encoder Representations from Transformers) - 구글에서 발표한 언어인식 사전학습모형

3)빅데이터와 인공지능의 관계

  1. 인공지능을 위한 학습 데이터 확보  - 양질의 데이터 확보
  2. 학습 데이터의 애노테이션 작업 - 데이터 확보 후 애노테이션을 통해 학습이 가능한 데이터로 가공하는 작업
  3. 애노테이션 작업을 위한 도구로써의 인공지능 

4)인공지능의 기술동향

  1. 기계학습 프레임워크 보급 확대 - 텐서플로우(Tensorflow)는 파이썬 기반 딥러닝 라이브러리
  2. 생성적 적대 신경망(GAN) - 두 개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘
  3. 오토인코더(Auto-encoder) - 라벨이 설정되어 있지 않은 학습 데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망
  4. 설명 가능한 인공지능(XAI:eXplainable AI) - 차트나 수치 또는 자연어 형태의 설명으로 제공
  5. 기계학습 자동화(AutoML) - 기계학습의 전체 과정을 자동화

*개인정보 개요

1)개인정보의 정의와 판단기준

  1. 정의
    • 살아 있는 개인에 관한 정보로서 개인을 알아볼 수 있는 정보
    • 해당 정보만으로 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보 포함
  2. 판단기준
    • 생존하는 개인에 관한 정보
    • 정보의 내용, 형태 등은 제한이 없음
    • 개인을 알아볼 수 있는 정보

2)개인정보의 처리와 활용

  1. 개인정보의 이전 : 개인정보가 다른사람에게 이전되거나 공동으로 처리
  2. 개인정보의 위탁 : 개인정보처리자의 업무를 처리할 목적으로 제3자에게 이전
  3. 개인정보의 제3자 제공 : 해당 정보를 제공받는 자의 고유한 업무처리를 할 목적 및 이익을 위하여 정보가 이전

3)빅데이터 개인정보보호 가이드라인(방송통신위원회)

  1. 비식별화
  2. 투명성 확보
  3. 재식별 시 조치
  4. 민감정보 및 비밀정보 처리
  5. 기술적, 관리적 보호조치

*개인정보 법 제도

1)개인정보보호법

  1. 개요
    • 당사자의 동의 없는 개인정보 수집 및 활용하거나 제3자에게 제공하는 것을 금지하는 등 개인정보보호를 강화한 내용을 담아 제정한 법률
    • 상대방의 동의 없이 개인정보를 제3자에게 제공하는 5년 이하의 징역이나 5,000만원 이하의 벌금에 처함
  2. 범위
    • 어떤 정보가 개인정보에 해당하는지는 그 정보가 특정 개인을 알아 볼 수 있는지, 다른 정보와 쉽게 결합할 수 있는 가에 따라 결정

2)정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)

  1. 개요
    • 정보통신망의 개발과 보급 등 이용 촉진과 함께 통신망을 통해 활용되고 있는 정보보호에 관한 규정한 법률
    • 이용자의 동의를 받지 않고 개인정보를 수집하거나 제3자에게 개인정보를 제공한경우 5년 이하의 징역 또는 5,000만원 이하의 벌금에 처함

3)신용정보의 이용 및 보호에 관한 법률(신용정보보호법)

  1. 개요
    • 개인신용정보를 신용정보회사 등에게 제공하자 하는 경우에 개인으로부터 서면 또는 공인전자서명이 있는 전자문서에 의한 동의 등을 얻어야 한다.
    • 신용정보주체는 신용정보회사 등이 본인에 관한 신용정보를 제공하는 때에는 제공받는 자, 그 이용 목적, 제공한 본인정보의 주요 내용 들을 통보하도록 요구하거나 인터넷을 통하여 조회할 수 있도록 요구할 수 있다.
    • 신용정보회사 등이 보유하고 있는 본인정보의  제공 또는 열람을 청구할 수 있고, 사실과 다른 경우에는 정정을 청구할 수 있다.
  2. 개인정보의 범위(제2조 제1호 및 제2호, 제34조 제1항)
    • 신용정보란 금융거래 등 상거래에 있어서 거래 상대방의 신용을 판단할 때 필요한 정보로서 다음 각 목의 정보를 말함.
    • 특정 신용정보주체를 식별할 수 있는 정보
    • 신용정보주체의 거래내용을 판단할 수 있는 정보
    • 신용정보주체의 신용도를 판단할 수 있는 정보
    • 신용정보주체의 신용거래능력을 판달할 수 있는 정보
    • 그 밖에 유사한 정보
  3. 개인신용정보
    • 개인신용정보란 신용정보 중 개인의 신용도와 신용거래능력 등을 판단할 때 필요한 정보
  4. 개인식별정보
    • 개인식별정보란 생존하는 개인의 성명, 주소 및 주민등록번호, 여권번호 등 개인을 식별 할 수 있는 정보

4)데이터 3법의 주요 개정 내용

  • 데이터 이용 활성화를 위한 가명정보 개념 도입 및 데이터간 결합 근거 마련
  • 개인정보보호 관련 법률의 유사, 중복 규정을 정비 및 거버넌스 체계 효율화
  • 데이터 활용에 따른 개인정보처리자 책임 강화
  • 다소 모호했던 개인정보의 판단기준 명확화

*개인정보 비식별화

1)개요

  1. 비식별 정보 - 정보 집합물에 대해 "개인정보 비식별 조치 가이드라인"에 따라 적정하게 비식별 조치된 정보
  2. 비식별 조치 - 개인을 알아볼 수 없도록 하는 조치
  3. 비식별 정보의 활용 - 제 3자에게 제공 가능, 불특정 다수에게는 공개 불가
  4. 비식별 정보의 보호 - '재식별'될 가능성이 있음, 재식별하게 된 경우에는 즉시 처리중지하고 파기하여야 함

2)조치 가이드 라인 조치사항

  1. 사전검토  - 개인정보에 해당하는지 여부 검토 (개인정보, 식별정보)
  2. 비식별조치 - 개인을 알아볼 수 없도록 하는 조치( 가명, 총계, 삭제, 범주화, 마스킹)
  3. 적정성평가 - 비식별 조치 적정성 편가단을 통해 평가(k-익명성, l-다양성, t-근접성)
  4. 사후관리 - 재식별 방지를 위해 필요한 조치 수행(관리적/기술적 보호조치)

3)개인정보 비식별화 조치 가이드라인의 조치방법

  1. 가명처리 : 식별 요소를 다른 값으로 대체
  2. 총계처리 : 총합 값을 보여주고 개별 값을 보여 주지 않음
  3. 데이터삭제 : 개인식별에 중요한 값을 삭제
  4. 데이터범주화 : 값을 범부화하여  값을 숨김
  5. 데이터마스킹 : 식별가능한 주요 식별자를 보이지 않도록 처리하는 방법

*개인정보 활용

1)데이터 수집의 위기 요인과 통제방안

  1. 사생활 침해로 위기 발생
  2. 동의에서 책임으로 강화하여 통제

2)데이터 활용의 위기 요인과 통제방안

  1. 책임원칙 훼손으로 위기 발생
  2. 결과 기반 책임 원칙을 고수하여 통제

3)데이터 처리의 위기 요인과 통제 방안

  1. 데이터 오용으로 위기 발생 - 빅데이터는 과거에 일어났던 일로 인해 기록된 데이터에 의존
  2. 알고리즘 접근을 허용하여 통제
반응형
반응형

▶빅데이터 개요 및 활용

1)데이터의 정의

  • 데이터는 추론과 추정의 근거를 이루는 사실
  • 현실 세계에서 관찰하거나 측정하여 수집한 사실

 2)데이터의 특징

  • 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 가짐
  • 추론, 추정, 예측, 전망을 위한 근거로 당위적 특성을 가짐 

3)데이터의 구분

  1. 정량적 데이터 : 숫자로 이루어짐
  2. 정성적 데이터 : 문자로 이루어짐

4)데이터의 유형

  1. 정형 데이터 : 정해진 형식과 구조에 맞게 저장되도록 구성, 연산가능 ex) RDBMS(관계형 데이터베이스) 등
  2. 반정형 데이터 : 데이터 형식과 구조가 유연하고 스키마 정보를 데이터와 함께 제공, 연산불가 ex) JSON, XML, RDF, HTML 등
  3. 비정형 데이터 : 구조가 정해지지 않은 대부분의 데이터 ex) 동영상, 이미지, 음성 등

5)데이터 근원에 따른 분류

  1. 가역 데이터 : 환원 가능(비가공데이터), 1:1 관계, 이력추적 가능, 변경사항 반영 가능, 데이터 마트
  2. 비가역 데이터 : 환원 불가(가공 데이터), 원본 데이터와 독립된 새 객체, M:N 관계, 변경사항 반영 불가, 데이터 전처리

6)데이터의 기능

  1. 암묵지 : 외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어려움.
  2. 형식지 : 형상화된 유형의 지식으로 그 전달과 공유가 쉽다.

7)지식창조 메커니즘

  1. 공통화(Socialization) : 서로의 경험이나 인식을 공유하며 한 차원 높은 암무지로 발전.
  2. 표출화(Externaliztion) : 암묵지가 구체화되어 외부(형식지)로 표현.
  3. 연결화(Combination) : 형식지를 재분류하여 체계화.
  4. 내면화(Internalization) : 전달받은 형식지를 다시 개인의 것으로 만듦.

8)데이터, 정보, 지식, 지혜

  1. 데이터(Data) : 현실 세계에서 관찰하거나 측정하여 수집한 객관적인 사실, 개별데이터 ex) 온라인 제품 100만원, 오프라인제품 150만원
  2. 정보(Information) : 데이터를 가공하거나 처리하여 도출된 의미 ex) 오프라인 보다 온라인이 저렴 
  3. 지식(Knowledge) : 상호 연결된 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 내재화된 고유의 결과물 ex) 오프라인보다 저렴한 온라인으로 노트북을 구매
  4. 지혜(Wisdom) : 축적된 지식을 통해 근본적인 원리를 이해하고 아이디어를 결합하여 도출한 창의적 산물                       ex) 다른 제품도 온라인이 오프라인보다 저렴할 것이다.

지식의 피라미드(가치창출 프로세스)

*데이터베이스

1)데이터베이스 정의

  • 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단을 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물

2)데이터베이스 관리 시스템(DBMS: Database Management System)

: 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어 

  • 관계형 DBMS - 데이터를 열과 행을 이루는 테이블로 표현
  • 객체지향 DBMS - 정보를 객체 형태로 표현
  • 네트워크 DBMS - 그래프 구조를 기반
  • 계층형 DBMS -트리 구조를 기반

*SQL(Structured Query Language)

  • 데이터베이스를 접근할 때 사용하는 언어
  • 질의기능, 데이터 정의, 조작 기능을 갖춤 
  • 테이블 단위로 연산을 수행

3)데이터베이스 특징

  1. 통합된 데이터(Integrated Data) : 동일한 데이터가 중복 저장되지 않음
  2. 저장된 데이터(Stored Data) : 컴퓨터가 접근할 수 있는 저장매체에 데이터를 저장
  3. 공용 데이터(Shared Data) : 여러 사용자가 다른 목적으로 데이터를 함께 이용
  4. 변화 되는 데이터(Changed Data) : 데이터는 현시점의 상태를 나타내며 지속적으로 갱신

4)데이터베이스의 활용

   1.OLTP(OnLine Transaction Processing) : 데이터베이스의 데이터를 수시로 갱신하는 프로세싱, 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태   

   2.OLAP(OnLine Analytical Processing) : 정보 위주의 분석 처리, OLTP에서 처리된 트랜잭션 데이터를 분석

 

5)데이터 웨어하우스(DW: Data Warehouse) : 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스

  ■ 특징

  • 주체지향성(Subject-orientation) : 중요한 주제를 중심으로 주제와 관련된 데이터들로 구성
  • 통합성(Integration) : 일관된 형태로 입력되며, 전사적인 관점에서 통합
  • 시계열성(Time-variant) : 일정 기간 동안 시점별로 이어짐
  • 비휘발성(Non-volatilization) : 적재되면 일괄 처리 작업에 의한 갱신 이외에는 변경이 수행되지 않음

 ■ 구성

데이터 웨어하우스의 구성

  • 데이터 모델(Data Model) : 주제 중심으로 구성된 다차원의 개체-관계형 모델로 설계
  • ETL(Extract, Transform, Load) : 기업의 내부 또는 외부로부터 데이터를 추출, 정제 및 가공하여 데이터 웨어하우스에                                                      적재
  • ODS(Operational Data Store) : 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리
  • DW 메타데이터 :  데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공
  • OLAP(Online Analytical Processing) : 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션
  • 데이터마이닝(Data Mining) : 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론
  • 분석도구 : 데이터마이닝을 활용하여 데이터 웨어하우스에 적재된 데이터를 분석할 수 있는 도구
  • 경영기반 솔루션 : KMS, DSS, BI와 같은 경영의사결정을 지원하기 위한 솔루션

*빅데이터 개요

: 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집, 저장, 분석 등이 어려운 정형 및 비정형 데이터들을 의미한다.

  • 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장,  관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
  • 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원
  • 작은용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출

1)빅데이터의 등장과 변화

  1. 빅데이터의 등장 배경

   2.빅데이터의 등장으로 인한 변화

  • 데이터 처리 시점이 사전처리(pre-processing)에서 사후처리(post-processing)로 이동
  • 데이터 처리범주가 표본조사에서 전수조사로 확대
  • 데이터의 가치 판단 기준이 질(quality)보다 양(quantity)으로 중요도가 달라짐
  • 데이터를 분석하는 방향이 이론적 인과관계 중심에서 단순한 상관관계로 변화

2)빅데이터의 특징

광의 협의 특징 내용
5V 3V 규모(Volume) ●데이터 양이 급격하게 증가(대용량화)
●기존 데이터 관리 시스템의 성능적 한계 도달
유형(Variety) ●데이터의 종류와 근원 확대(다양화)
●정형 데이터 외 반정형 및 비정형 데이터로 확장
속도(Velocity) ●데이터 수집과 처리 속도의 변화(고속화)
●대용량 데이터의 신속하고 즉각적인 분석 요구
2V 품질(Veracity) ●데이터의 신뢰성, 정확성, 타상성 보장 필수
●고품질의 데이터에서 고수준 인사이트 도출 가능
가치(Value) ●대용량의 데이터 안에 숨겨진 가치 발굴이 중요
●다른 데이터들과 연계 시 가치가 배로 증대
킬로바이트(KB)
메가바이트(MB)
기가바이트(GB)
테라바이트(TB)
페타바이트(PB)
엑사바이트(EB)
제타바이트(ZB)
요타바이트(YB)

3)빅데이터의 활용

■빅데이터의 활용을 위한 3요소

  1. 자원(Resource)[빅데이터]
  2. 기술(Technology)[빅데이터플랫폼, AI]
  3. 인력(People)[알고리즈미스트, 데이터사이언티스트]

■빅데이터의 활용을 위한 기본 테크닉

  • 연관규칙학습
  • 유형분석
  • 유전 알고리즘
  • 기계학습
  • 회귀분석
  • 감정분석
  • 소셜네트워크분석

*빅데이터의 가치

1)빅데이터의 기능과 효과

  • 빅데이터를 활용하는 기존 사업자에게 경쟁 우위를 제공
  • 빅데이터는 알고리즘 기반으로 의사결정을 지원
  • 빅데이터는 투명성을 높여 R&D 및 관리 효율성 제고

2)빅데이터의 가치 측정의 어려움

  1. 데이터 활용 방식 : 데이터를 재사용하거나 재결합 등이 일반화되면서 데이터를 누가, 언제, 어디서 활용할지 알 수 없기에 가치측정 어려움.
  2. 가치 창출 방식 : 어떠한 목적을 갖고서 어떻게 가공할지 모르기에 측정하기 어려움
  3. 분석 기술 발전 : 현재 가치가 없어도 새로운 분석 기법이 등장할 경우 큰 가치를 찾아낼 수 있음으로 측정하기 어려움 
  4. 데이터 수집 원가 : 목적에 따라 가공비용 상황이 달라지기에 측정하기 어려움

3)빅데이터의 영향

  • 기업에게 혁신과 경쟁력 강화
  • 정부에게 환경 탐색과 상황 분석, 미래 대응 수단
  • 개인에게 활용 목적에 따라 스마트화

*데이터 산업의 이해

1)데이터 산업의 진화

:데이터 산업은 데이터 처리 - 통합 - 분석 - 연결- 권리 시대로 진화

  1. 데이터 처리시대 : 프로그래밍 언어 이용, EDPS 도입, 새로운 가치 제공X
  2. 데이터 통합시대 : 전사적 데이터 일광성 확보X, 데이터모델링과 데이터베이스 관리시스템 등장, 데이터 웨어하우스                                 도입
  3. 데이터 분석 시대 : 데이터 폭발적 증가, 빅데이터 기술 등장, 인공지능 기술 상용화, 데이터 리터러시 중요도 증가
  4. 데이터 연결 시대 : 둘 이상의 방식으로 연결되어 데이터를 주고받음, 오픈 API 사용
  5. 데이터 권리 시대 : 개인이 자신의 데이터를 자신을 위해 사용, 마이데이터 등장, 산업이 데이터 중심으로 재편

2)데이터 산업의 구조

  1. 인프라 영역
    • 데이터수집, 저장, 분석, 관리 등의 기능 담당
    • 컴퓨터, 네트워크 장비, 스토리지 같은 하드웨어 영역
    • 데이터를 관리하고 분석하기 위한 소프트웨어 영역
  2. 서비스 영역
    • 데이터 활용을 위한 교육이나 컨설팅 또는 솔루션 제공
    • 데이터를 제공 및 처리

*빅데이터 조직 및 인력

1)필요성 : 데이터 분석 및 활요을 위한 조직체계나 분석 전문가 확보에 어려움, 컨트롤 타워에 대한 필요성

2)조직의 역할 : 전사 및 부서의 분석 업무 발굴, 빅데이터 속에서 인사이트를 찾아냄, 인사이트를 전파하고 실행

3)조직의 구성 :

1)구성 인력과 필요역량

  • 비즈니스를 이해하고 있는 인력
  • 분석에 필요한 컴퓨터공학적인 기술을 이해하고 있는 인력
  • 통계를 이용한 다양한 분석기법을 활용할 수 있는 분석 지식을 갖춘 인력 
  • 조직 내 분석 문화 확산을 위한 변화 관리 인력
  • 분석조직뿐 아니라 관련 부서 조직원의 분석 역량 향상을 위한 교육담당 인력

2)데이터 사이언스 역량

  1. 데이터 사이언스의 기능
    • 비즈니스 성과를 좌우하는 핵심이슈에 답할 수 있다.
    • 사업의 성과를 견인해 나갈 수 있다.
  2. 데이터 사이언스 실현을 위한 인문학적 요소
    • 스토리텔링 능력
    • 커뮤니케이션 능력
    • 창의력과 직관련
    • 비판적 시각과 열정
  3. 데이터 사이언스의 한계
    • 분석 과정에서 가정과 같이 인간의 해석이 개입되는 단계가 불가피
    • 분석 결과를 바라보는 사람에따라 서로 다른 해석과 결론
    • 아무리 정량적인 분석이라 할지랃도 모든 분석은 가정에 근거

 3)데이터 사이언티스트

데이터 사이언티스트의 요구역량

 

반응형

+ Recent posts