SyntaxHighlighter.all(); [빅데이터 분석기사] [1-1]빅데이터의 이해 - 빅데이터 개요 및 활용 :: 또르의 개발노트 ss
반응형

▶빅데이터 개요 및 활용

1)데이터의 정의

  • 데이터는 추론과 추정의 근거를 이루는 사실
  • 현실 세계에서 관찰하거나 측정하여 수집한 사실

 2)데이터의 특징

  • 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 가짐
  • 추론, 추정, 예측, 전망을 위한 근거로 당위적 특성을 가짐 

3)데이터의 구분

  1. 정량적 데이터 : 숫자로 이루어짐
  2. 정성적 데이터 : 문자로 이루어짐

4)데이터의 유형

  1. 정형 데이터 : 정해진 형식과 구조에 맞게 저장되도록 구성, 연산가능 ex) RDBMS(관계형 데이터베이스) 등
  2. 반정형 데이터 : 데이터 형식과 구조가 유연하고 스키마 정보를 데이터와 함께 제공, 연산불가 ex) JSON, XML, RDF, HTML 등
  3. 비정형 데이터 : 구조가 정해지지 않은 대부분의 데이터 ex) 동영상, 이미지, 음성 등

5)데이터 근원에 따른 분류

  1. 가역 데이터 : 환원 가능(비가공데이터), 1:1 관계, 이력추적 가능, 변경사항 반영 가능, 데이터 마트
  2. 비가역 데이터 : 환원 불가(가공 데이터), 원본 데이터와 독립된 새 객체, M:N 관계, 변경사항 반영 불가, 데이터 전처리

6)데이터의 기능

  1. 암묵지 : 외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어려움.
  2. 형식지 : 형상화된 유형의 지식으로 그 전달과 공유가 쉽다.

7)지식창조 메커니즘

  1. 공통화(Socialization) : 서로의 경험이나 인식을 공유하며 한 차원 높은 암무지로 발전.
  2. 표출화(Externaliztion) : 암묵지가 구체화되어 외부(형식지)로 표현.
  3. 연결화(Combination) : 형식지를 재분류하여 체계화.
  4. 내면화(Internalization) : 전달받은 형식지를 다시 개인의 것으로 만듦.

8)데이터, 정보, 지식, 지혜

  1. 데이터(Data) : 현실 세계에서 관찰하거나 측정하여 수집한 객관적인 사실, 개별데이터 ex) 온라인 제품 100만원, 오프라인제품 150만원
  2. 정보(Information) : 데이터를 가공하거나 처리하여 도출된 의미 ex) 오프라인 보다 온라인이 저렴 
  3. 지식(Knowledge) : 상호 연결된 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 내재화된 고유의 결과물 ex) 오프라인보다 저렴한 온라인으로 노트북을 구매
  4. 지혜(Wisdom) : 축적된 지식을 통해 근본적인 원리를 이해하고 아이디어를 결합하여 도출한 창의적 산물                       ex) 다른 제품도 온라인이 오프라인보다 저렴할 것이다.

지식의 피라미드(가치창출 프로세스)

*데이터베이스

1)데이터베이스 정의

  • 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단을 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물

2)데이터베이스 관리 시스템(DBMS: Database Management System)

: 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어 

  • 관계형 DBMS - 데이터를 열과 행을 이루는 테이블로 표현
  • 객체지향 DBMS - 정보를 객체 형태로 표현
  • 네트워크 DBMS - 그래프 구조를 기반
  • 계층형 DBMS -트리 구조를 기반

*SQL(Structured Query Language)

  • 데이터베이스를 접근할 때 사용하는 언어
  • 질의기능, 데이터 정의, 조작 기능을 갖춤 
  • 테이블 단위로 연산을 수행

3)데이터베이스 특징

  1. 통합된 데이터(Integrated Data) : 동일한 데이터가 중복 저장되지 않음
  2. 저장된 데이터(Stored Data) : 컴퓨터가 접근할 수 있는 저장매체에 데이터를 저장
  3. 공용 데이터(Shared Data) : 여러 사용자가 다른 목적으로 데이터를 함께 이용
  4. 변화 되는 데이터(Changed Data) : 데이터는 현시점의 상태를 나타내며 지속적으로 갱신

4)데이터베이스의 활용

   1.OLTP(OnLine Transaction Processing) : 데이터베이스의 데이터를 수시로 갱신하는 프로세싱, 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태   

   2.OLAP(OnLine Analytical Processing) : 정보 위주의 분석 처리, OLTP에서 처리된 트랜잭션 데이터를 분석

 

5)데이터 웨어하우스(DW: Data Warehouse) : 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스

  ■ 특징

  • 주체지향성(Subject-orientation) : 중요한 주제를 중심으로 주제와 관련된 데이터들로 구성
  • 통합성(Integration) : 일관된 형태로 입력되며, 전사적인 관점에서 통합
  • 시계열성(Time-variant) : 일정 기간 동안 시점별로 이어짐
  • 비휘발성(Non-volatilization) : 적재되면 일괄 처리 작업에 의한 갱신 이외에는 변경이 수행되지 않음

 ■ 구성

데이터 웨어하우스의 구성

  • 데이터 모델(Data Model) : 주제 중심으로 구성된 다차원의 개체-관계형 모델로 설계
  • ETL(Extract, Transform, Load) : 기업의 내부 또는 외부로부터 데이터를 추출, 정제 및 가공하여 데이터 웨어하우스에                                                      적재
  • ODS(Operational Data Store) : 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리
  • DW 메타데이터 :  데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공
  • OLAP(Online Analytical Processing) : 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션
  • 데이터마이닝(Data Mining) : 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론
  • 분석도구 : 데이터마이닝을 활용하여 데이터 웨어하우스에 적재된 데이터를 분석할 수 있는 도구
  • 경영기반 솔루션 : KMS, DSS, BI와 같은 경영의사결정을 지원하기 위한 솔루션

*빅데이터 개요

: 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집, 저장, 분석 등이 어려운 정형 및 비정형 데이터들을 의미한다.

  • 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장,  관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
  • 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원
  • 작은용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출

1)빅데이터의 등장과 변화

  1. 빅데이터의 등장 배경

   2.빅데이터의 등장으로 인한 변화

  • 데이터 처리 시점이 사전처리(pre-processing)에서 사후처리(post-processing)로 이동
  • 데이터 처리범주가 표본조사에서 전수조사로 확대
  • 데이터의 가치 판단 기준이 질(quality)보다 양(quantity)으로 중요도가 달라짐
  • 데이터를 분석하는 방향이 이론적 인과관계 중심에서 단순한 상관관계로 변화

2)빅데이터의 특징

광의 협의 특징 내용
5V 3V 규모(Volume) ●데이터 양이 급격하게 증가(대용량화)
●기존 데이터 관리 시스템의 성능적 한계 도달
유형(Variety) ●데이터의 종류와 근원 확대(다양화)
●정형 데이터 외 반정형 및 비정형 데이터로 확장
속도(Velocity) ●데이터 수집과 처리 속도의 변화(고속화)
●대용량 데이터의 신속하고 즉각적인 분석 요구
2V 품질(Veracity) ●데이터의 신뢰성, 정확성, 타상성 보장 필수
●고품질의 데이터에서 고수준 인사이트 도출 가능
가치(Value) ●대용량의 데이터 안에 숨겨진 가치 발굴이 중요
●다른 데이터들과 연계 시 가치가 배로 증대
킬로바이트(KB)
메가바이트(MB)
기가바이트(GB)
테라바이트(TB)
페타바이트(PB)
엑사바이트(EB)
제타바이트(ZB)
요타바이트(YB)

3)빅데이터의 활용

■빅데이터의 활용을 위한 3요소

  1. 자원(Resource)[빅데이터]
  2. 기술(Technology)[빅데이터플랫폼, AI]
  3. 인력(People)[알고리즈미스트, 데이터사이언티스트]

■빅데이터의 활용을 위한 기본 테크닉

  • 연관규칙학습
  • 유형분석
  • 유전 알고리즘
  • 기계학습
  • 회귀분석
  • 감정분석
  • 소셜네트워크분석

*빅데이터의 가치

1)빅데이터의 기능과 효과

  • 빅데이터를 활용하는 기존 사업자에게 경쟁 우위를 제공
  • 빅데이터는 알고리즘 기반으로 의사결정을 지원
  • 빅데이터는 투명성을 높여 R&D 및 관리 효율성 제고

2)빅데이터의 가치 측정의 어려움

  1. 데이터 활용 방식 : 데이터를 재사용하거나 재결합 등이 일반화되면서 데이터를 누가, 언제, 어디서 활용할지 알 수 없기에 가치측정 어려움.
  2. 가치 창출 방식 : 어떠한 목적을 갖고서 어떻게 가공할지 모르기에 측정하기 어려움
  3. 분석 기술 발전 : 현재 가치가 없어도 새로운 분석 기법이 등장할 경우 큰 가치를 찾아낼 수 있음으로 측정하기 어려움 
  4. 데이터 수집 원가 : 목적에 따라 가공비용 상황이 달라지기에 측정하기 어려움

3)빅데이터의 영향

  • 기업에게 혁신과 경쟁력 강화
  • 정부에게 환경 탐색과 상황 분석, 미래 대응 수단
  • 개인에게 활용 목적에 따라 스마트화

*데이터 산업의 이해

1)데이터 산업의 진화

:데이터 산업은 데이터 처리 - 통합 - 분석 - 연결- 권리 시대로 진화

  1. 데이터 처리시대 : 프로그래밍 언어 이용, EDPS 도입, 새로운 가치 제공X
  2. 데이터 통합시대 : 전사적 데이터 일광성 확보X, 데이터모델링과 데이터베이스 관리시스템 등장, 데이터 웨어하우스                                 도입
  3. 데이터 분석 시대 : 데이터 폭발적 증가, 빅데이터 기술 등장, 인공지능 기술 상용화, 데이터 리터러시 중요도 증가
  4. 데이터 연결 시대 : 둘 이상의 방식으로 연결되어 데이터를 주고받음, 오픈 API 사용
  5. 데이터 권리 시대 : 개인이 자신의 데이터를 자신을 위해 사용, 마이데이터 등장, 산업이 데이터 중심으로 재편

2)데이터 산업의 구조

  1. 인프라 영역
    • 데이터수집, 저장, 분석, 관리 등의 기능 담당
    • 컴퓨터, 네트워크 장비, 스토리지 같은 하드웨어 영역
    • 데이터를 관리하고 분석하기 위한 소프트웨어 영역
  2. 서비스 영역
    • 데이터 활용을 위한 교육이나 컨설팅 또는 솔루션 제공
    • 데이터를 제공 및 처리

*빅데이터 조직 및 인력

1)필요성 : 데이터 분석 및 활요을 위한 조직체계나 분석 전문가 확보에 어려움, 컨트롤 타워에 대한 필요성

2)조직의 역할 : 전사 및 부서의 분석 업무 발굴, 빅데이터 속에서 인사이트를 찾아냄, 인사이트를 전파하고 실행

3)조직의 구성 :

1)구성 인력과 필요역량

  • 비즈니스를 이해하고 있는 인력
  • 분석에 필요한 컴퓨터공학적인 기술을 이해하고 있는 인력
  • 통계를 이용한 다양한 분석기법을 활용할 수 있는 분석 지식을 갖춘 인력 
  • 조직 내 분석 문화 확산을 위한 변화 관리 인력
  • 분석조직뿐 아니라 관련 부서 조직원의 분석 역량 향상을 위한 교육담당 인력

2)데이터 사이언스 역량

  1. 데이터 사이언스의 기능
    • 비즈니스 성과를 좌우하는 핵심이슈에 답할 수 있다.
    • 사업의 성과를 견인해 나갈 수 있다.
  2. 데이터 사이언스 실현을 위한 인문학적 요소
    • 스토리텔링 능력
    • 커뮤니케이션 능력
    • 창의력과 직관련
    • 비판적 시각과 열정
  3. 데이터 사이언스의 한계
    • 분석 과정에서 가정과 같이 인간의 해석이 개입되는 단계가 불가피
    • 분석 결과를 바라보는 사람에따라 서로 다른 해석과 결론
    • 아무리 정량적인 분석이라 할지랃도 모든 분석은 가정에 근거

 3)데이터 사이언티스트

데이터 사이언티스트의 요구역량

 

반응형

+ Recent posts