▶빅데이터 개요 및 활용
1)데이터의 정의
- 데이터는 추론과 추정의 근거를 이루는 사실
- 현실 세계에서 관찰하거나 측정하여 수집한 사실
2)데이터의 특징
- 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 가짐
- 추론, 추정, 예측, 전망을 위한 근거로 당위적 특성을 가짐
3)데이터의 구분
- 정량적 데이터 : 숫자로 이루어짐
- 정성적 데이터 : 문자로 이루어짐
4)데이터의 유형
- 정형 데이터 : 정해진 형식과 구조에 맞게 저장되도록 구성, 연산가능 ex) RDBMS(관계형 데이터베이스) 등
- 반정형 데이터 : 데이터 형식과 구조가 유연하고 스키마 정보를 데이터와 함께 제공, 연산불가 ex) JSON, XML, RDF, HTML 등
- 비정형 데이터 : 구조가 정해지지 않은 대부분의 데이터 ex) 동영상, 이미지, 음성 등
5)데이터 근원에 따른 분류
- 가역 데이터 : 환원 가능(비가공데이터), 1:1 관계, 이력추적 가능, 변경사항 반영 가능, 데이터 마트
- 비가역 데이터 : 환원 불가(가공 데이터), 원본 데이터와 독립된 새 객체, M:N 관계, 변경사항 반영 불가, 데이터 전처리
6)데이터의 기능
- 암묵지 : 외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어려움.
- 형식지 : 형상화된 유형의 지식으로 그 전달과 공유가 쉽다.
7)지식창조 메커니즘
- 공통화(Socialization) : 서로의 경험이나 인식을 공유하며 한 차원 높은 암무지로 발전.
- 표출화(Externaliztion) : 암묵지가 구체화되어 외부(형식지)로 표현.
- 연결화(Combination) : 형식지를 재분류하여 체계화.
- 내면화(Internalization) : 전달받은 형식지를 다시 개인의 것으로 만듦.
8)데이터, 정보, 지식, 지혜
- 데이터(Data) : 현실 세계에서 관찰하거나 측정하여 수집한 객관적인 사실, 개별데이터 ex) 온라인 제품 100만원, 오프라인제품 150만원
- 정보(Information) : 데이터를 가공하거나 처리하여 도출된 의미 ex) 오프라인 보다 온라인이 저렴
- 지식(Knowledge) : 상호 연결된 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 내재화된 고유의 결과물 ex) 오프라인보다 저렴한 온라인으로 노트북을 구매
- 지혜(Wisdom) : 축적된 지식을 통해 근본적인 원리를 이해하고 아이디어를 결합하여 도출한 창의적 산물 ex) 다른 제품도 온라인이 오프라인보다 저렴할 것이다.
*데이터베이스
1)데이터베이스 정의
- 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단을 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물
2)데이터베이스 관리 시스템(DBMS: Database Management System)
: 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어
- 관계형 DBMS - 데이터를 열과 행을 이루는 테이블로 표현
- 객체지향 DBMS - 정보를 객체 형태로 표현
- 네트워크 DBMS - 그래프 구조를 기반
- 계층형 DBMS -트리 구조를 기반
*SQL(Structured Query Language)
- 데이터베이스를 접근할 때 사용하는 언어
- 질의기능, 데이터 정의, 조작 기능을 갖춤
- 테이블 단위로 연산을 수행
3)데이터베이스 특징
- 통합된 데이터(Integrated Data) : 동일한 데이터가 중복 저장되지 않음
- 저장된 데이터(Stored Data) : 컴퓨터가 접근할 수 있는 저장매체에 데이터를 저장
- 공용 데이터(Shared Data) : 여러 사용자가 다른 목적으로 데이터를 함께 이용
- 변화 되는 데이터(Changed Data) : 데이터는 현시점의 상태를 나타내며 지속적으로 갱신
4)데이터베이스의 활용
1.OLTP(OnLine Transaction Processing) : 데이터베이스의 데이터를 수시로 갱신하는 프로세싱, 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태
2.OLAP(OnLine Analytical Processing) : 정보 위주의 분석 처리, OLTP에서 처리된 트랜잭션 데이터를 분석
5)데이터 웨어하우스(DW: Data Warehouse) : 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스
■ 특징
- 주체지향성(Subject-orientation) : 중요한 주제를 중심으로 주제와 관련된 데이터들로 구성
- 통합성(Integration) : 일관된 형태로 입력되며, 전사적인 관점에서 통합
- 시계열성(Time-variant) : 일정 기간 동안 시점별로 이어짐
- 비휘발성(Non-volatilization) : 적재되면 일괄 처리 작업에 의한 갱신 이외에는 변경이 수행되지 않음
■ 구성
- 데이터 모델(Data Model) : 주제 중심으로 구성된 다차원의 개체-관계형 모델로 설계
- ETL(Extract, Transform, Load) : 기업의 내부 또는 외부로부터 데이터를 추출, 정제 및 가공하여 데이터 웨어하우스에 적재
- ODS(Operational Data Store) : 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리
- DW 메타데이터 : 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공
- OLAP(Online Analytical Processing) : 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션
- 데이터마이닝(Data Mining) : 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론
- 분석도구 : 데이터마이닝을 활용하여 데이터 웨어하우스에 적재된 데이터를 분석할 수 있는 도구
- 경영기반 솔루션 : KMS, DSS, BI와 같은 경영의사결정을 지원하기 위한 솔루션
*빅데이터 개요
: 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집, 저장, 분석 등이 어려운 정형 및 비정형 데이터들을 의미한다.
- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원
- 작은용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출
1)빅데이터의 등장과 변화
- 빅데이터의 등장 배경
2.빅데이터의 등장으로 인한 변화
- 데이터 처리 시점이 사전처리(pre-processing)에서 사후처리(post-processing)로 이동
- 데이터 처리범주가 표본조사에서 전수조사로 확대
- 데이터의 가치 판단 기준이 질(quality)보다 양(quantity)으로 중요도가 달라짐
- 데이터를 분석하는 방향이 이론적 인과관계 중심에서 단순한 상관관계로 변화
2)빅데이터의 특징
광의 | 협의 | 특징 | 내용 |
5V | 3V | 규모(Volume) | ●데이터 양이 급격하게 증가(대용량화) ●기존 데이터 관리 시스템의 성능적 한계 도달 |
유형(Variety) | ●데이터의 종류와 근원 확대(다양화) ●정형 데이터 외 반정형 및 비정형 데이터로 확장 |
||
속도(Velocity) | ●데이터 수집과 처리 속도의 변화(고속화) ●대용량 데이터의 신속하고 즉각적인 분석 요구 |
||
2V | 품질(Veracity) | ●데이터의 신뢰성, 정확성, 타상성 보장 필수 ●고품질의 데이터에서 고수준 인사이트 도출 가능 |
|
가치(Value) | ●대용량의 데이터 안에 숨겨진 가치 발굴이 중요 ●다른 데이터들과 연계 시 가치가 배로 증대 |
킬로바이트(KB) | ||
메가바이트(MB) | ||
기가바이트(GB) | ||
테라바이트(TB) | ||
페타바이트(PB) | ||
엑사바이트(EB) | ||
제타바이트(ZB) | ||
요타바이트(YB) |
3)빅데이터의 활용
■빅데이터의 활용을 위한 3요소
- 자원(Resource)[빅데이터]
- 기술(Technology)[빅데이터플랫폼, AI]
- 인력(People)[알고리즈미스트, 데이터사이언티스트]
■빅데이터의 활용을 위한 기본 테크닉
- 연관규칙학습
- 유형분석
- 유전 알고리즘
- 기계학습
- 회귀분석
- 감정분석
- 소셜네트워크분석
*빅데이터의 가치
1)빅데이터의 기능과 효과
- 빅데이터를 활용하는 기존 사업자에게 경쟁 우위를 제공
- 빅데이터는 알고리즘 기반으로 의사결정을 지원
- 빅데이터는 투명성을 높여 R&D 및 관리 효율성 제고
2)빅데이터의 가치 측정의 어려움
- 데이터 활용 방식 : 데이터를 재사용하거나 재결합 등이 일반화되면서 데이터를 누가, 언제, 어디서 활용할지 알 수 없기에 가치측정 어려움.
- 가치 창출 방식 : 어떠한 목적을 갖고서 어떻게 가공할지 모르기에 측정하기 어려움
- 분석 기술 발전 : 현재 가치가 없어도 새로운 분석 기법이 등장할 경우 큰 가치를 찾아낼 수 있음으로 측정하기 어려움
- 데이터 수집 원가 : 목적에 따라 가공비용 상황이 달라지기에 측정하기 어려움
3)빅데이터의 영향
- 기업에게 혁신과 경쟁력 강화
- 정부에게 환경 탐색과 상황 분석, 미래 대응 수단
- 개인에게 활용 목적에 따라 스마트화
*데이터 산업의 이해
1)데이터 산업의 진화
:데이터 산업은 데이터 처리 - 통합 - 분석 - 연결- 권리 시대로 진화
- 데이터 처리시대 : 프로그래밍 언어 이용, EDPS 도입, 새로운 가치 제공X
- 데이터 통합시대 : 전사적 데이터 일광성 확보X, 데이터모델링과 데이터베이스 관리시스템 등장, 데이터 웨어하우스 도입
- 데이터 분석 시대 : 데이터 폭발적 증가, 빅데이터 기술 등장, 인공지능 기술 상용화, 데이터 리터러시 중요도 증가
- 데이터 연결 시대 : 둘 이상의 방식으로 연결되어 데이터를 주고받음, 오픈 API 사용
- 데이터 권리 시대 : 개인이 자신의 데이터를 자신을 위해 사용, 마이데이터 등장, 산업이 데이터 중심으로 재편
2)데이터 산업의 구조
- 인프라 영역
- 데이터수집, 저장, 분석, 관리 등의 기능 담당
- 컴퓨터, 네트워크 장비, 스토리지 같은 하드웨어 영역
- 데이터를 관리하고 분석하기 위한 소프트웨어 영역
- 서비스 영역
- 데이터 활용을 위한 교육이나 컨설팅 또는 솔루션 제공
- 데이터를 제공 및 처리
*빅데이터 조직 및 인력
1)필요성 : 데이터 분석 및 활요을 위한 조직체계나 분석 전문가 확보에 어려움, 컨트롤 타워에 대한 필요성
2)조직의 역할 : 전사 및 부서의 분석 업무 발굴, 빅데이터 속에서 인사이트를 찾아냄, 인사이트를 전파하고 실행
3)조직의 구성 :
1)구성 인력과 필요역량
- 비즈니스를 이해하고 있는 인력
- 분석에 필요한 컴퓨터공학적인 기술을 이해하고 있는 인력
- 통계를 이용한 다양한 분석기법을 활용할 수 있는 분석 지식을 갖춘 인력
- 조직 내 분석 문화 확산을 위한 변화 관리 인력
- 분석조직뿐 아니라 관련 부서 조직원의 분석 역량 향상을 위한 교육담당 인력
2)데이터 사이언스 역량
- 데이터 사이언스의 기능
- 비즈니스 성과를 좌우하는 핵심이슈에 답할 수 있다.
- 사업의 성과를 견인해 나갈 수 있다.
- 데이터 사이언스 실현을 위한 인문학적 요소
- 스토리텔링 능력
- 커뮤니케이션 능력
- 창의력과 직관련
- 비판적 시각과 열정
- 데이터 사이언스의 한계
- 분석 과정에서 가정과 같이 인간의 해석이 개입되는 단계가 불가피
- 분석 결과를 바라보는 사람에따라 서로 다른 해석과 결론
- 아무리 정량적인 분석이라 할지랃도 모든 분석은 가정에 근거
3)데이터 사이언티스트
'Certificate > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터 분석기사] [2-1]빅데이터 탐색 -데이터 전처리 (0) | 2023.08.28 |
---|---|
[빅데이터 분석기사] [1-5]데이터 수집 및 저장 계획 - 데이터 수집 및 전환 (0) | 2023.07.12 |
[빅데이터 분석기사] [1-4] 데이터 분석 계획 - 분석 작업 계획 (0) | 2023.06.30 |
[빅데이터 분석기사] [1-3] 데이터 분석 계획 - 분석 방안 수립 (0) | 2023.06.26 |
[빅데이터 분석기사] [1-2]빅데이터의 이해 - 빅데이터 기술 및 제도 (0) | 2023.06.22 |