반응형
▶빅데이터 플랫폼
: 빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술들을 잘 사용할 수 있도록 준비된 환경
1)빅데이터 플랫폼의 등장배경
- 비즈니스 요구사항 변화 - 장기적이고 전략적인 접근 필요, 클라우드 컴퓨팅 기반의 분석 환경 등장
- 데이터 규모와 처리 복잡도 증가 - 분석 처리가 불가피하며 이를 제어할 수 있는 고도의 기술 필요
- 데이터 구조의 변화와 신속성 요구 - 실시간 처리에 대한 요구 증대, 비정형 데이터 증가
- 데이터 분석 유연성 증대 - 텍스트, 음성, 이미지, 동영상 등 다양한 요소들의 분석 가능
2)빅데이터 플랫폼의 기능
:부하들을 기술적인 요소들을 결합하여 해소
- 컴퓨팅 부하 발생
- 저장 부하 발생
- 네트워크 부하 발생
3)빅데이터 플랫폼의 조건
:서비스 사용자와 제공자 어느 한쪽에 치우쳐서는 안되며 모두가 만족할 수있는 환경제공
4)빅데이터 플랫폼 구조
- 소프트웨어 계층
- 데이터 처리 및 분석엔진 - 데이터 처리 및 분석, 워크플로우 구성, 데이터 표현
- 데이터 수집 및 정제 모듈 - 데이터 추출/변환/적재
- 서비스 관리 모듈 - 소프트웨어 계층에서 제공하는 서비스 관리
- 사용자 관리 모듈 - 사용자 관리 , 인증 및 접속 관리 , SLA (Service Level Agreement)관리
- 모니터링 모듈 - 플랫폼 및 인프라스트럭처 서비스 사용성과 성능 모니터링
- 보안모듈 - 소프트웨어 계층의 보안 관리
- 플랫폼 계층
- 사용자요청 파싱 - 사용자가 요청한 내용 파싱
- 작업 스케줄링 모듈 - 애플리케이션 실행 작업을 스케줄링
- 데이터 및 자원 할당 모듈 - 초기데이터 할당, 데이터 재할당 및 복제, 초기 자원 할당, 재할당 및 스케일링
- 프로파일링 모듈 - 자원/애플리케이션 프로파일링, 애플리케이션 시뮬레이션
- 데이터 관리 모듈 - 사용자 데이터 관리
- 자원관리 모듈 - 인프라스트럭처 자원 관리
- 서비스 관리모듈 - 플랫폼 계층에서 제공하는 서비스 관리
- 사용자 관리모듈 - 인증 및 접속관리, 사용자 서비스 관리, SLA 관리
- 모니터링 모듈 - 인프라스트럭처 서비스 가용성과 성능을 모니터링
- 보안모듈 - 소프트웨어 계층의 보안을 관리
- 인프라스트럭쳐 계층
- 사용자 요청 파싱 - 사용자 요청 내용 파싱
- 자원 배치 모듈 - 초기자원 배치, 자원 재배치 및 스케일링
- 노트 관리 모듈 - 인프라스트럭처 내의 노트관리
- 데이터 관리 모듈 - 스토리지 관리
- 네트워크 관리모듈 - 네트워크 관리
- 서비스 관리 모듈 - 서비스 관리
- 사용자 관리모듈 - 인증 및 접속관리, 사용자 서비스 관리, SLA 관리
- 모니터링 모듈 - 인프라스트럭처 서비스 가용성과 성능을 모니터링
- 보안모듈 - 소프트웨어 계층의 보안을 관리
*빅데이터 처리기술
1)빅데이터 처리과정과 요소기술
2)빅데이터 수집
- 크롤링(Crawling) -분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술
- 로그 수집기 - 웹 서버나 시스템의 로그를 수집하는 소프트웨어
- 센서 네트워크 - 유비쿼터스 컴퓨팅 구현을 위한 초경량 저전력의 많은 센서들로 구성된 유무선 네트워크
- RSS Reader/Open API - 데이터의 생산, 공유, 참여할 수 있는 환경인 웹 2.0을 구현하는 기술
- ETL 프로세스 - 데이터의 추출(Extract), 변환(Transform), 적재(Load)의 약어, 다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변환하여 적재하는 과정
3)빅데이터 저장
- NoSQL(Not-only SQL) - SQL을 사용하지 않는 비관계형 데이터베이스
- 원자성(Atomicity), 일관성(Consistency), 독립성(Isolation), 지속성(Durability) 포기
- 데이터 업데이트가 즉각
- Cloudata, Hbase, Cassandra, MongoDB 등이 대표적
- 공유 데이터 시스템
- 일관성, 가용성(Availability), 분할 내성(Partition Tolerance)중에서 최대 두개의 속성만 보유 가능
- RDBMS보다 높은 성능과 확장성 제공
- 병렬 데이터베이스 관리 시스템
- 여러 디스크에 질의, 갱신, 입출력 등 데이터베이스 처리를 동시에 수행하는 시스템
- VoltDB, SAP HANA, Vertica, Greenplum, Netezza가 대표적
- 분산 파일 시스템 - 네트워크로 공유하는 여러 호스트의 파일에 접근할 수 있는 파일 시스템
- 데이터를 분산하여 저장하면 데이터 추출 및 가공 시 빠르게 처리 가능
- GFS(Google File System), HDFS(Hadoop Distributed File System), 아마존 S3 파일 시스템이 대표적
- 네트워크 저장 시스템 - 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리하는 시스템
- SAN(Storage Area Network), NAS(Nerwork Attached Storage) 가 대표적
4)빅데이터 처리
- 분산 시스템과 병렬 시스템
- 분산시스템 - 네트워크상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동하는 기술
- 병렬시스템 - 문제 해결을 위해 CPU 등의 자원을 데이터 버스나 지역 통신 시스템 등으로 연결하여 구동하는 기술
- 분산 병렬 컴퓨팅 - 다수의 독립된 컴퓨팅 자원을 네트워크상에 연결하여 이를 제어하는 미들웨어를 이용해 하나의 시스템으로 동작하게 하는 기술
- 하둡(Hadoop) - 분산 처리환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈소스 소프트웨어 프레임워크
- 아파치 스파크 - 실시간 분산형 컴퓨팅 플랫폼
- 맵리듀스 - 구글에서 개발한 방대한 양의 데이터를 신속하게 처리하는 프로그래밍 모델로 효과적인 병렬 및 분산 처리를 지원
>맵리듀스 처리단계(Split - Map - Shuffle - Reduce)
- 입력 데이터를 읽고 분할(Split)
- 분할된 데이터를 할당해 맵 작업 수행, 중간 데이터를 통합 및 재분할(Map)
- 통합 및 재분할된 중간 데이터를 셔플한다(Shuffle)
- 셔플된 중간 데이터를 이용해 리듀스 작업을 수행(Reduce)
- 출력데이터를 생성하고, 맵리듀스 처리를 종료
5)빅데이터 분석
- 데이터 분석 방법의 분류
- 탐구 요인 분석(EFA: Exploratory Factor Analysis) : 데이터 간 상호 관계를 파악하여 데이터를 분석
- 확인 요인 분석(CFA: Confirmatory Factor Analysis) : 관찰된 변수들의 집합 요소구조를 파악하기 위한 통계적 기법을 통해 데이터를 분석하는 방법
- 데이터 분석 방법
- 분류(Classification) - 미리 알려진 클래스들로 구분되는 학습 데이터셋을 학습시켜 새로 추가되는 데이터가 속할 만한 데이터 셋을 찾는 지도 학습 방법
- 군집화(Clustering) - 특성이 비슷한 데이터를 하나의 그룹으로 분류하는 방법 , 비지도학습 방법
- 기계학습(Machine Learning) - 인공지능 분야에서 인간의 학습을 모델링한 방법
- 텍스트 마이닝(Text Mining) - 자연어 처리 기술을 이용해 인간의 언어로 쓰인 비정형 텍스트에서 유용한 정보를 추출 및 분석
- 웹 마이닝(Web Mining) - 인더넷을 통해 수집한 정보를 데이터 마이닝 방법으로 분석
- 오피니언 마이닝(Opinion Mining) - 소셜 미디어 코멘트 또는 사용자가 만든 콘텐츠에서 표현된 의견을 추출, 분류, 이해하는 응용분야
- 리얼리티 마이닝(Reality Mining) - 인간관계와 행동 양태 등을 추론하는 응용 분야
- 소셜 네트워크 분석(Social Network Analysis) - 수학의 그래프 이론을 바탕으로 소셜 네트워크 서비스에서 네트워크 연결 구조와 강도를 분석하여 사용자의 명성 및 영향력을 측정하는 방법
- 감상 분석(Sentiment Analysis) - 문장의 의미를 파악하여 글의 내용에 긍정 또는 부정, 좋은 또는 나쁨을 분류하거나 만족 또는 불만족 강도를 지수화하는 방법
*빅데이터와 인공지능
1)인공지능(AI: Artificial Intelligence)
- 인공지능의 정의
- 기계를 지능화하는 노력
- 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직
- 인공지능과 기계학습 및 딥러닝의 관계
- 인공지능을 논할 때 기계학습과 딥러닝을 혼재하여 사용
- 딥러닝(Deep Learing)의 특징
- 깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있는 특징
- 딥러닝 분석기법
- CNN(Convolutional Neural Network, 합성곱 신경망)
- RNN(Recurrent Neural Network, 순환 신경망)
- LSTM(Long Short-Term Memory)
- Auto-encoder 등
- 기계학습의 종류
- 지도학습(Supervised Learining) - 학습 데이터로부터 하나의 함수를 유추해내기 위한 방법
- 비지도학습(Unsupervised Learning) - 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주
- 준지도학습(Semi-Supervised Learing) - 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용
- 강화학습(Reinforcement Learing) - 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 순서를 선택하는 방법
- 기계학습 방법에 따른 인공지능 응용분야
- 지도학습 - 분류모형, 회귀모형
- 비지도학습 - 군집분석, 오토인코더(AutoEncoder), 생성적 적대 신경망(Generative Adversarial Network)
- 강화학습 - 강화학습
Long Short-Term Memory
2)인공지능 데이터 학습의 진화
- 전이학습(Transfer Learing) - 주로 이미지, 언어, 텍스트 인식과 같이 지도학습 중 분류모형인 인식문제에 활용 가능
- 전이학습 기반 사전학습모형(Pre-trained Model) - 학습 데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가적인 데이터를 학습시키는 방식
- BERT(Bidirectional Encoder Representations from Transformers) - 구글에서 발표한 언어인식 사전학습모형
3)빅데이터와 인공지능의 관계
- 인공지능을 위한 학습 데이터 확보 - 양질의 데이터 확보
- 학습 데이터의 애노테이션 작업 - 데이터 확보 후 애노테이션을 통해 학습이 가능한 데이터로 가공하는 작업
- 애노테이션 작업을 위한 도구로써의 인공지능
4)인공지능의 기술동향
- 기계학습 프레임워크 보급 확대 - 텐서플로우(Tensorflow)는 파이썬 기반 딥러닝 라이브러리
- 생성적 적대 신경망(GAN) - 두 개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘
- 오토인코더(Auto-encoder) - 라벨이 설정되어 있지 않은 학습 데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망
- 설명 가능한 인공지능(XAI:eXplainable AI) - 차트나 수치 또는 자연어 형태의 설명으로 제공
- 기계학습 자동화(AutoML) - 기계학습의 전체 과정을 자동화
*개인정보 개요
1)개인정보의 정의와 판단기준
- 정의
- 살아 있는 개인에 관한 정보로서 개인을 알아볼 수 있는 정보
- 해당 정보만으로 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보 포함
- 판단기준
- 생존하는 개인에 관한 정보
- 정보의 내용, 형태 등은 제한이 없음
- 개인을 알아볼 수 있는 정보
2)개인정보의 처리와 활용
- 개인정보의 이전 : 개인정보가 다른사람에게 이전되거나 공동으로 처리
- 개인정보의 위탁 : 개인정보처리자의 업무를 처리할 목적으로 제3자에게 이전
- 개인정보의 제3자 제공 : 해당 정보를 제공받는 자의 고유한 업무처리를 할 목적 및 이익을 위하여 정보가 이전
3)빅데이터 개인정보보호 가이드라인(방송통신위원회)
- 비식별화
- 투명성 확보
- 재식별 시 조치
- 민감정보 및 비밀정보 처리
- 기술적, 관리적 보호조치
*개인정보 법 제도
1)개인정보보호법
- 개요
- 당사자의 동의 없는 개인정보 수집 및 활용하거나 제3자에게 제공하는 것을 금지하는 등 개인정보보호를 강화한 내용을 담아 제정한 법률
- 상대방의 동의 없이 개인정보를 제3자에게 제공하는 5년 이하의 징역이나 5,000만원 이하의 벌금에 처함
- 범위
- 어떤 정보가 개인정보에 해당하는지는 그 정보가 특정 개인을 알아 볼 수 있는지, 다른 정보와 쉽게 결합할 수 있는 가에 따라 결정
2)정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)
- 개요
- 정보통신망의 개발과 보급 등 이용 촉진과 함께 통신망을 통해 활용되고 있는 정보보호에 관한 규정한 법률
- 이용자의 동의를 받지 않고 개인정보를 수집하거나 제3자에게 개인정보를 제공한경우 5년 이하의 징역 또는 5,000만원 이하의 벌금에 처함
3)신용정보의 이용 및 보호에 관한 법률(신용정보보호법)
- 개요
- 개인신용정보를 신용정보회사 등에게 제공하자 하는 경우에 개인으로부터 서면 또는 공인전자서명이 있는 전자문서에 의한 동의 등을 얻어야 한다.
- 신용정보주체는 신용정보회사 등이 본인에 관한 신용정보를 제공하는 때에는 제공받는 자, 그 이용 목적, 제공한 본인정보의 주요 내용 들을 통보하도록 요구하거나 인터넷을 통하여 조회할 수 있도록 요구할 수 있다.
- 신용정보회사 등이 보유하고 있는 본인정보의 제공 또는 열람을 청구할 수 있고, 사실과 다른 경우에는 정정을 청구할 수 있다.
- 개인정보의 범위(제2조 제1호 및 제2호, 제34조 제1항)
- 신용정보란 금융거래 등 상거래에 있어서 거래 상대방의 신용을 판단할 때 필요한 정보로서 다음 각 목의 정보를 말함.
- 특정 신용정보주체를 식별할 수 있는 정보
- 신용정보주체의 거래내용을 판단할 수 있는 정보
- 신용정보주체의 신용도를 판단할 수 있는 정보
- 신용정보주체의 신용거래능력을 판달할 수 있는 정보
- 그 밖에 유사한 정보
- 개인신용정보
- 개인신용정보란 신용정보 중 개인의 신용도와 신용거래능력 등을 판단할 때 필요한 정보
- 개인식별정보
- 개인식별정보란 생존하는 개인의 성명, 주소 및 주민등록번호, 여권번호 등 개인을 식별 할 수 있는 정보
4)데이터 3법의 주요 개정 내용
- 데이터 이용 활성화를 위한 가명정보 개념 도입 및 데이터간 결합 근거 마련
- 개인정보보호 관련 법률의 유사, 중복 규정을 정비 및 거버넌스 체계 효율화
- 데이터 활용에 따른 개인정보처리자 책임 강화
- 다소 모호했던 개인정보의 판단기준 명확화
*개인정보 비식별화
1)개요
- 비식별 정보 - 정보 집합물에 대해 "개인정보 비식별 조치 가이드라인"에 따라 적정하게 비식별 조치된 정보
- 비식별 조치 - 개인을 알아볼 수 없도록 하는 조치
- 비식별 정보의 활용 - 제 3자에게 제공 가능, 불특정 다수에게는 공개 불가
- 비식별 정보의 보호 - '재식별'될 가능성이 있음, 재식별하게 된 경우에는 즉시 처리중지하고 파기하여야 함
2)조치 가이드 라인 조치사항
- 사전검토 - 개인정보에 해당하는지 여부 검토 (개인정보, 식별정보)
- 비식별조치 - 개인을 알아볼 수 없도록 하는 조치( 가명, 총계, 삭제, 범주화, 마스킹)
- 적정성평가 - 비식별 조치 적정성 편가단을 통해 평가(k-익명성, l-다양성, t-근접성)
- 사후관리 - 재식별 방지를 위해 필요한 조치 수행(관리적/기술적 보호조치)
3)개인정보 비식별화 조치 가이드라인의 조치방법
- 가명처리 : 식별 요소를 다른 값으로 대체
- 총계처리 : 총합 값을 보여주고 개별 값을 보여 주지 않음
- 데이터삭제 : 개인식별에 중요한 값을 삭제
- 데이터범주화 : 값을 범부화하여 값을 숨김
- 데이터마스킹 : 식별가능한 주요 식별자를 보이지 않도록 처리하는 방법
*개인정보 활용
1)데이터 수집의 위기 요인과 통제방안
- 사생활 침해로 위기 발생
- 동의에서 책임으로 강화하여 통제
2)데이터 활용의 위기 요인과 통제방안
- 책임원칙 훼손으로 위기 발생
- 결과 기반 책임 원칙을 고수하여 통제
3)데이터 처리의 위기 요인과 통제 방안
- 데이터 오용으로 위기 발생 - 빅데이터는 과거에 일어났던 일로 인해 기록된 데이터에 의존
- 알고리즘 접근을 허용하여 통제
반응형
'Certificate > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터 분석기사] [2-1]빅데이터 탐색 -데이터 전처리 (0) | 2023.08.28 |
---|---|
[빅데이터 분석기사] [1-5]데이터 수집 및 저장 계획 - 데이터 수집 및 전환 (0) | 2023.07.12 |
[빅데이터 분석기사] [1-4] 데이터 분석 계획 - 분석 작업 계획 (0) | 2023.06.30 |
[빅데이터 분석기사] [1-3] 데이터 분석 계획 - 분석 방안 수립 (0) | 2023.06.26 |
[빅데이터 분석기사] [1-1]빅데이터의 이해 - 빅데이터 개요 및 활용 (0) | 2023.06.13 |