출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185
*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.
상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.
빅데이터 플랫폼
- 빅데이터 플랫폼은 빅데이터 수집, 저장, 처리, 분석 등의 전 과정을 통합적으로 제공하여 사용할 수 있도록 준비된 환경이다.
빅데이터 플랫폼의 등장 배경
- 빠른 의사결정 속도보다 장기적이고 전략적인 접근이 필요해지며 비즈니스 요구사항이 변화했다.
- 다양한 형태의 데이터가 수집되고, 복잡한 로직을 이요해 처리하며 데이터 규모와 처리 복잡도가 증가했다.
- 비정형 데이터의 비중과 실시간 처리에 대한 요구가 높아지며 데이터 구조의 변화와 신속성의 요구가 발생했다.
- 정해진 절차와 과정보다, 분석 목적에 맞는 유연한 분석이 가능해졌다.
빅데이터 플랫폼의 기능
- 빅데이터를 처리하는 과정에서 발생하는 부하를 기술적인 요소로 해결해야 한다.
- 컴퓨팅 부하 : CPU 성능 향상 및 클러스터에서의 효과적인 자원 할당이 필요하다.
- 저장 부하 : 파일 새스템 개선, 메모리와 파일 시스템의 효율적 사용, DB 성능 향상 등이 필요하다.
- 네트워크 부하 : 대역폭의 효율적 분배 및 네트워크상 최단거리의 노드를 탐색하고 제어한다.
빅데이터 플랫폼의 구조
- 소프트웨어 계층 : 빅데이터 어플리케이션을 구성하며, 데이터 처리 및 분석, 수집 및 정제를 담당한다.
- 플랫폼 계층 : 빅데이터 어플리케이션을 실행하기 위한 플랫폼을 제공하며, 작업 스케줄링, 자원 할당 및 관리, 프로파일링 등을 수행한다.
- 인프라스트럭처 계층 : 자원 배치, 스토리지 관리, 노드 및 네트워크 관리 등 빅데이터 처리 및 분석에 필요한 자원을 제공한다.
*프로파일링 : 오류를 가지는지에 대한 검사 수행
빅데이터 처리 기술
- 생성 : DB나 파일 등에서 데이터가 생성된다.
- 수집 : 크롤링, ETL 등을 통해 데이터가 수집된다. 이 때 이 과정은 단순 검색 및 수집 뿐 아니라 변환 과정 등을 모두 포함한다.
- 저장(공유) : 데이터를 하둡, NoSQL 등에 저장한다.
- 처리 : 분산 병렬 및 인 메모리 방식으로 처리한다. 하둡의 맵 리듀스가 대표적으로 사용된다.
- 분석 : 목적에 맞는 분석 기법을 선택하여 분석한다.
- 시각화 : 처리 및 분석 결과를 그래프를 이용해 표현하고, 이후 탐색이나 해석에 활용한다.
*ETL
데이터의 추출 (Extract), 변환 (Transform), 적재 (Load)의 약어로, 다양한 데이터를 취합하여 추출하고, 공통의 형식으로 변환하여 적재하는 과정이다.
빅데이터의 저장
NoSQL
- 데이터 모델을 단순화하여 설계한 비관계형 데이터베이스이다.
- SQL을 사용하지 않는 DBMS와 저장장치이다.
- 기존의 RDB의 트랜잭션 속성인 원자성, 일관성, 독립성, 지속성을 포기한다.
- HBase, MongoDB, Cassandra 등의 DB가 대표적이다.
공유 데이터 시스템
- 일관성, 가용성, 분할 내성 중 최대 두 개의 속성만 보유한다. (CAP 이론)
- 즉, 분할 내성을 취하고 일관성과 가용성 중 하나를 포기하여 일관성과 가용성을 모두 가진 RDBMS보다 높은 성능과 확장성을 제공한다.
병렬 데이터베이스 관리 시스템
- 다수의 마이크로프로세서를 사용해 여러 디스크의 데이터베이스 처리를 동시에 수행한다.
- 확장성 제공을 위해 작은 단위의 트랜잭션 적용이 필요하다.
- SAP HANA, Netezza, Vertica 등이 있다.
분산 파일 시스템
- 네트워크로 공유하는 여러 호스트의 파일에 접근할 수 있는 파일 시스템이다.
- 데이터를 분산하여 저장하는데, 이 방식은 데이터의 추출 및 가공 시 빠르게 작동한다.
- 아마존 S3, HDFS 등이 있다.
네트워크 저장 시스템
- 이기종 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄하여 저장한다.
- SAN, NAS 등이 있다.
빅데이터 처리
분산 병렬 컴퓨팅
- 분산 시스템 : 네트워크에 분산된 컴퓨터를 단일 컴퓨터처럼 구동
- 병렬 시스템 : CPU 등의 자원을 연결하여 구동
- 위의 용어들은 구분되어 사용하기도 하지만 실제로는 명확히 구분하기 어렵다.
- 그래서 두 개념을 아우르는 분산 병렬 컴퓨팅이라는 용어가 사용된다.
- 다수의 독립된 컴퓨팅 자원을 네트워크로 연결하고, 미들웨어를 이용해 하나의 시스템으로 동작하는 기술이다.
- 다음의 사항들을 고려해야 한다.
- 전체 작업의 배분 문제
- 중간 결과물에 대한 프로세서간 송수신 문제
- 프로세서간 동기화 문제
하둡
- 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 프레임워크이다.
- HDFS, HBase, 맵 리듀스 등으로 구성된다.
- 이 외에도 여러 에코 시스템들이 등장하였고, 하둡의 부족한 기능을 보완하며 여러 솔루션을 제공한다.
맵리듀스
- 빅데이터를 신속하게 처리하는 프로그래밍 모델로 효과적인 병렬 및 분산 처리를 지원한다.
- 분산 병렬 데이터 처리 기술의 표준이기도 하다.
- 처리 단계는 다음과 같다.
- 1단계 : 입력 데이터를 읽고 분할
- 2단계 : 맵 작업 수행 후 결과를 통합 및 분배
- 3단계 : 셔플
- 4단계 : 리듀스 작업 수행
- 5단계 : 출력 데이터 생성 및 종료
빅데이터 분석
데이터 분석 방법 분류
- 탐구 요인 분석 (EFA, Exploratory Factor Analysis) : 데이터 간 상호 관계 파악
- 확인 요인 분석 (CFA, Confirmatory Factor Analysis) : 통계적 기법으로 분석
데이터 분석 방법
분류 (Classification) | 데이터가 속할만한 그룹 찾기 |
군집화 (Clusturing) | 특성이 비슷한 데이터를 그룹화 분류와 다른 점은 비지도 학습이라는 점 |
기계 학습 (Machine Learning) | 인간의 학습을 모델링한 기법 |
텍스트 마이닝 (Text Mining) | 자연어 처리 기술로 비정형 텍스트에서 정보 추출 및 다른 텍스트와의 연관성 파악 |
웹 마이닝 | 인터넷에서 수집한 정보로 데이터 마이닝 |
오피니언 마이닝 (Opinion Mining) | 뉴스, 댓글 등에서 사용자의 의견을 추출, 분류, 이해 |
리얼리티 마이닝 | 인간관계와 행동 양태등을 추론하여 분석 휴대폰 등의 기기를 사용하여 통화량, 통화 대상 등을 분석 |
소셜 네트워크 분석 | 소셜 네트워크 서비스에서 네트워크 연결 구조와 강도를 분석 |
감성 분석 (Sentiment Analysis) | 문장의 의미를 파악하여 감정을 분석 |
빅데이터와 인공지능
기계학습의 종류
지도학습 | 데이터를 라벨과 함께 제공하여 학습 | 분류 | 이미지 인식, 음성 인식 등 |
회귀 | 주가 예측, 강우량 예측 등 | ||
비지도 | 데이터만 제공하여 학습 | 군집분석 | 텍스트 토픽 분석 등 |
오토인코더 | 이상징후 탐지, 노이즈 제거 등 | ||
생성적 적대 신경망 (GAN) | 시뮬레이션 데이터 생성, 패션 데이터 생성 등 | ||
준지도 | 라벨이 있는 데이터와 없는 데이터를 혼합하여 학습 | - | - |
강화 | 선택 가능한 행동 중 보상을 최대화하며 학습 | 강화 | 게임 플레이어 생성, 로봇 학습 등 |
인공지능 데이터 학습의 진화
전이학습 (Transfer Learning)
- 전이 학습은 이미 학습이 완료된 모델을 가져와, 새로운 주제에 맞게 조정하는 것이다.
- 적은 양의 데이터로도 좋은 결과를 얻을 수 있다.
- 데이터의 표준화가 가능한 인식 문제에 주로 활용된다.
전이학습 기반 사전학습 모형 (Pre-trained Model)
- 이미 학습이 완료된 모델에 추가 학습 수행
- 상대적으로 적은 양의 데이터로 제한된 문제에 인공지능 적용이 가능하다.
BERT
- 2018년 구글에서 발표한 언어인식 사전학습모형
빅데이터와 인공지능의 관계
- 인공지능이 성공적으로 구현되기 위해서 양질의 많은 데이터가 필요하다.
- 이를 위해 어노테이션이라는 작업이 수행되는데, 이는 많은 데이터를 확보 후, 학습이 가능한 데이터로 가공하는 작업이다. 즉 라벨을 붙이는 작업이라고 생각하면 된다.
- 어노테이션 작업은 원래는 사람이 수행했으나, 요즘에는 인공지능이 어노테이션 또한 수행해주고 있는 추세이다.
인공지능 기술 동향
- 기계학습 프레임워크 보급 확대 : 케라스, 텐서플로우 등
- 생성적 적대 신경망 (GAN) 보급 : 생성자와 감별자로 구성된 모델로, 생성자는 데이터를 만들고, 감별자는 데이터 중 생성자가 만든 데이터를 식별하는 방식으로 서로 경쟁하며 학습한다.
- 오토인코더 : 라벨이 없는 데이터를 효율적인 코드로 표현한다.
- 설명 가능한 인공지능 (XAI) : 원래 인공지능의 내부 구조는 복잡하고 알기 힘들었으나, 해당 인공지능은 결로 도출 과정의 근거를 차트나 수치, 자연어 등으로 도출해준다.
- 기계학습 자동화 (AutoML) : 기계학습 전체의 과정 (전처리, 변수 생성, 알고리즘 선택 등)의 과정을 자동화해준다.;
개인정보
- 개인정보란, 살아있는 개인에 대한 정보로 개인을 알아볼 수 있는 정보이다.
- 해당 정보만으로 개인을 식별하지 못해도, 다른 정보와 결합하여 개인을 식별할 수 있으면 그 또한 개인 정보다.
- 이 때 정보의 형태, 내용 등은 제한이 없다.
- 개인정보의 처리와 활용은 크게 세 가지로 나뉜다.
- 개인정보의 이전 : 개인정보가 제 3자에게 이전되거나 공동으로 처리
- 개인정보의 처리 위탁 : 개인정보처리자의 업무를 위해 제 3자에게 이전
- 개인정보의 제3자 제공 : 제공받는 자의 업무 처리 및 이익을 위해 개인정보 제공
개인정보 법과 제도
개인정보보호법
- 당사자의 동의 없는 개인정보를 수집하거나 제3자에게 제공할 수 없다.
- 이 때 개인정보는 특정 개인을 알아볼 수 있는 정보 뿐 아니라 다른 정보와 결합되어 특정 개인을 알아볼 수 있는 정보 또한 포함된다.
정보통신망법
- 이용자의 동의를 받지 않고 개인정보를 수집하거나 제3자에게 개인정보를 제공할 수 없다.
신용정보보호법
- 개인신용정보를 신용정보회사 등에 제공하는 경우 동의가 필요하다.
- 신용정보주체는 제공하는 회사 등에 주요 내용 통보 및 인터넷을 통한 조회 등을 요구할 수 있다.
- 회사는 보유한 데이터와 실제 데이터가 다르면 신용정보주체에 데이터 갱신을 요구할 수 있다.
- 이 때 신용정보란 다음의 정보를 칭한다.
- 특정 신용정보주체를 식별할 수 있는 정보
- 신용정보주체의 거래내용을 판단할 수 있는 정보
- 신용정보주체의 신용도를 판단할 수 있는 정보
- 신용정보주체의 신용거래능력을 판단할 수 있는 정보
- 그 밖의 위의 항목들과 유사한 정보
데이터 3법 (2020)
- 데이터 이용 활성화를 위해 가명정보의 개념을 도입하고, 데이터간 결합 근거를 마련했다.
- 개인정보보호 관련 법률의 유사하거나 중복된 규정을 정비했다.
- 데이터 활용에 따른 개인정보처리자의 책임을 강화했다.
- 개인정보의 판단기준을 명확하게 만들었다.
- 개인정보를 개인정보, 가명정보, 익명정보로 구분했다.
- 가명정보는 연구, 공익적 목적을 위하여 사용할 수 있다.
개인정보 비식별화
- 비식별 정보란 개인정보 비식별 조치 가이드라인에 따라 비식별조치된 정보를 말한다.
- 이 때 비식별 조치란 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제 혹은 대체하여 개인을 알아볼 수 없도록 하는 조치이다.
- 비식별 정보는 개인정보에 포함되지 않기에 이용 및 제3자 제공이 가능하다.
- 하지만 새로운 결합 기술이 나타나거나 결합 가능한 정보가 증가하며 정보주체가 재식별 될 가능성이 존재하는데, 이 경우 정보 이용자는 반드시 개인정보를 파기하여야 한다.
개인정보 비식별화 조치 가이드라인의 조치방법
가명 처리 | 주요 식별 요소를 다른 값으로 대체 | 홍길동, 28세 > 임꺽정, 29세 |
총계 처리 | 데이터의 개별 값이 아닌 총합 값을 보여준다. | A 27세, B 26세, C 25세 > 평균 26세 |
데이터 삭제 | 필요없는 값 또는 개인식별 정보에 중요한 값을 삭제하는 방법 | 주민등록번호 > 90년대생 |
데이터 범주화 | 데이터 값을 범주의 값으로 변환 | 홍길동, 28세 > 홍길동 20~30세 |
데이터 마스킹 | 주요 식별자를 보이지 않게 변환 | 홍길동 > 홍O동 |
개인정보의 활용과 위기 요인
데이터 수집의 위기 요인 : 사생활 침해
- 데이터가 본래 목적 외로 가공되어 다른 목적으로 사용될 수 있다.
- 동의에서 책임으로 강화하여 해결한다.
- ex) 강도가 여행 사실을 SNS에 업로드 한 사람의 집을 강도질했다.
데이터 활용의 위기 요인 : 책임 원칙 훼손
- 예측 기술의 향상으로 분석대상이 되는 사람들이 알고리즘의 희생양이 되는 것
- 결과 기반 책임 원칙 고수로 해결
- ex) 범죄 예측 프로그램으로 아직 범죄를 저지르지 않았는데 체포됨
데이터 처리의 위기 요인 : 데이터 오용
- 빅데이터가 잘못된 예측 결과를 도출한다.
- 알고리즘 접근을 허용하여 해결한다.
1. 다음 중 빅데이터 플랫폼의 주요 요소기술이 아닌 것은?
1) 데이터 분석기술
2) 데이터 수집기술
3) 데이터 저장기술
4) 데이터 복구기술
4
2. 맵 리듀스의 처리과정을 순서대로 옳게 나타낸 것은?
1) 분할 > 맵 > 셔플 > 리듀스
2) 셔플 > 맵 > 분할 > 리듀스
3) 맵 > 분할 > 셔플 > 리듀스
4) 리듀스 > 셔플 > 맵 > 분할
1
3. 다음 중 기계학습의 종류가 아닌 것은?
1) 지도 학습
2) 비지도 학습
3) 시뮬레이션 학습
4) 준지도 학습
3
4. 데이터 상의 주석 작업으로 학습 알고리즘이 무엇을 학습해야 하는지 알려주는 표식 작업을 무엇이라 하는가?
Annotation
5. 2020년에 개정된 데이터 기본 3법의 주요 개정 내용으로 옳지 않은 것은?
1) 데이터 이용 활성화를 위한 익명정보 개념 도입 및 데이터간 결합 근거 생성
2) 개인정보보호 관련 법률의 유사, 중복 규정 정비 및 거버넌스 체계 효율화
3) 데이터 활용에 따른 개인정보처리자 책임 강화
4) 모호한 개인정보의 판단기준을 명확하게 변경
익명정보가 아니라 가명정보
1
6. 빅데이터의 활용 과정에서 사생활 침해 방지를 위해 데이터에 포함된 개인정보를 삭제하거나 식별 불가능하게 변환하는 방법은 무엇인가?
익명화
'자격증 > 빅데이터 분석기사' 카테고리의 다른 글
1-3. 데이터 수집 및 저장 계획_데이터 적재 및 저장 (0) | 2022.03.17 |
---|---|
1-3. 데이터 수집 및 저장 계획_데이터 수집 및 전환 (0) | 2022.03.16 |
1-2. 데이터 분석 계획_분석 작업 계획 (0) | 2022.03.13 |
1-2. 데이터 분석 계획_분석 방안 수립 (0) | 2022.03.13 |
1-1. 빅데이터의 이해_빅데이터 개요 및 활용 (0) | 2022.02.28 |