본문 바로가기
자격증/빅데이터 분석기사

1-3. 데이터 수집 및 저장 계획_데이터 수집 및 전환

by 이민우 2022. 3. 16.
728x90
반응형

출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185 

 

이기적 빅데이터분석기사 필기 기본서

본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제 경향을 철저히 분석하여 수험생들이 혼자서도 학습할 수 있도록 한 완벽 대비서입니다. 시행처에서 공개한 출제

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.


 

 

데이터 수집

  • 여러 곳에 존재하는 데이터를 한 곳으로 모으는 작업이다.

 

  • 데이터 수집 기술로는 정형, 비정형, 반정형 데이터에 따라 다양한 기술들이 존재한다.
  • 먼저 정형 데이터에 대한 수집 기술로 대표적인 것은 ETL, API, 스쿱 등이 있다.
  • ETL은 추출, 변환, 적재의 3단계 프로세스로 구성되며, 다양한 응용 시스템을 위한 데이터 구축에 필요한 핵심 기술이다.
  • 스쿱RDB, 하둡 파일 시스템(HDFS, Hive) 사이의 데이터 전송을 처리한다.
  • 스쿱은 Bulk import를 지원해 전체 DB 혹은 테이블을 전송할 수 있고, 사용률과 성능을 고려한 병렬 데이털르 전송한다.
  • RDB에 매핑하여 직접적으로 HBase, Hive에 import를 지원한다.
  • 또한 프로그래밍 방식의 데이터 인터랙션으로 자바 클래스로 데이터 상호작용을 지원한다.

 

  • 비정형 데이터에 대한 수집 기술로는 Open API, 카프카 등이 있다.
  • Open API는 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 오픈된 API이다.
  • 카프카는 대용량 실시간 로그처리를 위한 분산 스트리밍 플랫폼 기술이다.

 

  • 반정형 데이터에 대한 수집 기술로는 플럼, 스크라이브, 센싱 등이 있다.

Flume 구조

  • 플럼은 위와 같이 소스, 채널, 싱크로 구성된다.
  • 소스는 원시 데이터와 연결되며, 소스에서 들어오는 데이터는 채널로 들어간 후, 싱크를 통해 목표 시스템에 전달된다.
  • 플럼은 유실 없는 전송을 보장하고 (신뢰성), 수평 확장이 가능하며 (확장성), 커스터마이징이 가능하다 (효율성).
  • 스크래피 기술은 파이썬 기반으로 웹사이트를 크롤링하고 구조화된 데이터를 수집하는 기술이다.

 

 

데이터 저장 방식

  • 수집된 데이터는 파일 시스템, 관계형 데이터베이스, 분산처리 데이터베이스 등에 저장될 수 있다.
  • 분산처리 데이터베이스데이터 셋이 여러 물리적 위치에 분산 배치되어 저장되는 데이터베이스이다.

 

 

데이터 비식별화

  • 데이터를 저장할 때 개인정보를 식별할 수 있는 값들을 몇 가지 정해진 규칙으로 대체하거나, 사람의 판단에 따라 가공하여 개인을 알아볼 수 없도록 하는 비식별화가 필요하다.
  • 비식별화된 정보는 개인 정보가 아닌 것으로 추정되며, 빅데이터 분석 등의 활용이 가능해진다.

 

  • 식별자 (Identifier)은 개인과 관련한 사물에 고유하게 부여된 값 또는 이름을 말한다.
  • 속성자는 개인과 관련된 정보로 다른 정보와 결합하는 경우 특정 개인을 알아볼 수 있는 정보이다.
  • 둘 다 원칙적으로 삭제해야 하나, 속성자는 데이터 이용 목적과 관계가 있으면 가명처리, 총계처리 등의 비식별화가 필요하다.

 

  • 비식별 조치 방법으로는 다양한 방법이 있다.

 

  • 우선 가명처리는 주요 식별요소를 다른 값으로 대체하는 방법이다.
  • 예를 들어 홍길동, 35세 > 임꺽정, 33세 같이 사용한다.
  • 가명처리는 데이터의 변형 또는 변질 수준이 적으나, 식별 가능한 고유 속성이 계속 유지된다.
  • 세부 기술로는 휴리스틱 가명화, 암호화, 교환 방법이 있다.
  • 휴리스틱 가명화정해진 규칙으로 대체하거나 사람의 판단에 따라 가공한다.
  • 하지만 대체 변수의 한계가 있고, 규칙이 노출될 수 있다.
  • 교환 방법은 기존의 레코드를 사전에 정해진 외부의 변수값과 교환한다.

 

  • 총계처리는 데이터의 총합 값을 보여주고 개별 값을 숨긴다.
  • 예를 들어 홍길동, 36세 / 임꺽정, 34세 > 평균 35세 와 같이 사용한다.
  • 통계분석용 데이터셋 작성에 유리하나, 정밀 분석이 어렵고 집계 수량이 적으면 추론의 가능성이 있다.
  • 예시로는 부분총계, 라운딩, 재배열 등이 있다.
  • 부분 총계는 일정 부분 레코드만 통계처리한다.
  • 이 때 오차 범위가 크면 평균 등의 통계값으로 변환한다.
  • 라운딩은 올림, 내림, 반올림 기준을 적용하여 최종 집계한다.
  • 재배열은 기존 정보 값은 유지하며 개인이 식별되지 않도록 데이터를 재배열한다.
  • 재배열은 전체 정보에 대한 손상 없이 특정 정보가 해당 개인에게 연결되지 않는다.

 

  • 데이터 삭제는 데이터 공유/개방 목적에 따라 데이터의 값 중 필요가 없거나 개인 식별에 중요한 값을 삭제하는 방법이다.
  • 이 방법은 분석의 다양성과 분석 결과의 유효성과 신뢰성을 떨어뜨릴 수 있다.
  • 예시로 식별자 삭제, 식별자 부분삭제, 레코드 삭제, 식별요소 전부 삭제 등이 있다.

 

  • 데이터 범주화는 데이터의 값을 범주의 값으로 변환하여 값을 숨기는 방법이다.
  • 통계형 데이터 형식이기에 다양한 분석 및 가공이 가능하나, 정확한 결과 도출이 어려우며 데이터 범위 구간이 좁으면 추론 가능성이 있다.
  • 예시로 감추기, 랜덤 라운딩, 범위 방법, 제어 라운딩이 있다.
  • 감추기는 데이터의 평균 또는 범주 값으로 변환하는 방법이다.
  • 랜덤 라운딩은 임의의 수를 기준으로 올림/내림 하는 방법이다.
  • 범위 방법은 임의의 수를 기준의 범위로 설정하는 기법이다. ( ex) 50기준 범위 설정)
  • 위의 방법 중 랜덤 라운딩은 어떠한 특정 값을 변경할 경우 행과 열의 합이 일치하지 않는 단점이 있는데, 제어 라운딩은 이 단점을 프로그램을 통해 제어하는 것이다.
  • 하지만 이 방법은 구현하기 어렵고 복잡한 통계표에서 적용하기 어려워 잘 사용되지 않는다.

 

  • 데이터 마스킹은 주요 식별자를 보이지 않도록 처리하는 방법이다.
  • 예를 들어 홍길동, 31세 > 홍O동, 31세 와 같이 사용한다.
  • 원 데이터 구조에 대한 변형이 적으나, 과도할 경우 필요 목적에 따라 사용하기 어렵고 추론의 위험이 있다.
  • 임의 잡음 추가, 공백과 대체 방법이 있다.
  • 임의 잡음 추가는 임의의 잡음을 추가하는 방법이다.
  • 예를 들어 임의의 숫자를 더하거나 뺄 수 있다.
  • 이 때 잡음은 분산의 범위 내에서 추가되기에 데이터의 유용성을 해치지는 않으나, 유효한 데이터로 사용하기 곤란한다.
  • 공백과 대체는 일부를 공백 또는 대체문자 (* 등)로 변경하는 방법이다.

 

 

적정성 평가

  • 비식별화에 대한 적정성 평가는 k-익명성, l-다양성, t-근접성 등의 평가모델로 평가할 수 있다.

 

  • k-익명성은 특정인임을 추론할 수 있는지 여부를 검토한다.
  • 주어진 데이터 셋에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보와 결합할 수 없도록 한다.
  • 즉 데이터 셋의 일부를 수정해 모든 값이 자신과 동일한 k-1개 이상의 레코드가 존재해야 한다.
  • 비식별화 조치를 위한 최소의 기준이다.

 

  • k-익명성동질성 공격, 배경지식에 의한 공격에 취약하다.
  • 동질성 공격은 데이터 셋에서 동일한 정보를 이용해 대상의 정보를 알아내는 공격이다.
  • 배경지식에 대한 공격은 데이터와 공격자의 배경 지식으로 정보를 알아내는 공격이다.

 

  • l-다양성은 위의 공격을 방어하기 위한 모델이다.
  • 주어진 데이터 셋에서 함께 비식별되는 레코드들은 적어도 l개 이상의 서로 다른 정보를 가지도록 한다.
  • 이렇게 서로 다른 정보를 가진 동질 집합을 구성해 다양성의 부족으로 인한 공격에 방어가 가능하고, 배경지식 공격에도 일정 수준의 방어가 가능하다.

 

  • 하지만 l-다양성쏠림 공격, 유사성 공격에 취약하다.
  • 쏠림 공격은 정보가 특정 값에 쏠려있을 경우이다.
  • 유사성 공격은 레코드의 정보가 서로 비슷한 경우이다.

 

  • t-근접성은 l-다양성을 보완하기 위한 모델로, 값의 의미를 고려한다.
  • 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이하의 차이를 보여야한다.
  • 또한 각 동질 집합에서 특정 정보의 분포가 전체에 비교해 너무 특이하지 않아야 한다.
  • 분포를 조정하여 정보가 너무 특정 값으로 쏠리거나, 유사한 값끼리만 뭉치는 경우를 방지한다.

 

 

 

데이터 품질 검증

  • 데이터 품질 관리는 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 있는 데이터를 확보하고 신뢰성 있는 데이터를 유지하는 데 필요한 활동이다.
  • 정형데이터의 품질 기준은 완전성, 유일성, 유효성, 일관성, 정확성이다.
  • 비정형데이터의 품질 기준은 기능성, 신뢰성, 사용성, 효율성, 이식성이다.

 


 

1. 데이터 유형에 관한 설명으로 틀린 것은?

1) 비정형 데이터의 종류는 웹로그, 센서 데이터, JSON 등이 있다.
2) 정형 데이터는 정형화된 스키마를 가진 데이터이다.
3) 반정형 데이터는 메타 구조를 가지는 데이터이다.
4) 데이터의 유형은 크게 정형, 비정형, 반정형 데이터로 나뉜다.

1

 

2. 개인정보 비식별화 방법 중 가명처리 기법에 속하지 않는 것은?

1) 휴리스틱 가명화
2) 암호화
3) 교환 방법
4) 제어 라운딩

4

 

3. 정형 데이터 수집 기술로 적절하지 않은 것은?

1) DBToDB
2) ETL
3) Crawling
4) FTP

3

 

4. 비식별화 방법 중 데이터 삭제 기법의 단점은 무엇인가?

분석의 다양성과 분석 결과의 유효성과 신뢰성이 저하될 수 있다.

728x90
반응형