728x90
반응형
book.naver.com/bookdb/book_detail.nhn?bid=15989437
*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.
상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.
개인정보 비식별 기술
기술명 | 내용 | 예시 |
데이터 마스킹 | 데이터의 속성을 유지하며 익명화 | 홍길동, 32세 -> 홍*동, 3*세 |
가명처리 | 주체의 이름을 다른 이름으로 변화 | 홍길동, 32세 -> 임꺽정, 32세 |
총계처리 | 데이터의 총합 값을 보임으로써 개별 데이터를 숨김 | 홍길동 180cm, 임꺽정 170cm -> 의적들 키 합 : 350cm, 평균 : 175cm |
데이터값 삭제 | 개인식별에 중요한 값을 삭제 | 주민등록번호 90****-1****** -> 90년대생 남자 |
데이터 무결성
- 데이터에 대한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 시 제한을 두어 데이터의 정확성 보증
데이터 레이크
- 방식에 상관없이 모든 데이터를 저장하는 시스템
- 대용량의 정형, 비정형 데이터를 저장하며 쉽게 접근할 수 있는 대규모 저장소
빅데이터 분석 기술
1) 하둡 (Hadoop)
- 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
- 분산 파일 시스템인 HDFS를 통해 수 천대의 장비에 대용량 파일을 저장할 수 있게 한다.
- 맵리듀스로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL을 이용해 질의를 실시간으로 처리한다.
2) Apache Spark
- 실시간 분산형 컴퓨팅 플랫폼
- 스칼라로 작성되었지만 스칼라 뿐 아니라 자바, R, 파이썬을 지원한다.
- In-Memory 방식으로 하둡보다 빠르다.
3) Smart Factory
- 공장 내 설비와 기계에 사물인터넷을 설치해 공정 데이터를 실시간으로 수집
- 데이터에 기반한 의사결정을 통해 생산성을 극대화할 수 있다.
4) Machine Learning & Deep Learning
- 머신러닝 : 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하는 기술
- 딥러닝 : 데이터를 통해 컴퓨터가 스스로 학습하게 하기 위해 ANN 등의 기술을 통해 구축한 기계학습 기술의 일종.
블록체인
- 거래정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래장부
- 거래에 참여하는 모든 사용자에게 거래 내역을 보내주며, 거래 때마다 이를 대조해 데이터 위조를 방지한다.
데이터 유형
정형 데이터 | 반정형 데이터 | 비정형 데이터 | |
형태 | 형태(고정된 필드)가 존재 | 형태(메타 데이터)가 존재 | 형태가 없음 |
연산 | 연산 가능 | 연산 불가능 | 연산 불가능 |
저장방식 | RDBMS | File | No SQL |
수집 난이도 | 낮음 | 중간 | 높음 |
처리 난이도 | 쉬움 | 파싱 기술 필요 | 어려움 |
예시 | RDBMS, 스프레드시트 | XML, HTML, JSON | 소셜데이터, 영상, 텍스트 |
*XML (Extensible Markup Language)
-인터넷에 연결된 시스템끼리 데이터를 쉽고 주고받음으로써 HTML의 한계를 극복하기 위한 언어
1. 데이터 값을 범주의 값으로 변환하여 값을 감추는 개인정보 비식별화 기법의 이름은?
범주화
728x90
반응형
'자격증 > ADSP' 카테고리의 다른 글
ADSP_2과목_분석 마스터 플랜 (0) | 2021.02.01 |
---|---|
ADSP_2과목_데이터 분석 기획의 이해 (0) | 2021.01.31 |
ADSP_1과목_가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2021.01.30 |
ADSP_1과목_데이터의 가치와 미래 (0) | 2021.01.29 |
ADSP_1과목_데이터의 이해 (0) | 2021.01.29 |