본문 바로가기
자격증/ADSP

ADSP_1과목_빅데이터 상식

by 이민우 2021. 1. 30.
728x90
반응형

book.naver.com/bookdb/book_detail.nhn?bid=15989437

 

ADsP 데이터 분석 준전문가 (동영상 핵심정리 + 최신기출 + 예상문제 660)

▷ 카카오톡 실시간 1:1 질문답변 가능 ( 카카오톡 플러스친구 '데이터에듀' 검색)▷ 핵심포인트를 정리한 합격마법노트 + 무료 문제풀이 동영상 서비스▷ 30일 완전 정복으로 일정 관리가능본 도

book.naver.com

*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.

 상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.

 

 

개인정보 비식별 기술

기술명 내용 예시
데이터 마스킹 데이터의 속성을 유지하며 익명화 홍길동, 32세
-> 홍*동, 3*세
가명처리 주체의 이름을 다른 이름으로 변화 홍길동, 32세
-> 임꺽정, 32세
총계처리 데이터의 총합 값을 보임으로써 개별 데이터를 숨김 홍길동 180cm, 임꺽정 170cm
-> 의적들 키 합 : 350cm, 평균 : 175cm
데이터값 삭제 개인식별에 중요한 값을 삭제 주민등록번호 90****-1******
-> 90년대생 남자

 


 

데이터 무결성

  • 데이터에 대한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 시 제한을 두어 데이터의 정확성 보증

 

데이터 레이크 

  • 방식에 상관없이 모든 데이터를 저장하는 시스템
  • 대용량의 정형, 비정형 데이터를 저장하며 쉽게 접근할 수 있는 대규모 저장소

 

 


 

빅데이터 분석 기술

 

1) 하둡 (Hadoop)

  • 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
  • 분산 파일 시스템인 HDFS를 통해 수 천대의 장비에 대용량 파일을 저장할 수 있게 한다.
  • 맵리듀스로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL을 이용해 질의를 실시간으로 처리한다.

 

2) Apache Spark

  • 실시간 분산형 컴퓨팅 플랫폼
  • 스칼라로 작성되었지만 스칼라 뿐 아니라 자바, R, 파이썬을 지원한다.
  • In-Memory 방식으로 하둡보다 빠르다.

 

3) Smart Factory

  • 공장 내 설비와 기계에 사물인터넷을 설치해 공정 데이터를 실시간으로 수집
  • 데이터에 기반한 의사결정을 통해 생산성을 극대화할 수 있다.

 

4) Machine Learning & Deep Learning

  • 머신러닝 : 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하는 기술
  • 딥러닝 : 데이터를 통해 컴퓨터가 스스로 학습하게 하기 위해 ANN 등의 기술을 통해 구축한 기계학습 기술의 일종.

 

 


 

블록체인

  • 거래정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래장부
  • 거래에 참여하는 모든 사용자에게 거래 내역을 보내주며, 거래 때마다 이를 대조해 데이터 위조를 방지한다.

 

 

 

데이터 유형

  정형 데이터 반정형 데이터 비정형 데이터
형태 형태(고정된 필드)가 존재 형태(메타 데이터)가 존재 형태가 없음
연산 연산 가능 연산 불가능 연산 불가능
저장방식 RDBMS File No SQL
수집 난이도 낮음 중간 높음
처리 난이도 쉬움 파싱 기술 필요 어려움
예시 RDBMS, 스프레드시트 XML, HTML, JSON 소셜데이터, 영상, 텍스트

*XML (Extensible Markup Language)

-인터넷에 연결된 시스템끼리 데이터를 쉽고 주고받음으로써 HTML의 한계를 극복하기 위한 언어

 

 

 




 

 

1. 데이터 값을 범주의 값으로 변환하여 값을 감추는 개인정보 비식별화 기법의 이름은?

범주화

 

728x90
반응형