728x90
반응형
출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185
*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.
상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.
데이터와 정보
데이터
- 추론과 추정의 근거를 이루는 사실
- 현실 세계에서 관찰하거나 측정하여 수집한 사실
- 영국 문헌에서 처음 등장하였으며, '주어진 것 (dare)'의 과거분사형이다.
데이터의 특징
- 단순한 객체로도 가치가 있다.
- 다른 객체와의 상호관계 속에서는 더 큰 가치를 갖는다.
- 객관적 사실이라는 존재적 특징이 존재한다.
- 추론, 추정, 예측 등을 위한 근거로써 당위적 특성을 갖는다.
데이터의 구분
정량적 데이터
- 숫자로 이루어진 데이터이다.
- 주로 정형 데이터, 반정형 데이터 등이 있다.
- 객관적인 내용이다.
정성적 데이터
- 문자와 같은 텍스트로 구성되며 함축적 의미를 가진다.
- 주로 비정형 데이터가 있다.
- 주로 주관적인 내용이다.
데이터의 유형
정형 데이터
- 정해진 형식과 구조에 맞게 저장된 데이터이다.
- 연산이 가능하다.
반정형 데이터
- 데이터의 형식, 구조가 비교적 유연하다.
- 스키마 정보가 데이터와 함께 제공된다.
- JSON, XML, HTML 등이 있다.
비정형 데이터
- 구조가 정해지지 않은 데이터이다.
- 연산이 불가능하다.
데이터의 근원
- 데이터의 수집 과정은 재생산 과정으로 볼 수 있다.
- 원본 데이터로부터 생성된 데이터는 가역 데이터와 불가역 데이터로 구분된다.
가역 데이터
- 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터이다.
- 원본과 1:1 관계를 맺는다.
- 이력 추적이 가능하다.
- 원본 데이터 변경 시 변경 사항이 반영된다.
불가역 데이터
- 생산된 데이터가 전혀 다른 형태로 재생산된다.
- 원본 데이터의 내용이 변경되어도 변경 사항이 반영되지 않는다.
암묵지와 형식지
암묵지
- 오랜 경험을 통해 개인에게 체계화된다.
- 외부에 표출되지 않는다.
- 전달과 공유가 어렵다.
- 표출화를 통해 형식지로 변환된다.
형식지
- 형상화된 유형의 지식.
- 전달과 공유가 쉽다.
- 내면화를 통해 암묵지로 변환된다.
WKID
지혜 (WISDOM) |
축적된 지식을 통해 원리의 이해 및 아이디어의 결합을 통해 도출한 창의적 산물 다른 물건도 A마트가 더 저렴할 것이다. |
지식 (KNOWLEDGE) |
상호 연결된 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 내재화한 고유의 결과물 A마트에서 구매를 해야겠다. |
정보 (INFORMATION) |
데이터를 가공, 처리하여 관계를 분석하고 그 속에서 도출된 의미로, 항상 유용하지는 않다. A마트의 세제가 더 싸다. |
데이터 (DATA) |
현실 세계에서 수집한 값으로, 그 의미가 중요하지는 않은 객관적 사실 A마트의 세제는 500원이고, B마트의 세제는 700원이다. |
데이터베이스
- 체계적이거나 조직적으로 정리되고, 접근할 수 있는 데이터 수집물
- 복수 이용자의 요구에 대응할 수 있다.
- 데이터를 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체이다.
DBMS
- 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어.
관계형 DBMS | 테이블로 표현된 DB |
객체지향 DBMS | 객체 형태로 표현된 DB |
네트워크 DBMS | 그래프 구조 DB |
계층형 DBMS | 트리 구조 DB |
SQL
- 데이터베이스에 접근할 때 사용하는 언어.
- 단순 질의 뿐 아니라 데이터 정의, 조작 기능을 갖추었다.
- 테이블 단위 연산을 수행한다.
데이터베이스의 특징
- 통합된 데이터 : 동일한 데이터가 중복저장되지 않는다.
- 저장된 데이터 : 컴퓨터가 접근 가능한 저장매체에 저장된다.
- 공용 데이터 : 여러 이용자가 함께 이용한다.
- 변화하는 데이터 : 데이터가 지속적으로 갱신된다.
데이터베이스의 활용
OLTP
- 호스트와 이에 접속된 단말 간 처리 형태의 하나로 DB 데이터를 수시로 갱신한다.
- 즉, 현재 시점의 데이터만을 데이터베이스가 관리한다.
OLAP
- 정보 위주의 분석 처리를 하는 기술.
- 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻는 기술이다.
OLTP와 OLAP
OLTP | OLAP | |
데이터 구조 | 복잡 | 단순 |
데이터 갱신 | 동적으로 순간적 | 정적으로 주기적 |
데이터 특성 | 트랜잭션 중심 | 주제 중심 |
질의 결과 예측 | 주기적이며 예측 가능 | 예측하기 어려움 |
데이터 웨어하우스
- 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스
데이터 웨어하우스의 특징
- 주제 지향성 : 중요한 주제를 중심으로 이에 관련된 데이터들로 구성된다.
- 통합성 : 일관된 형태로 변환되고, 전사적인 관점에서 통합되어 저장된다.
- 시계열성 : 일정 기간동안 시점별로 이어진다.
- 비휘발성 : 일괄 처리 작업에 의한 갱신 이외에는 내용이 변경되지 않는다.
데이터 웨어하우스의 구성
데이터 | => | ETL, ODS | => | DW | => | OLAP 데이터마이닝 분석 도구 경영기반 솔루션 |
- 데이터 모델 : 주제 중심적으로 구성된 다차원의 개체-관계형 모델
- ETL : Extract, Transform, Load 로 데이터를 추출, 정제, 가공하여 저장한다.
- ODS : 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리
- DW 메타데이터 : 데이터 모델에 대한 스키마 정보
- OLAP : 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션
- 데이터마이닝 : 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론
- 분석 도구 : 데이터마이닝을 활용하여 데이터 웨어하우스에 적재된 데이터를 분석할 수 있는 도구
- 경영기반 솔루션 : KMS, BI 같은 경영의사결정을 지원하기 위한 솔루션
빅데이터
- 기존 데이터보다 방대한 데이터
- 이러한 특성으로 인해 기존의 방법이나 도구로 수집, 저장, 분석이 어려운 데이터들을 의미한다.
- 빅데이터는 새로운 통찰과 가치를 추출해낸다.
빅데이터의 등장으로 인한 변화
- 데이터 시점이 사전 처리에서 사후 처리로 변화했다.
- 데이터 처리 범주가 표본조사에서 전수조사로 확대됐다.
- 데이터 가치 판단 기준이 질에서 양으로 변화했다.
- 데이터 분석 방향이 이론적 인과관계 중심에서 단순한 상관관계로 변화했다.
빅데이터의 특징
- 가트너 그룹은 3v로 빅데이터의 특징을 설명했다.
5V | 3V | 규모 (Volume) |
유형 (Variety) | ||
속도 (Velocity) | ||
+2V | 품질 (Veracity) | |
가치 (Value) |
빅데이터의 활용
- 빅데이터의 활용을 위한 요소는 아래와 같은 세 가지이다.
자원 | 빅데이터 | 데이터 수집 및 전처리 |
기술 | 플랫폼 AI |
데이터 분산 처리, 시각화 및 학습 |
인력 | 알고리즈미스트 데이터사이언티스트 |
각종 전문 지식으로 데이터 분석 및 결과 해석 |
- 빅데이터의 활용을 위한 테크닉은 아래와 같다.
연관규칙학습 | 변인들 간 주목할만한 상관관계 확인 | A를 구매한 사람이 B도 구매하는가? |
유형분석 | 문서를 분류하거나 조직을 그룹화 | A는 어떤 그룹에 속하는가? |
유전 알고리즘 | 생물의 진화과정을 모방해 최적화 수행 | 시청률을 위해 어떤 시간대에 방송해야 하는가? |
기계학습 | 데이터로부터 학습한 알려진 특성으로 예측 | A라는 사람이 어떤 영화를 좋아할까? |
회귀분석 | 독립변수가 종속변수에 미치는 영향 분석 | 학력과 연봉의 상관관계 |
감정분석 | 말을 하거나 글을 쓴 사람의 감정을 분석 | 새로운 정책에 대한 시민들의 평가는? |
소셜네트워크 분석 | 인물간 관계를 파악 | 고객간 관계망 분석 |
빅데이터의 가치 측정의 어려움
- 빅데이터는 사업자에게는 경쟁 우위를 제공하고, 의사결정 지원을 지원한다.
- 하지만 데이터의 가치는 아래의 요인들에 따라 달라지기 때문에 측정 및 판단이 어렵다.
- 데이터 활용 방식
- 가치 창출 방식
- 분석 기술 발전
- 데이터 수집 원가
데이터 산업 시대
- 데이터 산업 시대는 아래와 같이 진화되었다.
1970~ | 1990~ | 2010~ | 2018~ | |
데이터 처리 | 데이터 통합 | 데이터 분석 | 데이터 연결 | 데이터 권리 |
데이터 처리 시대
- 컴퓨터 언어로 대규모 데이터를 빠르고 정확하게 처리했다.
- 데이터를 파일 형태로 저장했다.
- 데이터는 업무 처리의 대상일 뿐, 새로운 가치를 제공하지는 않았다.
데이터 통합 시대
- 데이터 처리가 여러 업무에 적용되며 다양한 데이터가 누적되었다.
- 이러한 데이터는 일관성 확보가 어려웠다.
- 이를 해결하기 위해 데이터 모델링과 데이터베이스 관리 시스템 (DBMS)가 등장했다.
- 또한 데이터 웨어하우스가 도입되었다.
데이터 분석 시대
- 기술의 발전으로 데이터가 폭발적으로 증가했다.
- 하둡, 스파크 등 빅데이터 기술이 등장했다.
- 이에 따라 인공지능 기술도 상용화되었다.
- 데이터를 분석하여 사실들의 인과관계를 밝힐 수 있고, 이를 업무에 적용할 수 있게 되었다.
데이터 연결 시대
- 기관, 사람, 사물 등이 연결되어 데이터를 주고받는다.
- 즉, 데이터 연결이 강조된다.
- Open API 경제라는 용어가 사용된다.
데이터 권리 시대
- 개인이 자신의 데이터를 자신을 위해서 사용한다.
- 즉, 데이터 권리를 개인이 갖게 되었으며, 이에 따라 마이데이터라는 개념이 등장했다.
데이터 조직 구성
집중형
- 전사 분석 업무를 별도의 전담 조직에서 담당한다.
- 현업 부서와 분석 업무가 중복되고 이원화될 가능성이 있다.
기능형
- 각 현업 부서에서 분석 업무를 수행한다.
- 전사적 관점에서 분석이 어려우며, 특정 현업 부서에 국한된 협소한 분석을 수행할 가능성이 높다.
분산형
- 분석 전문 인력을 현업 부서에 배치해 분석 업무를 수행한다.
- 전사 차원에서 우선순위를 선정하고 수행하게 된다.
데이터 사이언티스트
Hard Skill | 빅데이터에 대한 이론적 지식 분석 기술에 대한 숙련 |
Soft Skill | 통찰력 있는 분석 설득력 있는 전달 다분야 간 협력 |
- 데이터에 대한 지식과 분석 기술을 통해 통찰력과 전달력 및, 협업 능력을 가춘 데이터 분야 전문가
- 데이터의 다각적 분석으로 인사이트 도출 및 이를 조직의 전략 방향 제시에 활용할 수 있는 기획자이다.
1. 다음 중 데이터에 대한 설명으로 틀린 것은?
1) 데이터는 정형, 비정형, 반정형 데이터로 구분된다.
2) 비정형 데이터는 텍스트, 음성, 영상 등의 데이터이다.
3) 정형 데이터는 숫자로 구성된 데이터이다.
4) 정형 데이터는 비정형 데이터보다 품질이 우수하며 다양한 분석이 가능하다.
4
2. 다음 중 반정형 데이터가 아닌 것은?
1) XML
2) JSON
3) TEXT
4) HTML
3
3. 데이터 웨어하우스의 특징이 아닌 것은?
1) 주제 지향성
2) 휘발성
3) 통합성
4) 시계열성
2
4. 빅데이터의 주요 특징이 아닌 것은?
1) 다양성
2) 대용량성
3) 신속성
4) 일관성
4
5. 다음 중 빅데이터가 만든 변화가 아닌 것은?
1) 사전처리에서 사후처리로의 변화
2) 인과관계에서 상관관계로의 변화
3) 전수조사에서 표본조사로의 변화
4) 데이터의 질보다 양의 중요도 증가
3
6. 마이데이터가 등장한 시점은 어떤 시대인가?
데이터 권리 시대
7. 다음 중 데이터 사이언티스트에 대한 요구역량 중 Soft Skill이 아닌 것은?
1) 분석 기술에 대한 숙렺
2) 설득력 있는 전달
3) 통찰력 있는 분석
4) 다분야간 협력
1
728x90
반응형
'자격증 > 빅데이터 분석기사' 카테고리의 다른 글
1-3. 데이터 수집 및 저장 계획_데이터 적재 및 저장 (0) | 2022.03.17 |
---|---|
1-3. 데이터 수집 및 저장 계획_데이터 수집 및 전환 (0) | 2022.03.16 |
1-2. 데이터 분석 계획_분석 작업 계획 (0) | 2022.03.13 |
1-2. 데이터 분석 계획_분석 방안 수립 (0) | 2022.03.13 |
1-1. 빅데이터의 이해_빅데이터 기술 및 제도 (0) | 2022.03.12 |