728x90
반응형
book.naver.com/bookdb/book_detail.nhn?bid=15989437
*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.
상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.
빅데이터의 정의
주장 | 내용 | 중점 |
McKinsey | 일반 DBMS로 저장하고 관리할 수 있는 범위를 초과하는 데이터 | 데이터 규모 |
IDC | 대규모 데이터로부터 저렴한 비용으로 가치를 추출할 수 있는 기술 | 분석 비용 및 기술 |
메이어-쇤베르거와쿠키어 | 작은 용량의 데이터에서는 얻을 수 없었던 새로운 통찰이나 가치 추출 |
가트너 그룹의 더그 래니의 3V
양 (Volume) | 데이터의 규모 |
다양성 (Variety) | 데이터의 유형과 소스 |
속도 (Velocity) | 데이터의 수집과 처리 |
가트너 키워드 등장시 3V + 소프트 스킬
빅데이터가 만들어내는 변화
사전처리 | => | 사후처리 |
표본조사 | 전수조사 | |
질 | 양 | |
인과관계 | 상관관계 |
- 사후처리 : 가능한 많은 데이터를 모으고 다양한 방법으로 조합해 숨은 정보를 식별한다.
- 전수조사 : 데이터 처리비용의 감소로 표본이 아닌 전수조사를 통해 데이터를 활용한다.
- 양 : 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 긍정적 영향을 준다.
- 상관관계 : 상관관계를 통해 특정 현상의 발생 가능성이 포착된다.
빅데이터 가치 산정이 어려운 이유
- 데이터 활용 방식 : 재사용, 재조합, 다목적용 개발 등이 일반화되며 가치 산정이 어려움.
- 새로운 가치 창출 : 기존에 없던 가치가 창출되어 가치 측정이 어려움.
- 분석 기술 발전 : 현재를 기준으로는 가치가 없는 데이터들도 새로운 분석 기법 등장시 가치 창출이 가능.
빅데이터 활용 기본 테크닉
기술 | 내용 | 예시 |
연관규칙학습 | 데이터 간 상관관계 파악 | 흡연자가 커피를 더 많이 구매하는가? |
유형분석 | 데이터를 특성에 따라 분류 | 이 사용자는 어느 집단에 속하는가? |
유전자 알고리즘 | 자연선택, 돌연변이 등의 메커니즘으로 점진적으로 진화 | 시청률 상승을 위해 어떤 시간대에 방송해야 하는가? |
기계학습 | 데이터로부터 특성을 활용해 예측 | 기존의 시청 기록을 바탕으로 사용자의 선호 분석 |
회귀분석 | 독립변수의 조작에 따른 종속변수의 파악으로 데이터 간의 관계 파악 | 차량 구매자의 직업이 구매 차량 타입에 미치는 영향 |
감정분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | 새로운 정책에 대한 고객의 반응 |
소셜네트워크 분석 (사회관계망 분석) |
특정인과 타인의 관계를 파악해 영향력 파악 | 고객들 간 관계망의 구성 |
빅데이터 시대 위기 요인
1) 사생활 침해
- 개인정보가 포함된 데이터를 목적 외에 사용할 경우
- 동의에서 책임으로 해결
- ex) 강도가 여행 사실을 SNS에 업로드 한 사람의 집을 강도질했다.
2) 책임 원칙 훼손
- 예측 기술의 향상으로 분석대상이 되는 사람들이 예측 알고리즘의 희생양이 되는 것
- 결과 기반의 책임 원칙 고수로 해결
- ex) 범죄 예측 프로그램으로 아직 범죄를 저지르지 않았는데 체포됨
3) 데이터 오용
- 빅데이터가 항상 올바른 미래를 예측할 수 없기에 잘못된 지표를 제공하는 경우
- 알고리즘 접근 허용으로 해결할 수 있는데, 이는 알고리즈미스트가 필요하게 된 계기이다.
빅데이터 활용의 3요소
1) 데이터
- 모든 것을 데이터화하여 특정 목적없이 축적된 데이터의 창의적 분석이 가능해져 새로운 가치로 부상했다.
2) 기술
- 대용량 데이터를 빠르게 처리하는 알고리즘이 진화하고, 스스로 학습하는 인공지능 기술이 출현했다.
3) 인력
- 빅데이터를 처리하기 위한 데이터 사이언티스트와 알고리즈미스트의 역할이 중요해졌다.
*데이터 사이언티스트 :빅데이터를 다각적으로 분석해 인사이트를 도출하고 조직의 전략 방향제시가 가능한 인력
*알고리즈미스트 : 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람들을 구제하는 인력
1. 빅데이터가 만들어내는 본질적인 변화에 대한 설명이 부적절한 것은?
1) 질에서 양 중심으로 변화
2) 인과관계에서 상관관계 중심으로 변화
3) 사전처리 위주에서 사후처리 위주
4) 표본조사 위주에서 인과관계 위주
4
2. 빅데이터 활용에 필요한 기본적인 3가지 요소는 (가), (나), (다) 이다.
데이터, 기술 인력
3. 빅데이터 시대의 위기 요인 중 '사생활 침해 문제'를 해결하기 위한 방법으로 (가)가 있다.
동의에서 책임으로
4. 범죄 예측 프로그램에 의해 범행 전에 체포가 되는 것은 빅데이터 시대의 위기 요인 중 (가) 이다.
책임 원칙 훼손
5. 생명의 진화를 모방하여 최적해를 구하는 알고리즘으로, 존 홀랜드가 1975년에 개발한 알고리즘의 이름은?
유전자 알고리즘
728x90
반응형
'자격증 > ADSP' 카테고리의 다른 글
ADSP_2과목_분석 마스터 플랜 (0) | 2021.02.01 |
---|---|
ADSP_2과목_데이터 분석 기획의 이해 (0) | 2021.01.31 |
ADSP_1과목_빅데이터 상식 (0) | 2021.01.30 |
ADSP_1과목_가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2021.01.30 |
ADSP_1과목_데이터의 이해 (0) | 2021.01.29 |