728x90
반응형
출처 : https://book.naver.com/bookdb/book_detail.nhn?bid=20885185
*해당 글은 학습을 목적으로 위의 도서 내용 중 일부 내용만을 요약하여 작성한 포스팅입니다.
상세한 내용 및 전체 내용 확인을 원하신다면 도서 구매를 추천드립니다.
데이터 시각화
- 분석된 결과를 해석하는 대표적인 방법으로, 데이터 값을 시각적으로 표현하고 그래프로 표현한다.
- 시각화를 통해 데이터의 의미를 명확하게 표현하고 효율적으로 전달할 수 있다.
- 즉, 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정이다.
- 정보를 명확하고 효과적으로 전달하는 것을 목적으로 한다.
- 물론 위의 것은 기능적인 측면이고, 사람이 쉽게 인지하고 직관적으로 이해할 수 있는 심미적인 특성도 가지고 있어야 한다.
- 데이터 시각화는 자료로부터의 정보 습득 시간을 절감하고 데이터에 대한 즉각적인 판단이 가능하다.
- 또한 데이터의 특징과 패턴, 추세를 직관적으로 제공하여 데이터의 의미에 대한 이해를 효과적으로 돕는다.
- 데이터 시각화는 데이터 값을 시각적 속성으로 변환하고 해당 속성들을 이용해 최종 그래프를 만든다.
- 자주 사용되는 속성은 위치, 형태, 색, 굵기, 선 유형 등이 있다.
- 위치, 크기, 선 굵기, 색 속성은 연속형과 이산형 데이터 모두에 적용할 수 있다.
- 하지만 선 유형 유형 속성은 이산형 데이터에만 적용될 수 있다.
- 데이터 시각화는 목적에 따라 다양한 방법이 존재할 수 있으며, 시간, 분포, 관계, 비교, 공간이 그 예시이다.
시간 시각화 | 막대그래프, 누적막대그래프, 점/선그래프 |
분포 시각화 | 히스토그램, 파이차트, 도넛차트, 트리맵, 누적연속그래프 |
관계 시각화 | 산점도, 버블차트, 히트맵 |
비교 시각화 | 히트맵, 체르노프페이스, 스타차트, 평행좌표계, 다차원척도법 |
공간 시각화 | 지도 매핑 |
데이터 시각화 영역
- 정보 시각화는 방대한 양의 정보를 한 번에 사용자가 보고 이해할 수 있도록 직관적으로 표현하는 방법이다.
- 데이터 시각화가 그래픽을 이용해 정보를 명확하게 표현하는 것을 강조했다면,
- 정보 시각화는 큰 범위의 집합에 대한 시각적 표현방법을 강조한다.
- 수치정보 뿐 아니라 텍스트나 지형정보 같은 비수치적 정보까지 포함한다.
- 카토그램, 분기도, 개념도, 계통도, 덴드로그램, 네트워크 다이어그램, 트리맵, 하이퍼볼릭 트리 등의 도구가 사용된다.
- 정보 디자인은 시각 디자인의 하위 영역으로, 정보를 구성하며 효율적으로 사용할 수 있게 하는 디자인 기술 및 업무이다.
- 즉 정보를 효과적으로 전달하기 위한 수단으로, 그래픽 디자인을 강조하는 용여이다.
- 데이터시각화, 정보시각화, 인포그래픽 모두를 포괄하는 개념이다.
- 인포그래픽은 복잡한 수치나 글로 표현되는 정보와 지식을 차트, 지도, 픽토그램, 다이어그램, 일러스트레이션 등을 활용하여 한눈에 파악할 수 있도록 시각적으로 표현하는 것이다.
- 설득형 메시지를 전달하기 위해 사용하며, 정보를 빠르고 분명하게 표현하는 것에 중심을 둔다.
- 인포그래픽은 일반인을 대상으로 특정 정보와 메시지를 전달하기에 적합하다.
시간 시각화
- 시간에 따른 데이터의 변화를 표현한다.
- 일정기간에 걸쳐 진행되는 변화와 트랜드를 추적하는데 주로 사용된다.
- 데이터의 경향성 즉 트랜드를 파악하는데 주로 사용된다.
- 시간 데이터는 이산형과 연속형 데이터로 구분될 수 있으며, 아래와 같은 툴을 사용할 수 있다.
이산형 | 막대그래프, 누적막대그래프, 묶은막대그래프, 점그래프 |
연속형 | 꺾은선그래프, 계단그래프, 추세선 |
- 막대그래프는 데이터 값을 길이로 표현한 막대를 배치함으로써 상대적인 차이를 한 눈에 알아볼 수 있도록 표현한다.
- 데이터의 색상을 표시하면 데이터의 상태나 특징을 다르게 표현할 수 있다.
- 막대그래프가 하나의 변수에 따라 달라지는 형태를 보이는 반면,
- 누적막대그래프는 두 개 이상의 변수를 동시에 다른다.
- 하나의 막대를 구성하는 세부항목 각각의 값과 전체의 합을 함께 표현할 때 유용하다.
- 묶은막대그래프는 누적막대그래프와 같이 두 개 이상의 변수를 동시에 다룰 때 사용된다.
- 세부항목의 값의 변화를 표현할 수 있지만, 누적합계나 추이 파악에는 부적절하다.
- 점그래프는 점의 집중 정도와 배치에 따라 흐름을 파악하기 용이하다.
- 꺾은선그래프는 점그래프에서 점과 점 사이를 선으로 연결한 그래프이다.
- 데이터의 연속된 특징을 표현하기에 적합하고, 경향성을 뚜렷하게 보여준다.
- 계단그래프는 변화가 생길 때까지 일정한 선을 유지하다 다음 값으로 바뀌는 지점에서 급격하게 변화하는 것을 표현한다.
- 꺾은선 그래프가 연속된 변화의 표현에 적합했다면, 계단 그래프는 특정 시점에서의 변화를 표현하는데 적합하다.
- 추세선은 데이터 값의 즉각적인 변화보다, 변화하는 경향성을 보여주는 직선 또는 곡선이다.
- 추세선의 데이터에 대해 다양한 함수를 적용해서 구할 수 있다.
- 함수는 지수형, 로그형, 선형, 이동편균형등이 사용된다.
분포 시각화
- 데이터의 분포를 시각적으로 표현하는 기법이다.
- 특정 변수의 값들이 어떻게 분포되어 있는지 파악하기 위해 사용한다.
- 만약 영역을 비율로 표현하는 경우 각 영역을 모두 합치면 1 또는 100%가 된다.
- 분포 데이터 시각화는 최대, 최소, 전체분포를 나타내는 그래프로 표현한다.
- 히스토그램, 파이차트, 도넛차트, 누적막대그래프, 트리맵 등으로 시각화가 가능하다.
- 히스토그램은 막대그래프의 일종이다.
- 가로축은 특정 변수의 구간 폭으로, 세로축은 데이터 분포 정도를 표현한다.
- 데이터셋 안에서 특정 변수의 값이 어떻게 분포되어 있는지 파악하는 경우 사용한다.
- 구간을 설정하여 데이터를 표현하기에 적절한 구간 폭의 선택이 필요하다.
- 구간폭이 좁으면 분포 차이를 잘 표현하지만 흐름을 파악하기 어렵다.
- 만약 넓다면 급격한 변화를 표현하기 어렵다.
- 누적히스토그램은 히스토그램의 각 구간의 값을 누적하여 표현한다.
- 그렇기에 마지막 막대는 전체 데이터의 총 수가 된다.
- 원그래프는 하나의 원을 구성하는 데이터의 비율에 따라 조각으로 나누어 데이터 분포를 표현한다.
- 데이터 값은 비율로 환산되어 표현된다. 그렇기에 각 요소의 비율을 한눈에 보여주나, 데이터 값을 정확하게 표현하기 어렵다.
- 도넛차트는 막대그래프를 누적하고 도넛 모양으로 만든 형태이다.
- 원 그래프가 면적으로 분포비율을 표현했다면, 도넛차트는 길이로 표현한다.
- 같은 성격의 데이터인 경우 여러 개의 차트를 겹쳐 표현할 수 있는데, 이를 중첩도넛차트라 부른다.
- 트리맵은 전체 데이터를 표현하는 하나의 사각형 영역에 세부 사각형들이 크기로 데이터 분포를 시각화하여 표현한다.
- 하나의 대분류에 속한 세부 분류 데이터들의 분포를 영역의 크기를 이용해 효과적으로 보여준다.
- 내부의 사각형도 하위 분류를 적용해 맵을 구성할 수 있기에, 계층형/트리 구조를 가진 데이터의 표현에 유용하다.
- 누적연속그래프는 누적영역차트라고도 부르며, 시간 변화에 따른 값의 변화를 선그래프의 영역으로 표현한다.
- 아래부분의 데이터 값이 윗부분의 위치에 영향을 준다. 값이 누적되기 때문인데, 값의 분포를 표현하는 데 적합하나 집단의 경향성을 알아보기는 어렵다.
관계 시각화
- 데이터 사이의 관계를 시각적으로 표현하는 것이다.
- 데이터셋에 변수가 2개 이상이 있을 때 이 변수들의 상관관계를 표현한다.
- 산점도, 버블차트, 히트맵이 예시이다.
- 산점도는 두 변수의 값을 좌표계를 활용하여 점으로 표시한다.
- 그리고 이를 통해 두 변수 사이의 관계를 표현한다.
- 양의 상관관계는 비례이며, 점이 오른쪽 위로 올라가는 추세이다.
- 음의 상관관계는 반비례이며, 점이 오른쪽 아래로 떨어지는 추세이다.
- 점들의 분포에 따라 집중도를 확인할 수 있으며, 관계 추정을 위해 추세선의 추가도 가능하다.
- 버블차트는 제3의 변수값을 원의 크기로 표현한 그래프로, 한 번에 3개의 변수를 비교할 수 있다.
- 제 3의 변값을 표시하는 원은 면적으로 표시되어야 한다.
- 히트맵은 데이터 분포와 관계에 대한 정보를 색으로 표현한다.
- 데이터를 식별하기 위해 각 칸마다 색으로 수치의 정도를 표현한다.
비교 시각화
- 하나 이상의 변수에 대해 변수 사이의 차이와 유사성 등을 표현하는 방법이다.
- 둘 이상의 변수를 비교하는 경우 대상의 수와 비교하려는 변수의 수만큼 다양한 경우가 존재하기에 하나 이상의 그래프로 전체를 비교할 수 있어야 한다.
- 히트맵은 여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현할 수 있는 도구이다.
- 관계시각화 뿐 아니라 비교시각화의 도구로도 유용하게 사용된다.
- 체르노프 페이스 실생활에서 사람의 얼굴을 쉽게 구분한다는 점에 착안했다.
- 데이터 표현에 따라 달라지는 차이를 얼굴의 모양으로 나타낸다.
- 귀, 머리카락, 눈, 코 등을 각 변수에 대응하여 다르게 표현한다.
- 스타차트는 하나의 공간에 각각의 변수를 표현하는 몇 개의 축을 그리고 축에 표시된 해당 변수의 값을 연결하여 별 모양으로 표현한다.
- 하나의 변수마다 축이 시작되는 시작점은 최소값, 가장 먼 끝점은 최대값을 나타낸다.
- 여러 변수들의 값을 비교하여 부족하거나 넘치는 변수를 표현하기 적합하다.
- 체르노프페이스는 한 대상의 특징을 명확하게 보여주지만 여러 대상을 한 번에 보여주기는 힘들다.
- 평행좌표계는 스타차트의 여러 축을 평행으로 배치하고 축의 윗부분을 최대값, 아래부분을 최소값으로 하여 값들을 선으로 연결해 표현한다.
- 다차원척도법은 객체간 근접성을 시각화하는 통계기법이다.
- 모든 변수를 비교해 비슷한 대상을 그래프 상에 가깝게 배치한다.
- 즉 유사한 데이터는 가깝게, 유사하지 않은 데이터는 멀게 위치시킨다.
- 대상 간 유사성 측정도에 따라 다음의 두 종류로 나눌 수 있다.
- 계량형 다차원 척도법 : 대상 간 실제 측정거리나 유클리드 거리로 나타낸다.
- 비계량형 다차원 척도법 : 계량형과 같은 절대적인 크기는 무시하고, 크기나 순서 등 순위에 관한 정보만으로 나타낸다.
- 참고로 유클리드 거리는 두 점 사이의 최단거리를 구하는 식이다. 모든 점들의 차이를 제곱한 값의 합에 루트를 씌운다.
- ex) (3, 5, 9, 10) / (4, 7, 5, 8) 의 유클리드 거리는 5이다.
공간 시각화
- 장소나 지역에 따른 데이터 분포를 표현한 것이다.
- 실제 지도나 지도모양의 다이어그램을 배경으로 데이터 위치를 시각화한다.
- 공간시각화를 위해서는 지형코드화 과정과 매핑과정이 필요하다.
- 지형코드화는 래스터 이미지를 고쳐 실제 지도나 좌표계에 일치시키는 과정이다.
- 래스터 이미지란 작은 점을 무수히 여러번 찍어 만든 이미지이다.
- 매핑은 좌표값을 가진 데이터르 다양한 방법으로 지도에 표시하는 과정이다.
- 단계구분도는 여러 지역에 걸친 정량 정보를 나타낼 때 데이터가 분포된 지역별로 색을 다르게 칠한다.
- 인구밀도 같은 걸 표현할 때 사용한다.
- 밀도가 높은 영역을 보다 진하게 칠한다.
- 지도상의 데이터 값을 정확하게 표현하나, 면적이 넓은 지역의 값이 전체를 지배하는 것과 같은 시각적 왜곡이 발생할 수 있다.
- 카토그램은 지도의 면적을 인위적으로 왜곡하여 데이터 값에 대한 직관적 이해가 가능하도록 한다.
1. 데이터 시각화 접근 방법 중 특정 주제의 지리적 분포와 패턴을 나타내는 방법은?
1) 주제 지도화
2) 통계적 그래픽
3) 인포그래픽
4) 스캐터플롯
1
2.다음 중 그래프에서 표현되는 데이터 값의 범위는 무엇인가?
1) 축
2) 범례
3) 스케일
4) 스코프
3
3. 데이터 시각화 도구 중 데이터 값의 분포를 표현하기에 적당하지 않은 것은?
1) 히스토그램
2) 파이차트
3) 트리맵
4) 평행좌표계
4
728x90
반응형
'자격증 > 빅데이터 분석기사' 카테고리의 다른 글
4_2. 분석결과 해석 및 적용_분석결과 활용 (0) | 2022.03.23 |
---|---|
4_2. 분석결과 해석 및 적용_분석결과 해석 (0) | 2022.03.20 |
4_1. 빅데이터 결과 해석_분석모형 평가 및 개선 (0) | 2022.03.20 |
3_2. 분석기법 적용_고급 분석기법 (2) | 2022.03.20 |
3_2. 분석기법 적용_분석기법 (0) | 2022.03.19 |