데이터 시각화의 기본

데이터 시각화 부분을 공부하며 정리한 것이다.

[TOC]

데이터 시각화의 기본

전주의적 속성(Preattentive attribute)

어떤 것을 보자마자 뇌에서 바로 알아차릴 수 있도록, 강조하기 위한 시각화 속성

길이로 할 수도 있고,

으로 할 수도 있으며,

빨간색처럼 사회 통념상 ‘경고’의 뜻으로 받아들여지는 색의 속성을 활용해 시각화할수도 있다.

이 밖에도 너비, 방향, 곡률, 크기, 모양, 표시 추가, 둘러싸기, 그룹핑, 움직이는 모션 등을 활용할 수도 있다.

유의) 그러나 전주의적 속성은 여러 개를 하나의 차트에 함께 사용하려고 하면 문제가 된다. 주의가 분산되어 어떤 것도 강조하지 못할 수 있다. 하나의 차트에 사용하는 전주의적 속성의 개수는 가능하면 최소화하자.

데이터 유형

데이터에는 크게 3가지 유형이 있다.

범주형(nominal)

다른 값과 같다(==) 또는 다르다(!=)로만 비교할 수 있는 자료형

이름, 성별, 색상, 개인의 종교 성향 등

operations : ==, !=

순서형(ordinal)

다른 자료와 대/소(>,<) 또는 순서적으로 비교할 수 있는 자료형

두번째 순서, 1~5 만족도, 1~3위, 상/중/하, 시간 등

operations : ==, !=, >, <

수치형(Quantitative)

수치 계산을 할 수 있는 자료형, 구간형/비율형으로 나눌 수 있다.

매출, 이익, 점수, 시간 등

수치형-구간형(Interval)

날짜, 위치 등 0이라는 기준점이 정해져 있는 것이 아닌, 임의로 선택해야 하는 자료형.

그래서 직접적으로 비율 등으로 비교할 수는 없고, 그 둘의 차이(+,-)만 비교할 수 있다.

operations : ==, !=, >, <, +, -

수치형-비율형(Ratio)

길이, 부피, 온도 등 0이라는 기준점이 정해져 있는 자료. 비율 등을 측정할 수 있다.

operations : ==, !=, >, <, +, -, x, ÷

다음은 추가로 검색하다가 찾은, 데이터 유형에 따른 좋은 시각화 방법

차트 유형

막대 차트

길이로 척도를 나타내는 차트. 길이가 조금만 차이가 나더라도 금세 알 수 있기 때문에, 막대 차트는 카테고리를 비교하는 가장 효과적인 방법이다.

수평/수직 방향일 수 있다.

최대/최소 항목을 찾을 때 가장 흔하게 사용하며, 정렬해서 비교하면 매우 유용하다.

시계열 꺾은선 차트

장기적 변화를 보일 때 쓰인다. 수평인 X축은 시간을, 수직인 Y축은 척도를 표시한다. 선의 높이와 경사로 추세를 볼 수 있다.

산포도

서로 다른 두 변수의 관계를 관찰할 때 유용하다.

점 도표

2개 차원에 걸쳐 값을 비교해준다.

단계 구분도(필드맵)

미리 정의된 영역 내에서 음영이나 색의 차이로 그 영역의 값이나 카테고리를 나타낸다.

기호 지도

특정 장소의 값을 보여준다.

하이라이트 표

표를 색상으로 규약화하면 모든 값을 정확히 찾을 수 있으면서도 매우 시각적으로 볼 수도 있다.

불릿 그래프

실제 값 대비 타겟의 비교를 보여주는 가장 좋은 방법에 속한다. 막대기는 실제 값이며, 흰색 선은 타겟 값을, 음영 영역은 성과의 범위(나쁨, 만족, 좋음 등)다.

트리 맵

트리 맵은 서로 중첩된 직사각형을 순차적으로 사용하여 계층적인 데이터를 전체에 대한 비율로 표시한다. 각각의 나뭇가지는 데이터의 양을 반영하는 직사각형으로 전체에 대한 비율을 기준으로 직사각형(나뭇가지)이 분류된다. 색이나 차원을 추가하여 강조하거나 원하는 카테고리별로 작성할 수 있다.

박스 플롯

박스플롯은 데이터의 중앙값, 사분위수, 사분위수 간 범위의 1.5배 영역 등을 시각화한다. 이를 통해 데이터의 분포 및 경향, 이상치를 한 눈에 파악할 수 있다.

파이, 도넛 차트

소수의 상위 수준 항목을 비교하거나 각 항목들이 전체에 기여하는 정도를 보려고 할 때, 전체에 대한 %로 나타낸 차트.

유의) 크기는 전주의적인 특성이긴 하지만 사람들은 파이 차트 내에서 차이가 있다는 것만 알지 정확하게 그 크기의 차이를 알지 못한다. 항목이 너무 많아도 좋지 않다. 심지어, 3D 파이 차트는 시점에 따라 그 크기를 왜곡하기도 한다.

그래서 비율 수치에 대해서만 쓰는 게 맞고, 비율 사이의 절대적 비교가 필요한 경우에는 막대 차트를 쓰는 게 맞다.

효과적인 시각화

시각 요소별 효과성

위치, 길이, 추세선의 각도 > 크기, 색 밝기 > 여러가지 색, 모양 순으로 시각화에 효과적이다. 이를 염두하여 시각화를 하도록 한다.

다차원 그래프

일단 3차원 그래프는 쓰지 마라. 예를 들어 3차원 그래프라고 하면 3개의 변수를 같이 보여주려고 하는 건데, 그럴 바에는 3번째 변수를 색이나 크기 같은 다른 시각적 요소로 2차원 그래프에 추가하는 것이 낫다. 또는 다변수일 경우 2차원 그래프 여러 개로 나누는 것이 낫다.

색각이상자를 고려한 디자인

유의) 적녹색각 등을 유의하여 디자인해야 한다. 만약 신호등 등의 표식을 활용해 디자인을 할 경우, 위험하다. 초록색 대신 파랑이나 오렌지색을 쓰자. 또는 모양을 변경하거나 글자를 붙여서

참고 자료

0%