알라딘

데이터 시각화 교과서 - 데이터 분석의 본질을 살리는 그래프와 차트 제작의 기본 원리와 응용

클라우스 윌케 (지은이), 권혜정 (옮긴이), 최재원 (감수) | 책만
  • 등록일2021-06-21
  • 파일포맷pdf
  • 파일크기92 M  
  • 지원기기아이폰, 아이패드, 안드로이드, 태블릿, PC
  • 보유현황보유 1, 대출 0, 예약 0, 누적대출 3
  • 평점 평점점 평가없음

책소개

정확성과 심미성을 모두 갖춘 데이터 시각화의 바이블!
통계적 본질에 근거해 데이터 분석 결과를 효율적으로 전달하는 데이터 시각화에 대한 모든 것!


데이터 시각화는 예술이자 과학이다. 과학적으로 정확하면서 미적으로 흉하지 않아야 하며, 또한 미적으로 탁월하면서도 과학적으로 오류를 용납하지 않는 결과물을 만들어야 한다. 데이터 시각화는 무엇보다도 데이터를 정확하게 전달해야 한다. 데이터 분석 결과를 정보 왜곡 없이 사실 그대로, 그리고 보는 사람에게 인지적 부담 없이 쉽고 명확하게 전달하는 '그래프와 차트, 도표' 제작 방법에 대한 기본 원리와 실전 응용에 대해 자세히 설명한다. 데이터 과학자, 디자이너, 마케터, 컨설턴트, 학생, 교수, 의사, 기자, 직장인, 기업 대표 등 누구나 할 것 없이 정확하고 올바른 정보 전달에 관심 있는 이라면 누구나 참고해서 읽어야 할 책이다.

[이 책의 구성]
이 책은 3부로 구성된다. 1부 '데이터, 시각화로 날개를 달다'에서는 막대 그래프, 산점도, 파이 차트 같은 도표와 차트 유형을 설명한다. 특히 시각화의 과학적 원리에 중점을 둔다. 세상에 존재하는 모든 시각화 방식을 백과사전처럼 나열하기보다는, 발표 자료에 많이 나오거나 도표를 직접 만들 때 유용한 핵심적인 시각적 효과들을 소개한다. 1부에서는 시각화하려는 데이터의 유형이 아니라 전하고자 하는 메시지의 유형에 따라, 시각화를 분류해 설명한다.

2부 '그래프 디자인의 원칙'에서는 도표들을 결합할 때 생기는 여러 디자인 문제를 다룬다. 데이터 시각화의 미적 측면에 가장 중점을 두지만, 물론 그게 전부는 아니다. 주어진 데이터셋에 알맞은 유형의 도표나 차트를 선택했다면 색상, 기호, 글씨 크기 같은 시각적 요소를 보기 좋게 구성해야 한다. 그래야 뜻이 명료하게 전달되고 보기에도 좋은 결과물이 나온다. 2부의 각 장에서는 그동안 내가 실무에서 거듭 겪어왔던 여러 문제를 다룬다.

3부 '시각화 레벨업 노하우'에서는 1부나 2부에 부합하지 않는 그 밖의 주제들을 다룬다. 이미지와 그래프를 저장할 때 주로 선택하는 파일 형식, 시각화 소프트웨어 선택 기준, 문서 전체의 맥락을 고려한 그래프 배치 방법을 설명한다.

이 책은 논리적인 순서로 전개되지만 각 장이 독립적인 내용으로 구성되어 있으므로 첫 장부터 차례대로 읽지 않아도 된다. 자유롭게 페이지를 건너뛰면서 그때그때 관심 있는 부분이나 고민 중인 주제를 다루는 부분을 찾아 읽자. 한 번에 끝까지 읽기보다 항상 곁에 두고 조금씩 읽으면서, 시각화 도표를 만들 때마다 책에 나오는 개념을 몇 가지씩 시도해보고, 다음번에는 다른 개념이 나오는 장을 읽거나 예전에 읽었던 장을 복습하는 편이 이 책을 더 알차게 활용하는 방법이다. 예전에 읽었던 장을 몇 달 뒤 다시 읽으면 같은 내용에서도 다른 깨달음을 얻을 수도 있다.

이 책에 나오는 시각화 도표는 대부분 R의 지지플롯2(ggplot2) 패키지로 만들었다. 그러나 책 자체는 R 언어에 국한되지 않고 시각화 도표 제작에 통용되는 원칙을 다룬다. 무슨 소프트웨어를 사용했는지는 부수적인 요소일 뿐이다. 이 책에 나오는 도표는 어떤 시각화 소프트웨어를 사용해서든 만들 수 있다. 다만 지지플롯2나 비슷한 패키지들에는 다른 시각화 라이브러리에 비해 이 책에 쓰인 기능들이 훨씬 편리하게 구현되어 있다. 무엇보다도 이 책은 R 언어 학습서가 아니므로 코드나 프로그래밍 기술을 설명하지 않는다. 따라서 코딩보다는 도표 자체의 개념에 집중하자. 시각화 도표 만드는 방법이 궁금하다면 깃허브(https://github.com/clauswilke/dataviz)에서 이 책의 소스 코드를 확인할 수 있다. 또한 관련한 패키지 설치환경과 방법은 이 책의 도서 정보 페이지(https://www.onlybook.co.kr/entry/dataviz)에서 찾아볼 수 있다.

[이 책의 주요 특징]
■ 색상을 활용해 데이터를 강조, 구별, 표현하기 위한 기본 개념
■ 중요한 정보를 다양한 방식으로 표현하는 바람직한 기호화 방법
■ 데이터 시각화의 단골 유형을 보여주는 풍부한 그림 자료
■ 좋은 그래프와 나쁜 그래프에 대한 다양한 예시
■ 문서나 보고서에서 이야기를 효율적으로 전달하는 차트 활용법

[이 책의 독자 대상]
데이터 과학자, 데이터 분석가, 디자이너, 마케터, 컨설턴트, 학생, 교수, 의사, 기자, 직장인, 기업 대표 등 누구나 할 것 없이, 정확하고 올바른 정보 전달에 관심 있는 이라면 누구나

[감수의 글]
데이터 시각화 과정에서 두 가지 원칙을 지켜야 한다. 하나는 사실의 왜곡이 없어야 하는 것이고 다른 하나는 보는 사람이 인지적인 부담 없이 쉽고 명확하게 시각화 결과물을 이해할 수 있어야 한다는 점이다. 그런데 실제 업무에서 이런 원칙을 지키는 것은 쉽지 않다. 데이터의 특징이나 분석 결과물은 숫자인데 이를 시각적 요소로 변환하는 과정에서 필연적으로 질적인 변화가 발생하기 때문이다. 마치 애니메이션과 실사물의 차이처럼 내용과 주제는 같지만 표현하는 방식이 완전히 달라지는 것이다.

이 책의 독특함과 효용성은 숫자를 시각적 요소로 변환하는 과정에서 핵심적인 고려 사항을 구체적이고도 명확하게 제시하고 있다는 점이다. 예를 들어 분석 결과는 두 그룹의 평균 값의 비교일 수도 있고, 비율의 비교일 수도 있으며, 시간에 따른 추세의 변화일 수도 있고 심지어는 확률의 불확실성마저 분석 결과의 하나로서 시각화의 대상일 수 있다. 이렇게 다양한 분석 결과를 왜곡 없이 효과적으로 전달하기 위해 차트의 모든 구성 요소, 즉 축, 스케일, 차트 모양, 기호, 색상, 그래프 면적 등이 어떻게 서로 조화롭게 조직되어야 하는지 잘 정리되어 있어서 감수 작업을 하면서도 데이터 시각화에 대해 체계적으로 다시 한번 정리할 수 있는 유익한 계기가 되었다.

저자소개

텍사스 대학교 오스틴 캠퍼스의 통합 생물학 교수다. 독일 보훔 루르 대학교에서 이론 물리학 박사 학위를 받았다. 계산생물학, 수학적 모델링, 생물정보학, 진화생물학, 단백생화학, 바이러스학, 통계학을 주제로 한 과학 논문 170편 이상을 단독 또는 공동으로 저술했다. 카우플롯(cowplot), 지지릿지(ggridges) 등 데이터 시각화에 쓰이는 인기 R 패키지를 작성하고, 지지플롯2(ggplot2) 패키지 제작에도 기여했다.

목차

1장_ 시작하며: 이 책의 내용과 구성

__이 책의 예시 그래프를 이해하는 법



[1부] 데이터, 시각화로 날개를 달다


2장_ 데이터 시각화: \'읽는\' 데이터에서 \'보는\' 데이터로

__시각적 속성의 의미와 데이터 유형

__데이터 값을 시각적 속성으로 바꾸기

3장_ 위치 스케일: 좌표와 축

__데카르트 좌표

__비선형 축

__곡선 축이 있는 좌표계

4장_ 색상 스케일

__색을 활용한 데이터 구분

__색을 활용한 데이터 값 표현

__색을 활용한 강조

5장_ 다양한 시각화 방식

__수량의 시각화

__분포의 시각화

__비율의 시각화

__x-y 관계로 나타내는 시각화

__지리공간 데이터의 시각화

__불확실성의 시각화

6장_ 수량 데이터의 시각화

__막대 도표의 다양한 활용

__묶은 막대와 누적 막대

__점 도표와 히트맵

7장_ 데이터 분포의 시각화: 히스토그램과 밀도 도표

__단일 분포 상태의 시각화

__여러 분포 상태를 하나의 도표로 시각화

8장_ 데이터 분포의 시각화: 경험적 누적 분포 함수와 QQ 도표

__경험적 누적 분포 함수

__고도의 비대칭 분포

__QQ 도표

9장_ 여러 분포 상태의 결합 시각화

__가로축에 기준을 둔 분포 상태의 시각화

__세로축에 기준을 둔 분포 상태의 시각화

10장_ 비율 데이터의 시각화

__파이 차트

__병렬 막대 도표

__누적 막대와 누적 밀도 도표

__전체 대비 부분 비율의 표현

11장_ 내포된 비율 데이터의 시각화

__내포 비율 시각화의 잘못된 사례

__모자이크 도표와 트리맵

__내포 파이 차트

__평행 집합

12장_ 여러 정량 변수의 관계 시각화

__산점도

__상관곡선

__차원 축소

__쌍 데이터

13장_ 독립 변수의 시계열 데이터와 함수 시각화

__단일 시계열 데이터

__다중 시계열 데이터와 용량-반응 곡선

__2개 이상의 반응 변수를 포함한 시계열 데이터

14장_ 추세의 시각화

__평활화를 통한 데이터 보정

__정의된 함수 형식으로 추세 시각화

__추세 제거와 시계열 데이터 분해

15장_ 지리공간 데이터의 시각화

__투영 도법

__레이어를 활용한 지도

__단계구분도

__단순화한 카토그램

16장_ 불확실성의 시각화

__빈도의 개념을 이용한 확률의 시각화

__점 추정의 불확실성 시각화

__곡선 적합의 불확실성 시각화

__가설적 결과 도표



[2부] 그래프 디자인의 기본 원칙

17장_ 잉크 양 비례의 원칙

__선형 축 도표 그리기

__로그 축이 있는 도표 그리기

__데이터 값을 면적으로 나타내기

18장_ 오버플로팅: 겹치는 점 처리 방법

__반투명 값과 지터링

__2차원 히스토그램

__등고선 그래프

19장_ 효과적인 색 사용을 위한 조언

__목적 없는 무분별한 색 사용은 금물

__비단조적 색상 스케일 구성

__색각 이상자를 배려하자

20장_ 불필요한 기호화

__불필요한 기호화는 범례 디자인을 망친다

__범례가 없어도 좋은 도표

21장_ 여러 개의 패널로 구성된 도표

__소형 다중 패널

__복합형 도표

22장_ 제목, 캡션, 표의 효과적 활용

__도표 제목과 캡션

__축과 범례 제목

__표, 제대로 만들기

23장_ 데이터 이해를 돕는 시각화의 주변 요소

__적절한 수준의 요소 활용

__배경 격자

__쌍 데이터__

24장_ 축 레이블의 글자는 큼직하게

25장_ 선 그림은 피하자

26장_ 3차원 그래픽과 차트는 그만

__불필요한 3차원 그래픽은 지양하자

__3차원 위치 스케일도 이제 그만

__3차원 시각화가 필요한 경우



[3부] 시각화 레벨업을 위한 꿀팁

27장_ 가장 흔히 쓰는 이미지 파일 형식

__비트맵과 벡터 그래픽

__비트맵 그래픽 무손실 및 손실 압축

__이미지 형식 변환하기

28장_ 올바른 시각화 소프트웨어 선택법

__재현 가능성과 반복 가능성

__데이터의 탐색적 분석과 데이터 표현

__내용과 디자인은 분리하자

29장_ 스토리텔링과 요점 전달

__이야기란 무엇일까

__장군님을 위한 도표 만들기

__방대한 정보는 복잡한 도표로

__기억에 남는 도표 만들기

__일관성을 유지하되 반복은 피할 것

한줄 서평