信息可视化整理
无论数据总量和复杂程度如何,数据间的关系大多可分为三类: 比较 / 构成 / 分布&联系。
基于分类 / 时间的数据对比,通常需用到比较型图表。 比较条目较少时 ,如5个地区收件量的对比,可选用 柱状图 表示。
条形图 当条目较多, 如大于12 条 ,移动端上的柱状图会显得拥挤不堪,更适合用 条形图 。 一般数据条目不超过 30 条 ,否则易带来视觉和记忆负担。 柱形图还有许多丰富的应用。例如堆积柱形图,瀑布图,横向条形图,横轴正负图等。
看趋势 – 折线图 当X轴为 连续数值 (如时间)且 注重变化趋势 时,则适用折线图。
扩大差异 – 南丁格尔玫瑰图 。由于扇形的半径和面积是平方的关系,南丁格尔玫瑰图会将数值之间的差异放大, 适合对比大小相近的数值 。玫瑰图也适于表示 周期 / 时间 概念,比如星期、月份。依然建议 数据量不超过 30 条 ,超出可考虑条形图。
当 比较正反两类 甚至更多维度的数据时,可试尝试双向条形图。用颜色区分大区,空心/实心区分收件量和派件量, 既能整体比较大区,又能详细对比地区的情况 。
打怪升级,再加点难度。 在双向图上再增加一个维度 ,如下表,比较 5 个地区的利润及相应的收入和成本。请先思考一下,再下滑看推荐图表。
通过图形一眼就能看出深圳区的利润低于广州区,即使它的收入高于广州区,但成本相对来说高于广州区。
目标达成 – 子弹图 考察指标的达成情况,如 收入达标情况及所处区间 (优、良、差)。
子弹图,因为像子弹射后带出的轨道。相较于仪表盘,它能够在狭小的空间中表达丰富的数据信息,在信息传递上有更大的效能优势。
若还要比较4个季度的收入情况,只需用不同颜色区分。如下图,一眼便知第二季度表现较好,而第一季度则不佳。
性能 – 雷达图。多维的性能数据 ,如综合评价,常用雷达图表示。 在游戏中看到它比较多 。 它在商务、财务领域应用较大,适合用在固定的框架内表达某种已知的结果。常见于经营状况,财务健康程度。
指标得分接近圆心,说明处于较差状态 ,应分析改进; 指标得分接近外边线,说明处于理想状态 。 比如我对企业财务进行分析,划分出六大类:销售、市场、研发、客服、技术、管理。通过雷达图绘制出预算和实际开销的维度对比 ,会很清晰。如下图:
以上就是“比较”类的常用图表,归纳如下:
一个整体被分成几个部分。这类情况会用到构成型图表 ,如五大区的收件量占比、公司利润的来源构成等。
单层 – 饼状图
第1关中,对比5个地区的收件量时用到了柱状图。若看 占比情况 ,饼状图更合适。饼图是有缺陷的,它擅长表达某一占比较大的类别。 但是不擅长对比。30%和35%在饼图上凭肉眼是难以分辨出区别的 。当 类别过多,也不适宜在饼图上表达 。
如果变成 17 个地区,会怎样?饼图分类一般 不超过 9 个 ,超过建议用条形图展示。
除饼图外, 环形图(甜甜圈图)亦可表示占比,其差异是将饼图的中间区域挖空 ,在 空心区域显示文本信息 ,比如标题,优势是其 空间利用率更高 。
分层 – 环形图、旭日图
对于管理层而言,需先把握大局和重点。比如大区负责人需一眼看到重点地区及重点分部的情况(如下图),如何展示?
这个叫旭日图,逐层下钻看数据,大区的重点地区及相应分部的构成情况一目了然。
累计趋势 – 堆叠面积图
看数值构成随时间变化的案例:第一大区(包含四个重点地区)近 四年收入构成的趋势 要如何可视化?
推荐方案是 堆叠面积图,可以展现分量(地区)对于总量(大区)的贡献 ,并 显示总量(大区)的变化过程 。需要说明的是,地区收入的起点并非从 y=0 开始,而是在下面的地区基础上逐层叠加,最后组成一个整体。
面积图最佳设计指南:波动较大的类别放在最上面、使用透明色、不要超过4个类别,y轴从0开始,不要用面积图展示离散数据,只有连续数据有中间值。
累计比较 – 堆叠柱状图
如果将上图X轴的标签文字(即年份)和图例(即地区)互换(如下图A),用来看 每个地区近四年的收入构成 ,用哪个图更合适?
堆叠面积图 A 方案和堆叠柱状图 B 方案都可以表现累加值。差别在于, 堆叠面积图的 x 轴是连续数据(如时间),堆叠柱状图的 x 轴是分类数据 。此案例中的 x 轴是非连续的分类数据,因此用 B 方案更适合。
累计增减 – 瀑布图
若想表达两个数据点间数量的演变过程,可使用瀑布图。 开始的一个值,在经过不断的加减后,得到一个值 。瀑布图将这个过程图示化,常用来展现财务分析中的收支情况。
通过分布 & 联系型图表能看到数据的分布情况,进而找到某些联系, 如相关性、异常值和数据集群 。
两个变量 – 散点图
仍以业务为例,下图为全国网点的单票成本/收入分布情况。
单单这样看,可能看不出什么,如果加两条平均线就不一样了。
加了平均线,就知道哪些网点高于平均线,哪些低于平均线。但网点那么多, 总不能逐个点击查看是哪个大区的 , 给散点加上颜色后 ,就很有意义了。
通过此图,可以看出哪些大区单票利润较低,急需提升,比如 广泛聚集于右下角的第四大区,单票收入低于平均线,单票成本却高于平均线 。
三个变量 – 气泡图
大家都知道,网点 总利润除了和单票利润有关,还和体量(即收件量)有关 ,用散点的 面积大小 表示收件量,就变成了气泡图。
一切和空间属性有关的分析都可以用到地理图 。比如 各地区销量 ,或者 某商业区域店铺密集度 等。气泡图与地图结合可演变为热力图。通过热力图,能看到哪些网点收派件量较多,需进行资源调配。
地理图一定需要用到 坐标维度 。可以是 经纬度 、也可以是 地域名称 (上海市、北京市)。坐标 粒度即能细到具体某条街道 ,也能宽到 世界各国范围 。POI是很重要的要素。POI是“Point of Information”的缩写,可以翻译成信息点,每个POI包含四方面信息,名称、类别、经度纬度、附近的酒店饭店商铺等信息。借助POI,才能按地理维度展现数据
最佳设计指南:一、使用细的地图轮廓线;选择合适的配色;少用填充图案;选择合适的数据区间。
用户行为分析,将浏览、点击、访问页面的操作以高亮的可视化形式表现。下图就是用户在Google搜索结果的点击行为。
总结:当我们拿到数据后,先提炼关键信息, 明确数据关系及主题 , 再选择合适的图表进行可视化 。
好的可视化是会讲故事的,它向我们揭示了数据背后的规律。对可视化的使用认知或许来源于下面这张图。虽然结构清晰,但它只针对Excel图表,不够丰富。
数据分析中经常会提及维度。维度是观察数据的角度和对数据的描述。 我们可以说地区是一种维度,这个维度包含上海北京这些城市。也可以认为销售额是一个维度,里面有各类销售数据。维度可以用时间、数值表示,也可以用文本,文本常作为类别。 数据分析的本质是各种维度的组合
维度主要是三大类的数据结构:文本、时间、数值。地区的上海、北京就是文本维度(也可以称为类别维度),销售额度就是数值维度,时间就是世界
数值维度可以通过其他维度加工计算得出,例如按地区维度,count出有多少是上海的,有多少是北京的。维度可以互相转换。比如 年龄原本是数值型的维度,但是可以通过对年龄的划分,将其分类为小孩、青年、老年三个年龄段,此时就转换为文本维度。
1.箱线图
箱线图一般人了解的不多, 它能准确地反映数据维度的离散(最大数、最小数、中位数、四分数)情况。凡是离散的数据都适用箱线图。
下图就是箱线图的典型应用。线的上下两端表示某组数据的最大值和最小值。箱的上下两端表示这组数据中排在前25%位置和75%位置的数值。箱中间的横线表示中位数。
2.关系图
展现 事物相关性和关联性的图表 ,比如 社交关系链、品牌传播、或者某种信息的流动 。
有一条微博,现在想研究它的传播链:它是经由哪几个大V分享扩散开来,大V前又有谁分享过等,以此为基础可以绘制出一幅发散的网状图,分析病毒营销的过程。关系图依赖大量的数据,它本身没有维度的概念。
3.矩形树图
上文说过, 柱形图不适合表达过多类目 (比如上百)的数据,那应该怎么办? 矩形树图出现了。它直观地以面积表示数值,以颜色表示类目 。
下图中 各颜色系代表各个类目维度,类目维度下又有多个二级类目 。如果用柱形图表达,简直是灾难。用矩形树图则轻轻松松。
电子商务、产品销售等涉及大量品类的分析,都可以用到矩形树图。
4.桑基图
比较冷门的图表,它常表示信息的变化和流动状态。
5.0 漏斗图
大名鼎鼎的转化率可视化 ,它 适用在固定流程的转化分析 ,你也可以认为它是 桑基图的简化版。 转化率也可以用几组数字表示,不一定做成漏斗图。
可读性**
图表的 首要功能是解释 ,而不是设计,尤其大部分图表都会落入到 过度设计 的陷阱。
客观性
数据的解读因为每个人的观点和视角不同,可以呈现诸多的结果。这也是我们常说统计学会撒谎的原因。
下图是一张销售额柱形图,看来销售额没有啥特大变化嘛。
换另外一种图表展示。就看到了变化的增长趋势。
实际上两张图表的数据没有任何差异,为什么呢? 区别只在坐标轴。第一张图的Y坐标轴起始为0,第二张图起始是2.45 。第二张是截取了部分的柱形图。
统一性
如果图表整体颜色是冷色调,那么就不要再加入暖色。
如果图表文字是雅黑,就不要再加入宋体。
如果某地区数据,用了柱形图对比,其他地区也遵循柱形图样式。
如果某图表,女性使用红色,男性使用蓝色,那么这一规范应该在所有图表体现。除了颜色,其他设计元素同理。
如果有多张图表,图表元素应该统一,如标题、坐标轴刻度、坐标轴位置等。
用户为啥会有「将数据转化成图表」的需求?
最终的答案一定是回归到 企业管理的「第一性原理」——开源节流 。企业需要 数据去分析如何才能节省更多钱,如何才能赚更多钱。 未来的 BI 的产品不能将自己定位为「工具」,而是应该定位为「服务」。
1.0 从流程来看,探索性可视化是这样的:
此类可视化集中在图表的微观功能上 ,像 辅助线、预警、各种图表类型 等。
2.0 解释性可视化需求
一般集中在完成了数据探索,并且 形成一定数据洞察后的 story-telling 场景 。大家在网上看到的一些「 一张图搞懂 XXX 」、「一张图了解 XXX」就属于解释性可视化 。
此类集中在整体的图表可视化上,比如将多个图表组合起来, 制作成一份报告或者故事版,所以会提供类似标题编辑器、排版编辑器等功能 。目前市面上的 BI 产品,像网易有数、BDP、Tableau、PowerBI 都是采取这种模式
1. 这种偏业务型的产品框架,并不太适合国内市场 。
因为这类产品面向的用户基本上是专业用户(数据分析师),而忽略了一个事实—— 大部分中国企业并没有设立专门的数据分析岗位 。有能力配备数据分析师的企业一般都是中大型企业,他们付费能力可能比较强,但是也意味着用户量会较少。
专业用户对应的是数据分析师,而 半专业用户则对应的是类似财务、销售、HR 等,在业务上专业但数据分析上不专业的用户。这类用户的 日常工作一般集中在解释性可视化上面,比如年终总结、年度规划、每月汇报 中都需要利用到数据可视化。这类用户的流程是这样的:
[图片上传失败...(image-e6e0b4-1556103840929)]
用户导入数据,无需太复杂的操作,即可直接生成图表。 存在问题:
可视化的理解: 信息可视化就是用图形正确的表现复杂的信息和逻辑关系 ,
?通过图片特有的美观和趣味性,吸引读者 ?通过最优表现形式,使内容更易懂
?拉近读者与产品的距离,提升品牌认知度
作品一:安全产品首页展示
创作灵感:从需求文档中看到这些子产品名字有御前卫、八卦阵、御城河……当时就觉得非常有意思,脑海中立刻浮现出一个古城的画面,古城周围有士兵、有八卦 阵、有御城河等。跟视觉设计师表达这个想法后大家一拍即合,最终产出了这个方案。 中间的城楼最开始是红色的,有点太抢眼,为了避免喧宾夺主又体现出数据被 保护的感觉,就把它改成了这种半透明的、很数据化的虚拟感觉 。
作品二:产品结构图
创作灵感:通过竞品分析发现国内外同行在这方面都非常下功夫,所以我们也要力求用一张图来把产品结构和关系描述清楚。下篇文章会讲具体的设计过程。
作品三:使用流程示意图
创作灵感:产品经理给出的这个图很严谨,但是对于用户来说理解起来比较困难,因此先用线框图把它简化为单向的流程图,但这样又不够美观和直观。心灵手巧的视觉设计师经过图形的美化,巧妙解决了这个问题。
修改中(局部):
改良后:
作品四:方案描述示意图
也是先梳理信息逻辑,用更易懂的方式去表现,再通过视觉设计师美化。
改良图:
把一件事情做好,首先要知道做好的标准是什么。把这些失败的作品放到一起,就可以大概得出失败的原因是什么,而好的标准又是什么。
[图片上传失败...(image-cf4898-1556103840928)]
从表现形式的角度“信息图表”作为视觉工具应包括以下六类:图表、图解、图形、表格、地图、列表。
按照形式特点我们常把图表分为关系流程图、叙事插图型、树型结构图、时间分布类及空间解构类五种类型。
1、关系流程类图表
2、叙事插图型图表
叙事性图表就是强调时间维度,并随着时间的推移,信息也不断有变化的图表。
3、树状结构示意图
把繁复的数据通过分支梳理的方式表达清楚。运用分组,每组再次分类的主体框架表示主从结构。
4、时间表述类示意图
时间表述类示意图只要以时间轴为中心加入文字数据即可。从设计的角度来看,将主题融入图形设计中,挑选重要事件点解读,就可以使画面精美,加深理解力度。
5、空间结构类示意图
运用设计语言把繁杂结构模型化、虚拟化是空间结构示意图存在的意义
这个流程需要协作完成, 数据需要筛选和整理 ,精准是首要条件 , 其次是梳理。找出出主线逻辑 ,筛选次要内容从而进行精心的设计。
1、基础图形创意
柱状图和饼状图是最常用的两种基础图形,但是简单的几何形态很难给人设计感。 对基础图形的创意来突出设计主题 ,就可以取得一举多得、事半功倍的效果
上面图片中左右的内容是完全一致的,但右图即使读者不详细关注也可心领神会。
2、高吸引度与视觉亮点
从传统网页到社交微博,用户对信息的浏览速度也越来越快,高吸引度便是最宝贵的财富点。
3、画面简洁明了
4.象征图示
在设计的上要注重保持风格的统一,这样才能让人视觉连贯、赏心悦目。
1、饼图顺序不当
饼图是一种非常简单的可视化工具,但他们却常常过于复杂。份额应该直观排序,而且不要超过5个细分。有两种排序方法都可以让你的读者迅速抓取最多的重要信息
方法一:将份额最大的那部分放在12点方向,逆时针放置第二大份额的部分,以此类推。
方法二: 最大部分放在12点,然后顺时针放置
2、在线状图中使用虚线
虚线会让人分心,而是用实线搭配合适的颜色更容易彼此区分
3、数据摆放不直观
你的内容应该符合逻辑并于直观的方式引导读者阅读数据。对类目进行按字母,次数或数值大小进行排序
4、数据模糊化
确保数据不会因为设计而丢失或被覆盖。例如在面积图中使用透明效果来确保用户可以看到全部数据
5、耗费读者更多的精力
要通过辅助的图形元素来使数据更易于理解,比如在散点图中增加趋势线
6、错误呈现数据
确保任何呈现都是准确的,比如,气泡图的大小应该跟数值一样,不要随便标注
7、在热图中使用不同颜色
一些颜色比其他颜色突出,赋予了数据不必要的重元素。反而你应该使用单一颜色,然后通过颜色的深浅来表达
8、柱状过宽或过窄
柱子与柱子之间的间隔最好调整为宽的1/2
9、数据对比困难
对比是呈现差异的有效方式,但如果你的读者不易对比时,效果就大打折扣了。确保数据的呈现方式一致,可以让你的读者对比
10、使用三维图
尽管这些图看来让人振奋,但3D图也容易分散预期和扰乱数据,坚持2D是王道
数值可视化的本质就是用各种视觉属性来表达数据值的大小。视觉属性有这么几类:位置、长短、面积、颜色。对应视觉设计的点,线、面和色值。
其可视化的核心思想在于根据上下文用拟物的方式,将其与我们现世界中数值的事物联系在一起。
如果是奔跑的速度15km/h,那么可以画一个运动员跑步的图来表达这个数字。如果是奔跑的速度70km/h,那么就可以画一只猎豹奔跑,通过模糊的背景来表达奔跑的速度快。如果要描述山的高度5km,就可以画以座耸入云霄的山,给人一种高山的直观形象,更多的创意设计都可以围绕想象展开
汽车行驶的速度,分为慢速、中等和超速,如下左图所示。在表达评价信息时,你需要根据背景 展开联想 。比如说:降水量50毫米,我们可能想象到的就是用一个试管接了50毫米深的水。
一维表格如下图所示,数据表格中只有一行或者一列数据。我们需要对数据可视化的目标进行分析,跟进目标可将数据分为以下几类:
?强调绝对数值的数据;
?强调趋势的数据;
?百分比数据;
?不同类型的数据。
3.1.1 柱状图
收入10000元的就是收入5000元的2倍,GDP一万亿就是五千亿的两倍,这种数据称之为等比数据。柱状图的阅读者一般视觉会被柱子本身所吸引,不会去注意纵轴的起点,用户往往会默认柱子的长度代表绝对数值的大小。所以柱状图的纵轴的起点必须从零开始。
3.1.2 直方图
直方图数据本质的区别在于表达 连续的区间上数量的分布 。统计学中,直方图的纵轴要求是计数数据,也就是说,直方图是用于统计某个区间内的对象个数。
3.1.3 柱状图变式:条形图
条形图还有一个很大的排版优势,能将文字和条形在一侧显示,能够对分类附加说明。在中国,如果不是因为排版的原因,请慎用这种横向的条形图。
3.1.4 柱状图变式:计数条形图
3.1.5 柱状图变式:径向柱状图、径向条形图、螺旋图
为了适应排版的区域,或者增加图形的趣味性,会对柱形图进行扭曲变形。
3.1.6 柱形图变式:用拟物代替柱子
在平面设计,海报宣传页面中,一般会添加拟物的元素,使得数据的表达更加生动。其 基本的思路都是围绕着数据主体展开联想,用拟物的对象代替柱子 。
示例1 :如果描述的是足球相关的内容,那么可以用踢球的形象代替柱子。
示例2 :如果描述的是星体相关的内容,那么可以用星体的形象代替柱子。
示例3 :如果描述的是男女差异,那么可以用男女的形象代替柱子。
示例4 :如果是抽烟相关的数据,正好用烟头的形状代替柱子。
示例5 :如果是山的高度,那么可以用山的形态。
3.1.7 柱形图变式:按某些维度展开重组设计
上一节中,用拟物代替柱子的思路仍然是在柱状图的框架下的。但是很多时候,甚至可以抛开柱状图的束缚,根据关键词展开联想。在联想的过程中,我们只需要记住第一章中提到的数据可视化的本质:通过位置、长短、大小、颜色四个视觉元素来表示数据大小。
示例2 :城市和省份PM2.5值(假设数据)
这种数据只能以地点为关键词展开,以地图的方式呈现 。
PM2.5是一个没有形象的概念,所以可视化的时候,不太可能在PM2.5上面展开。 那么这种数据只能以地点为关键词展开,以地图的方式呈现 。
省份在地图上本身就是一个形状大小固定的面,可以通过颜色热力图来表示数值(下图,左)。
示例3 :各网站访问量
例4 :迁徙地图
单个城市的迁徙图的数据原型仍然是一维数组。以地图为维度展开设计时,需要表达的是各个城市与北京的连线。连线的长短信息已经被城市到北京的距离所用,于是只能用连线的颜色来表示数值。
3.2 强调趋势的数据
3.2.2 折线图的变式:曲线图
3.2.3 折线图的变式:均线图
3.2.4 折线图的变式:面积图
3.2.5 折线图的变式:股指走势图
一般来说,百分比的数据使用饼图(或环形图)的方式表达,这是最常规的。
环形图与饼图不同点在于环形图可以将主题与图更好地融合。
3.3.2 饼图变式:将饼形转化成对象拟物形态。
示例一 :如果是描述人体的成分,那么可视化可以围绕人形展开,将饼的形状变成人的形状。
示例二 :如果你想描述各类行业人群占比,那么你可以考虑画出100个人,各类行业的人用不用样式的图形,如左下图所示;而当你想描述各类枪杀案件枪支的来源,下右图所示。
STEP1:确定表意正确
“正确”是信息图最基本的要求,所以这里首先要确保信息图的内容是正确的。
对于业务比较复杂难理解的产品,可以让产品经理先根据自己的理解画一个图,设计师和产品经理进行沟通,确认双方的理解是一致的。
《淘宝技术这十年》里有一句话说的好“好的架构图充满美感”。淘宝工程师用十年的时间证明了这件事。而其实不仅是技术架构图,好的流程图、结构图、信息图 等都充满美感。
怎样优化信息图的表达形式呢?如果是一个逻辑比较复杂的结构图,可以这样:
虽然逻辑没有错误,但是箭头有交叉,看起来不美