把数据转化成有效的可视化形式(任何种类的图表)是让数据发挥作用的。图表是可视化的中心。要达到合适的数据用合适的图表展示,我们需要掌握图表的特性,可视化图表按其特性可分为分布类、流程类、占比类、区间类、关联类、趋势类、时间类和地图类,可视化图表众多,常用的包括柱图、线图、条图、地图、雷达图、矩形树图、气泡图、饼图、环图、仪表盘等。
常见的数据质量问题包括:1.数据收集错误,遗漏了数据对象,或者包含了本不应包含的其他数据对象。2.数据中的离群点,即不同于数据集中其他大部分数据对象特征的数据对象。3.存在遗漏值,数据对象的一个或多个属性值缺失,导致数据收集不全。4.数据不一致,收集到的数据明显不合常理,或者多个属性值之间互相矛盾。例如,体重是负数,或者所填的邮政编码和城市之间并没有对应关系。5.重复值的存在,数据集中包含完全重复或几乎重复的数据。正是因为有以上问题的存在,直接拿采集的数据进行分析or可视化,得出的结论往往会误导用户做出错误的决策。因此,对采集到的原始数据进行数据清洗和规范化,是数据可视化流程中不可缺少的一环。
可视化的目的,是为了反映数据的数值、特征和模式,以更加直观、易于理解的方式,将数据背后的信息呈现给目标用户,辅助其作出正确的决策。但是通常,我们面对的数据是复杂的,数据所蕴含的信息是丰富的。如果在可视化图形中,将所有的信息不经过组织和筛选,全部机械的摆放出来,不仅会让整个页面显得特别臃肿和混乱,缺乏美感;而且模糊了重点,分散用户的注意力,降低用户单位时间获取信息的能力。
我们认识到了数据可视化的必要性,但缺乏数据可视化方面的技能,部分原因可以归结于,数据可视化只是数据分析过程中的一个环节,数据分析师可能将精力花在获取数据、清洗整理数据、分析数据、建立模型,但在展示沟通上力不从心。与此同时,对于可视化类型的选择,既不是纯粹美学,也不是完全个人化。一个不合适的方案,受众可能会觉得乏味或者费解,甚至可能造成和受众之间的信任壁垒。