当你面对一个数据集时,如何用图形将其展示出来,这就是可视化问题。简单说,数据可视化是将数据用图形展示出来的方法,它是数据分析的基础,也是数据分析的重要组成部分。可视化本身既是对数据的展示过程,也是对数据信息的再提取过程,它不仅可以帮助我们理解数据,探索数据的特征和模式,还可以提供从数据本身难以发现的额外信息。对使用者而言,可视化分析需要清楚数据类型、分析目的和实现工具三个基本问题。数据类型决定你可以���出什么图形;分析目的决定你需要画出什么图形;实现工具决定你能够画出什么图形。
本书以R语言为实现工具,以数据可视化分析为导向,结合实际数据介绍可视化方法。全书包括10章内容。第1章介绍数据可视化的基本问题以及R语言数据处理的基本方法,为可视化分析奠定基础。第2章介绍R语言绘图基础,**介绍R的传统绘图包graphics中的基本绘图函数和ggplot2包的绘图语法及其应用。第3章介绍类别数据的可视化方法,包括类别频数和频数百分比的可视化方法。第4章介绍数据分布的可视化方法,包括直方图与核密度图、箱线图和小提琴图、点图等。第5章介绍变量间关系的可视化方法,包括散点图、散点图矩阵、相关系数矩阵等。第6章介绍样本相似性的可视化方法,包括平行坐标图和雷达图、星图和脸谱图、聚类图和热图等。第7章介绍时间序列的可视化方法,包括展示时间序列变化模式的图形、随机成分平滑曲线以及时间序列动态交互图等。第8章介绍概率分布的可视化方法,包括二项分布、正态分布、分布、t分布和F分布的可视化以及抽样分布的可视化方法。第9章介绍其他一些特殊的可视化图形以及图表组合的绘制方法。第10章介绍与可视化相关的一些基本问题和注意事项。
本书特色:
(1)不同的可视化视角。与其他可视化书籍不同,本书根据数据类型和可视化目的对图形进行分类,如类别数据的频数图形、数值数据的分布图形、变量间的关系图形、样本的相似性图形、时间序列图形等,有利于读者根据所面对的数据类型和分析目的选择图形。
(2)体现R语言可视化的强大功能及其多样性和灵活性。全书精选400多幅图。图形绘制以ggplot2为主,结合使用传统绘图包graphics和绘图代码相对简单的基于ggplot2开发的一些绘图包,如ggiraphExtra、ggpubr等。对于ggplot2不能绘制或代码相对复杂的一些图形,使用了其他一些包,如plotrix、vcd、 aplpack等。
(3)详细的绘图代码。除少数示意图外,每幅图形均列出了相对独立的绘制代码,并标有详细注释,直接运行即可得到相应的图形。
(4)详尽的图形解读。每幅图形均结合实际数据给出了详尽解读,以帮助读者更好地理解和应用。
本书可作为高等院校各专业开设数据可视化分析课程的教材,也可作为数据分析工作者、R语言和可视化分析爱好者的参考书。阅读本书需要具备一定的统计学基础知识,如统计量的计算、概率分布、参数估计、假设检验、相关分析与回归建模检验、时间序列预测等。
R语言是个永远也挖不完的金矿,其中的更多资源还需要读者自己挖掘。因作者水平有限,本书介绍的可视化图形只是冰山一角,也难免存在不当之处。只要能起到抛砖引玉的作用,就达到了本书的目标。