基于 R 语言的数据可视化教学
收藏
打印
发给朋友
发布者:lunwenchina
热度0票 浏览95次
时间:2020年8月19日 14:19
侯县平 / 成都信息工程大学物流学院
摘 要:数据可视化是数据分析的重要手段,鉴于 R 语言强大的数据可视化功能,分析如何基于 R 语言进行可视化教学,以激发学习兴趣,提升教学效果。
关键词:R 语言;数据;可视化;教学
统计数据只有在其背后隐藏的重要信息被充分挖掘利用之后其价值才得以显现。要发现这些重要信息,必须对数据进行仔细观察和严谨的统计分析。然而,由于数据本身包含的信息量大,重要信息往往隐藏的很深,没有有效的手段难以发现。通过图表、图像等方式对数据进行可视化,能够直观的展示数据特点,有利于发现其中隐藏的重要信息,从而为进一步严格的统计分析提供指引。一幅精心绘制的图形,包含了大量的信息,并且易于理解,便于沟通,能够达到一图胜千言的效果。因此,可视化已成为数据分析的一个重要手段。R 语言是一款优秀的免费统计分析和绘图软件,提供了丰富的数据可视化方法,绘图功能强,图形种类多,在进行数据可视化时具有明显的优势。将 R 语言引入统计学类课程,进行可视化教学,能够加深学生对概念的理解和记忆,帮助学生发现有价值的结果,激发学生的学习兴趣,提高数据分析能力。本文以具体数据为例,分析如何基于 R 语言来进行数据可视化教学。
一、数据
本文以 car 包中
[1]
的 Ericksen 数据集为例进行分析。
Ericksen 数据集是 1980 年美国大城市和其它城市犯罪率及相关数据的不完全统计,包含 66 个观测值,9 个指标。9 个指标分别为 minority(黑人或西班牙人裔占比)、crime(每1000人中的严重犯罪比率)、poverty(贫困率)、language(英语说读有困难的人的比例)、highschool(25 岁及以上未完成高中学业的比例)、housing(居住在有多个单元的小房屋中的比例)、city(因子变量,取值为 city 时表示大城市,取值为 state 时表示除大城市外的地方)、conventional(常规人口数量家庭比例)、undercount(不完全统计比例的初步估计)。
二、箱线图
箱线图是展示数据分布的一种图形,不仅能反映数据的分布特征,而且可比较多组数据分布特征。当 city 取不同的值的时crime的数据分布特征比较如图1所示,实现代码如下:
> library(car)
> head(Ericksen)
> boxplot( crime~city,data=Ericksen, notch=FALSE,xlab = "city", ylab="crime" )
从图 1 可以看出,大城市和其它城市犯罪率区别明显,大城市的犯罪率分布呈现有偏状态,而其它城市犯罪率分布具有离群点。
图 1 大城市和其它城市犯罪率箱线图
三、小提琴图
箱线图虽然能够展示和比较数据分布特征,但是却不容易看出数据的实际分布形状。而将数据分布的核密度曲线以镜像方式叠加到箱线图上组合成小提琴图,不仅能够展示和比较数据分布特征,而且可以看出数据的实际分布形状。具体如图 2 所示,实现代码如下:
> library(vioplot)
> vioplot(Ericksen$crime[Ericksen$city=="city"], Ericksen$crime [Ericksen$city=="state"],names=c("city","state"))
> title(xlab="city",ylab="crime")
图 2 大城市和其它城市犯罪率小提琴图
四、相关图
在进行数据分析时,除了关注数据的分布特征外,更为重要的是要考察数据间的相关性。相关系数矩阵是一个有效的工具,但当变量个数越来越多时,运用相关系数矩阵来考察相关性就会变得越来越困难。相关图可是对相关系数矩阵的可视化表达,形象直观,易于理解,可方便的用来考察数据间的相关性。具体如图 3 所示,实现代码如下:
> library(corrgram)
> corrgram(Ericksen, order=TRUE, lower.
panel=panel.shade,
upper.panel=panel.pie, text.panel=panel.txt,main="Corrgram of Ericksen intercorrelations")图 3 Ericksen 数据集中变量间的相关图
在图 3 中上三角形中,饼图顺时针填充的为正相关,逆时针填充的为负相关,颜色越深,相关性越强;在下三角形中,从左下到右上的斜线表示正相关,从左上到右下的斜线表示负相关,颜色越深,相关性越强。从图 3 可以看出,除了与 undercount 有微弱的正相关关系外,conventional 与其它变量都呈现负相关关系,且与 highschool 的负相关性最强。除了 highschool 与 language 有微弱的负相关关系外,除 conventional 以外的其它变量相互之间都呈现正相关关系,且 highschool 与 poverty 的正相关性最强。
五、结论
可视化有助于观察数据的特征,发现数据间隐藏的关系,R 语言提供了丰富的可视化方法,是进行数据可视化的理想工具。基于 R 语言的可视化教学,能够激发学生的学习兴趣,提高学习效果。在实践中还应加强方式方法的总结。
参考文献:
[1]https://CRAN.R-project.org/package=car