数据挖掘技术在学生成绩管理中的应用
数据挖掘技术在学生成绩管理中的应用
兆瑞琦 赵明辉
(辽宁轨道交通职业学院 沈阳 110036)
[摘 要]本文介绍首先数据挖掘技术的基本概念与决策树分析方法的基础上,通过数据挖掘技术将学生成绩进行分析处理构造决策树,并对结果进行分析。
[关键词] 数据挖掘 决策树 数字化校园
数字化校园建设在不断深入的过程中,产生了大量的数据信息,数据库存
储的数据量也在日益增长。若仍以简单的数据统计方法,显然无法发现数据中
存在的关系和规则。通过数据挖掘技术能够从这些庞大的数据中,发现有用的
信息。将学生的考试成绩通过数据挖掘技术进行合理的分析与处理,能够对学
生的学习成果进行评价,便于及时指导学生的教学行为。使考试成绩能够更有
效的反馈教学效果,沟通教学信息。
1.数据挖掘技术
1.1 数据挖掘的基本概念
数据挖掘是通过分析不完整的、随机的、含有噪声的数据,从大量数据中寻
找其规律,挖掘潜在的信息和知识的过程。与传统的数据统计分析方法相比,数
据挖掘得到的结果具有未知性、有效性和实用性的特点,是一种深层次的数据
分析方法。
1.2 决策树技术
决策树算法是一种逼近离散函数值的方法,是一种典型的分类方法。具有
分类精度高、生成模式简单、对噪声数据有很好的健壮性等优点。本文就是采用
决策树的分类算法,分析影响学生维修电工考试过关率的因素。
1.3 决策树属性选择度量
决策树算法的核心是如何确定分枝准则。通常,在树的每一个节点上使用
信息增益度量选择属性。选择具有最高增益(或最大熵压缩)的属性作为当前节
点的测试属性。这个属性使其反映划分的最小随机性或“不纯性”,同时对结果
划分中样本的分类所需的信息量最小。这种理论方法使得在确保找到一棵简单
的树的基础之上,对一个对象分类所需的期望测试数目达到最小。
2.决策树技术的应用
2.1 希望解决的问题
近几年我校学生的维修电工考试成绩的及格率一直不高,在这里以我校11
级、12级和这两个年级电气专业学生维修电工考试成绩为基础数据进行数据挖
掘,希望从维修电工考试成绩和考试中涉及的各个学科学生学习成绩情况来分
析挖掘出影响学生学习成绩的因素。
2.2 数据准备
1 数据清理
对采集的数据信息进行观察可以发现,有些学生没有考试成绩(可能由于
某些原因没有参加考试)对于上述这种情况采用忽略元组的方法进行删除。当
相对的空缺值较少时,也可采用采用人工填写的方法。
2 数据转换
由于学生成绩属于连续值属性而决策树技术需要离散值属性,需将学生成
绩进行离散化处理。
对于维修电工技能考试成绩采用百分制,因为只关心维修电工考试成绩是
否及格所以将学生维修电工分析表中成绩属性的所有值按大于等于60分、小于
60分划分成“及格”、
“不及格”两类。对于电工基础与电气控制,由于其知识点在
维修电工中所占的比重比较大,所以将其考试成绩分为“好”、
“一般”、
“差”三
类;对于电子技术期与电机拖动两门课程,由于其知识点在维修电工考试中所
占比重较小,所以将其考试成绩分为“好”、
“一般”两类。
3 数据归约
本次课题为了便于决策树模型的建立,删除了学生姓名、班级、英语等内容
与电工考试关系不大的考试成绩,保留了与电工考试相关的四科考试成绩,作
为四个属性建立成绩分类决策树模型的依据,生成学生成绩分析基本数据表。
2.3 利用ID3算法构造学生考试成绩分析决策树
本文选择了其中与学生考试成绩属性相关四个属性作为建立成绩分析分
类决策树模型的依据,以成绩及格作为分类属性。
具体的实现过程如下介绍:
(1)计算分类属性的信息量。
将样本按成绩是否及格分成2个类C1=“及格”,C2=“不及格”,其中S1=285,
S2=215总计S=500。计算出对给定样本分类所需的期望信息:
1
2
2
2
285
285
215
215
( ,
)
log
log
0.9858
500
500
500
500
I S S
(2)依次计算每个属性的期望量:
以计算“电气控制考试成绩”属性,该属性中有三个属性值为例,需要对每
个属性值所划分的子集计算信息量。对于“气控制考试成绩”=“好”,类 “及格”
有142个样本,类“不及格”有58个样本,则表示为(142,58);对于“电气控制考试
成绩”=“一般”,类“及格”有98个样本,类“不及格”有82个样本,则表示为(98,
82)。对于“电气控制考试成绩”=“差”,类“及格”有45个样本,类“不及格”有75
个样本,则表示为(45,75)利用给出的公式,计算得到“电气控制考试成绩”属性
各个子集的信息量:
2
2
142
142
58
58
(142,58)
log
log
0.8686
200
200
200
200
I
2
2
98
98
82
82
(98,82)
log
log
0.9943
180
180
180
180
I
2
2
45
45
45
45
(45,75)
log
log
0.9544
120
120
120
120
I
根据上述方法分别计算出“电子技术考试成绩”
“ 电气控制考试成绩”
“ 电
机拖动考试成绩”各属性的属性值。
(3)依次计算每个测试属性的信息熵。
通过相同的方式分别计算电工电子、电子技术、电机拖动期末考试成绩得
出其熵分别为0.9577,0.9586,0.9543。
依次计算每个测试属性的信息增益量。
Gain(电机拖动考试成绩)=I (s1,s2)-E(电机拖动考试成绩)=0.0316
通过相同的方式分别计算电工电子、电子技术、电机拖动期末考试成绩得
出信息增益量分别为0.0273,0.0514,0.0282。
从上述计算结果可知, 被选择为测试属性的是“电气控制成绩”,其属性
具有最高的信息增益 。创建一个节点,用“电气控制成绩”标记,同时根据它的
属性值,引出分枝,划分样本,然后在根据以相同的方式计算、划分各个分枝。最
终建立决策树模型得到学生维修电工成绩是否合格的决策树模型。如图3.1所
示。
3.结论
通过上面的结果可以看出,如果学生的电气控制成绩好并且电机拖动成绩
也好,即使学生的电工基础成绩一般或者较差最终的考试成绩也能够及格;如
果学生的电气控制成绩和电工基础成绩都好基本上考试成绩都能够及格。通过
上面的描述可以看出学生的电气控制学习成绩的好坏情况对于学生的维修电
工考试是否及格的影响很大,因此在今后的维修电工强化培训中应该加大力度
对学生的电气控制知识的强化训练提高考试及格率。
兆瑞琦 赵明辉
(辽宁轨道交通职业学院 沈阳 110036)
[摘 要]本文介绍首先数据挖掘技术的基本概念与决策树分析方法的基础上,通过数据挖掘技术将学生成绩进行分析处理构造决策树,并对结果进行分析。
[关键词] 数据挖掘 决策树 数字化校园
数字化校园建设在不断深入的过程中,产生了大量的数据信息,数据库存
储的数据量也在日益增长。若仍以简单的数据统计方法,显然无法发现数据中
存在的关系和规则。通过数据挖掘技术能够从这些庞大的数据中,发现有用的
信息。将学生的考试成绩通过数据挖掘技术进行合理的分析与处理,能够对学
生的学习成果进行评价,便于及时指导学生的教学行为。使考试成绩能够更有
效的反馈教学效果,沟通教学信息。
1.数据挖掘技术
1.1 数据挖掘的基本概念
数据挖掘是通过分析不完整的、随机的、含有噪声的数据,从大量数据中寻
找其规律,挖掘潜在的信息和知识的过程。与传统的数据统计分析方法相比,数
据挖掘得到的结果具有未知性、有效性和实用性的特点,是一种深层次的数据
分析方法。
1.2 决策树技术
决策树算法是一种逼近离散函数值的方法,是一种典型的分类方法。具有
分类精度高、生成模式简单、对噪声数据有很好的健壮性等优点。本文就是采用
决策树的分类算法,分析影响学生维修电工考试过关率的因素。
1.3 决策树属性选择度量
决策树算法的核心是如何确定分枝准则。通常,在树的每一个节点上使用
信息增益度量选择属性。选择具有最高增益(或最大熵压缩)的属性作为当前节
点的测试属性。这个属性使其反映划分的最小随机性或“不纯性”,同时对结果
划分中样本的分类所需的信息量最小。这种理论方法使得在确保找到一棵简单
的树的基础之上,对一个对象分类所需的期望测试数目达到最小。
2.决策树技术的应用
2.1 希望解决的问题
近几年我校学生的维修电工考试成绩的及格率一直不高,在这里以我校11
级、12级和这两个年级电气专业学生维修电工考试成绩为基础数据进行数据挖
掘,希望从维修电工考试成绩和考试中涉及的各个学科学生学习成绩情况来分
析挖掘出影响学生学习成绩的因素。
2.2 数据准备
1 数据清理
对采集的数据信息进行观察可以发现,有些学生没有考试成绩(可能由于
某些原因没有参加考试)对于上述这种情况采用忽略元组的方法进行删除。当
相对的空缺值较少时,也可采用采用人工填写的方法。
2 数据转换
由于学生成绩属于连续值属性而决策树技术需要离散值属性,需将学生成
绩进行离散化处理。
对于维修电工技能考试成绩采用百分制,因为只关心维修电工考试成绩是
否及格所以将学生维修电工分析表中成绩属性的所有值按大于等于60分、小于
60分划分成“及格”、
“不及格”两类。对于电工基础与电气控制,由于其知识点在
维修电工中所占的比重比较大,所以将其考试成绩分为“好”、
“一般”、
“差”三
类;对于电子技术期与电机拖动两门课程,由于其知识点在维修电工考试中所
占比重较小,所以将其考试成绩分为“好”、
“一般”两类。
3 数据归约
本次课题为了便于决策树模型的建立,删除了学生姓名、班级、英语等内容
与电工考试关系不大的考试成绩,保留了与电工考试相关的四科考试成绩,作
为四个属性建立成绩分类决策树模型的依据,生成学生成绩分析基本数据表。
2.3 利用ID3算法构造学生考试成绩分析决策树
本文选择了其中与学生考试成绩属性相关四个属性作为建立成绩分析分
类决策树模型的依据,以成绩及格作为分类属性。
具体的实现过程如下介绍:
(1)计算分类属性的信息量。
将样本按成绩是否及格分成2个类C1=“及格”,C2=“不及格”,其中S1=285,
S2=215总计S=500。计算出对给定样本分类所需的期望信息:
1
2
2
2
285
285
215
215
( ,
)
log
log
0.9858
500
500
500
500
I S S
(2)依次计算每个属性的期望量:
以计算“电气控制考试成绩”属性,该属性中有三个属性值为例,需要对每
个属性值所划分的子集计算信息量。对于“气控制考试成绩”=“好”,类 “及格”
有142个样本,类“不及格”有58个样本,则表示为(142,58);对于“电气控制考试
成绩”=“一般”,类“及格”有98个样本,类“不及格”有82个样本,则表示为(98,
82)。对于“电气控制考试成绩”=“差”,类“及格”有45个样本,类“不及格”有75
个样本,则表示为(45,75)利用给出的公式,计算得到“电气控制考试成绩”属性
各个子集的信息量:
2
2
142
142
58
58
(142,58)
log
log
0.8686
200
200
200
200
I
2
2
98
98
82
82
(98,82)
log
log
0.9943
180
180
180
180
I
2
2
45
45
45
45
(45,75)
log
log
0.9544
120
120
120
120
I
根据上述方法分别计算出“电子技术考试成绩”
“ 电气控制考试成绩”
“ 电
机拖动考试成绩”各属性的属性值。
(3)依次计算每个测试属性的信息熵。
通过相同的方式分别计算电工电子、电子技术、电机拖动期末考试成绩得
出其熵分别为0.9577,0.9586,0.9543。
依次计算每个测试属性的信息增益量。
Gain(电机拖动考试成绩)=I (s1,s2)-E(电机拖动考试成绩)=0.0316
通过相同的方式分别计算电工电子、电子技术、电机拖动期末考试成绩得
出信息增益量分别为0.0273,0.0514,0.0282。
从上述计算结果可知, 被选择为测试属性的是“电气控制成绩”,其属性
具有最高的信息增益 。创建一个节点,用“电气控制成绩”标记,同时根据它的
属性值,引出分枝,划分样本,然后在根据以相同的方式计算、划分各个分枝。最
终建立决策树模型得到学生维修电工成绩是否合格的决策树模型。如图3.1所
示。
3.结论
通过上面的结果可以看出,如果学生的电气控制成绩好并且电机拖动成绩
也好,即使学生的电工基础成绩一般或者较差最终的考试成绩也能够及格;如
果学生的电气控制成绩和电工基础成绩都好基本上考试成绩都能够及格。通过
上面的描述可以看出学生的电气控制学习成绩的好坏情况对于学生的维修电
工考试是否及格的影响很大,因此在今后的维修电工强化培训中应该加大力度
对学生的电气控制知识的强化训练提高考试及格率。