数据挖掘技术在学生成绩管理中的应用 |
2012-11-06 13:50 作者:曹文胜 来源:硅谷网 HV: 编辑: 【搜索试试】
|
|
【硅谷网11月6日文】据《硅谷》杂志2012年第16期刊文称,随着现代化信息技术的迅猛发展,互联网应用范围的日益扩大,人们所面临的信息量也与日俱增,在学生成绩管理中引入数据挖掘技术实属必要。主要从建立数据仓库、对数据进行预处理、数据挖掘以及知识获取等方面对学生成绩管理中数据挖掘技术的应用情况进行全面阐述。
0前言
社会的发展,高校招生规模的扩大,我国高等教育的侧重点也从之前的精英教育逐步向大众化教育扭转。在激烈的市场竞争环境下,大学生面临极为严峻的就业形势,这也对大学生的素质及综合能力提出更高要求。笔者从学生成绩管理实际需求出发,结合所收集的大量数据,应用数据仓库及数据挖掘技术构建起雪花型数据仓库模型,利用Apriori关联规则算法对学生成绩进行综合挖掘。
1学生成绩管理中数据挖掘技术的应用
1.1构建数据仓库
首先,收集集市数据。充足的数据时开展数据分析工作的重要前提,笔者专门收集了近三年来不同部门和不同种类的集市数据,在对所收集到的集市数据进行集成处理的基础之上,将其集成到以下五个关系表当中,这五个关系表分别是学生基础数据表、学生考试成绩表、学生智商数据表、学生学习态度表以及其他数据表。
1)学生基础数据表。高中是为大学学习奠定基础的重要阶段,通过高考成绩,一方面可以对学生的能力及基础有个大致的了解,另一方面,还可以从一定程度上分析出学生的学习态度。学生高考原始成绩经过相关整理之后录入高考成绩数据表当中,经过集成处理之后,便可以得到涉及到学生编号、性别、年龄以及高考分数等相关信息在内的学生基础表;2)学生考试成绩表,学校教学主管部门会以学期为单位对在校生的期末考试成绩进行统计,教学管理部门统计的学生成绩可以像学生成绩数据表提供数据支持。考虑到课程的性质以及课时等方面所存在的差异,还需要对各个学期的学生成绩进行相应的整合处理,这样便可以得到简化后的学生成绩,将部分不必要的字段予以剔除,除此之外,还需要对课程编号字段进行构造。最终建立起的学生考试成绩模型主要涉及到学生编号、课程编码以及学生成绩等三方面的内容;3)学生智商数据表,专门针对学生智商开展相应的测试,并对测试结果进行统计,所得到的数据就是制定学生智商数据表的主要依据,学生智商数据表模型主要涉及到学生编码、测试以及学生评测等几方面内容。利用相应的智商测试软件对学生智商进行测试所得到的分数就是学生智商数据。笔者在此特选择了两种智商测试软件在既定的时间中进行测试,并且组织学生进行评测,这样可以最大限度的保障所得到的智商数据的说服力;4)学生学习态度表,相比较而言,对学生的学习态度进行量化难度较大,但是,学习态度是一个能够捕捉的度量,从学生课程的出勤率、课堂的表现、课余作业完成情况以及课外知识的主动获取情况等方面都可以对学生的学习态度有所了解。在此统计学生的学习态度是在学生并不知情的前提下进行的。所建立起的学生学习态度模型主要涉及学生编码、课程编码、课堂出勤率、课下作业完成情况、业余生活安排以及学期数等方面内容。笔者结合长期的教学经验,得出学生课余表现可以从学生业余时间安排方面反映出来,其中最主要的一项指标就是业余玩电脑游戏所花费的时间,因此,特选择学生业余时间玩电脑游戏的时间作为考察学生学习态度的一项重要指标,以学期为单位对学生进行随机调查,并对调查结果进行统计分析;5)其他数据表。除了以上所列举的几点,学生成绩还会在一定程度上受诸如教学设施设备、教师授课水平以及学习环境等外部因素的影响。随着对教育教学重视程度的不断提高,用于教育的资金投入及支持力度的不断扩大,我国绝大多数的高等院校不管是硬件教学设施设备,还是软件师资力量,均已经达到一定的水平,对于纳入到考察范围中的学生而言,这些硬件及软件教学条件并没有明显的区别,在此,课程的授课教师是需要特别予以指出的,需要以学校所掌握的教师的相关信息为主要依据,对各门课程的授课教师的相关信息进行收集和整理。
其次,建立雪花型模型数据仓库。在上述分析结果的基础之上,构建起雪花型数据仓库模型,详见下图所示。
图1雪花型数据仓库模型示意图
在上述雪花型数据仓库模型中,以各门课程的学生成绩作为考察样本,分别从成绩、智商、态度、基础以及教师等不同方面对样本进行考察和分析。由于智商和基础是一个相对恒定的量,并不会发生明显的变化,因此,将智商和基础两项划归到事实表当中,剩余的成绩、态度以及教师等因素的稳定性相对较弱,用其充当维表的键。
1.2数据预处理
在正式进行数据挖掘之前,一项十分关键的步骤就是对相关数据进行预处理,具体就是针对相关数据进行清理、变换、集成,对于完整性欠缺的数据、含噪声的数据以及不一致的数据进行相应的处理。
1)数据转换,这里需要进行转换的数据主要包括学生基础数据表中的数据、智商数据表中的数据以及学生学习态度数据表中的数据。考试年限不停,题目的满意程度也有所区别,再加上各年度录取分数线也会有所波动,因此,分析学生的高考分数具有一定的难度。然而可以选取相同年度的学生进行分数对比分析,在分析之前首先要将考试分数转换为百分制,即以一百分为最高分数,置换最为分析对象的学生的高考成绩。以字母m表示学生高考分数,h表示最高分,M表示置换分数,则有计算公式:M=[m/h×100];通过分析学生智商测试结果可知,大部分学生智商分数在一百分上下波动,相互之间差别不大,同样将智商测试分数转换为百分制,按照上述高考分数处理方式,对所有学生智商测试分数进行百分制分数转换,以I表示;学生学习态度有关考察项目需要经过数字化处理,K表示统计次数,g表示玩电脑游戏以及非学习次数,G表示得分,则有计算公式:G=(1-g/K)×100;2)数据清理,如果统计全面度不够,则需要一相同类的样本的平均值为主要依据进行人工填补。通过对现有的调查统计资料进行分析,选择与空缺值学生接触较多、关系较好并且表现接近的学生充当同类样本;3)离散化处理,这主要针对的是百分之分数,以成绩等级为依据,对百分之分数进行等级划分。
1.3数据挖掘
1)建立事务数据库。所谓事务,就是数据仓库中事实表的数据记录项,针对事务实施维度下钻,向所有度量项进行事务代码分配;2)关联规则的生成。利用Apriori递推算法分析相关数据,在此所统计的数据共涉及三个年级、四个专业,设支持度最小值为0.1,可信度最低为0.5,生成频繁项集以及关联规则,在此只对部分关联规则进行分析。
关联规则支持度置信度
[B5,C5]⇒A516.1%92.4%
[L5,A5]⇒C528.2%90.3%
[A5,I4]⇒C516.2%85.4%
[A5,I3]⇒C511.2%79.5%
[I5,A2]⇒C210.4%90.1%
[G1,L1]⇒C115.1%95.2%
C5⇒L525.2%94.5%
L5⇒A531.1%91.1%
2结语
随着现代化信息技术的迅猛发展,人们所面临的信息量也与日俱增,在此背景之下,数据仓库及数据挖掘技术的应用也越来越普遍。在学生成绩管理中数据挖掘具有发挥着重要作用。
|
|
|
|
【对“数据挖掘技术在学生成绩管理中的应用”发布评论】 |
版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
|
|
|
|