华佗养生网
您的当前位置:首页基于R语言的数据挖掘课程实验设计

基于R语言的数据挖掘课程实验设计

来源:华佗养生网
Microcomputer Applications Vo1.32,No.5,2016 文章编号:1007-757X(2016)05—0031—04 基金项目 微型电脑应用2016年第32卷第5期 基于R语言的数据挖掘课程实验设计 岳强,胡中玉,文瑾,赵卿 摘要:大数据时代的到来,让数据挖掘知识和技术得到了快速的发展和应用。针对该课程实验存在的问题,设计了关联、 分类和聚类实验方案,研究了Apriori关联算法、ID3分类算法和K-Means聚类算法,在R语言环境下实现了这些算法并对 实验结果做出分析。通过教学实践表明,该课程实验有效地激发了学生的学习兴趣,培养了学生使用数据挖掘方法分析和解 决问题的能力。 中图分类号:TPl8;TP3l1 文献标志码:A Experiment Design of Data Mining Course Based on R Language Yue Qiang,Hu Zhongyu,Wen Jin,Zhao Qing (Kunming University,Kunming 650214,China) Abstract:With the coming of Big Data,knowledge and technology of data mining develop very quickly.In view of the problems in the data mining experiments,plns abouta association,classification and clustering are designed.The Apriori algorithm,ID3 algo— rithm and K—Means algorithm are researched.These algorihms atre realized by using R lnguage,and experaimental result is analyzed. hrough tThe teaching practice,the experiments can inspire students’interest in learning effectively,and train ability of students to analyze nd solave problems by using data mining method. Key words:Experiment Design;Data mining;R language;Association;Classification;Clustering 0引言 挖掘原理和技术,必须将理论教学和实验教学良好结合,既 要强调理论知识的讲解,更要重视实验内容的组织和设计, 这样才能让学生真正掌握数据挖掘的精髓,达到学以致用的 目的,提高专业核心技能。 1课程实验存在的问题 zz1.1学生知识结构存在缺陷 由于数据挖掘是一门交叉学科,所以要求学生也要具备 多方面的知识和技能结构。一方面学生要具有良好的数理基 础,另一方面也要具备优秀的程序设计能力。数据挖掘中的 相关定义会涉及到大量的数学公式,数学基础比较薄弱的学 生容易退缩,失去学习的兴趣。算法的实现过程又需要使用 递归、多重迭代和集合操作等较复杂的编程技术,所以学生 普遍感觉该课程内容晦涩难懂,实验任务难以完成,从而对 zP数据挖掘是计算机科学与技术、软件工程等信息技术类 专业一门非常重要的专业技术课程,在信息技术类专业的人 才培养方案中占有重要地位。数据挖掘技术是一门综合性非 常强的交叉学科,融合了数据库、人工智能、机器学习、统 计学和模式识别等学科的内 ”。为了让学生全面掌握数据 基金项目:云南省教育厅科学研究基金项目(2011Y237)、昆明学院科学研究项目(ⅪL】5013) 作者简介:岳强(1977一),男,昆明市人,昆明学院,讲师,硕士,研究方向:数据挖掘、软件工程,昆明,650214 胡中玉(1981.),女,昆明市人,昆明学院,讲师,硕士,研究方向:计算机仿真,昆明,650214 文瑾(1963.),男,昆明市人,昆明学院,副教授,学士,研究方向:软件测试技术,昆明,650214 赵卿(1979.),男,昆明市人,昆明学院,讲师,硕士,研究方向:软件工程,昆明,650214 ·31· sgiolePf课程产生畏难情绪【2J。 关键词:实验设计;数据挖掘;R语言;关联;分类;聚类 1.2实验内容组织有待改进 数据挖掘是从海量的数据中获取知识的过程,实验开 展时理想的情况是从大型的数据库中分析数据和挖掘知识, 但受限于课程学时,各高校一般为该课程开设的学时数为 32至48,实验学时只占课程学时的三分之一,所以在实验 中不可能也没有必要使用海量数据,这就考核到了教师的教 学组织能力,课堂教学内容需要优化整合,实验内容要真正 做到“精练”。教师首先需要收集和整理一批数量和维度适 中的案例数据,最好是能激发学生学习兴趣的,其次设计实 验时应该提高设计性和综合性实验的比重,减少验证性和演 示性实验的数目,让学生在有限的实验学时内训练到最重要 的核心技能。另外,实验环境和软件工具的选取也非常重要, 对时间、人力和实验资源都起到节约的作用。 2基于R语言的数据挖掘课程实验设计 R语言是一款优秀的数据挖掘软件,和其他数据挖掘软 件相比,它是一个免费的开源软件,简单实用,语句格式易 于理解,只需具备基础的程序编制能力,就能快速上手,而 且提供了功能强大的统计计算和图形绘制功能,有利于将挖 掘结果图形化显示,方便学生观看实验效果 。下面以数据 rpzzzPsgiolePfrpzzzPsgiolePfrpMicrocomputer Applications Vo1.32,No.5,2016 基金项目 微型电脑应用2016年第32卷第5期 基于密度的算法,如DBSCAN算法;(4)基于网格的算法, 如STRING算法;(5)基于模型的算法,如SOM算法 J。 每类算法本身并无优劣之分,使用者要根据数据特性来选择 合适的聚类算法。 定义6给定一个有n个对象的数据集,聚类将数据进 E=∑ 1∑x∈ci IIx一五l12 平均值。 (4) 其中X是空间中的点,代表给定的数据对象, 是簇ci的 2.3.2 K.Means算法描述 输入:数据集D,要划分的簇的数目k。 行k个划分,每~个划分乘坐一个簇,k≤n。这k个划分满 足下列条件:(1)每个簇至少包含一个对象;(2)每一个对 象属于且仅属于一个簇。 K.Means算法是使用的最广泛的聚类算法,它将n个对 象划分成k个簇,簇内的对象具有较高的相似度,而簇间的 对象的相异度较高。相似度根据一个簇中所有对象的平均 值来计算。算法首先随机选取k个对象,这些对象被认为是 它所在簇的中心,计算剩余对象与各个簇中心的距离,将它 归到最近的簇,然后重新计算每个簇的平均值。重复这个过 程,直到准则函数收敛[13-15J。 输出:k个簇的集合。 从D中随机选取k个对象做为初始簇的中心; Repeat; 根据簇中对象的均值,将每个对象分配到最相似的簇中 重新计算每个簇中对象均值; 计算准则函数E; 2.3.3实验结果 如表3所示: 定义7K—Means算法的准则函数定义为公式(4): 地区 北京 天津 河北 表3全国各省市出生死亡情况统计数据 出生率 8.32 7.9l l3.33 死亡率 4.92 5.86 6.78 地区 安徽 福建 江西出生率 l2.75 11.9 l3.86 山西 内蒙古 辽宁 吉林 黑龙江 上海 11.3 1O.21 6.89 7.55 7.88 9.07 5.97 5.73 5.36 5.O5 5_39 6.03 sg广西 14.19 江苏 9.37 7.O7 浙江 1O.38 5.57 调用kmeans()函数将数据进行分类,簇的数目定位 3,即将数据分为3类,核心代码见下,运行结果如图5所 示: K-means clustering wiEh 3 Clus ̄rs of sizes 10,12 Cfuseer舶ean5: 出生率 死亡摩 1 8 3,6矗57 5.7700O0 2 11.03夸0OO 5 9嘎30O0 3 1辱.2若4i57 5。968333 Clustering ec七口r: 【王l 1 1 3 2 2 1 1 1 1 1 2 3 2 3 2 2 1 2 2 3 3 2 1 3 3 3 2 Wlchin cIusEe 4吼of squares by cluster: 【1l 9.81020 8.01630 23,16766 (between SS/ ̄oual SS宣zzzP81.罨%l 图5聚类结果图 kml=kmeans(pv[,一1],center=3) 以上结果显示了3个类别所含的样本数,分别为9、10 和12,每个类别的出生率和死亡率的均值,以及每个样本 所属的类别。 将每个样本图形化显示,横坐标为出生率,纵坐标为死 亡率,用不同的符号代表不同的聚类,星号“ ’代表每个 聚类的中心,可以认为3个类别分别代表低、中、高出生率 iol5.99 云南 山东 河南 湖北 湖南 广东 海南 重庆 ePfUnti1准则函数不再发生变化。 死亡率 6.4 5.9 地区 四JlI 实验数据来自某年我国各省市的出生和死亡情况,数据 11.11 9.19 6.11 11.26 11.96 11.96 6.32 5.96 6.71 4.66 5.99 B K  l4.62 5.7l 勰 10.1 6.3 下方显示出省市名,结果如图6所示: 石 6 ■ 5 B 叭 聚类的数目是不确定的,以上实验的聚类数取值为3, 要选择出最好的聚类数,可以使用聚类优度来度量。聚类优 度用下式计算如公式(5): 的省市。为使图中显示的内容更加直观,选取每个聚类的样 本点以及出生率最低和最高的样本点强调显示,并在样本点 ·34· rp出生率 死亡率 贵州  陕西 甘肃 青海 宁夏 4 H 图6显不名称的样本分布图 聚类优度= (5) (下转第37页) Microcomputer Applications Vo1.32,No.5,2016 基金项目 微型电脑应用2016年第32卷第5期 (上接第34页) 实现代码如下: count ̄-arow(pv)一1 opt=rep(0,count) { kml=kmeans(pv[,一1】,center=i) opt[i]=kml¥betweenss/kml¥totss } round(opt,2) 运行结果如图7所示: l 】0·00 0·68 0t8.2 0·89 0·93 0-95 0-96 0· 7 0-97 0t97 【l11 0-98 0-98 0.99 0-99 0.99 0。99 0-9登0.9§0.99 1.00 [2zl 1.O0 I.O0 1.O0 1.O0生.O0 1.O0 i-O0 1.O0 i.O0 1.O0 zP图7聚类优度结果图 羲批麓妻毙簟 sg·37· for in 1:count) iol3总结 出版社,2014. 从结果中可以分析得出,当聚类数小于等于8时,随着 聚类数的增加,聚类优度的值变化明显,从0.68快速增长 到0.97,相应的聚类效果越来越好。但聚类数大于8后,聚 类优度变化缓慢,其变化趋势如图8所示: zz图8聚类优度变化趋势图 ePf术,2013(11):59. 的设计、制作与分享环节工作在很多高校都是有专业的信息 技术或教育技术老师来负责的,涉及微课作品录制的场景创 设、视频的构图或音频分布、图形图像颜色的搭配、分镜头 稿本的撰写等,课的录制是在学校已建的录播室完成,采用 四路信号同步录制(其中两路为教师正面特写及全景,一路 为学生中景,另一路为教师计算机操作屏幕画面),所提供 的教学设备主要有计算机、交互式电子白板、无线话筒等。 视频镜头主要有教师讲授镜头、学生镜头和计算机屏幕等, 以镜头间切换为主,除遵守视频的黄金分割构图规律外,整 个作品有80%的时间为教师的操作界面,图形图像的颜色力 求无突变,力求反映真实的授课情景。微课作品的后期编辑 采用Adobe premiere CS编辑软件(设置字幕和标示符号), 输出为AVI格式,利用格式工厂软件转换为f4v、mp4等不 同的流媒体格式,然后上传至相应的分享平台。 3.3微课辅助扩展资源的设计与制作 该课中辅助的扩展资源主要为PPT。而PPT的制作更 多要求:页面布局设置美观简洁大方、色彩搭配合理(如每 张幻灯片颜色不宜超过3种)、页面字体设置合理(一般采 用黑体、文字的数量不宜过多)与醒目等,幻灯片时间不宜 过长,要重视学生的视觉感受,不可太亮、太刺眼和突兀, 也不能太淡,要柔和、看得清楚_5】。 4总结 总之,作为课堂教学的一种新型表现形式,微课教学继 承以学生为主体和以教师为主导的信息化教学模式的特点, 注重教学目标的实现和学生真正的学习,因此,对于该课程 活动的设计与开发终究还是要以辅助学生的学为主。 [1】 教育部全国高校教师网络培训中心.中国高校微课研 究报告[R1.2014.1. [2】 关中客.微课程[J]冲国信息技术教育,2011(17):14. [3] 孟祥增,刘瑞梅,王广新。微课设计与制作的理论与实践 [J】.远程教育杂志,2014(06):27. [4] 胡铁生.微课:区域教育信息资源发展的新趋势[J].电化 教育究,2011(10):61.65. [5] 俞益晖.录屏式微课的制作方法和技巧[J].教育信息技 (收稿日期:2015.11.25) 为解决数据挖掘课程教学过程中出现的问题,在收集和 组织实验数据的基础上,本文设计了关联、分类和聚类3个 重要的数据挖掘实验方案,分析了Apriori关联算法、ID3 分类算法和K.Means聚类算法,使用R语言实现了这些典 型算法,对实验结果做出分析,并以图形化的方式直观显示 实验结果。通过教学实践,取得了良好的教学效果,激发了 学生学习该课程的兴趣,培养了学生知识发现和创新能力。 大数据时代的到来,让数据挖掘技术得到快速发展和应用的 良机,高校的师生更应抓住契机,熟练掌握数据挖掘的技能, 提升专业核心竞争力。 【l】 Jiawei Han,MichelineKamber.数据挖掘概念与技术[M]. 北京:机械工业出版社,2003. [2] 胡中玉,岳强,徐东霞.基于Matlab的方波分解与合成仿 真实验设计[J].实验技术与管理,2014,31(9):44-46. 【3] 黄文,王正林.数据挖掘:R语言实战[M】.北京:电子工业 [4] 岳强,刘渝妍.基于主·子表的挖掘模式存储方法研究【J]. 昆明大学学报,2006,1 7(4):44—47. [5] 岳强,胡中玉,刘渝妍.基于数据挖掘的自适应入侵检测 模型研究[J].软件,2015,36(9):48—51. [6] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学 报,2018,19(1):48—61. [7] 刘猛.一种基于云计算的高效数据挖掘框架研究[J】.微 型电脑应用,2015,31(6):l5.19. (收稿日期:2016.02.10) rp参考文献 参考文献 

因篇幅问题不能全部显示,请点此查看更多更全内容