Chapter 13案例探讨-图书借阅_第1页
Chapter 13案例探讨-图书借阅_第2页
Chapter 13案例探讨-图书借阅_第3页
Chapter 13案例探讨-图书借阅_第4页
Chapter 13案例探讨-图书借阅_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1Chapter 13 案例探讨_图书借阅2内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结3简介以图书借阅数据为例,说明数据探勘的处理过程:数据取得、需求分析、资料整理、资料仓储建立、资料探勘、结果分析。探讨问题:探讨不同科系是否借阅不同类别的书?不同年级学生是否借阅不同类别的书?大学部与研究生是否有不同的借阅习惯?图书分类是否有改进的地方?借阅纪录是否隐藏不易发掘而且重要的信息 ?实例解说资料探勘过程,了解数据探勘的过程,建立具体的印象与观念,注重过程,而非结果。4内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结5原始数据源根据需求分析,只考虑书籍、系所部门、读者、借阅

2、数据 四个数据表数据表名称原始资料总笔数字段个数Book36429922Department3239Reader3731831History (借阅历史资料)113264836内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结7第一阶段数据前置处理(1)原始数据利用数据转换汇入SQL Server将 Reader与 Department 数据表合成新的 Reader 数据表 。在Reader 数据表内:增加college字段,建立:系所学院 概念阶层。 依学号分类,新增grade字段,记录用户年级,区分为freshman、sophomore、junior、senior、postgrad

3、uate、candidate for PhD、teacher等七个类别。 只保留 rno(读者id)、dept_code、dept_name、college_name、grade 字段,其余字段全部删除。 8第一阶段数据前置处理(2)在Book 数据表内的:根据中西文图书分类,在索书号上新增sub_class及class属性,建立书籍种类的概念阶层 。将language字段重新分类,保留最多的中文、英文、日文三类,将其余语言归类为other。建立publsih_interval字段,出版年以五年为一区间,作为出版年代的概念阶层之用。仅留下marc_id(书籍id)、title、author、p

4、ublisher、publish_year、language、subject、marc_class、class、sub_class、publish_interval等字段。9第一阶段数据前置处理(3)利用中西文图书分类检表,将书分为4大类,大类再细分成子项目。10第一阶段数据前置处理(4)在History 数据表内:将借阅日期拆成三个字段:借阅年、借阅月、借阅日,作为将来时间的概念阶层。加入amount 字段,代表借书的本数,一般都为 1,作为事实数据表的量值。仅留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount字段,其中amou

5、nt字段为量值。11第二阶段数据前置处理(1)在 Reader 数据表,分析对象为正常学制学生,删除外校人士、行政人员、在职专班、转系、大五、大六、系所空白者、身分无法辨认者。在 Book 数据表内,删除索书号不完全者;删除期刊数据及校内论文、不能外借之书籍(如当期杂志)、视听资料(如CD、LD、tape)等。在 History 数据表内,删除索书号不完整之纪录;删除rno(user id)无法在整理过的Reader 数据表找到之纪录;删除索书号无法在整理过的Book 数据表找到之纪录。12第二阶段数据前置处理(2)资料整理前后数据表内容变化比较数据表名称原始资料总笔数资料整理后的总笔数原始字

6、段个数整理过后字段个数Book364299752142211Reader373188587315History 11326486120753613内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结14数据仓储设计(1)事实数据表:History 为事实数据表,amount 量值。维度:Reader、Book与Time三个维度。15数据仓储设计(2)在Reader 维度数据表内找到两种概念阶层:年级:rno grade学院系所:rno dept_name college_name在Book 维度数据表内找到三种概念阶层:语言:title language主题分类:title sub_cl

7、ass class出版年:publish_year publish_interval在 Time 维度找到一种概念阶层:借阅日期:borrow_dateborrow_monthborrow_year16数据仓储设计(3)星状式架构的资料仓储17内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结18判定树资料探勘分析预 测 项 目书籍、学生、语言类别百 分 比(预测借书类别)人文社会学院博士班学生Art 13.56%General1.69%Geography/History1.69%Language/Literature1.69%Natural Sciences59.32%Philoso

8、phy/Psychology6.78%Religion1.69%Social Sciences11.86%Missing1.69%(预测借阅读者的身分)心理哲学方面的英文书Candidate for PhD11.08%Freshman7.06%Junior16.67%Postgraduate34.58%Senior15.59%Sophomore14.25%Teacher0.75%Missing0.03%(预测借阅书籍的语言)语言文学方面被借的书籍Chinese66.58%English33.32%Japan0.09%Others0.01%Missing0.00%19分群资料探勘分析(1)群组一

9、:不同时间借书比例Cluster 1 总计3064.04100.00%2001/Dec242.447.91%2001/Apr236.857.73%2002/Apr225.347.35%2002/May223.597.30%2002/Mar220.517.20%2001/Nov218.387.13%2001/Oct198.856.49%2002/Jan196.186.40%2001/Mar190.566.22%2001/May188.306.15%2002/Feb173.925.68%2001/Feb169.105.52%2001/Jun146.564.78%2001/Sep145.134.74

10、%2001/Jan118.293.86%2001/Aug90.892.97%2001/Jul79.152.58%Missing00.00%群组二:不同时间借书比例Cluster 2 总计2951.87100.00%2002/May318.2110.78%2001/Dec225.627.64%2001/Jan221.287.50%2002/Apr203.856.91%2001/Nov197.876.70%2001/Feb190.026.44%2002/Jan184.676.26%2002/Mar180.36.11%2001/May179.826.09%2001/Oct179.096.07%200

11、1/Mar174.695.92%2001/Apr154.055.22%2001/Jun150.355.09%2002/Feb141.994.81%2001/Sep127.514.32%2001/Jul69.082.34%2001/Aug53.461.81%Missing00.00%20分群资料探勘分析(2)群组一:不同年级、类别借书比例Cluster 1 总计3064.04100.00%Postgraduate 1347.7543.99%Candidate for PhD 427.3713.95%Sophomore 375.9612.27%Junior318.1110.38%Freshman

12、300.599.81%Senior287.559.38%Teacher6.720.22%Missing00.00%群组二:不同年级、类别借书比例Cluster 2 总计2951.87100.00%Postgraduate 1322.5644.80%Freshman 489.1216.57%Candidate for PhD 427.7714.49%Sophomore 339.0911.49%Junior217.247.36%Senior139.524.73%Teacher16.570.56%Missing00.00%21分群资料探勘分析(3)群组一:不同类别书籍被借比例Cluster 1 总计

13、3064.04100.00%Natural Sciences 1611.5152.59%Language/Literature 411.5513.43%Social Sciences 352.2311.50%General240.927.86%Art178.235.82%Geography/History 142.674.66%Philosophy/ Psychology108.163.53%Religion18.760.61%Missing00.00%群组二:不同类别书籍被借比例Cluster 2 总计2951.87100.00%Natural Sciences 1864.7663.17%L

14、anguage/Literature 355.0212.03%Social Sciences 275.099.32%General155.555.27%Geography/History 119.214.04%Art104.283.53%Philosophy/Psychology61.622.09%Religion16.340.55%Missing00.00%22关连法则资料探勘分析(1)项次学 生 类 别Imply书籍类别支持度 (%)信赖度 (%)1College = Electrical Engineering and Computer Science ANDPeople = Candi

15、date for PhD.Natural Science12.290.02College =Electrical Engineering and Computer Science ANDPeople = PostgraduateNatural Science23.896.23College = Engineering ANDPeople = PostgraduateNatural Science12.796.24College = Science ANDPeople = PostgraduateNatural Science10.885.75College = Electrical Engin

16、eering AND Computer ScienceNatural Science40.592.76College = EngineeringNatural Science22.593.37College = ScienceNaturalScience21.278.98People = Candidate for PhD.NaturalScience26.291.09People = PostgraduateNatural Science48.589.823结果分析 发现借阅率较高的书,大多是1988年到1999年,建议多购新版的书,或者调查新书流动率不高的原因。每个系所借阅书籍的种类,和所学科系有相关,建议借阅方式可以更弹性。例如,提高电子系学生借阅电子类别书目的册数,以方便学生阅读与研究。书籍 subject字段(表示书的类别),此类别为人工手动建置,n所以字段格式并不统一,例如:有Computer Language Mak

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论