大数据分析及应用期末课程报告课案_第1页
大数据分析及应用期末课程报告课案_第2页
大数据分析及应用期末课程报告课案_第3页
大数据分析及应用期末课程报告课案_第4页
大数据分析及应用期末课程报告课案_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、云南大学软件学院期末课程报告Fi nal Course ReportSchool of Software, Yunnan Un iversity个人成绩序号学号姓名成绩123学 期:课程名称:大数据分析及应用任课教师:实践题目:小组长:联系电话:电子邮件:完成提交时间:2015年1月4日作业截止时间:2015年1月4日2015-2016学年上学期 大数据分析及应用成绩考核表年级: 专业: 学号: 姓名: 本人所做工作:指标内容分值指标内涵及评估标准得分技术路线的 可行程度10合理可行,具体且 有创新合理可行,具体基本合理可行不够合理或 不够具体程序或系统 设计思路10程序或系统思路 非常清晰、

2、运行正 确程序或系统思 路基本清晰、 运行正确程序或系统思路 清晰、环境配置 错误无法运行程序或系统 思路不清晰, 程序无法运 行小组成员的 工作量(每个 人分别打分)15高出平均要求工 作量的15%以上高出平均要求工作量达到平均要求工 作量低于平均要 求的工作量理论知识应 用水平15用理论知识对程 序设计方法、思路 和代码进行详尽、 准确地分析和总 结用理论知识对 程序设计方 法、思路和代 码进行较准确 地分析和总结理论知识应用一 般理论知识差达到预期目标的程度10完全达到基本达到无法预见未能达到团队合作精 神10很强的团队合作 精神合作情况良好合作情况一般合作不好,各自为政报告撰写质 量(

3、30 分)5报告非常完整报告比较完整完整程度一般报告不完整5逻辑结构清晰逻辑组织较好逻辑组织一般逻辑不清5内容非常丰富内容较丰富内容一般内容欠缺5文字表达非常好文字表达较好文字表达一般文字表达差, 意思不明了5图表制作非常专 业化图件制作良好图件制作一般图件制作效田辛5整体效果很好整体效果良好整体效果一般整体效果差综合得分 (满分100分)评语2015-2016学年上学期 大数据分析及应用成绩考核表年级: 专业: 学号: 姓名: 本人所做工作:指标内容分值指标内涵及评估标准得分技术路线的 可行程度10合理可行,具体且 有创新合理可行,具体基本合理可行不够合理或 不够具体程序或系统 设计思路10

4、程序或系统思路 非常清晰、运行正 确程序或系统思 路基本清晰、 运行正确程序或系统思路 清晰、环境配置 错误无法运行程序或系统 思路不清晰, 程序无法运 行小组成员的 工作量(每个 人分别打分)15高出平均要求工 作量的15%以上高出平均要求工作量达到平均要求工 作量低于平均要 求的工作量理论知识应 用水平15用理论知识对程 序设计方法、思路 和代码进行详尽、 准确地分析和总 结用理论知识对 程序设计方 法、思路和代 码进行较准确 地分析和总结理论知识应用一 般理论知识差达到预期目标的程度10完全达到基本达到无法预见未能达到团队合作精神10很强的团队合作 精神合作情况良好合作情况一般合作不好,

5、各自为政报告撰写质 量(30 分)5报告非常完整报告比较完整完整程度一般报告不完整5逻辑结构清晰逻辑组织较好逻辑组织一般逻辑不清5内容非常丰富内容较丰富内容一般内容欠缺5文字表达非常好文字表达较好文字表达一般文字表达差, 意思不明了5图表制作非常专 业化图件制作良好图件制作一般图件制作效田辛5整体效果很好整体效果良好整体效果一般整体效果差综合得分 (满分100分)评语摘要I小组成员分工II1.弓丨言错误!未定义书签。1.1课题研究背景和研究现状 错误!未定义书签。1.1.1课题研究的背景和目的 错误!未定义书签。1.1.2课题研究的现状 错误!未定义书签。1.2课题的研究意义和主要工作 错误!

6、未定义书签。121课题的研究意义 错误!未定义书签。1.2.2课题的主要工作错误!未定义书签。1.2.3课题的结构安排错误!未定义书签。1.3开发工具及开发环境错误!未定义书签。1.4本章小结错误!未定义书签。2 算法描述 错误!未定义书签。2.1 DB-SCAN算法错误!未定义书签。2.1.1算法原理 错误!未定义书签。2.1.2算法模型及伪代码 错误!未定义书签。2.2 LR算法 错误!未定义书签。2.2.1算法原理 错误!未定义书签。2.2.2算法模型及伪代码错误!未定义书签。2.3贝叶斯算法 错误!未定义书签。2.3.1算法原理 错误!未定义书签。2.3.2算法模型及伪代码 错误!未定

7、义书签。2.4本章小结错误!未定义书签。3数据质量及统计分析错误!未定义书签。3.1数据质量分析错误!未定义书签。3.2签到数据统计错误!未定义书签。3.3本章小节错误!未定义书签。4聚类挖掘实验错误!未定义书签。4.1数据集说明 错误!未定义书签。4.2挖掘技术及方法错误!未定义书签。4.3聚类结果分析 错误!未定义书签。4.4本章小结错误!未定义书签。5预测分析实验错误!未定义书签。5.1数据集说明 错误!未定义书签。5.2预测技术及方法错误!未定义书签。5.3算法1预测结果对比分析 错误!未定义书签。5.3.1热点区域数量预测 错误!未定义书签。5.3.2热点区域位置预测 错误!未定义书

8、签。5.4算法2预测结果对比分析 错误!未定义书签。5.3.1热点区域数量预测 错误!未定义书签。5.3.2热点区域位置预测 错误!未定义书签。5.5预测算法之间的对比分析 错误!未定义书签。5.6本章小结错误!未定义书签。6可视化展示错误!未定义书签。6.1第一个月每周的聚类结果展示 276.2第二个月每周的聚类结果展示 错误!未定义书签。6.3测试数据的每天聚类结果展示 307总结及展望30参考文献 错误!未定义书签。1 引言2 算法描述说明:列举所使用的算法名称,原理及实现的伪代码。聚类算法统一用DB-SCAN , 预测算法根据每组制定的不同算法进行描述。3 数据质量及统计分析说明:(1

9、)数据质量分析主要是针对昆明四区 POI_ALL.xls文件,从如下几个方面进 行评估。第一、POI名称是否完整和清楚,比如:名称只为 昆明” 昆明市” 等就属于不完整,标识性不强等质量冋题。此部分用表格完成,并将表格划为直 方图。第二、地址缺失。第三、电话号码缺失。第四、电话号码错误。表3-1 POI名称质量不规范性表IDPOI名称数量1昆明22昆明市4表3-2 POI名称质量不规范比例名称不规范数量名称总量比例1620000.3%21994200099.7%数量昆明昆明市图3-1 POI名称质量不规范性统计(2)统计分析主要是针对昆明四区 POI_ALL.xls文件和kunming_7-1

10、1_all.xls两 个文件。POI_ALL.xls文件:A.按类别名称分组统计签到数和签到用户数 TOP10的POI 点,将统计结果绘制为表格和直方图。B.根据POI的经纬度坐标和昆明市四区的范围,统计四个区(五华区、盘龙区、西山区和官渡区)按类别名称分组统计 签到数和签到用户数TOP10的POI点,并将统计结果绘制为表格和直方图。表3-3高等院校签到数TOP 10的统计表IDPOI名称签到数1云南大学1002昆明理工大学8010财经大学10表3-4高等院校签到用户数 TOP 10的统计表IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10表3-5五华区高等院校签到用户

11、数TOP 10的统计表IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10给出对应的直方图kun mi ng_7-11_all.xls文件:A.统计每个月,每周工作日和休息日,每天的用户 签到数量,将统计结果绘制为表格和直方图。B.按四个区(五华区、盘龙区、西山区和官渡区)统计每个月,每周工作日和休息日,每天的用户签到数量,将 统计结果绘制为表格和直方图。C.根据POI的经纬度坐标和用户签到的经纬度 坐标,统计按类别名称分组签到数和签到用户数TOP10的POI点附件有多少对应的用户签到数量,并将统计结果绘制为表格和直方图。D.根据POI的经纬度坐标和用户签到的经纬度坐标,

12、统计按类别名称分组和四个区的签到数和签到用 户数TOP10的POI点附件(两者距离最大为25m)有多少对应的用户签到数量, 并将统计结果绘制为表格和直方图。表3-6 2015年7月-9月用户签到数统计表月份签到数7月50008月80009月6000表3-7 2015年7月每周用户签到数统计表周次签到数110002500316004900表3-8 2015年7月各周次工作日和休息日用户签到数统计表周次工作日签到数休息日签到数11020234表3-9 2015年7月每天用户签到数统计表7月1日7月2日7月3日7月4日7月5日7月6日7月7日10207月8日7月9日7月10日7月11日7月12日7月

13、13日7月14日7月15日7月16日7月17日7月18日7月19日7月20日7月21日7月22日7月23日7月24日7月25日7月26日7月27日7月28日7月29日7月30日表3-10高等院校签到用户数 TOP 10的统计表IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10表3-11五华区高等院校签到用户数 TOP 10的统计表(距离 25m)IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10注意:以上对两个文件的分析都可以用 Modeler实现。但需要把每一个对应的数据流截图 到统计表格上方,并标识其名称。4 聚类挖掘实验说明:聚类挖掘需要给

14、出每个月,每周,每周的工作日和休息日、每天以及每小 时的聚类挖掘结果。不需要将聚类结果加载到地图上。可用表4-1和图4-1所示的方法进行展示。表4-1 2015年7月1日时段6:00-6:59聚类热点结果统计表编号聚类热点氾围(经纬度坐标最大-最小值所形成的区域)签到用户数1经度1,纬度1 ;经度2,纬度度42;经度3,纬度3;经度4,纬300226010152liViM E W V3 1 VTf I V* IM HU 91 MR E Hi I n AHI BiUflI J> JAM I HA Id-fl Id'S UW Ufll »,NW图4-1 2015年7月1日时

15、段6:00-6:59聚类热点结果图此外,聚类结果需要按照如下目录进行存储和说明:1 先创建每个月的文件夹;2.再创 建每个月下每天的文件夹;3.在每天 文件夹下创建每个时段的文件夹。如图4-2a所示。4.在每个时段下,生成所有的聚类文件, 每个聚类生成一个文件,文件命名如图b 所示。每个文件的内容如图c所示。.time_0time_2time_4time_6time_7time_15time_19 time_21J time_23myTESTl t . myTEST2 i , myTEST3 ,myTEST4 ,myTEST5 j myTESTG D myTEST? 也 resultb. 个时

16、段下的聚类文件和聚类效果图'J2012-03-13-1903-13-19a.每个时段文件夹图'2D12'2Q1203-05-03-c.102 . 丁 13站M醃5心丁叫 25 .丁“4则呦他気11 帖 ”125科35胡別7%1102,709*2S312IOS-?. 25.uO3J2616014SOlfiIS. 1.1Q2 -T13570«Q7F 25.04107f75553«4SVr 1 102.701*411. »Q39&SM9S.1102 . iaS-B075I04531P 站,2岳5駁肝沪仞日1聚类结果示意图注意:聚类结果包括4列:时间,经度,纬度,所属聚类编号图4-2聚类热点结果保存图5.预测分析实验1、根据前面2个月的签到数据聚类结果的数量和位置预测测试集在每天、每个 时段可能的数量和位置。2、用DBSCAN算法计算测试集所形成的数量和位置。3、将预测结果与实际

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论