大数据分析及应用期末课程报告(共11页)_第1页
大数据分析及应用期末课程报告(共11页)_第2页
大数据分析及应用期末课程报告(共11页)_第3页
大数据分析及应用期末课程报告(共11页)_第4页
大数据分析及应用期末课程报告(共11页)_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、云南大学(yn nn d xu)软件学院期末课程(kchng)报告(bogo)Final Course ReportSchool of Software, Yunnan University个人成绩序号学号姓名成绩123学期: 课程名称: 大数据分析及应用 任课教师: 实践题目: 小 组 长: 联系电话: 电子邮件: 完成提交时间:2015年 1 月 4 日作业截止时间:2015年 1 月 4 日2015-2016学年上学期 大数据分析及应用 成绩考核表年级(ninj): 专业(zhuny): 学号: 姓名(xngmng): 本人所做工作: 指标内容分值指标内涵及评估标准得分技术路线的可行程度

2、10合理可行,具体且有创新合理可行,具体基本合理可行不够合理或不够具体程序或系统设计思路10程序或系统思路非常清晰、运行正确程序或系统思路基本清晰、运行正确程序或系统思路清晰、环境配置错误无法运行程序或系统思路不清晰,程序无法运行小组成员的工作量(每个人分别打分)15高出平均要求工作量的15%以上高出平均要求工作量达到平均要求工作量低于平均要求的工作量理论知识应用水平15用理论知识对程序设计方法、思路和代码进行详尽、准确地分析和总结用理论知识对程序设计方法、思路和代码进行较准确地分析和总结理论知识应用一般理论知识差达到预期目标的程度10完全达到基本达到无法预见未能达到团队合作精神10很强的团队

3、合作精神合作情况良好合作情况一般合作不好,各自为政报告撰写质量(30分)5报告非常完整报告比较完整完整程度一般报告不完整5逻辑结构清晰逻辑组织较好逻辑组织一般逻辑不清5内容非常丰富内容较丰富内容一般内容欠缺5文字表达非常好文字表达较好文字表达一般文字表达差,意思不明了5图表制作非常专业化图件制作良好图件制作一般图件制作效果差5整体效果很好整体效果良好整体效果一般整体效果差综合得分(满分100分)评语2015-2016学年上学期 大数据分析及应用 成绩考核表年级: 专业: 学号: 姓名: 本人所做工作: 指标内容分值指标内涵及评估标准得分技术路线的可行程度10合理可行,具体且有创新合理可行,具体

4、基本合理可行不够合理或不够具体程序或系统设计思路10程序或系统思路非常清晰、运行正确程序或系统思路基本清晰、运行正确程序或系统思路清晰、环境配置错误无法运行程序或系统思路不清晰,程序无法运行小组成员的工作量(每个人分别打分)15高出平均要求工作量的15%以上高出平均要求工作量达到平均要求工作量低于平均要求的工作量理论知识应用水平15用理论知识对程序设计方法、思路和代码进行详尽、准确地分析和总结用理论知识对程序设计方法、思路和代码进行较准确地分析和总结理论知识应用一般理论知识差达到预期目标的程度10完全达到基本达到无法预见未能达到团队合作精神10很强的团队合作精神合作情况良好合作情况一般合作不好

5、,各自为政报告撰写质量(30分)5报告非常完整报告比较完整完整程度一般报告不完整5逻辑结构清晰逻辑组织较好逻辑组织一般逻辑不清5内容非常丰富内容较丰富内容一般内容欠缺5文字表达非常好文字表达较好文字表达一般文字表达差,意思不明了5图表制作非常专业化图件制作良好图件制作一般图件制作效果差5整体效果很好整体效果良好整体效果一般整体效果差综合得分(满分100分)评语 HYPERLINK l _Toc199058834 摘要(zhiyo) = 1 * ROMAN I HYPERLINK l _Toc199058834 小组(xioz)成员分工 = 2 * ROMAN II HYPERLINK l _T

6、oc199058834 1. 引言(ynyn) PAGEREF _Toc199058834 h 1 HYPERLINK l _Toc199058835 1.1 课题(kt)研究背景和研究现状 PAGEREF _Toc199058835 h 1 HYPERLINK l _Toc199058836 1.1.1 课题研究的背景和目的 PAGEREF _Toc199058836 h 1 HYPERLINK l _Toc199058837 1.1.2 课题研究的现状 PAGEREF _Toc199058837 h 1 HYPERLINK l _Toc199058838 1.2 课题的研究意义和主要工作

7、PAGEREF _Toc199058838 h 2 HYPERLINK l _Toc199058839 1.2.1 课题的研究意义 PAGEREF _Toc199058839 h 2 HYPERLINK l _Toc199058840 1.2.2 课题的主要工作 PAGEREF _Toc199058840 h 2 HYPERLINK l _Toc199058841 1.2.3 课题的结构安排 PAGEREF _Toc199058841 h 3 HYPERLINK l _Toc199058842 1.3 开发工具及开发环境 PAGEREF _Toc199058842 h 3 HYPERLINK

8、l _Toc199058843 1.4本章小结 PAGEREF _Toc199058843 h 3 HYPERLINK l _Toc199058852 2 算法描述 PAGEREF _Toc199058852 h 9 HYPERLINK l _Toc199058853 2.1 DB-SCAN算法 PAGEREF _Toc199058853 h 9 HYPERLINK l _Toc199058854 2.1.1 算法原理 PAGEREF _Toc199058854 h 9 HYPERLINK l _Toc199058855 2.1.2 算法模型及伪代码 PAGEREF _Toc199058855

9、 h 10 HYPERLINK l _Toc199058857 2.2 LR算法 PAGEREF _Toc199058857 h 10 HYPERLINK l _Toc199058858 2.2.1算法原理 PAGEREF _Toc199058858 h 10 HYPERLINK l _Toc199058859 2.2.2算法模型及伪代码 PAGEREF _Toc199058859 h 11 HYPERLINK l _Toc199058857 2.3 贝叶斯算法 PAGEREF _Toc199058857 h 10 HYPERLINK l _Toc199058858 2.3.1算法原理 PAG

10、EREF _Toc199058858 h 10 HYPERLINK l _Toc199058859 2.3.2算法模型及伪代码 PAGEREF _Toc199058859 h 11 HYPERLINK l _Toc199058861 2.4 本章小结 PAGEREF _Toc199058861 h 15 HYPERLINK l _Toc199058862 3 数据质量及统计分析 PAGEREF _Toc199058862 h 17 HYPERLINK l _Toc199058863 3.1 数据质量分析 PAGEREF _Toc199058863 h 17 HYPERLINK l _Toc19

11、9058867 3.2 签到数据统计 PAGEREF _Toc199058867 h 213.3 本章小节 PAGEREF _Toc199058867 h 23 HYPERLINK l _Toc199058862 4 聚类挖掘实验 PAGEREF _Toc199058862 h 17 HYPERLINK l _Toc199058863 4.1 数据集说明 PAGEREF _Toc199058863 h 17 HYPERLINK l _Toc199058867 4.2 挖掘技术及方法 PAGEREF _Toc199058867 h 214.3 聚类结果分析 PAGEREF _Toc1990588

12、67 h 23 HYPERLINK l _Toc199058869 4.4本章小结 PAGEREF _Toc199058869 h 25 HYPERLINK l _Toc199058862 5 预测分析实验 PAGEREF _Toc199058862 h 17 HYPERLINK l _Toc199058863 5.1 数据集说明 PAGEREF _Toc199058863 h 17 HYPERLINK l _Toc199058867 5.2预测技术及方法 PAGEREF _Toc199058867 h 215.3 算法1预测结果对比分析 PAGEREF _Toc199058867 h 23

13、HYPERLINK l _Toc199058858 5.3.1热点区域数量预测 PAGEREF _Toc199058858 h 10 HYPERLINK l _Toc199058859 5.3.2热点区域位置预测 PAGEREF _Toc199058859 h 115.4 算法2预测结果对比分析 PAGEREF _Toc199058867 h 23 HYPERLINK l _Toc199058858 5.3.1热点区域数量预测 PAGEREF _Toc199058858 h 10 HYPERLINK l _Toc199058859 5.3.2热点区域位置预测 PAGEREF _Toc19905

14、8859 h 115.5 预测算法之间的对比分析 PAGEREF _Toc199058867 h 23 HYPERLINK l _Toc199058869 5.6本章小结 PAGEREF _Toc199058869 h 25 HYPERLINK l _Toc199058870 6 可视化展示 PAGEREF _Toc199058870 h 26 HYPERLINK l _Toc199058863 6.1 第一个月每周的聚类结果(ji gu)展示27 HYPERLINK l _Toc199058867 6.2第二个月每周的聚类结果(ji gu)展示 PAGEREF _Toc199058867 h

15、 296.3 测试(csh)数据的每天聚类结果展示30 HYPERLINK l _Toc199058870 7 总结及展望30 HYPERLINK l _Toc199058887 参考文献 PAGEREF _Toc199058887 h 531引言2算法(sun f)描述(mio sh)说明(shumng):列举所使用的算法名称,原理及实现的伪代码。聚类算法统一用DB-SCAN,预测算法根据每组制定的不同算法进行描述。3数据质量及统计分析说明:(1)数据质量分析主要是针对昆明四区POI_ALL.xls文件,从如下几个方面进行评估。第一、POI名称是否完整和清楚,比如:名称只为“昆明”, “昆明

16、市”等就属于不完整,标识性不强等质量问题。此部分用表格完成,并将表格划为直方图。第二、地址缺失。第三、电话号码缺失。第四、电话号码错误。表3-1 POI名称质量不规范性表IDPOI名称数量1昆明22昆明市4表3-2 POI名称质量不规范比例名称不规范数量名称总量比例1620000.3%21994200099.7%图3-1 POI名称质量不规范性统计(2)统计(tngj)分析(fnx)主要(zhyo)是针对昆明四区POI_ALL.xls文件和kunming_7-11_all.xls两个文件。POI_ALL.xls文件:A. 按类别名称分组统计签到数和签到用户数TOP10的POI点,将统计结果绘制

17、为表格和直方图。B. 根据POI的经纬度坐标和昆明市四区的范围,统计四个区(五华区、盘龙区、西山区和官渡区)按类别名称分组统计签到数和签到用户数TOP10的POI点,并将统计结果绘制为表格和直方图。表3-3 高等院校签到数TOP 10的统计表IDPOI名称签到数1云南大学1002昆明理工大学8010财经大学10表3-4高等院校签到用户数TOP 10的统计表IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10表3-5五华区高等院校签到用户数TOP 10的统计表IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10给出对应的直方图kunming_7-11_

18、all.xls文件:A. 统计每个月,每周工作日和休息日,每天的用户签到数量,将统计结果绘制为表格和直方图。B. 按四个区(五华区、盘龙区、西山区和官渡区)统计每个月,每周工作日和休息日,每天的用户签到数量,将统计结果绘制为表格和直方图。C. 根据POI的经纬度坐标和用户签到的经纬度坐标,统计按类别名称分组签到数和签到用户数TOP10的POI点附件有多少对应的用户签到数量,并将统计结果绘制为表格和直方图。D. 根据POI的经纬度坐标和用户签到的经纬度坐标,统计按类别名称分组和四个区的签到数和签到用户数TOP10的POI点附件(两者距离最大为25m)有多少对应的用户签到数量,并将统计结果绘制为表

19、格和直方图。表3-6 2015年7月-9月用户签到数统计表月份签到数7月50008月80009月6000表3-7 2015年7月每周用户(yngh)签到数统计表周次签到数110002500316004900表3-8 2015年7月各周次工作日和休息日用户(yngh)签到数统计表周次工作日签到数休息日签到数11020234表3-9 2015年7月每天用户(yngh)签到数统计表7月1日7月2日7月3日7月4日7月5日7月6日7月7日10207月8日7月9日7月10日7月11日7月12日7月13日7月14日7月15日7月16日7月17日7月18日7月19日7月20日7月21日7月22日7月23日7

20、月24日7月25日7月26日7月27日7月28日7月29日7月30日表3-10 高等院校签到用户数TOP 10的统计表IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10表3-11 五华区高等院校签到用户数TOP 10的统计表(距离25m)IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10注意:以上对两个文件的分析都可以用Modeler实现。但需要把每一个对应的数据流截图到统计表格上方,并标识其名称。4聚类挖掘(wju)实验说明(shumng):聚类挖掘(wju)需要给出每个月,每周,每周的工作日和休息日、每天以及每小时的聚类挖掘结果。不需要将聚类结果加载到地图上。可用表4-1和图4-1所示的方法进行展示。表4-1 2015年7月1日时段6:00-6:59聚类热点结果统计表编号聚类热点范围(经纬度坐标最大-最小值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论