大数据导论小组分析报告_第1页
大数据导论小组分析报告_第2页
大数据导论小组分析报告_第3页
大数据导论小组分析报告_第4页
大数据导论小组分析报告_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据导论小组分析报告xxxxxx-1.数据来源01目录Content11.数据来源1.数据来源1近六年的入学测试以及招生数据:着重分析近三年即2021,2022,2023年的数据入学测试文件内容:涵盖学生总成绩及各模块入学成绩,既有具体至每到小题的成绩,也有汇总的各模块成绩21.数据来源招生文件内容:包含考生来源省份以及高考总成绩、各科成绩2.数据预处理数据表中有众多缺失数据2018年入学测试共有7257条记录:完整记录数为6718条,缺失记录数为539条2021年招生数据共有8781条记录:完整记录数为8235条,缺失记录数为546条2022年招生数据共有8561条记录:完整记录数为8471条,缺失记录数为90条1.数据来源2023年招生数据共有8566条记录完整记录数为8412条,缺失记录数为154条在处理入学成绩时将试卷编号为空的作为缺失数据,在数据中找到筛选,筛选出缺失数据后全部选中删除在处理招生数据时发现有部分学院的成绩有缺失,通篇浏览找出数据缺失部分,选中并删除。农村发展学院的成绩几乎全为0或是无数据,作为缺失数据,筛选后处理删除1.数据来源5.通过以下操作,或者复制粘贴,将数据导入合并到一个excel文件中,以方便处理数据3.数据分析1.数据来源(一)参数分析利用各种函数进行计算分析可得到图左的数据参数分析:其中,平均值—average函数1.数据来源中值—,模式(众数)—求和—sum函数计数—countA函数偏斜值—峰值—区域—最大值—max函数,最小值—min函数标准偏差—标准方差—1.数据来源(二)统计分析分析成绩分布的标准是大于90分的是优秀:80分-89分为良好,70分-79分为中等,60-69分为及格,60分以下为差等用数据透:视表以均值为指标分析学院间的差距1.数据来源用怎样的方法:获得所有学生练习中的及格率(不及格率)?成绩的中间分数段频数最多:两边分数段频数较少,成绩成正态分布从模块成绩的得分率来看:中文打字模块和windows基础较好,excel模块和ppt模块基础较差1.数据来源给出平均成绩排名前十名的专业和排名后10名专业:观察这些专业的各模块掌握情况按照招生学院:统计6年中各学院、各专业的最高分、最低分、平均分根据招生数据:统计全校男女生人数、信息学院各专业的男女生人数1.数据来源(三)相关预测分析高考成绩:与生源所在地之间是否有关系?高考科目:成绩与生源所在地之间是否有关系?计算机入:学测试是否存在各地区的差异?1.数据来源计算机入:学测试成绩与高考成绩有关系吗?计算机入:学测试成绩是否存在各地区的差异(由于数据主要为省内建议以市为单位)?近6年的入学测试成绩:选取不同的指标计算,观察大学生计算机水平是否有规律性变化,如逐年提高,尝试预测今年入学测试的结果?近6年的招生数据:制作学校或感兴趣的学院的最大值、最小值、平均值的趋势图,观察专业或者学院的招生变化趋势?每年录取人数的变化图1.数据来源01025.分析体会4.数据可视化1.数据来源(一)反思总结通过深入学习大数据导论这门课:我们深刻的认识到了大数据导论是一门涉及大规模数据处理、分析和应用的学科。在完成本次大作业的过程中,运用到了以下知识以及手法进行分析数据收集和清洗:选择一个具有足够规模和丰富特征(即能体现出应用与参考价值)的数据集,并使用适当的方法收集和清洗数据,比如整理并删除缺失数据数据存储和处理:将清洗后的数据合并存储到适当的数据库或分布式存储系统中,并使用合适的技术处理和管理数据数据分析和挖掘:运用统计学和数据透视表等方法,对数据进行分析和挖掘,发现其中的模式、关联或趋势1.数据来源可视化与展示:使用合适的工具和技术,将分析结果创立柱形图,折线图,雷达图等,以可视化控制面板的方式展示,帮助更好地理解和利用数据(二)联想与应用利用所学的知识和技术进行数据收集、清洗、存储、处理、分析和可视化:以下是一些示例联想和未来应用的领域1.数据来源健康医疗领域金融领域城市规划与交通管理利用大规模的医疗数据集,进行疾病预测、诊断支持和个性化治疗等方面的研究。通过分析患者的病历、生理指标和基因组数据,可以为医生提供更准确的诊断和治疗建议利用大量的金融数据,如交易记录、市场行情和客户信息等,进行风险评估、投资策略优化和欺诈检测等方面的应用。通过分析数据,可以帮助金融机构更好地管理风险、制定有效的投资决策和及时发现异常交易利用城市各种传感器和交通数据,进行交通流量预测、交通拥堵分析、智能交通信号优化等方面的研究。通过分析数据,可以提供城市规划者和交通管理者更好的决策支持,提升城市交通效率和减少拥堵1.数据来源社交媒体分析:基于大规模的社交媒体数据,进行舆情分析、用户行为预测和个性化推荐等方面的研究。通过分析用户的言论、情绪和社交网络关系,可以帮助企业了解用户需求、改进产品和制定精准的营销策略(三)学习感悟在处理数据过程中也遇到了诸多的问题:比如第一次使用切片器做可视化面板,第一次使用中值函数等函数,但通过使用网络工具搜索学习,增长丰富了见识,学到了一些新的处理数据的思考方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论