版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据数据分析项目实践报告一、实践目的1.相关软件的学习与使用下载安装帆软、pytho以及Mysql软件,学习基本的操作和简单的爬虫语句,能够独立完成简单的数据可视化项目并制作帆软大屏。2.提高分析、处理问题的能力对于一组杂乱无章的数据要学会以最快的速度,最准确的方法进行处理,把大量的数据整理成方便自己分析与处理的形式。3.提高团队合作能力最终的帆软大屏展示以小组形式展示,考验整个团队的分工与合作能力4.培养理论与实际联系的能力学校学习的大多都是理论知识,如何将理论和实践联系起来去解决生活中的实际问题一直都是我们所欠缺的东西,此次实训我们从学习到最后的做项目需要运用理论知识去支撑。5.提升认知能力通过老师的讲解,了解社会需求、了解行业需求,加深对职场以及社会的认识,使我们提前感受职场生活。二、实践内容1.实践时间2018-2019学年第19周至22周(2019年6月24日-7月19日)。2.实践单位首鹏电子科技有限公司——统计。3.实践主要内容(1)下载安装帆软,学习帆软、掌握制作大屏的相关图表;(2)下载安装Python软件,学习在网站爬取影评数据以及一些简单的爬虫语句;(3)下载安装MySQL软件,学习简单的SQL语句并对一些数据进行简单的处理学习将整理好的数据导入至帆软中;(4)以小组形式自选主题做项目,完成大屏制作4.实践要求严格执行实践教学期间的作息时间,服从实践指导教师的安排与管理,周一至周五每天上午10:00-12:00,下午14:00-17:00,在指定教室上课,每天签到签退,对于无故不执行者,按旷课处理。实践结束后,学生应提交书面实践教学报告,说明实践教学的过程,总结实践教学收获。实践教学指导教师应该在实践教学结束后及时评阅实践教学报告。三、实践过程整个实践过程由三部分组成:老师讲解+自己操作练习+答疑1.帆软对帆软的整体介绍:应用范围、帆软的整体框架构造、熟悉帆软各类图表以及不同类型问题所要应用的不同类型图表;介绍各类图表的制作方法,丰富展现元素:20类图表、70余种图形样式地理信息可视化:柱形图介绍、词云介绍、地图介绍(区域地图、店地图、流向地图)交互分析;效果、地图设置、饼图设置、报表设置组合表的制作方法以及注意事项2.Python对python的整体介绍,爬虫应注意的相关事项以及一些简单的爬虫语句(1)发送请求#引入导入urllib文件夹(包)里面的request文件(模块)#在request模块中有一个urlopen()的方法#这个方法就可以发送请求#urlopen方法接收一个字符串类型的url就可以发送请求#发送请求后会得到一个响应(2)接受响应#通过打印response得知这是一个我们看不懂的对象#调用了read()的方法读取了这个对象#我们还是不认识编码不对#解析数据#保存数据#项目名文件夹#包文件夹里面放了一个_init_py的文件#xxx.py文件模块#各种代码(3)导入request模块#确定要访问的网址#确定headers#创建request对象来设置url和headers#调研urlopen方法来发送请求#读取响应信息并设置编码#打印输出查看一下是否有数据#创建bs对象1需要被解析的数据2解析器#调用select方法可以找到所有的数据#select方法返回的是列表形式的3.MySQL创建数据库\删除数据库\创建表\添加表字段\删除字段\查询原表改变情况\字段的修改\删除表\清空表\数据的删除\数据的修改\查询\指定字段查询\别名的使用\表别名的使用条件查询\模糊查询\范围查询\集合查询\排序\分页处理数据\字符串函数\日期函数\聚合函数\加密函数\分组函数4.小组形式做项目小组形式做项目指的是小组内成员合理分工,从数据的搜集到数据的集中处理再到数据分析最后到帆软大屏的制作以及最终的答辩环节。(1)项目名称:西安市房地产信息情况分析(2)项目简介:此次项目关于西安市部分区县房屋售价、类型、环境及其他信息进行分析并制作大屏(3)项目内容:我们通过八爪鱼取近一年西安市各个市的房地产数据通过spss软件随机抽取30%的数据并使用Excel将数据整合在一起将整理好的数据导入帆软,并制作了地图、饼图、滚动条形图、组合图、雷达图、词云图、跑马灯(4)大屏具体内容:地图:展示了房屋面积和房屋售价的分布情况条形图:先展示了每个区房屋容积率和房屋绿化率,并用滚动的形式把它们结合在一起,后又用同样的方式展示了参考月供和参考首付。跑马灯:展示了每个区的房屋价格组合图:展示了每个区规划户数的车位饼图:展示了不同的物业类型对应的房价雷达图:展示了每个区的物业费词云:展示了房源卖点四、实践体会“没有实习,就没有发言权”,只有亲身经历过才会有那种超乎平常的感觉。我与社会的接触并不多。其实学校要求我们参加认识实习,无非是想让我们提前接触社会,了解社会,这样才不会在真正走上社会的时候找不到生活的重心,在课堂上,我们学习了很多理论知识,但是如果我们在实际当会,品尝社会的酸甜苦辣。中不能灵活运用,那就等于没有学。实习就是将我们在课堂上学的理论知识运用到实战中。回顾两周实习生活中的点点滴滴,我在实习的过程中,既有收获的喜悦,也有一些悲苦。那就是对帆软的一些操作流程的认识仅仅停留在表面,只是在看人做,听人讲如何做,未能够亲身感受、具体处理一些工作,所以未能领会其精髓。但是透过实习,加深了我对基本知识的理解,丰富了我的实际操作知识,使我对日常工作有了深层次的感性和理性认识学校这次安排的实习真的非常棒,我们先是帆软是一个十分强大且十分常用的软件,一开始的学习很困难,听不懂。但好在指导老师十分细心,一遍又一遍的为我们答疑解惑,助教老师也十分热心,那里有学生举手有问题都一一帮忙解决虽然我对帆软不是很了解,但是做事情要对自己有信心,相信别人能学好能做好的,自己经过努力也能做得到,要勇敢。我们每个人,或多或少都有过自卑的心理,觉得自己不行。这时候,我们需要自己给自己一点信心,如果自己都不能相信自己,我们又怎么能期望别人相信自己呢?为什么别人能做到的事情,我们不能呢?只要我们够努力,别人能做到,我们也可以做得到,甚至可能会做得更好。因为,我们并不比任何人差!其次我们学习了Python,这是我一直以来比较感兴趣的软件。对我来说这个软件很神奇,它可以帮助你爬取你想要的各种各样的数据,Python的世界是五颜六色的,我想要走进他的世界,去了解他。最后我们学习了MYSQL,这是一个全新的东西,老师耐心的想要把自己所知道的知识教给我们,sql老师还会给我们讲一些以后职场会遇到的事情与问题,真的受益匪浅。即将踏上社会的我们还有太多太多需要学习的东西。我们没有足够的知识做铺垫,更没有足够的实战经验。如此一番并不乐观的甚至可以说是悲观的言辞,只是我这个初出茅庐的“菜鸟”的一点牢骚。就像喜欢说的“我允许自己像蜗牛一样一步一个脚印的开始,却不允许自己不思进取得活着。”每个人都有自己对待生活的态度,对待挫折的态度和对待成功的态度。也许并没有真正遇到挫折,也没有真正成功过,但是积极向上的态度总是对的。就像亘古不变的“谦虚使人进步,骄傲使人落后”一样,我终究会学会用适合的方式去做正确的事情。最后,对我个人来说:此次暑期实训带给我最大的收获就是“态度”——学习的态度、工作的态度、生活的态度。
附录1:MySQL语句#创建数据库CREATEDATABASExc;#删除数据库dropDATABASEtt;usexc;#创建表CREATETABLEstu( stuidINT, stunameVARCHAR(20), stuageINT(5));descstu;day02:#添加表字段ALTERTABLEstuADDaddressVARCHAR(100);#删除字段ALTERTABLEstudropaddress;#查询原表改变情况SELECT*FROMstu;#字段的修改ALTERTABLEstuCHANGEstuididint;#删除表#DROPTABLEstu;#清空表TRUNCATETABLEstu;#数据的删除DELETEFROMstuWHEREid=1;DELETEFROMstuWHEREstuname='李四';#数据的修改UPDATEstusetstuname='随时'WHEREid=3;#查询SELECT*FROMstu;#指定字段查询SELECTstuname,stuageFROMstu;#别名的使用SELECTstuname姓名,stuage年龄FROMstu;SELECTstunameAS姓名,stuageAS年龄FROMstu#表别名的使用SELECTs.stunameFROMstus;descdept;SELECT*fromdept;#条件查询(单一):查询工资大于2500员工信息SELECT*fromempWHEREsal>2500;#条件查询(组合),#查询工资大于2500且部门编号为20SELECT*fromempWHEREsal>2500ANDdeptno=20;#条件查询(组合),#查询工资大于2500且部门编号不为20#第一种不等于SELECT*fromempWHEREsal>2500ANDdeptno<>20;#第二种不等于SELECT*fromempWHEREsal>2500ANDdeptno!=20;#去重(distinct)(查询有什么职位)去掉重复行SELECTDISTINCTjobfromemp;#7、模糊查询like像,模糊查询(查询员工表中员工姓名以“s“开头的员工信息)SELECT*fromempWHEREenameLIKE's%';SELECT*fromempWHEREenameLIKE'%A%';#查询员工工资大于2500或者员工部门编号是20号的员工信息)SELECT*fromempWHEREsal>2500ORdeptno=20;#非空isnull奖金不为空员工信息SELECT*fromempWHEREcommisnotNULL;#范围查询BETWEEN...AND...#工资在(包含)2000~3000的员工信息SELECT*fromempWHEREsal>=2000ANDsal<=3000;SELECT*fromempWHEREsalbetween2000and3000;#集合查询:in在某一个范围\#查询部门编号为1020员工信息#方式1SELECT*fromempWHEREdeptno=10ordeptno=20;#方式2SELECT*fromempWHEREdeptnoin(10,20);#排序:按照工资降序排序,(主次排序)select*fromempORDERBYsalDESCLIMIT3;#分页处理数据SELECT*fromempLIMIT3,3;#字符串函数SELECTASCII('a');#lower(字段|表达式):将字符串转换为小写SELECTLOWER('asSDDdsdadDFDAF');#将小写字符串转换为大写SELECTLOWER('asSDDdsdadDFDAF');#length获取字符串的长度SELECTLENGTH('rrrrrrrrrrrrrrrrrffffffffffagsfffdsdsffd')#substrSELECTSUBSTR('saddsdsasd',2,3);#trim():去除左右两边的空格。SELECTTRIM('AADSDdfsfdf');#日期函数#查看系统时间selectSYSDATE();SELECTNOW()#计算日期与日期之间的时间差SELECTDATEDIFF(SYSDATE(),'2019-06-03');#聚合函数#count()函数统计函数SELECTcount(*)fromemp;#求和函数SELECTSUM(sal)fromemp;#求平均值SELECTAVG(sal)FROMemp;#求最大值SELECTMAX(sal)FROMemp;#求最小值SELECTMIN(sal)fromemp;#加密函数SELECTPASSWORD('126708126708HH');SELECTMD5('126708126708HH')#分组函数SELECT*FROMempGROUPBYdeptno;#查询各部门的部门编号,工资和,筛选总工资大于9000的SELECTdeptno,SUM(sal)FROMempGROUPBYdeptnoHAVINGsum(sal)>9000;SELECTe.empno,e.ename,d.dname,d.locfromempASe,deptASdWHEREe.deptno=d.deptno;#讲结果并集SELECTdeptnoFROMemp;UNIONALLSELECTdeptnoFROMdept;#外连接#左外连接SELECTe.*,d.*fromempeLEFTJOINdeptdone.deptno=d.deptno;#右外连接SELECTe.*,d.*fromempeRIGHTJOINdeptdone.deptno=d.deptno;
附录二1.爬虫步骤(1)发送请求#引入导入urllib文件夹(包)里面的request文件(模块)fromurllibimportrequest#在request模块中有一个urlopen()的方法#这个方法就可以发送请求#urlopen方法接收一个字符串类型的url就可以发送请求#发送请求后会得到一个响应response=request.urlopen("")(2)接受响应response=request.urlopen(ur1)print(response)#通过打印response得知这是一个我们看不懂的对象#调用了read()的方法读取了这个对象#我们还是不认识编码不对html=response.read().decode("utf-8")print(html)=#解析数据#保存数据#项目名文件夹#包文件夹里面放了一个_init_py的文件#xxx.py文件模块#各种代码(3)导入request模块fromurllibimportrequestfrombs4importBeautifulSoup#确定要访问的网址url="/subject/26266893/comments?status=P"#确定headersheader={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/67.0.3396.87Safari/537.36"}#创建request对象来设置url和headersreq=request.Request(url,headers=header)#调研urlopen方法来发送请求response=request.urlopen(req)#读取响应信息并设置编码html=response.read().decode("utf-8")#打印输出查看一下是否有数据#print(html)#创建bs对象1需要被解析的数据2解析器soup=BeautifulSoup(html,"html.parser")#调用select方法可以找到所有的数据div=soup.select("span.short")#select方法返回的是列表形式的#print(div)foriindiv:print(i.text)2.爬取影评数据步骤fromurllibimportrequestfrombs4importBeautifulSoupforiinrange(10):page=str(i*10)url="/board/4?offset="+pageheader={"User-Agent":"Moz
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工作流程与效率优化制度
- 幼儿园学校管理制度
- 探究实验-鼠妇
- 人教部编版四年级语文上册《语文园地七》精美课件
- 【寒假阅读提升】四年级下册语文试题-非连续性文本阅读(四)-人教部编版(含答案解析)
- 东北育才中学2023-2024学年高三第十次考试数学试题
- 算法设计与分析 课件 9.3-概率算法 - 拉斯维加斯算法
- 2024年广西客运从业资格证app软件
- 2024年滨州客运从业资格证模拟考试练习题
- 2024年广元驾驶员货运从业资格证考试题
- 时代乐章第一课城市名片 课件 2024-2025学年人教版(2024)初中美术七年级上册
- 期中测试题-2024-2025学年道德与法治六年级上册统编版
- 4.1 10的再认识-一年级上册数学课件
- 中国急性缺血性卒中诊治指南(2023)解读
- 重力坝埋石混凝土施工工法分析
- 基坑开挖重点、难点分析及对策
- 哈尔滨医科大学附属第一医院ppt课件
- 理论力学试题题目含参考答案
- 《红楼梦》21-25内容简介ppt课件
- 在线检测系统操作手册
- 吉林省延边州高三下学期质量检测理科综合(朝语)试题及答案
评论
0/150
提交评论