大数据采集与预处理课件:数据采集与可视化综合案例 -2_第1页
大数据采集与预处理课件:数据采集与可视化综合案例 -2_第2页
大数据采集与预处理课件:数据采集与可视化综合案例 -2_第3页
大数据采集与预处理课件:数据采集与可视化综合案例 -2_第4页
大数据采集与预处理课件:数据采集与可视化综合案例 -2_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据采集与可视化案例 本章学习目标●分析链家二手房的网页结构和内容●使用requests库编写爬虫代码获取指定数据●使用BeautifulSoup实现数据的解析●使用pymysql库实现数据的持久化●使用flask和echarts实现数据可视化7.3.3数据持久化保存前面已经通过爬虫实现链家二手房数据获取,但是这些数据都只是存储在内存之中,并没有对其规范化和持久化的管理。因此,为了能够让数据结构化,使数据之间具有联系,从而更好地面向整个系统,同时提高数据的共享性、扩展性和独立性,降低冗余度,这里将使用DBMS对其统一管理和控制。这里将使用MYSQL数据库管理系统。请务必提前安装好MYSQL数据库管理系统,本案例使用的是NavicatPremium数据管理工具。1.数据持久化保存通过调用pymysql模块,使用Python语言实现连接和操作MYSQL数据库管理系统NavicatPremium中指定的数据库和表的创建和插入操作,以下七步详细介绍了数据持久化的主要过程。1)导入pymysql模块用于在Python中连接和操作MYSQL数据库管理系统。importpymysql2)使用pymysql的connect()方法,通过传入指定的参数实现对MYSQL数据库管理系统的登录和具体数据库的连接操作。这里的参数分别是:host表示将要连接的设备地址,localhost表示本机。user和password表示登录到MYSQL数据库管理系统的账号和密码。port表示登录到该数据库管理系统过程中使用的端口号,这里是3306。db表示在该数据库管理系统中已经存在的数据库。这里需要先在NavicatPremium中创建该数据库。最后,将该方法的返回值返回给变量db。db=pymysql.connect(host='localhost',user='root',password='xxxx',port=3306,db='test')3)使用cursor()方法是实现对数据库db执行SQL操作的基础。cursor=db.cursor()4)声明变量sql用于接收以字符串形式编写的SQL语句。该SQL语句的含义是:使用CREATETABLE命令创建一个名为lianjia的数据表。该表中包含region、house_type、area_list、decorate_type、floor_type、building_type、total_price、avg_price共八个字段。这八个字段正好用于接收前面对应的二手房数据信息。sql="""CREATETABLE`lianjia`(`id`int(10)NOTNULLAUTO_INCREMENT,`region`char(20)NOTNULL,`house_type`char(20)NOTNULL,`area_list`char(20)DEFAULTNULL,`decorate_type`char(20)DEFAULTNULL,`floor_type`char(20)DEFAULTNULL,`building_type`char(20)DEFAULTNULL,`total_price`char(20)DEFAULTNULL,`avg_price`char(20)DEFAULTNULL,PRIMARYKEY(`id`))ENGINE=InnoDBDEFAULTCHARSET=utf8mb4;"""5)使用execute()方法实现上面的SQL语句。在NavicatPremium中的test数据库中创建该数据表。cursor.execute(sql)6)使用SQL的INSERTINTO命令向指定的数据表lianjia中的指定的字段region、house_type、area_list、decorate_type、floor_type、building_type、total_price、avg_price中插入数据。cursor.execute("INSERTINTOlianjiaVALUES(%s,%s,%s,%s,%s,%s,%s,%s)",(region,house_type,area_list,decorate_type,floor_type,building_type,total_price,avg_price))到此,通过使用pymysql模块成功地实现了Python连接MYSQL数据库管理系统。在MYSQL数据库管理系统的test数据库中情况,如图7-9所示。图7-9数据持久化保存为了直观的了解爬取的数据,利用flask和echarts技术对数据进行可视化处理。1)使用flask技术生成一个可视化模板页面,并从数据库中读取相应的数据,结合ECharts生成的不同的图形,呈现丰富的可视化效果。如图7-10所示。图7-10的四种图形分别是折线图、饼图、条形图及表格数据,均以动态数据呈现。7.3.4数据可视化图7-10可视化界面在line1.js中,echarts生成折线图。如图7-11所示。图7-11折线图在pie1.js中,echarts生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论