(完整版)基于网络爬虫的招聘信息可视化分析系统(可编辑修改word版)_第1页
(完整版)基于网络爬虫的招聘信息可视化分析系统(可编辑修改word版)_第2页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于网络爬虫的招聘信息可视化分析系统摘要:随着信息化时代的降临,当今世界信息化水平也越来越高。越来越多的招聘信息在网络上发布,这就使得应聘者在眼花缭乱的招聘信息中不知如何选择最适合自己的工作。因此需要对这些海量的招聘信息进行更深入的更高层次的分析。系统通过网络爬虫技术对网络上海量的招聘信息进行爬取,并对其进行相关的数据清洗工作,对清洗后的数据进行可视化分析。实现了对爬取到的招聘信息进行分类查看模糊查询以及多条件联合查询,按关键字对招聘信息进行爬取等功能。随着大数据分析技术日渐成熟,可以在合理的时间内对海量的数据进行管理、整理以及分析,从而发掘出数据之间隐藏的关联规则以及预测未来的发展趋势。关键

2、词:招聘信息;数据可视化分析;网络爬虫随着大数据的相关知识在这个时代越来越普及,我们这个时代即将迎来大数据的黄金时期,大数据已经有着越来越重要的战略意义1。对于招聘信息而言,每天都会有海量的招聘信息发布在网络上,在不同的网站上有着各种不同的招聘信息,然而数据库只能满足对这些数据的增加、修改、删除、查询等简单的功能,这些简单的功能无法深层次的发掘这些数据源的潜在价值,发挥数据源应有的效益2。应聘者往往希望找到最适合自己的工作,诸如介于工作地点,工作报酬,工作经验,以及学历的要求,导致应聘者很难从海量的招聘信息中获取到最适合自己的工作信息3。大数据分析技术可实现高度自动化的对数据进行分析,发掘数据

3、中隐含的、未知的、潜在的趋势和模型,有助于发现业务的趋势,控制风险4。因此。对于招聘信息大数据的可视化分析是有其可行性的,通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。因此本项目开发了一款招聘信息可视化分析系统。因此对于招聘信息大数据的可视化分析是有其可行性的,通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。因此本项目开发了一款招聘信息可视化分析系统。在实际的运行中规避风险,帮助数据分析这作出合理的决策,从而实现效益的最大5。1 系统简介基于网络爬虫的招聘信息可视化分析系统基于B/S架构,整个系统可以分为数据爬取模块、数据可视化分析模块、用户功能模块三大模块。功能结构

4、图如图1所示。招聘信息图1系统功能结构图本文以对前程无忧以及智联招聘的招聘信息可视化分析业务为例,介绍数据分析模块的需求分析、设计与实现。2 系统需求分析招聘信息的可视化分析包括数据的整理,清洗以及绘制可视化图形。主要业务流程是后台管理员通过指定关键字从智联招聘或者前程无忧上获取相关的招聘信息,将获取到的数据保存在本地数据库中,然后通过对可利用的数据进行清洗工作,筛选出可以进行统计分析的招聘信息,最后通过管理员将可视化的分析结果上传到网站上。(1) 能够实现将MySql数据库中的相关工作的数据转存为JSON格式,并保存在本地服务器上,以供后续进行数据可视化分析。(2) 能够将JSON格式的数据

5、导入使用Python编写的使用pandas库的数据格式一一DataFrames中,从而对数据进行数据清理,从而将冗余的重复的无用的信息排查出去,并且对数据进行分类整理,聚类分析。不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不(3)招聘信息经过数据清洗之后,筛选出来的可用的信息再进行可视化分析:工作月薪工作地点分布关系图、工作月薪工作经验分布关系图、工作月薪最低学历工作经验分布关系图、工作数量工作地点分布关系图、最低学历工作数量分布关系图、工作数量工作经验分布关系图。招聘信息可视化分析用例图如图2所示。图2招聘信息可视化分析用例图查看可视化分析用例描述如表1所示。表1招聘信息可视

6、化分析用例描述标题说明用例名称查看可视化分析分布图用例标识号Report001简要说明用户可以通过可视化分析页面查看可视化分布图,分布图主要包括前程无忧和智联招聘两个数据来源的可视化分析,用户可以点击图片放大查看,可以点击下一张按钮上下移动右侧缩略图。前置条件用户打开可视化分析页面。基本事件流1. 用户点击右侧分布图的缩略图。2. 用户点击页面中间的主浏览图片放大查看,点击翻页按钮实现图片的分页下滑。3. 用例终止。其他事件流若用户没有点击任何按钮,默认显示数据库中第一张图片。异常事件流1提示数据库中没有已分析结果,用户确认。2.返回到可视化分析页面。后置条件跳转招聘信息可视化分析主界面,查看

7、成功。3 系统的设计可视化分析模块实现的主要功能是对从智联招聘和前程无忧上爬取到的数据进行可视化分析,即对爬取到的数据进行关联分析,对每一个字段进行统计,并将统计的结果通用Python中Matplotlib库相关方法将数据可视化。招聘信息可视化分析活动图如下图3所示:通过对系统各个模块的需求分析,设计得到系统类图如图4所示。不不不不不不不不不不不不不不不不不不不不不不不不不不个不个不个不不不不不不不不不不不个不不不不不不不不不不不个不不不不不不不不不不不个不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不不(

8、)不不()不不()图4系统类图4 系统的实现对招聘信息可视化分析业务具体实现是通过将MySql数据库中的相关工作的数据转存为JSON格式,并保存在本地服务器上。之后将JSON格式的数据导入使用Python编写的使用pandas库的数据格式DataFrames中,从而对数据进行数据清理,从而将冗余的重复的无用的信息排查出去,并且对数据进行分类整理,聚类分析。招聘信息经过数据清洗之后,筛选出来的可用的信息再进行可视化分析:的到工作月薪工作地点分布关系图、工作月薪工作经验分布关系图、工作月薪最低学历工作经验分布关系图、工作数量工作地点分布关系图、最低学历工作数量分布关系图、工作数量工作经验分布关系图

9、。招聘信息可视化分析顺序图如图5所示。实现对招聘信息的可视化分析的数据清理部分代码如下所示。foriinrange(len(df'ZWnum'):#处理职位数量try:item=df'ZWnum'.iloci.strip()result=re.findall(pattern,item)ifresult:df'num'.iloci=result0exceptExceptionase:continuedf_city=df'ZWadd'.copy()pattern2=pile('(.*?)(-)')#处理工作地点fori

10、inrange(len(df'ZWadd'):item=df'ZWadd'.iloci.strip()result=re.search(pattern2,item)ifresult:df_city.iloci=result.group(1).strip()else:df_city.iloci=item.strip()df'add'=df_(u'json数据清洗完毕')运行结果图如图6所示。图6最低学历-工作经验-平均月薪分布图5 结束语本文通过对招聘信息的可视化分析业务为例,详细介绍了基于网络爬虫

11、的招聘信息可视化分析软件的需求分析、设计与实现。对于招聘信息而言,每天都会有海量的招聘信息发布在网络上,在不同的网站上有着各种不同的招聘信息。通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。参考文献吴俊锋.基于Django的高性能计算Web系统的设计与实现D.成都:电子科技大学,2016.2刘文哲词语关联搜索查询系统的设计与实现D.武汉:华中科技大学,2015.熊晟知识库质量控制平台的设计与实现D.北京:北京交通大学,2016.4周嫣然基于大数据时代的数据可视化应用分析J网络安全技术与应用,2014,(11):47-48.杨超明基于.NET框架的高职就业管理系统的设计与实现D.长沙:湖南大学,2016.王囝囝,杨树,毕焘大数据时代数据信息可视化的研究J.通讯世界,2015,(14):185-186.7HuangZ,ZhangL,XuR,etal.Applicationofbigdatav

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论