《基于python的近几年大学生就业选择变化趋势分析7800字(论文)》_第1页
《基于python的近几年大学生就业选择变化趋势分析7800字(论文)》_第2页
《基于python的近几年大学生就业选择变化趋势分析7800字(论文)》_第3页
《基于python的近几年大学生就业选择变化趋势分析7800字(论文)》_第4页
《基于python的近几年大学生就业选择变化趋势分析7800字(论文)》_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于python的近几年大学生就业选择变化趋势分析摘要大数据时代背景下,传统的就业指导显现出诸多弊端,利用大数据对当今就业形势进行分析显得尤其重要。利用爬虫获取某招聘网站近些年相关就业数据,利用已有的数据进行处理分词聚类,确定各个领域的关键词,之后借助频率统计与决策树模型,对各个地区、不同的职业方向和岗位、不同学历带来的招聘优势之间的差距进行分析,为就业指导提供帮助。通过分析可以看出,IT行业为现在最热门的行业,技术领域也最有价值,北京、上海、广州、深圳四大城市依然是人才招聘最集中的地方,有工作经验与高学历的人会更受欢迎。通过基于大数据的分析与挖掘可以为在校大学生根据自身情况、需求、目标量体裁衣,提供一个更有价值的就业选择。【关键词】大学生;就业选择;网络爬虫目录TOC\o"1-3"\h\u21356第1章引言 122280第2章大学生就业与网络爬虫技术改善 2299622.1大学生就业现状 2201462.2网络爬虫技术 223584第3章爬虫的设计 511113.1系统需求及分析 5315133.2爬虫模块设计 5260673.2.1爬虫整体设计思路 584703.2.2爬虫的网页抓取模块 69363.2.3网页源码分析模块 6191533.2.4信息获取模块 6258273.2.5MySQL数据库的联合使用 721370第4章数据结果分析 9284184.1热门行业分析 9198284.2热门职位分析 9108034.3热门地域分析 10189834.4工作经验 1111366第5章结论 1320804参考文献 14第1章引言近年来我国招聘行业发展迅速,然而,如何使求职者全面充分了解真实的用人单位需求,如何让用人单位能更加便捷高效的匹配到所需的人才,一直都是社会多方人士所考虑的问题。与此同时,大学生在求职过程中始终存在着技能与岗位不匹配的问题,双方信息的不对称,也大大增加了招聘的成本。招聘行业的转型,已经成为了一个紧迫需要解决的问题。根据我国国家统计局所发布的相关统计的数据显示,全国范围之内我国的目前在校大学生约为2695.8万,用户规模大,这使得技能共享的市场十分广阔,同时,据央视报道,到2020年,高端技术人才缺口将会达到2200万,这表明社会对于技能型人才的需求也在日益增长。新时期我国的众多高校在开展大学生就业指导工作的过程中,应用利用好大数据技术,应能够转变传统模式,让技术科技在就业领域发挥作用,让我们对大数据的优势进行充分的利用。第2章大学生就业与网络爬虫技术改善2.1大学生就业现状自步入互联网时代,随着社会的不断进步发展,我国高等教育的面向群体和教育规模不断扩大,高等教育就业率不断提高:2010年631万,2015年749万,2020年874万;每年如此庞大的毕业生数量,就业岗位和数量有限,因此导致大学生每毕业季来临就业形势异常严峻,竞争异常激烈。今天我们有超过十亿的就业机会,到2025年,这一现象将不再趋于稳定。这说明我国大学生的数量相对偏多。但据民政部门及地方人才市场相关调查结果显示,目前我国许多岗位目前仍然存在缺口,大学生就业难的关键性问题在于结构性矛盾。自国家改革开放以来,公私合营,国家持股,公司制的出现,以前的毕业包分配制度已经不再适用于当代的大学生了,现在迈出高校大门的大学生们,在完成学业,能够自由选择职业方向岗位的同时,也有着“毕业即失业”的现象。“双向选择,自主择业”的就业模式便要求现在的大学生在进行择业的过程中,既要结合自身特长、社会需求,又要充分发挥自身潜能,不要盲从,根据自己实际出发为自己“私人订制”一份专属的职业发展路径。2.2网络爬虫技术我们现在所要运用的是python编程语言,是一种编写录入简单并且功能强大的适合于计算机程序设计的语言,它主要是通过采用高效的低级数据结构,从而为开发者提供简单并且高效的面向对象编程。简洁明了采用便于操作的python语法和对各种动态输入的功能性支持,使阅读、调试和扩展都变得更加简单清晰明了,同时也充分地使得python语言高度地集成了交互性、面向对象性、解释力和丰富的可扩展性于一体的特征,可提前根据实际需要同时导入多个模块,从而获取到第三方函数库的广泛全面支撑,这也就使得当下python类型的语言具备课了独树一帜的新颖优势,因此也就使得当下python类型的语言特别适合于应用快速开发,python类型的语言也被认为是当今所有应用程序设计的语言中,最热门、使用最广泛的语言之一。在我们的Internet上,实现文本数据挖掘主要是利用网络爬虫技术来获取网页内容,实现内容内容爬取,数据提取。因特网上的文本类信息,通过网页来进行描述,不同的网页与网页之间,具有着不同的结构特征。网络爬虫需要对网页进行特殊的解析,从而进一步获得所需的数据和信息,如图2-1所示。图2-1互联网文本数据挖掘过程本文一共包括6个组成部分:一、数据采集部分,即网站利用互联网爬虫自动解析整个网页地址,获取一些符合网站用户需求的相关资料;二、数据提取部分,即利用综合网页的结构和模式,来收集和获取网页的相关信息,如标题的抽取,正文锁定等;三、数据准备的全过程,即通过综合利用计算机语言技术、自然语言、统计学方法等提出相应的处理技术,提炼出各种文本资料的共性和特征;四、数据分析部分,以传统的方法来实现对大量数据的分类、汇总处理、关联分析,以先进的数据挖掘和计算机图形学技术为基础,通过充分利用与人工智能、神经网络等相关的技术,对大量数据信息进行相关的挖掘,并对其中所得到的结果与数据进行动态、可视化交互,将其中所有挖掘和分析出来的结果都通过图像处理和计算机图形学技术相结合,以可视化的方式呈现给需求群体,以获取真实反馈,从而能够进一步搜索出用户所需要的有价值信息。因特网文本数据是使用HTML语言定义的非结构化数据源。网络文本数据相对于我们普通文本数据而言,其具有独特性。(1)文本信息处在标记串里该标签串将HTML文档的内容划分为若干区域,该标签串即为标签,因此可在该标签串中查找相关信息。标签串中的文本数据显示清楚,容易查找,但提取起来比较困难。(2)文本多样(2)多种案文Internet上不同的网站可以选择采用不同的网页模板结构,万维网络的网页结构具有很强的多样性,这就增加了数据提取的工作量,提升了提取的难度。举例来说,局部页面在<Content>和中放置正文内容,而有些页面在<divclass='endContent>和'endContent>中放置内容。(3)页面结构清晰与普通的文本做比较,Internet文本数据结构更加清晰,层次更加鲜明,能以标记串的方式快速定位并找到对应的文本检索位置,有助于我们快速识别标题、正文等相关内容和结构。(4)文字重复Web页面中有许多无用的信息,例如较为常见的广告信息,其中真正有价值符合用户需求的信息很少,这便导致了数据抽取的文本内容冗长重复,数据采掘的技术有效性程度将会直接决定其效果,影响到其性能,而获取真正有价值的信息必须经过数据清洗过程。网页提取方式有:(1)通过自然语言的数据提取对于网络文本数据,采用常规文本数据提取方法,运用自然语言相关分析技术,分析数据中词组、句子和词组之间的关系,建立提取规则,对数据进行提取。比如WHISK,SRV,PAPIER等等。该方法需要大量人工干预和大量原始数据集分析。(2)通过机器学习提取数据采用计算机记忆的方法,对样本文本数据进行分析训练,并制定相应的提取规则,从而实现数据的提取。相对于前一种方法,在提取规则中增加了语义理解,无需人工干预即可提高提取精度。这个原理被应用于斯托克、威恩等的方法中。(3)通过概念建模的数据提取通过概念建模的数据提取需要依赖于应用Ontology原理去协助其构建数据模型,而数据的提取工作本身就是通过对照从Ontology项目中提取出的元素来实现的。这种方法的优点是它可以忽略掉页面自身的特性,从而进一步提升数据结构的相似性,并一致显示出不同的数据源,此操作对数据提取工作有很大的帮助。(4)基于HTML结构的数据提取该方法以XML技术为核心,是因特网上数据显示和交换的标准。利用Html的特征构造树结构,并对树结构进行处理,实现了文本数据的提取。阶段(5)查询数据这种方法独立于HTML格式,使用规范的网络搜索来获取所需的HTML数据,如文本内容,具有良好的通用性。第3章爬虫的设计3.1系统需求及分析网络搜索爬虫(webcrawler),又被广泛地被简称为自动网络蜘蛛(webspider)亦或者者说是基于web中的信息数据采集器,它指的是一种专门用于自动快速地搜索下载一个网页的自动计算机下载应用程序或者者说是自动地下载脚本,它甚至可以说是作为网络搜索结果引擎的一个重要组成部分而广泛存在。网络链接抓取的基本操作实现技术原理和操作过程主要分为有以下几个小步骤方法来进行完成:通过手机移动端或互联网从原始抓取状态中自动提取一个网页初始抓取状态下的网页url网络链接,将初始抓取状态下的每个网页链接存储在您的数据库里,在初始抓取状态下的每个网页上再次自动抓取一个新的网页url网络链接,并在这样的抓取过程中不断地进行重复以上的几个操作,直至您的网页已经达到了一个预设的初始状态才可以进行网络抓取。在没有明确的同意停止链接条件的任何情况下,直到您无法再次得到新的一个url链接。该操作方式用户能够轻松地通过实现对整个网页中的资料信息进行遍历、挖掘、保存。这个更新项目所需要利用的这个工具和工作原理其实就是在ppython中自动实时抓取广大网站更新内容的一个功能,以便于广大网站用户及时收集和自行管理网站更新。如果要保证开发成功网络昆虫系统,核心之处是保证系统能满足用户定制的功能,从而通过前期条件实现我们的预期设计目标。因此,在正式开发网络爬虫系统前,我们需要对系统的需求及性能进行详细的评估分析,以便于我们能够对整个设计保有一个清晰的思路。当前我们所使用的常用的爬虫系统都是基于模块化的,模块化程序设计不仅有利于我们的测试和维护代码块,同时它也进一步完善提升了代码的适应性。基于此基础上,只要把各个模块结合起来,就可以构建一个完整的爬虫系统。本论文以BOSS直聘为例,展开模块化程序设计。因为研究的目的是通过爬虫系统对当前的就业状况进行科学分析,因此,就需要从BOSS直聘网站上获取每个职位的所有信息,并从每个职位上获取各种关键信息,包括职位名称,职位位置,工资,公司规模,职位要求等等。这时,在功能模块的下一步设计上,有很强的针对性。3.2爬虫模块设计3.2.1爬虫整体设计思路设计该系统的思路为:首先,我们需要获取到包含职位信息网页相关的所有源代码;其次,需要我们在每一个网页的源代码中查找到所需的信息,此时需要连接到该爬虫系统和数据库,并需要将每次匹配成功的数据信息入库录入数据库,直到检索完毕所有网页。对于BOSS直聘系统在整个数据爬取过程中实现的高度爬取,为保证在数据爬取过程中达到效果的连续性,还需要我们在各模块中任务进程中引入相应对应的爬取策略。图3-1为本研究的总体设计框架。图3-1整体设计框图3.2.2爬虫的网页抓取模块网页抓取模块作为爬虫系统的一个重要组成部分,也是初始模块。从其所实际的爬取情况来看,对于同一IP在短时间内实现多次爬取会出现被网站屏蔽的状况,因此我们在这里采用了代理式IP池技术进行多次访问。一定程度下也有必要加入User-Agent,将其伪装成代理服务器,从而达到避免被对方发现成功爬取的目的。通过建立一个代理IP池和一个由多个用户代理组成的代理池,在我们的用户代理中,系统能够随机选择出此次进行访问的IP,把这些需要访问IP伪装成来自不同IP的用户进行访问,大大减少了会被反爬行器反爬取攻击的可能性。随后,您可以使用Requsets库的API解析当前第一层的URL。比如:resp=requests.get(url,headers=headers,proxies=proxies,timeout=5)3.2.3网页源码分析模块在第一结构层中提取得出来的URL源代码,需要分析当前文本的内容,寻找到一些有关于用户所需要的关键信息,并且根据不同时期用户的实际需求做出相应的调整,除此之我们还必须要知道每个工作类别的名相关称和其具体所对应的网页链接,通过使用ELEMENTS搜索,可以发现在a-href标签下的用户所需求的数据信息,并结合所有的工作名称和其相对应的JOB列表,将所有工作链接搭建出一条完整的URL和JOBURL列表。3.2.4信息获取模块因为在boss直聘网站中,每个类别的链接不可能能够超过10页,所以我们会有这样的情况出现,那么当页面具体的链接设置为每页时,页面的数量也就不可能能够超过10页,如果是超出10页那么当链接被设置为无效,当我们检测到了超出于我们预设的最后一页时,系统将会自动结束并退出。结构的规则如下代码所示:urlbase=link+’?page=’+str(i)+’&ka=page-’+str(i)接下来,我们将使用requests库来实现当前的网页解析,还可以使用代理IP池加用户代理池的方法进行随机选择和匹配,以使信息更加流畅。对求职者而言,工作中最需要关注的应该是职位、薪水、公司信息,这些都是工作所需的重要信息。用Beautifulsoup库解析网页信息,这一次将用下列设计代码分析:soupxbl=BeautifulSoup(resp1.text,’lxml’)jobkinds=soupxb1.select(’-primary>h3>a>div.job-title’)salarys=soupxb1.find_all(’span’,class=’red’)yaoqius=soupxb1.find_all(’-primary>p’)names=soupxb1.select(’pany-text>h3>a’)situations=soupxb1.select(’-company>div>p’)3.2.5MySQL数据库的联合使用我们通过BOSS直聘网站,浏览得到的每个职位所相关的信息相对来说是较为庞大的数据,如果选择MySQL数据库用于爬取数据的存储,MySQL数据库是开源型数据库,那么会具有操作便捷,高速度、可信赖性高和适应性范围广阔的特点。使用MySQLServer8.0,操作数据库的pymysql库,先从操作程序开始,使用API来构建一个数据库链接。研发设计代码参见:conn=pymysql.connect(host=’’,user=’root’,password=’xnxbl123@’,db=’bossapply’,charset=’utf8’)接下来,将基于用户需要保存的信息建立数据表格。设计研发代码见如下:cur.execute("DROPTABLEIFEXISTSbossapply")sql_c="createtablebossapply(jobchar(50),salarychar(50),requirementsvarchar(265),company_namechar(100),situationvarchar(265));"在此之后,从网页分析模块中提取到相关的信息以后,再将这些数据导入传输到所创建的数据库中的表中,设计研发相关代码见如下所示:sql_insert="insertintobossapply(job,salary,requirements,company_name,situation)values(%s,%s,%s,%s,%s);"cur.execute(sql_insert,(s1,s2,s3,s4,s5))通过以上操作,我们便能够很好的实现对数据库流程的操作,将我们在研究过程中将我们通过爬取所得到的资料和数据信息成功存入到数据库中,为我们进行以后的下一步操作:就业资料和数据的分析打下了坚实的基础。文中提及的是利用数据库视化工具MySQLWorkBench展示的部分爬取数据如一下图3-2所示。图3-2部分爬取数据第4章数据结果分析4.1热门行业分析就产业的频度而言,显然高过20%的产业只有一种移动互联网,可见,目前移动互联网是最热门的产业,电子商务占15%~20%,O2O占10%~15%,金融占10%~15%,而移动互联网、电子商务、O2O和金融四大产业中,前三大都与IT相关,而IT是最热门的产业。图4-1热门行业4.2热门职位分析从大类专业来看,目前技术人才需求最大,市场方面、经营方面也有相当的需求,而产品金融方面经营人才需求较少。图4-2热门职位招聘数量更是超过了99个,其中大部分工作岗位分布在少数地区,其次是超过1%的城市。通过对岗位与工资、抽样调查与树形图分析,可以看出,技术人员与产品人员的平均工资较高;产品人员对高端人才的需求较大;技术人员有两个头,低收入群体人员数量和高收入群体人员数量较多,中等收入群体人员数量较少;市场销售人员较多,管理人员分布在低工资领域。图4-3热门行业与职位的交叉分析4.3热门地域分析就地区分布频率而言,北京的专业岗位招聘岗位上数量高达30%,上海和深圳略低于30%,而北京、成都、广州、杭州、南京、上海、深圳、武汉、厦门等9个城市的招聘数量超过了299个,其中北京的招聘数量超过了299个,而北京、成都、广州、杭州、南京、深圳、武汉、厦门等9个城市的招聘数量更是超过了299个,其中大部分工作岗位分布在少数地区,其次是超过1%的城市。图4-4热门地域平均的税后工资为11867.638元,其中“北、上、杭、深”北京、上海、杭州,深圳平均工资均超过了10千元,工资受益方面会更加理想。4.4工作经验从九个地区成员人数平均分布招聘频率分析来看,北京高达30%,上海和成都深圳略低于30%,而上海北京、成都、广州、杭州、南京、上海、深圳、武汉、厦门等9个主要地区和重点城市今年招聘成员人数均分布超过99人,其中上海北京的九个地区城市招聘成员人数最多,其次分别是上海北京,成都,广州,杭州,南京,武汉,武汉,厦门,更是超过了299人,而北京的招聘人数最多,其中大部分工作岗位分布在少数地区,其次是超过1%的城市。图4-5工作经验通过对上图中,工作经验和工资扇形统计图的综合分析(见图4-6),可得,随着工作经验的增长,工资也在增长,因此,工作经验仍然是影响薪酬的重要因素。通过对城市和专业类别的树状图分析,可以发现,大部分地区仍需要技术人才,而对金融人才的需求相对较少。图4-6工作经验与工资第5章结论通过对文中提及的建模和模型进行求解可以得出,目前较为热门的行业是IT,金融,电子商务等;金融业相较于其他行业,金融业的平均工资最高,其他行业几乎没有什么区别;在所有行业中,四个城市:北京,广州,上海,深圳依旧特别热门。针对在校大学生提出就业建议,有意修双、辅修或转专业的大学生,可以考虑在信息技术,特别是移动技术方面进行一些学习,薪水和工作机会都很高,但是要想在技术岗位上获得更高的收入,就需要在大学里打好基础,踏踏实实地学习技术,这对未来的就业非常有利。今天的社会,要想拥有更高薪的收入,在找工作的过程中拥有更多的选择权,把握更大的主动权,最好的办法之一就是选择继续深造,如果学生有这样的想法,继续读研是值得肯定的,选择继续进修读研读博,这对未来的职业发展有就业选择有更大的帮助,特别是对于有意愿从事金融工作和大数据行业的学生,选择继续读书深造,提升自己的专业能力和学术水平对此类学生的帮助是很大的。同时有意愿进入这些行业,也可以选择考虑提前就业,获得更多的工作经验,用实际工作经验来填补专业能力强的空缺。但总的来说,数据告诉我们学历层次越高,能够实现高收入的可能性和机会就相对越多,岗位选择空间会更广阔。对于不愿意继续深造的学生来说,工作经验是影响其就业机会和工资水平的主要因素,在校期间积极参加社会实践,特别是要争取每一次实习机会,这对他们毕业后的第一份工作有很好的影响,即使新生工作经验不足一年,工资也不会太高,学生要有心理准备。岗位越好,对知识能力的要求越高,学好大学课程仍然很重要,特别是那些想从事技术领域的学生,同样重要的是学好现有知识,不要为了追求工作经验而放弃学习。目前,一线城市“北、上、广、深”仍是四大就业选择上最受欢迎的城市,对于地处山东的学生来说,在上学的时候可以关注自己心仪目标城市的招聘动态,但对于我们学校的学生,因为不在这三个城市,地理位置上不具有得天独厚的优势,相对这种城市的就业的压力可能会比较大,这就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论