版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
需求与架构分析就业是民生之本,是最大的民生工程、民心工程、根基工程。随着互联网的发展,面对严峻的就业形势,网络线上招聘已成为主流的招聘途径,“互联网+”成为求职主通道。但随之产生的海量数据并未得到充分的重视和应用,大数据的价值被极大忽视。基于大数据技术与文本挖掘技术,挖掘招聘信息背后的价值,归类招聘职位的工作性质及内涵,分析目前就业市场所需人才的职业类型,对于为求职者提供科学合理的就业指导具有重要意义。背景1系统架构分析目录业务需求分析与技术选型2在信息高速发展的时代,越来越多的企业将人才招聘信息发布至互联网上,产生了大量的非结构化网络招聘文本数据,数据包含用人单位对人才的需求及能力要求信息,这使得人才需求预测成为可能。针对海量的非结构化的网站招聘数据进行采集、清洗与挖掘,为求职者提供更为有效直观的信息,给他们提供适当的职业引导,进而实现高质量就业。同时,加强人才需求预测,对于缓解我国的就业结构性矛盾,减少人才供需的差异性,促进稳就业保就业具有重要的战略意义。业务需求分析对模糊而且非结构化的文本数据进行挖掘比较困难,涉及统计学、机器学习、文本挖掘等技术。隐含狄利克雷分布(LatentDirichletAllocation,LDA)主题模型Spark机器学习库
MLlib技术选型LDA主题模型能有效提取大规模文本隐含主题。将LDA主题模型引入网络招聘文本分析领域,有助于挖掘文本信息背后隐藏的主题,解决网络招聘分类不明确、缺乏标准、针对性不强等问题。LDA主题模型Spark作为新一代大数据分析处理框架,其机器学习库MLlib中,包含了大量特征抽取、文本分类、文本聚类等经典算法,如特征提取算法TF-IDF、主题模型LDA等。在大规模文本挖掘的应用场景中,这些算法具有出色的数据分析能力和快速执行效率。Spark机器学习库
MLlib机器学习库1系统架构分析目录业务需求分析与技术选型2针对网站招聘信息的文本挖掘过程,主要包括以下4个步骤:系统架构分析针对网站招聘信息的文本挖掘过程,主要包括以下4个步骤:数据抽取。通过网络爬虫技术从某招聘网站上采集各种职业的相关描述数据,并保存为CSV格式。数据探索与预处理。数据探索分析主要判定招聘信息是否存在重复数据、空值数据与异常数据等。数据预处理则主要分为数据清洗、去除停用词、文本分词与词特征向量化等步骤。建模与应用。通过LDA主题模型,对文本特征集进行训练,获取文档与主题,实现职位类型的划分。结果与反馈。对聚类的结果制作相应的词云图,可视化展示划分的结果,分析每种职业类型的岗位描述和能力要求,从而为求职者提供针对性的就业指导。系统架构分析数据探索在数据分析领域,数据探索分析可以更有效地了解数据,获得对数据的感性认识。互联网上的招聘数据形式多样复杂且数量巨大,为了避免不完整、不规范、冗余重复的信息对文本挖掘的效率和结果造成影响,在文本挖掘的初始阶段,有必要对数据进行探索性分析。概述1数据读取目录数据说明2重复数据与空值探索3异常数据探索4网络招聘平台的招聘信息形式包罗万象,按照数据结构划分大致可以分成结构化的职位相关信息数据和非结构化的描述性职位要求数据。在网络数据收集过程中,要合规合法,对数据依法收集、分类存储、合法处理。本案例从某网络招聘平台上采集了招聘文本信息,数据结构为非结构化数据,已将数据保存为CSV格式的文件,文件名称为“职位描述.csv”,文件大小约为458MB。经过整理加工后得到的数据属性说明表如下表所示:数据说明表名属性名称属性说明职位描述PositionId职位IDJob_Description职位描述其中,职位描述表的部分数据如下表所示:数据说明PositionIdJob_Description5849岗位职责:1、负责Web和App端产品的整体视觉风格定位及UI设计……5850岗位职责针对不同的用户群体,设计相应的活动方案,达到预期的运营效果负责活动数据跟踪分析……5851职位描述1、负责把控金融圈海外产品运营方向的整体规划及推广执行。2、负责海外渠道广告投放……26668工作内容:1、发料统计,记录备份,核对确保数据的精准;2、针对商户用料进行统计,物料使用计划的协调跟进……结合目前网络招聘的职位数据描述情况,可以实现如下目标:根据招聘信息内容,对目前网络人才市场中所需职业类型进行正确划分。对聚类得到的每个职业类型制作词云图进行更直观的展示,并分析每种职业类型的岗位描述和能力要求。本节将从原始的职位描述数据入手,对数据进行探索分析,根据探索分析的结果,判定是否存在重复数据、空值数据与异常数据,为数据清洗与预处理提供处理依据。数据说明1数据读取目录数据说明2重复数据与空值探索3异常数据探索4数据决定了问题能够被解决的上限,而模型只决定如何逼近这个上限。原数据以CSV格式存储,字段的分隔符为逗号,而职位描述字段(Job_Description)的内容中也包含逗号,因此在读取数据时需要格外注意,可将每个字段中的数据的最后一个逗号作为分隔符。读取数据文件并转换为DataFrame,再提取出Job_Description字段信息。数据读取1数据读取目录数据说明2重复数据与空值探索3异常数据探索4在职位描述数据中,可能会出现空行或重复的情况,因此,数据读取成功后,需要对其表和字段的内容进行基本的探索:使用DataFrame的distinct()方法进行去重操作,验证数据中是否包含重复数据通过DataFrame的groupBy()与orderBy()方法,根据Job_Description字段进行分组,统计重复记录出现的次数,并进行降序排序。重复数据与空值探索1数据读取目录数据说明2重复数据与空值探索3异常数据探索4异常数据是指样本中出现的“极端数据”,其分布明显偏离正常数据。异常数据会干扰后续的挖掘、预测与分析,因此,有必要对异常数据进行探索与处理。在职位描述信息中,有很多记录的Job_Description字段较短,并且部分记录含有网页链接信息,这些数据都是异常数据,这样的数据将影响职位聚类的效果。首先对Job_Description字段字符串的长度进行分组统计,探索数据中是否包含职位描述较短数据;再通过filter()方法过滤包含网页链接的记录。异常数据探索本节将从原始的职位描述数据入手,对数据进行探索分析,根据探索分析的结果,判定是否存在:重复数据空值数据异常数据为数据清洗与预处理提供处理依据。小结数据预处理数据预处理的目的一方面是提高数据的质量,另一方面是要让数据更好的适应特定的挖掘技术或工具。统计发现,在数据挖掘过程中,数据预处理工作量占到了整个过程的60%。本节对数据探索发现的空值数据、重复数据与异常数据进行清洗和过滤,并对非结构化数据进行文本分词、停用词过滤、词特征向量化等预处理,为后续LDA的文本聚类提供基础。概述1中文分词与去停用词目录数据清洗2特征向量化3错误的数据比没有数据更糟糕,数据清洗是提升数据质量的重要手段。对于空值与Job_Description字段值的长度较短的记录直接清洗剔除将记录中包含的网页链接信息置为空值重复数据则通过DataFrame的distinct()方法进行去重数据清洗1中文分词与去停用词目录数据清洗2特征向量化3中文分词(ChineseWordSegmentation)是将连续的汉字序列按照一定的规范重新组合成词序列的过程。对于中文而言,词是承载语义的最小单元,由词构成语句,又由语句构成篇章。但是,中文文本是由连续的字序列构成,词与词之间是没有天然的分隔符。因此,中文本身的复杂性使得中文分词成为自然语言处理的难点。中文分词与去停用词停用词是指对文本类别标识没有太大作用的字词。停用词总共分为两类:第一类是弱词性词,如助词、连词、介词等表征能力比较弱的词性,这些词本身并无实际意义,和类别信息没有关联;第二类是均匀分布在各类型文本中的词汇,由于它们在所有类的文本中都会出现,这些词区分类别的能力普遍较弱。将这些字词过滤掉,可以降低特征空间的维数和噪声。中文分词与去停用词jieba库支持用户自定义词典,这里将自定义词典和自定义停用词分别用一个文件进行保存。使用jieba库的load_userdict方法加载自定义词典,并通过lcut()方法对句子进行精确分词,返回分词列表。然后,读取自定义停用词文件,建立停用词表;遍历停用词表,从而过滤分词列表中的停用词。中文分词与去停用词1中文分词与去停用词目录数据清洗2特征向量化3词特征向量化是将非结构化的文本转化为结构化的向量的过程词频-逆文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)是一种常用的文本向量化方法。TF-IDF用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。本节将介绍TF-IDF的原理,并使用SparkMLlib库的TF-IDF算法实现职位描述信息的词特征向量化。特征向量化
1.
TF-IDF简介
1.
TF-IDF简介词频-逆文档频率的计算公式:
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。1.
TF-IDF简介TF衡量的是词语对于某一个具体文档的重要性,而IDF衡量的是词语对于所有文档的重要性,两者的关系类似于局部与整体的关系。在事物的认知中,要正确认识和处理“整体”与“局部”的关系,从整体上把握事物,立足整体,避免“管中窥豹”“盲人摸象”,要善于透过现象看本质,把握好全局和局部的关系。1.
TF-IDF简介使用SparkMLlib库的TF-IDF算法对职位描述信息进行词特征向量化。在SparkMLlib库中,TF-IDF被分成TF(+Hashing)和IDF两部分:TF:HashingTF是一个转换器,在文本处理中,接收词条的集合,将集合转化成固定长度的特征向量。SparkMLlib使用特征哈希的方式实现词频统计,原始特征通过哈希函数,映射得到一个索引值。IDF:IDF是一个评估器,在一个数据集上应用fit()方法,产生一个IDFModel模型。该IDFModel接收特征向量(由HashingTF产生),计算每一个词在文档中出现的频次。IDF会减少那些在语料库中出现频率较高的词的权重。2.
词特征向量化导入SparkMLlib库中TF-IDF算法所需要的包,定义HashingTF转换器,调用HashingTF的transform()方法将单词的集合转换为固定长度的特征向量;定义IDF评估器并调用fit()方法产生IDFModel,该IDFModel的transform()方法接收HashingTF产生的特征向量,最终得到每一个词对应的TF-IDF度量值。2.
词特征向量化对数据探索发现的空值数据、重复数据与异常数据进行清洗和过滤使用jieba库对非结构化数据进行文本分词,并进行停用词过滤详细介绍TF-IDF的原理,并使用SparkMLlib库的TF-IDF算法实现职位描述信息的词特征向量化。小结模型构建与评估LDA主题模型通过非监督学习自动挖掘文本的隐藏信息,识别文档的主题,已经逐渐成为文本挖掘的利器。介绍LDA主题模型的大致原理后,使用SparkMLlib库的LDA聚类算法对职位描述信息进行聚类划分,并通过评价函数Perplexity(困惑度)寻找出最优聚类数。在数据建模与分析中,要尊重事实、追求真理,学会透过现象看本质,发现数据背后规律。背景1LDA模型构建与评估目录LDA算法简介2构建LDA聚类模型3LDA模型用来推测文档的主题分布,它可以将文档集中每篇文档的主题以概率分布的形式给出,通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。LDA模型被称为3层贝叶斯概率模型,包含文档(d)、主题(z)和词语(w)三层结构。所谓的生成模型即以一定概率选择某个主题,并从这个主题中以一定概率选择某个词语的过程。文档到主题服从多项式分布,主题到词语服从多项式分布。LDA模型词语(w)是文档的基本单元,由N个词构成的文档d:
假设语料集D由M篇文档构成:M篇文档分布着个K主题,每个主题z: LDA模型
LDA模型
LDA模型
LDA模型1LDA模型构建与评估目录LDA算法简介2构建LDA聚类模型3LDA模型主题参数K事先无法确定,而主题数的多少对模型的影响非常大,主题数目过多,将会产生很多不具有明显语义信息的主题,反之数目过少将会出现一个主题包含多层语义信息的状况。模型的效果如何,能否满足业务需求,需要采用合适的评估指标进行评价。LDA模型的主题数K的选取,可以通过评价函数Perplexity(困惑度)进行评估。困惑度是文档在划分主题时确定性的评判,反映的是模型对新样本的适用性,其中,困惑度值越小,模型预估能力越强,模型的扩展性越强。LDA模型构建与评估导入SparkMLlib库中LDA算法所需要的包,初始化LDA模型,设置训练参数并调用fit()方法训练模型;调用该LDA模型的logPerplexity()方法,得到模型的困惑度值。对于寻找最优聚类数,将主题数从2至9循环遍历,计算每个模型对应的困惑度,并绘制出的主题数相对应模型的困惑度折线图,选取困惑度的最小的点作为最合适的聚类数。LDA模型构建与评估1LDA模型构建与评估目录LDA算法简介2构建LDA聚类模型3通过SparkMLlib库的LDA算法对职位描述信息聚类,当K=5时Perplexity值最小为最优聚类数。以聚类数为5对职位描述数据进行建模,将招聘信息的职位描述数据经过预处理和词向量化后的数据作为LDA模型的输入,设置LDA模型的参数并训练模型,最终输出职位的聚类类别。构建LDA聚类模型介绍LDA主题模型的原理使用SparkMLlib库的LDA聚类算法对职位描述信息进行聚类划分,并通过评价函数Perplexity(困惑度)寻找出最优聚类数。以最优聚类数,构建LDA聚类模型小结制作词云图数据可视化是技术与艺术的完美结合,以图形的方式清晰有效地传达和传播信息。词云图对网络文本中出现频率较高的“关键词”予以视觉上的突出,出现越多,显示的字体越大,越突出,这个关键词也就越重要。从而,让读者通过词云图直观快速感知最突出的文字,迅速抓住重点,了解主旨。概述本案例选用开源的工具WordCloud制作词云图:读取保存各类别前10000条词语的文本文件通过jieba分词提取词汇使用WordCloud库绘制词云图制作词云图各类别前10000条词语制作词云图制作词云图职位描述的各聚类类别文件的高频关键词:制作词云图类别编号各类别高频关键词类别1培训,享受,年度,开发,经验,国家,空间,带薪,梦想,奖励,留学,优秀,机会,优惠,节日,学习,学生,沟通,团队,五险类别2培训,客户,机构,团队,经验,销售,尚德,课程,学习,沟通,职业,服务,专业,分校,主管,招聘,学员,产品,电话,协助类别3运营,产品,经验,用户,团队,内容,合作,设计,平台,沟通,电商,体验,流程,经理,分析,管理,业务,落地,数据,淘宝类别4产品,经验,运营,沟通,需求,销售,团队,分析,客户,互联网,管理,媒体,用户,策划,设计,市场,技术,渠道,推广,营销,方案,网站,微信,微博类别5开发,经验,设计,系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋互换合同(2024版)2篇
- 2024年度农业技术与种植指导合同2篇
- 二零二四年度产品分销与区域销售合同2篇
- 二零二四年度品牌服装设计委托生产合同3篇
- 2024年度软件开发合同-智能手机应用程序定制3篇
- 2024版高新技术产业研发与产业化合同3篇
- 2024年度家政服务企业与员工福利合同2篇
- 2024年度废木糠行业研究报告合同2篇
- 洗涤服务合同
- 救生员聘用合同
- 永辉超市门店SOP标准作业流程制度规定(五篇)
- 高边坡锚索试验孔基本试验报告
- 研读新课标“数据意识”的培养策略与评价
- 不断提升能源利用效率做好“双碳”工作心得体会
- 新版GMP变更控制详解
- 制糖蒸发工序操作
- 《中国书法基础知识讲解》PPT课件
- 《逻辑学》第五章-词项逻辑
- 头痛的国际分类(第三版)中文
- 小学英语单词分类全集
- 【课件】5.3 三角函数的诱导公式(共19张PPT)
评论
0/150
提交评论