版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、文本挖掘过程与方法简介,PPT模板下载: 行业PPT模板: 节日PPT模板: PPT素材下载: PPT背景图片: PPT图表下载: 优秀PPT下载: PPT教程: Word教程: Excel教程: 资料下载: PPT课件下载: 范文下载: 试卷下载: 教案下载:,大数据分析技术,文本挖掘的一般方法,数据准备,01,数据获取,网络文本数据包括各大门户网站的新闻、论坛的帖子、微博、博客等等。 爬取数据可以使用“火车头”、“网络神采”等工具。也可以使用java、python等的开源的爬虫框架。自己编写爬虫的话,对于网页解析可以用“正则表达式”或 Beautiful soup。,数据获取常用两个类库,
2、Selenium一个用于Web应用程序测试的工具。直接运行在浏览器中的一款测试工具,和真正的用户打开浏览网页一样。用selenium打开网页后,使用beautiful soup解析加载页面的内容,其主要的功能特点能让我们非常精确地获取网页数据。 Beautiful Soup 提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 使用selenium模拟用户点击网页,打开页面后使用beautiful soup将其网页内容解析,获取我们想要的数据,将两者结合,就能够
3、将各个机构提供的数据从其网页上抓取下来。,数据存取,对于数据量不是很大的话可以用json和csv格式来存储,比较好处理,对于数据量很大的话就直接存入数据库(如sqlserver)中。对于有些数据结构,存入非关系型数据库比较好,常见的非关系型数据有MongoDB等,具体可以参考/。,示例爬取中国房地产信息网的数据,使用python的scrapy框架爬取了中国房地产信息网的政策动向中的土地政策、金融政策、财税政策、保障政策和中介政策。并以csv格式存取。,数据准备,01,分词及词性标注,02,03,文本相似度计算和主题提取,中文分词及词性标注,如果以
4、每条评论为单位来进行产品特征评论语句来分类容易产生混淆分词之前需要对文本进行分句,可以用Python程序按照标点(或空格)分句。 中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。 所谓词性标注就是根据句子的上下文信息给句中的每个词确定一个最为合适的词性标记。,中文分词工具,中文分词工具主要有MSRSeg、 Hylanda 、HIT、ICTCLAS等。 其中ICTCLAS是
5、中国科学院计算机研究所研制的。主要功能包括中文分词、词性标注、命名实体识别、新词识别同时支持用户词典。是当前世界上最好的汉语词法分析器。 另外,Python的jieba扩展包用于分词也是非常好的工具。,去除停用词,在进行了分词和词性标注之后,得到的数据对我们来说还是冗余的,一些介词、量词、助词、标点符号等对文本研究无意义的词,需要剔除,所以我们还需要对这些评论语料进行停用词过滤和标点符号过滤。停用词和标点符号的过滤我们采用根据停用词表取出停用词,再使用python编写过滤程序。,分词示例,原始文本,分词后,词性标注,数据准备,01,分词及词性标注,02,03,文本相似度计算和主题模型,文本相似
6、性计算,计算文本的相似度在工程中有着重要的应用,比如文本去重,搜索引擎网页判重,论文的反抄袭,ACM竞赛中反作弊,个性化推荐、社交网络、广告预测等等。,计算文本相似性的主要算法,计算文本相似度的算法有IF-IDF、基于向量空间的余弦算法、隐形语义标引(LSI/LSA)、主题模型LDA。,用于实现LSI、LDA模型的python软件包gensim,Gensim是用来计算文档相似性的python软件包,使用非常简单。,LDA模型的计算举例,针对从中国房地产信息网爬取的数据进行主题提取,一共有8301篇文档,提取10个主题,由于分词后对于停用词没有去除,所以结果中有的词不是很好,但进行相似性分析(取
7、第8篇文章与其余的进行相似性分析,并按相似性排序)时还是比较准的。,数据准备,01,分词及词性标注,02,03,文本相似度计算和主题模型,04,情感计算,情感极性判断,情感极性的判断主要分为两类:第一类是利用情感词典的方法,第二类是采用机器学习的方法。 情感词典方法是通过建立情感词典也叫情感语料库,进行文本的情感计算。常用的情感语料库有知网语料库,大连理工大学的情感本体库等 机器学习方法主要是通过已经标注好的语料分为训练集和测试集,采用支持向量机(SVM)、最大熵、KNN等分类器使用训练预料进行训练并用测试预料测试分类器的准确度。机器学习包很多,比如python的NLTK + scikit-learn就很好。,情感计算旨在赋予计算机观察、理解和生成各种情感的能力,情感表达方式主要是文字、语音以及多模态数据。目前文本情感计算局限于褒贬二义的倾向性分析,方法以统计学习为主,缺乏情感语义资源的支撑和认知语言学的指导。我们研究目的旨在以多情感的语义资源为基础,以认知语言学为指导,进行文本的情感识别和情感迁移的研究。并将其应用在意见挖掘、产品评论和舆情监控等方面。,情感分析,利用情感分析技术和情感语义资源,面向互联网海量的在线评论,主要针对产品、音乐、电影和博客等,分析产品的属性评价,生成产品的评价摘要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2021年新高考语文复习教学案:第2编 1 文言文阅读-侧重文意梳理的传统文化阅读(含解析)
- 重庆财经学院《数学建模》2022-2023学年第一学期期末试卷
- 重庆财经学院《冷链物流及技术》2022-2023学年第一学期期末试卷
- 茶叶全球传播史研究报告
- 茶叶企业设计方案
- 茶厂茶渣处理方案
- 茶具拍摄执行方案
- 茶业商场引流宣传方案
- 重庆财经学院《服务端技术原理与应用课程设计》2022-2023学年期末试卷
- 策论福建学院研究报告
- 手卫生调查表
- 中小学英语教学衔接问题及对策研究课题申报书
- 友善(课件) 小学生主题班会通用版(共45张PPT)
- 细胞通过分化产生不同类型的细胞课件【知识精讲+高效课堂】高一上学期生物浙科版必修1
- 七星电子流量计CS200产品使用手册(A,C,D)(+profibus+0-20ma)(su)
- 人民医院肿瘤科临床技术操作规范2023版
- PCOS多囊卵巢综合征青春期月经紊乱
- 【超星尔雅学习通】中国现代文学名著选讲网课章节答案
- 保险企业营销人员绩效考核问题研究
- 4.22.7.2运用PDCA循环降低透析患者透析中低血压发生率的项目
- 香烟出售情况记录表(竖版10天)
评论
0/150
提交评论