版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Python人工智能技术与应用》能力模块五掌握基于深度学习的自然语言处理技术应用任务二完成文本数据采集与预处理实训TaskImport任务导入
公司的汽车门户网站已经有大量的合作厂商决定接入,公司的汽车门户网站非常的火热,收到了很多用户对各种汽车品牌的评价和反馈。现需要对合作厂商的汽车相关数据进行收集和文本预处理以及文本表示。
你作为该公司数据科学助理,主要负责协助数据科学家完成数据的准备和特征表示的任务。为后续建立模型对汽车口碑进行分析做数据准备。素养目标引导问题的过程中,培养学生形成勤于思考的能力获得分析解决问题以及多元化思考解决问题的方法,形成创新意识。TaskObject任务目标知识目标了解文本数据的定义。了解文本数据的主要特点。了解文本数据的采集方法。了解文本数据的数据来源。了解中文文本预处理的流程以及与英文文本预处理的区别。技能目标能够列举实现汽车评论文本数据的采集和预处理相关Python工具。能够思考出汽车评论文本数据的采集和预处理的实现流程,在思考中锻炼系统性的职业思维。新
授Python实现汽车评论文本的采集和预处理04CONTENTS目录文本数据的定义与主要特点01文本数据的采集方法和数据来源02自然语言文本数据预处理流程0301文本数据的定义与主要特点
文本数据是用字符串形式表示的信息。可以是文字、语音、图像或其他多媒体形式在计算机中存储和处理为字符串格式;也可以是文章、评论、社交媒体消息、电子邮件等表示各种类型的信息形式。定义
由于目前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。应用形式(一)文本数据的定义01文本数据的定义与主要特点(二)文本数据的主要特点半结构化,包含标题、作者、分类等结构字段,又包含非结构化的文字内容1蕴含语义、情感,如一词多义、一义多词、起承转合、时间关系等2文本数据的采集方法和数据来源02(一)文本数据的采集方法
如scikit-learn中包含20类新闻数据集和口语语料库。Keras中的IMDB评论数据集和商品评论数据集。Python及其第三方库内置的数据集文本数据的采集方法和数据来源02(一)文本数据的采集方法开源数据集
当前已有很多公开的NLP数据集支撑相关的研究和应用分析,如github项目:CLUEDatasetSearch(收集了众多中英文NLP数据集)、funNLP(分门别类地组织了众多的NLP数据集和项目)、awesome-chinese-nlp(收集了中文自然语言处理相关资料)等。文本数据的采集方法和数据来源02(一)文本数据的采集方法网络爬虫
很多情况所研究的是面向某种特定的领域,这些开放语料库经常无法满足使用需求,可使用爬虫爬取相应的信息。文本数据的采集方法和数据来源02(二)文本数据的来源参考
文本数据集的来源通常是在调查报告、社交媒体、在线评论中。以社交媒体为例,在社交平台上,人们通过社交帖子中的语言和表情符号表达自己的想法、感受和行动。社交帖子对于理解目标受众并引起共鸣非常有价值,社交媒体可视为世界上最大的文本数据池。
社交媒体上存在着大量文本数据更多的文本数据还来源于社交论坛、新闻报道、访谈、学术研究论文、演讲稿等。自然语言文本数据预处理流程03
文本数据预处理是指对原始文本数据进行清洗、格式化、结构化处理,以便于后续的分析和模型训练。包括但不限于去除噪音数据、标准化语言、分词、词干提取、去除停用词等步骤。(一)中文文本预处理流程(以中文文本为例)去除无效标签:例如从网页源代码获取的文本信息中包含HTML标签。基本纠错:对于文本中明显的人名、地名等常用语和特定场景用语的错误进行纠正。去除空白:文本中可能包含的大量空格、空行等需要去除。去标点符号:去除句子中的标点符号、特殊符号等。分词:将连续的字序列按照一定的规范重新组合成词序列的过程。去停用词:比如“的”“是”等。自然语言文本数据预处理流程03(二)中英文文本预处理的主要区别对英文预处理要包括拼写检查,比如“HeloWorld”这样的错误。词干提取(stemming)和词形还原(lemmatization)英文文本可直接处理得到单词的原始形态。比如,"faster"、"fastest",都变为"fast";“leafs”“leaves”,都变为"leaf"。拼写英文可以直接用最简单的空格和标点符号完成分词。中文词没有一个形式上的分界符。分词自然语言文本数据预处理流程03(二)中英文文本预处理的主要区别步骤中文文本预处理英文文本预处理分词中文文本需要分词,将连续的汉字切分成离散的词语英文文本通常已经是离散的单词形式停用词过滤中文文本需要去除常见但无实际含义的词语,如“的”“是”等英文文本也需要去除停用词,如“the”“a”等词干提取/词形还原中文文本不需要词干提取,但可以使用词形还原进行规范化处理英文文本需要进行词干提取,如将“running”转化为“run”实体识别中文文本需要进行实体识别,如人名、地名、机构名等英文文本也可以进行实体识别,如人名、公司名等词向量表示中文文本需要进行中文词向量表示,如使用Word2Vec或BERT等模型进行训练英文文本也可以进行词向量表示,使用相应的模型进行训练编码转换中文文本需要将文本从GBK或GB2312等编码转换为UTF-8编码英文文本通常已经是UTF-8编码清洗/过滤中文文本需要清洗去除一些噪声、无用信息和不规范的文本格式,如网页标签等英文文本也需要进行类似的清洗和过滤文本归一化中文文本需要进行拼音转化、数字规范化、繁简体转换等处理英文文本通常不需要进行文本归一化处理
中英文文本预处理步骤区别表Python实现汽车评论文本的采集和预处理04Jieba库采用了基于前缀词典的分词方法,可以实现高效准确的中文分词。Jieba库支持三种分词模式:精确模式、全模式和搜索引擎模式。其中,精确模式是默认模式,它试图将文本切分成最精确的词语;全模式则将文本中可能的词语全部切分出来;搜索引擎模式则在精确模式的基础上,对长词再次进行切分。Jieba还提供了一些其他的功能,比如关键词提取、词性标注、繁体转简体等。Jieba库是一个开源的Python库,可以通过pip安装。它的使用非常简单,只需要导入库并调用相应的函数即可。(一)工具介绍
Jieba(结巴)是一个中文分词库,它可以将中文文本分成一个一个的词语。Python实现汽车评论文本的采集和预处理04(二)实现流程1.通过pip命令安装Jieba库。代码示例:!pipinstalljieba2.对文本进行分词,使用默认分词模式。代码示例:importjieba<br>seg_list=jieba.cut("我来到清华大学",cut_all=False)<br>print("DefaultMode:"+"/".join(seg_list))3.将"自然语言处理"添加到词典中,以便在分词时被识别。代码示例:jieba.add_word("自然语言处理")4.将"机器学习"从词典中删除。代码示例:jieba.del_word("机器学习")Python实现汽车评论文本的采集和预处理04(二)实现流程5.使用TF-IDF算法提取关键词,返回前3个关键词及其权重。代码示例:importjieba.analyse<br>text="结巴是一个优秀的中文分词工具,使用方便,效果出众"<br>keywords=jieba.analyse.extract_tags(text,topK=3,withWeight=True)<br>print(keywords)6.对文本进行词性标注,输出每个词及其对应的词性标记。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年石油化工业基地建设施工协议模板版B版
- 2024年科研机构虫害防治合作协议3篇
- 鞋品订购采购协议
- 代理招商合作合同范本
- 产品采购合同书
- 经典材料采购合同样式
- 标准格式瓷砖购销合同范本
- 样品采购合同的注意事项
- 高效辅导协议
- 计算机购销合同范本
- MOOC 基础生物化学-西北农林科技大学 中国大学慕课答案
- 2025届“新课程标准”下的中考道德与法治复习策略 课件
- 农村网格化矛盾纠纷
- 火灾自动报警消防联动逻辑关系整理
- 体育教练员培训总结
- 面部整形美学设计
- 基于Web的高校教材管理系统的设计与开发
- 养生餐厅调查研究报告
- 临床医学研究进展展望新兴领域与发展趋势培训课件
- 北京市2022-2023学年三年级上学期语文期末试卷(含答案)2
- 2023-2024年三年级上册科学(教科版) 期末模拟试卷(三)(含解析)
评论
0/150
提交评论