文本数据分析海洋大数据分析与应用天津海运职业课件_第1页
文本数据分析海洋大数据分析与应用天津海运职业课件_第2页
文本数据分析海洋大数据分析与应用天津海运职业课件_第3页
文本数据分析海洋大数据分析与应用天津海运职业课件_第4页
文本数据分析海洋大数据分析与应用天津海运职业课件_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新知传授任务实施课堂小结文本数据分析《海洋大数据分析与应用》天津海运职业学院新课导入学习目标课中讲授实操演练课堂小结了解熟悉掌握掌握了解NLTK与jieba12掌握文本预处理,文本情感分析掌握文本相似度,文本分类34熟悉NLTK与jieba库的安装大国崛起,树立民族自豪感和社会责任感手机芯片市场份额,华为麒麟芯片的自主研发,将塑造大国信仰、科技独立自主的传承等案例融入(思政目标),增强学生对专业的理解和认同,提升专业基础知识和自主设计学习热情(教学目标),使学生理解电子科技对国家政治、经济中的重要性。01文本数据分析工具02文本预处理03文本情感分析新课导入学习目标课中讲授实操演练课堂小结自然语言处理(NLP)领域是计算机科学领域与人工智能领域中的一个重要方向,它主要研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。新知讲授课中讲授实操演练课堂小结新课导入课中讲授通过一张表来列举NLTK中用于语言处理任务的一些常用模块。新知讲授课中讲授实操演练课堂小结新课导入课中讲授NLTK中语言处理任务的常用模块。(续表)新知讲授课中讲授实操演练课堂小结新课导入课中讲授Jieba库拥有以下一些特点:支持三种分词模式支持繁体分词支持自定义词典新知讲授课中讲授实操演练课堂小结新课导入课中讲授Jieba库支持以下三种分词模式:精确模式试图将句子最精确地切开,适合文本分析。全模式把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。搜索引擎模式在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。新知讲授课中讲授实操演练课堂小结新课导入课中讲授大家可以参考/fxsjy/jieba网址进行全面学习。后期在使用到jieba库的某些功能时,会再另行单独介绍。新知讲授课中讲授实操演练课堂小结新课导入课中讲授02文本预处理预处理的流程文本预处理一般包括分词、词形归一化、删除停用词,具体流程如下所示:新知讲授课中讲授实操演练课堂小结新课导入课中讲授根据中文的结构特点,可以把分词算法分为以下三类:基于规则的分词方法按照一定的策略将待分析的中文句子与一个“充分大的”机器词典中的词条进行匹配。基于统计的分词方法它的基本思想是常用的词语是比较稳定的组合。基于理解的分词方法它的基本思想是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。凡是有度,过犹不及

语法规则强制类型转换就好比将大瓶水倒入到小瓶中一样,如果大瓶中的水的容量小于小瓶的大小,那么水是可以完全倒入的;否则多出来的水就会溢出。告知同学们水满则溢,日满则亏,人生的巧妙就在于做人有尺、做事有度,情感、情绪、理智处在平衡状态,不要过犹不及。新知讲授课中讲授实操演练课堂小结新课导入课中讲授要想使用NLTK对英文句子分词,则可以调用word_tokenize()函数基于空格或标点进行划分,并返回单词列表。sentence='Ilikebule.'#将句子切分为单词words=nltk.word_tokenize(sentence)['I','like','bule','.']新知讲授课中讲授实操演练课堂小结新课导入课中讲授要想使用jieba对中文句子分词,则可以通过jieba.cut()

函数进行划分,该函数接收如下三个参数:

需要分词的字符串。cut_all参数用来控制是否采用全模式。HMM参数用来控制是否使用HMM模型。新知讲授课中讲授实操演练课堂小结新课导入课中讲授如果将cut_all参数设为True,则表示按照全模式进行分词,示例如下:sentence='传智专修学院推出颠覆式办学模式'#全模式划分中文句子terms_list=jieba.cut(sentence,cut_all=True)print('【全模式】:'+'/'.join(terms_list))【全模式】:传/智/专修/修学/学院/推出/颠覆/式/办学/模式新知讲授课中讲授实操演练课堂小结新课导入课中讲授如果将cut_all参数设为False,则表示的是按照精确模式进行分词,示例如下:sentence='传智专修学院推出颠覆式办学模式'#全模式划分中文句子terms_list=jieba.cut(sentence,cut_all=False)print('【精确模式】:'+'/'.join(terms_list))【精确模式】:传智/专修/学院/推出/颠覆/式/办学/模式新知讲授课堂小结新课导入课中讲授课中讲授实操演练案例—商品评价信息分析importpandasaspdfromnltkimportFreqDistimportjiebafile_path=open(r'C:\Users\admin\Desktop\商品评价信息.csv')file_data=pd.read_csv(file_path)file_data新知讲授课堂小结新课导入课中讲授课中讲授实操演练案例—商品评价信息分析#加载停用词表file_path=open(r'C:\Users\admin\Desktop\停用词表.txt',encoding='utf-8')stop_words=file_path.read()#删除停用词#新建一个空列表,用于存储删除停用词后的数据new_data=[]forwordincut_words:ifwordnotinstop_words:new_data.append(word)new_data新知讲授课堂小结新课导入课中讲授课中讲授实操演练案例—商品评价信息分析#导入所需要使用的包frommatplotlibimportpyplotaspltfromwordcloudimportWordCloud#词云显示font=r'C:\Windows\Fonts\STXINGKA.TTF'#华文行楷wc=WordCloud(font_path=font,background_color='white',width=1000,height=800).generate("".join(new_data))plt.imshow(wc)#用plt显示图片plt.axis('off')#不显示坐标轴plt.show()#显示图片课堂小结新课导入课中讲授课中讲授实操演练课堂小结本章主要介绍了文本分析的相关知识,具体包括文本分析工具的安装及基本使用、文本预处理和文本情感分析,最后结合所学的知识开发了一个商品评价分析的案例。希望大家通过对本章的学习,可以理解文本数据分析的原理,以便后续能基于机器学习更深入地去探索。团

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论