版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.1文字的处理与展示八年级信息技术活动1:设计创意书签
新学期开始了,语菲进入了初二年级下学期。在新学期的第一课上,英语老师带领同学们翻阅了书本的目录,为了更加形象地展示这一学期英语课本的重点知识,英语老师提出用词云的方式制作创意书签。可利用Python中wordcloud库来创作你的创意书签。请编写程序,完成如右图所示的创意书签。课堂导入活动1:设计创意书签可参考下列步骤完成活动任务:
①可在网上搜索,完成初二下学期英语课本目录的下载与存储,存储为.txt格式。
②使用importwordcloud语句完成词云库的加载。
③根据需要配置词云对象参数。
④加载词云文本,即加载初二下学期的英语课本目录文件。
⑤输出词云对象文件。课堂导入活动2:分词断句
Jack是一位编程高手,成绩优秀的他作为交换生从美国来到中国交流。他对中文一窍不通,于是便想边学习专业知识边学习中文。中文的文字组词对他来说很难记忆识别,中文断句更是令他苦恼,如右图所示。他希望能通过擅长的专业知识帮助自己学习中文。Python语言的jieba分词库的分词断句帮了他的大忙。我们也一起来学一学吧!请编写程序,完成一句话的分词断句。课堂导入活动2:分词断句可参考下列步骤完成活动任务:
①使用importjieba语句完成jieba库的加载。
②利用jieba库分词的精确模式,即jieba.cut(S)方法对句子进行分词。
③输出分词后的结果。课堂导入活动3:智能统计关键词
学习语文课文时总要提取本文的关键字,方便理解文章主旨。假定一篇文章中出现次数最多的词语为本文的关键字。对于篇目较短的文章,我们可以阅览整篇文章勾画词语进行计数,但是对于长篇文章,这种勾画计数方式效率太低。语菲在阅读《三国演义》时就遇到了这样的问题:她想了解小说中的主角到底有几个,出场的次数又是多少?请利用jieba分词库帮助语菲计算文章中出现频率最高的前三位人物的姓名并计算出现的次数。请编写程序,完成该功能。课堂导入活动3:智能统计关键词可参考下列步骤完成活动任务:
①使用importjieba语句完成jieba库的加载。
②利用jieba库分词的精确模式,对文本进行分词。
③用之前学过的遍历循环结构,统计每一个词组在全文中出现的频率。
④输出统计的结果。课堂导入wordcloud库的使用
jieba库的使用中文分词方法课堂活动(1)词云
“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(RichGordon)提出。“词云”是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨,以词语为单位,更加直观和艺术地展示文本。wordcloud库的使用(2)wordcloud库的安装
安装wordcloud库与安装其他第三方库的方法一样,打开海龟编辑器→选择菜单栏中的库管理→搜索wordcloud库→单击“安装”。wordcloud库的使用(3)wordcloud库的基本使用
wordcloud库统计文中单词出现的次数并进行过滤,出现频率越高的单词,最终显示的字体越大。使用wordcloud库生成词云可分为以下3个步骤。
步骤1:配置词云对象参数。
wordcloud库把词云当作一个WordCloud对象。
——wordcloud.WordCloud()代表一个文本对应的词云。
——可以根据文本中词语出现的频率等参数绘制词云。
——可以设定绘制词云的形状、尺寸和颜色等。
w=wordcloud.WordCloud(〈参数〉),具体见下表。wordcloud库的使用(3)wordcloud库的基本使用wordcloud库的使用(3)wordcloud库的基本使用
步骤2:加载词云文本,具体见下表。wordcloud库的使用(3)wordcloud库的基本使用
例如:生成默认参数的规则词云,如下图所示。wordcloud库的使用(3)wordcloud库的基本使用
又如:生成指定形状的不规则词云,如下图所示。wordcloud库的使用(1)中文分词
中文分词(ChineseWordSegmentation),即将一个汉字序列进行切分,得到一个个单独的词。表面上看分词很简单,但分词的效果对信息检索、实验结果有很大影响。根据分词的特点可以将分词算法分成基于规则的分词方法、基于统计的分词方法、基于语义的分词方法、基于理解的分词方法。jieba库的使用(2)jieba库
在使用jieba库之前,先要进行安装,与安装wordcloud库的方法一样。
jieba是一个中文分词库,它可以把中文句子划分成词组,以便进一步进行自然语言处理,它使用的是基于统计的分词方法。其主要功能有分词、添加自定义词典、关键词提取、词性标注、并行分词、返回原文起始位置。jieba库的使用(2)jieba库
jieba的分词过程与人对语句的分词过程很类似。比如我们看到这句话:“语言学家参加学术会议”,会把它划分为:“语言学家/参加/学术会议”。这个过程是瞬间完成的,它包含了三个步骤:分词之前,大脑中已有一个“前缀词典”,它包括语言、语言学、语言学家等各个词条;大脑知道这句话确实存在多种分词的可能;但它最后还是选出了那个最可能的结果,舍弃了诸如“语言学/家/参加/学术/会议”这样的结果。jieba库的使用(3)jieba库的3种分词模式
●精确模式:jieba.cut(S)。该方法试图将句子最精确地切开,适合文本分析。该方法接受3个输入参数:需要分词的字符串;cut_all参数用来控制是否采用全模式,cut_all参数默认为False,即不采用全模式,采用精准模式;HMM参数用来控制是否使用HMM模型。
●全模式:jieba.cut(S,cut_all=True)。该方法把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。该方法与精确模式不同之处在于cut_all参数为True。
●搜索引擎模式:jieba.cut_for_search(S)。该方法是在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。该方法接受两个参数:需要分词的字符串;是否使用HMM模型。jieba库的使用(3)jieba库的3种分词模式
下图为3种模式对语句“我来到北京清华大学学习”进行分词的代码:jieba库的使用(3)jieba库的3种分词模式
下图为3种分词模式的结果:jieba库的使用(3)jieba库的3种分词模式
利用数组、字典、列表、jieba库,将《三国演义》中出现次数前三的人物进行排名并统计出现的次数,如下图所示。jieba库的使用基于规则的分词方法基于统计的分词方法基于语义的分词方法基于理解的分词方法中文分词方法(1)基于规则的分词方法
基于规则的分词方法又称机械分词方法、基于字典的分词方法,按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功。该方法有3个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。
此种方法的优点是简单,易于实现;但缺点有很多,如匹配速度慢、存在交集型和组合型歧义切分问题、词本身没有一个标准的定义、没有统一标准的词集、不同词典产生的歧义也不同、缺乏自学习的智能性。中文分词方法(2)基于统计的分词方法
基于统计的分词方法的主要思想:词是稳定的组合,在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。字与字相邻出现的概率或频率能较好地反映成词的可信度。因此,可以对训练文本中相邻出现的各个字的组合频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。
在实际应用中,此类分词算法一般是将其与基于词典的分词方法结合起来,既能发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。中文分词方法(3)基于语义的分词方法
基于语义的分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。中文分词方法(4)基于理解的分词方法
基于理解的分词方法是通
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业加盟特许经营保证金合同
- 电影院管理制度
- 带娃上班安全免责协议书范文
- 苏宁入股万达商管协议书范文
- 战略合作共赢联合体协议书
- 福建师范大学《程序设计实验》2021-2022学年期末试卷
- 成都师范学院《操作系统》2022-2023学年期末试卷
- 2024承揽合同,所有权
- 成都大学《计算机控制技术课程设计》2021-2022学年期末试卷
- 2024煤炭销售合同书范文
- 2024年巴西私人安保服务市场机会及渠道调研报告
- 2024年江苏省连云港市中考英语真题(含解析)
- 2024-2030年国内婴童用品行业深度分析及竞争格局与发展前景预测研究报告
- 粤教粤民版《劳动技术》四上 第二单元第3课《提篮》教学设计
- 部编版小学语文三年级上册基础知识试题含答案(全册)
- 2024年中国老年糖尿病诊疗指南解读(2024年版)
- 2024年《马克思主义基本原理概论》自考试题和答案
- MH-T 5011-2019民用机场沥青道面施工技术规范
- 在线网课学习知道《婺文化英语教程(上海财大浙江学院)》单元测试考核答案
- 《房屋建筑和市政基础设施工程档案资料管理规程》
- 2024届湖北省武汉市高考英语四调英语试卷 读后续写“拖延症患者的觉醒”讲义素材
评论
0/150
提交评论