4.4文本数据处理分析应用及数据可视化-【新教材】浙教版高中信息技术必修第一册课件_第1页
4.4文本数据处理分析应用及数据可视化-【新教材】浙教版高中信息技术必修第一册课件_第2页
4.4文本数据处理分析应用及数据可视化-【新教材】浙教版高中信息技术必修第一册课件_第3页
4.4文本数据处理分析应用及数据可视化-【新教材】浙教版高中信息技术必修第一册课件_第4页
4.4文本数据处理分析应用及数据可视化-【新教材】浙教版高中信息技术必修第一册课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章

数据处理与应用1、常用表格数据的处理2、大数据处理3、大数据典型应用学习目标:

1、文本数据处理、分析及应用2、了解数据可视化的作用、基本方法和常用工具3、能发现数据中隐藏的特征、关系和模式文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。目前,文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。文本处理数据文本处理数据使用百度搜索“春节”,如图所示,找到相关结果约100,000,000个,这些返回的结果数据对“春节”的关键特征描述是什么?如何处理这些数据才能获得答案?

--要提炼对“春节”的关键特征描述,需要采集返回结果页面中的文本数据进行分析文本处理数据文本处理的一般过程1、中文分词(1)基于词典的分词方法(2)基于统计的分词方法(3)基于规则的分词方法2、特征提取(1)标签云文本数据分析与应用

标签云将关键词按照一定的顺序和规律排列,并以文字大小的形式代表词语的重要性。是文本可视化的一种方式,文本可视化将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来。文本数据分析与应用(2)文本情感分析

文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。主要应用于网络舆情监控、用户评论与决策、信息预测等众多领域。数据可视化阅读教材133-138页,回答问题?1.什么是可视化?2.可视化的作用?3.可视化的基本方法?什么是数据可视化

以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等表达方式。可视化的作用1.快捷观察与追踪数据2.实时分析数据可视化的作用3.增强数据的解释力与吸引力可视化的作用可视化的基本方法1.有关时间趋势的可视化可视化的基本方法2.有关比例的可视化3.有关关系的可视化可视化的基本方法4.有关差异的可视化可视化的基本方法可视化的基本方法5.有关空间关系的可视化可视化的工具大数据魔镜(免费的大数据可视化分析工具)Gephi(动态和分层图的交互可视化与探测开源工具)Tableau(实时可视化分析)PythonR(用于统计分析,图形表示和报告的编程语言和软件环境)D3.js(D3是最流行的可视化库之一)Highcharts(用纯JavaScript编写的一个图表库)GoogleCharts(提供的一项动态生成图表的服务)。可视化的典型案例(1)“巴士群”现象当一辆巴士被延迟,就会导致多辆巴士在同一时间到站。把它变成一个互动游戏,我们所要做的就是观察一个短暂的延迟如何使巴士在一段时间以后聚集起来。(2)世界上的语言它将世界上众多语言用非语言的方法表现出来,一共有2678种。可以让你浏览使用共同语言的家庭,看看哪些语言是最常用的,并查看语言在世界各地的使用范围。可视化的典型案例(3)GoogleFlights上的美国感恩节这是由GoogleTrends驱动的项目,它跟踪感恩节前出发、到达和穿越美国的航班。可视化始于当天很早的时间,随着时间的推移,像播放电影一样显示在全国各地飞行中的航班。可视化的典型案例课堂练习1.文本数据处理的主要步骤包括:①数据分析②特征提取③分词④结果呈现⑤文本数据获取下列文本数据处理顺序正确的是()A.①⑤②③④B.②⑤③①④C.⑤①③②④D.⑤③②①④D课堂练习2.下列关于中文分词方法的描述中,属于基于词典的分词方法的是()A.在分析句子时与词典中的词语进行对比,词典中出现的就划分为词B.依据上下文中相邻字出现的频率统计,同时出现的次数越高就越可能组成一个词C.让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,然后分词D.依据词语与词语之间的空格进行分词

A课堂练习3.在中文文本分析中,一般不用做文本的特征项的是()A.字B.词C.短语D.段落D课堂练习4.下列数据分析中可能涉及文本情感分析的是()A.博主地域分析B.微博评论内容分析C.微博发布设备分析D.博主男女比例分析B课堂练习5.某文本数据集的标签云如图所示,下列说法正确的是()A.对数据集中文本分词后可直接创建标签云,无须特征提取B.标签云须显示该数据集包含的全部词语C.该数据集中,词语“玩偶”比“注意力”的出现频率高D.最能表现该数据集中文本特征的词有“车顶”“玩偶”“路口”C课堂练习6.下列关于数据可视化的描述中,错误的是()A.标签云是基于语句的文本内容可视化B.数据可视化将数据以图形图像等形式表示C.数据可视化可以直观的呈现数据中蕴含的信息D.数据可视化增强了数据的解释力与吸引力A课堂练习7.下列有关图表类型的说法,错误的是()A.有关时间趋势的可视化可以采用折线图B.有关比例的可视化可采用以饼图、环形图C.要探究一件事情变化时另一件事情是否会发生某种变化,可采用散点图D.要探寻包含多种变量的对象与同类之间的差异和联系,可采用雷达图、面积图D课堂练习8.下列有关可视化工具的说法,错误的是()A.使用Python、R等语言可以编写程序实现数据的可视化B.Tableau主要用于实时可视化分析,仅能连接本地数据C.Highcharts是基于HTML5技术的开源图表库,支持移动端D.GoogleCharts是为浏览器与移动设备定制的交互式图表开发包B课堂练习9.某组织将关于春节期间人们主要支出的调查数据可视化,如图所示,下列分析错误的是()A.不同年龄段的人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论