专题二:数据处理与人工智能 复习课件 高中信息技术浙教版(2019)必修1_第1页
专题二:数据处理与人工智能 复习课件 高中信息技术浙教版(2019)必修1_第2页
专题二:数据处理与人工智能 复习课件 高中信息技术浙教版(2019)必修1_第3页
专题二:数据处理与人工智能 复习课件 高中信息技术浙教版(2019)必修1_第4页
专题二:数据处理与人工智能 复习课件 高中信息技术浙教版(2019)必修1_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据处理必修一:数据与计算(一轮复习)表格数据处理常见数据问题及解决方法数据缺失:忽略或采用平均值、中间值或概率统计值填充数据重复:进一步审核的基础上进行合并或删除数据异常——数据不符合一般规律:这些有可能是要去掉的噪声,也有可能是含有重要信息的数据对象逻辑错误——与实际不符,违背逻辑或规则:对应的字段需要设置取值范围判断格式不一致:将不同格式的数据转换成统一格式后再进行处理数据计算数据计算

(1)如图1所示,区域G4:G14的数据是通过排名函数RANK计算得到,在G4中输入公式___________________________,再利用自动填充完成G5:G14的计算。(2)对图1中浙江省各地市数据按“十年增幅”为关键字进行降序排序,则排序的数据区域是_____________。=RANK(F4,F$4:F$14)A4:G14数据计算数据计算

(3)对A4:G15中的数据进行两次筛选操作,首先对“十年增量”列进行筛选,筛选条件如图2所示;再对“城市”列筛选,筛选条件如图3所示,则筛选出的行数为_____1数据计算(4)根据图1中数据制作了反应各地区人口情况的图表,如图2所示,创建图表的数据区域是_______。B4:D14图表呈现图表类型适合展现数据关系柱形图大小关系折线图变化趋势饼图数据构成百分比雷达图多项指标比较散点图变量之间的联系气泡图变量之间的关系大数据处理大数据特点与大数据思维大数据特点(4V):数据体量大(Volume)类型多(Variety)速度快(Velocity):①产生速度快②处理速度快价值密度低(Value)大数据思维:①分析全体数据,而不是抽样数据②不追求数据的精确性,而能够接受数据的混杂型③不强调对因果关系的探求,而更加注重相关性大数据大数据处理静态数据批处理Hadoop、Spark图数据图计算Pregel、GraphX流数据流计算Storm、Heron大数据处理思想大数据处理思想——“分治思想”。即将一个复杂的问题拆分成两个或多个相同或相似的子问题,找到求这几个问题的解法之后,把它们组合成求整个问题的解法。分解、解决、合并大数据处理框架静态数据——批处理在处理时已经收集完成、在计算时不会发生改变的数据。

Hbase(数据存储与管理)数据以文件的形式、用多副本保存在不同的存储节点中,并进行分布式管理。HDFS用于云盘、网盘的底层。采用基于列的存储方式,用于存储半结构化和非结构化数据,具有良好的横向扩展能力。静态数据——批处理在处理时已经收集完成、在计算时不会发生改变的数据。

Hbase(数据存储与管理)静态数据批处理软件:Hadoop、Spark流数据——流计算不间断地、持续地到达的实时数据。流数据的价值会随着时间

的流逝而降低。

对采集的数据实时分析和计算并反馈实时结果。经处理系统处理完成的数据流直接丢弃或存储用户可以实时查询最新数据分析结果,数据不断更新,实时推荐给用户流计算应用:广告推送、个性化推荐、实时交通流计算软件:Storm、Streams、S4、Puma流数据与传统数据区别

流处理系统和传统的数据处理系统的区别:1、流处理系统处理的是实时的数据,而传统的数据处理系统处理的是预先存储好的静态数据。2、用户通过流处理系统获取的一般是实时结果,而传统的数据处理方式获取的都是过去某一个历史时刻的快照。3、流处理系统会实时地把生成的结果不断的推动给用户,传统数据需要用户主动查询才能获取数据。图数据——图计算现实世界中以图形式展现的数据。如社交网络、道路交通等。图处理软件:Pregel、GraphX

文本数据处理文本数据处理应用

020103050604搜索引擎自动摘要机器翻译论文查重文本分类垃圾邮件过滤文本数据处理过程

分词数据分析特征提取结果呈现分词分词:将连续的子序列按照一定的规范重新组合成词序列的过程

基于字典在分析句子时与词典中的词语进行对比,词典中出现的就划分为词基于统计依据上下文中相邻字出现的频率统计,同时出现的次数越高就越有可能组成一个词,一般与基于字典的分词方法结合使用基于规则计算机模拟人的计算方式,根据大量的现有资料和规则进行学习,进而分词jieba分词函数对应模式cuts精准分词模式:将句子最精确地切分开cut(s,cut_all=Ture)全模式分词:将句子中所有成词的词语都扫描出来cut_for_search(s)搜索引擎模式分词:在精确模式的基础上对长词再进行切分,将更短的词语切分出来jieba分词s="我来到了西北皇家理工学院,发现这儿真不错"seg_list=jieba.cut(s,cut_all=True)我/来到/了/西北/皇家/理工/理工学/理工学院/工学/工学院/学院/,/发现/这儿/真不/真不错/不错s="我来到了西北皇家理工学院,发现这儿真不错"seg_list=jieba.cut(s,cut_all=False)我/来到/了/西北/皇家/理工学院/,/发现/这儿/真不错s="我来到了西北皇家理工学院,发现这儿真不错"seg_list=jieba.cut_for_search(s)我/来到/了/西北/皇家/理工/工学/学院/理工学/工学院/理工学院/,/发现/这儿/真不错特征提取在中文文本分析中采用字、词、短语作为表示文本的特征项。特征提取方式:①根据专家知识挑选有价值的特征。②用数学建模的方法构造评估函数自动选取特征。

结果呈现——标签云

关键词的视觉化描述。用文字大小等形式来表现词语的重要性应用于报纸、杂志等传统媒体和互联网结果呈现——文本情感分析

计算机通过技术对文本的主观性、观点、情绪进行挖掘和分析,对文本的情感情绪做出分类的判断。

主要应用于舆情监控、信息预测,或用于判断产品的口碑,进而帮助生产者改进产品人工智能AI紧密相关的领域

人工智能人工智能的概念人工智能:1、以机器(计算机)为载体2、模仿、延伸和扩展人类智能3、与生物智能有着重要区别。人工智能符号主义我感觉到头晕、乏力、畏寒,体温37.5℃这是发烧了,需要服用退烧药,注意饮食清淡符号主义=知识库+推理引擎典型案例:专家系统符号主义从海量数据出发,寻找数据中蕴含的模式——联结主义联结主义典型案例:深度学习、模式识别联结主义行为主义结果反馈调整学习方式无效学习有效学习行为主义:从“交互——反馈”角度刻画智能行为,是一种问题引导下的试错学习。典型案例:强化学习、扫地机器人行为主义人工智能领域人工智能依赖于领域知识和数据的人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论