




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章、第五章关键知识点辨析数据整理数据问题处理方法数据缺失忽略含有缺省值的实例或属性(简单)采用平均值、中间值或概率统计值来填充(优)数据重复在进一步审核的基础上进行合并或删除处理异常数据不符合一般规律的数据对象,可能为噪声或重要数据对象逻辑错误通过检测字段中各属性有效数据值的范围来判断格式不一数据转换成适合后续分析和挖掘的统一形式引用A1——相对引用(默认):公式所在单元格的位置改变,引用也随之改变。$A$1——绝对引用:公式所在单元格的位置改变,引用保持不变。混合引用:公式所在单元格的位置改变,绝对引用部分不变,相对引用部分随之改变,如$A1(仅锁定列号),
A$1(仅锁定行号)
。“$”在谁前面,谁被锁定。常见错误类型错误类型错误名称错误原因#DIV/0!除零错误除数为0#REF!引用错误删除一个在公式中被引用的单元格#VALUE数据类型错误如一个文本型加一个数值型#NAME函数名错误如SUM拼成了SAM######不是错误,是单元格列宽不够造成的大数据处理分类大数据处理静态数据流数据图数据★静态数据:在处理时已收集完成、在计算式不会发生改变的数据
★流数据:是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,通过实时分析计算可以得到更有价值的分析的结果★图数据:以社交网络、道路交通等数据为例的众多以图为数据呈现形式的数据,或者转化为图之后再进行分析静态数据——批处理Hadoop是一个运行于计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Spark是一种与hadoop相似的,应用较广的开源分布式计算架构。Spark启用了内存存储中间结果,运行速度比hadoop快。不间断地、持续地到达的实时数据。流数据的价值会随着时间
的流逝而降低。
对采集的数据实时分析和计算并反馈实时结果。经处理系统处理完成的数据流直接丢弃或存储用户可以实时查询最新数据分析结果,数据不断更新,实时推荐给用户流计算应用:广告推送、个性化推荐、实时交通流计算软件:Storm、Streams、S4、Puma流数据——流计算现实世界中以图形式展现的数据。如社交网络、道路交通等。图处理软件:Pregel、GraphX
图数据——图计算文本数据处理的主要目的是从大规模的文本数据中提取出符合需求的、感兴趣的和隐藏的信息。文本数据源分词特征提取数据分析结果呈现非结构化数据:各类的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频无结构的文本结构化:行数据,二维表结构,遵循数据格式与长度规范结构化、便于计算机处理中文分词分词是将连续的字序列按照一定的规范重新组合成词序列的过程。1、基于词典的分词方法_jieba根据设定好的词典进行分词2、基于统计的分词方法依据上下文中相邻字出现的频率统计3、基于规则的分词方法模拟人的思维,根据资料和规则进行学习分词。(尚在探索)一般采用词典法和统计法两者结合知识要点1人工智能的本质1.人工智能的概念人工智能是指以机器(计算机)为载体,模仿、延伸和扩展人类智能,其与人类或其他动物所呈现的生物智能有着重要区别。知识要点1人工智能的本质
2.人工智能的主要方法知识要点1人工智能的本质
3.人工智能的发展
(1)从计算到智能测试
1950年,图灵针对“智能测试”问题提出了测试机器是否具有智能的一种方法,即著的“图灵测试”。
(2)人工智能登上历史舞台
1956年,“人工智能达特茅斯夏季研讨会”在美国达特茅斯学院召开,标志着人工智能作为一门新兴学科正式诞生。
(3)以符号主义表达与推理为代表的人工智能
符号主义人工智能方法认为学习或者其他的智能特征原则上都可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年高考语文二轮复习专题2小说阅读突破练9复合文本阅读的考查方式
- 中国人的健康现状
- 绿茶冲泡技术课件
- 井下透水安全培训
- 重症监护室术后健康宣教指南
- 关于超额预定的培训方案
- 【课件】+声音的产生与传播(教学课件)2024-2025学年初中物理人教版(2024)八年级上册+
- 珠宝门店黄金培训
- 学校领导安全培训
- 2025年深远海风电场建设规划与海上风能资源评估报告
- 2024年江苏省响水县卫生局公开招聘试题带答案
- 2025年河北省高考招生统一考试高考真题地理试卷(真题+答案)
- 2025春国家开放大学《毛概》终考大作业答案
- 疲劳恢复物理手段-洞察及研究
- 人教版三年级数学下学期期末复习试卷含答案10套
- 天津市四校联考2023-2024学年高一下学期7月期末考试化学试卷(含答案)
- 2025年河北省中考学易金卷地理试卷(原创卷)及参考答案
- 2025年时政100题(附答案)
- 2025年安全生产月查找身边安全隐患及风险控制专题培训课件
- CJ/T 328-2010球墨铸铁复合树脂水箅
- BIM技术在建筑项目施工工艺优化中的应用报告
评论
0/150
提交评论