




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DataMining
Unit
6TextAContents
NewWords
Abbreviations
Phrases参考译文NewWordsNewWordsNewWordsNewWordsPhrasesAbbreviationsListeningtoTextA数据挖掘1.什么是数据挖掘?数据挖掘是一种实践活动,它对大量数据进行自动搜索,目的在于发现用简单分析不能找到的模式和趋势。数据挖掘使用复杂的数学算法来分割数据并评估未来事件的可能性。数据挖掘也称为数据知识发现(KDD)。1.1自动发现数据挖掘是通过构建模型来完成的。模型把算法用于一组数据。自动发现的概念是指执行数据挖掘模型。数据挖掘模型可用于挖掘构建它们的数据,但是大多数类型的模型均可泛化到新数据。将模型应用于新数据的过程被称为评分。1.2预测许多形式的数据挖掘都是可预测的。例如,模型可以根据教育程度和其他人口统计因素预测收入。预测具有关联的概率(此预测为真的可能性有多大?)。预测概率也称为置信度(我对这个预测有多少信心?)。参考译文某些形式的预测性数据挖掘会生成规则,它们是显示给定结果的条件。例如,一条规则可能会指定拥有学士学位并且居住在某个社区中的人的收入可能会高于该区域平均水平。规则具有相关的支持(满足规则的人口百分比是多少?)。1.3分组其他形式的数据挖掘可识别数据中的自然分组。例如,模型可能会确定收入在指定范围内,具有良好驾驶记录并每年租赁新车的人群。1.4可行信息数据挖掘可以从大量数据中获取可操作的信息。例如,城镇规划人员可能会使用基于人口统计数字预测收入的模型来制定低收入住房计划。汽车租赁公司可能会使用一种识别客户细分的模型,以设计针对高价值客户的促销活动。2.数据挖掘的步骤2.1理解业务在数据挖掘简介中,我们将了解业务目标和需求的各个方面。通过查找资源、假设和其他重要因素来评估当前状况。因此,建立良好的数据挖掘计划将有助于实现业务和数据挖掘目标。参考译文参考译文2.2理解数据最初,从所有现有来源收集数据。然后,我们从中提取最佳数据集,从中提取可能更有益的数据。2.3准备数据识别出数据集后,将以所需的形式对其进行选择、清理、构建和格式化。2.4数据建模这是根据用户要求重新构建给定数据的过程。可以根据准备好的数据集创建一个或多个模型,最后,利益相关者需要仔细评估模型,以确保创建的模型符合业务计划。2.5评估这是数据挖掘中最必要的过程之一。它包括遍历过程的各个方面,以检查过程中是否存在任何可能的故障或数据泄漏。此外,由于发现了新的模式,可能会提出新的业务需求。2.6部署它意味着只呈现知识,以使利益相关者可以在需要时使用它。例如,发现星期三的国际电话较少。当将这些信息提供给利益相关者时,他们反过来可以利用这些信息使自己受益,并增加他们的利润。3.数据挖掘的类型3.1平滑数据挖掘技术的这种特定方法属于准备数据的范畴。该技术的主要目的是消除数据中的噪声。这里使用简单指数、移动平均值之类的算法来消除噪声。在探索性分析中,此技术非常便于可视化趋势/情感。3.2聚合顾名思义,就是聚合一组数据以获得更多信息。该技术用于总览业务目标,可以手动执行,也可以使用专用软件执行。这种技术通常用于大数据,因为大数据不能提供整体所需的信息。3.3泛化再次,顾名思义,这种技术被用来整体上泛化数据。这与聚合不同,因为泛化过程中的数据不是为了获取更多信息而组合在一起,而是对整个数据集进行了泛化。这将使数据科学模型能够适应更新的数据点。参考译文3.4归一化在此技术中,对数据点采取了特殊的措施,以便将它们置于相同的范围下进行分析。例如,一个人的年龄和薪水属于不同的度量标准,因此将其绘制在一个图表上并不会帮助我们获得有关作为整体特征呈现的趋势的任何有用信息。使用归一化,我们可以将它们放到同等类别,以便可以进行逐一比较。3.5属性/功能选择在这项技术中,我们采用一些方法来执行特征选择,以便用于训练数据集的模型可以表明价值以预测未看到的数据。这非常类似于从装满衣服的衣柜中选择与自己的活动相匹配的衣服。不相关的功能可能会对模型性能产生负面影响,更不用说提高性能了。3.6分类在这种数据挖掘技术中,我们处理称为“类”的组。在此技术中,我们将选择的共同特征应用于组/类别。例如,在一家商店中,如果我们必须评估一个人是否会购买某种产品,那么我们可以集体使用“n”个特征来获得对/错的结果。参考译文3.7模式跟踪这是数据挖掘中所用的基本技术之一,用来获取有关可能由数据点显示的趋势/模式信息。例如,我们可以确定在周末或节假日销售有增加的趋势而不是在平日或工作日。3.8离群分析或异常检测此技术用于查找或分析离群值或异常值。离群值或异常值不是负数据点,它们只是与整个数据集的总体趋势不同的东西。在识别异常值时,我们可以将它们从数据集中完全删除,这在完成数据准备时会发生。或者把该技术广泛用于模型数据集中以预测离群值。3.9聚类该技术与分类非常相似,但唯一的区别是我们不知道数据点所属的组。此方法通常用于对人员进行分组以针对相似的产品推荐。参考译文参考译文3.10回归该技术用于预测存在其他特征时某个特征的可能性。例如,我们可以根据需求、竞争和其他一些特征来规划商品可能的价格。3.11神经网络该技术基于生物神经元的工作原理。与人体神经元的原理相似,数据挖掘工作中的神经网络中的神经元也充当处理单元,并连接另一个神经元以便沿着链路传递信息。3.12关联在这种数据挖掘方法中,确定不同特征之间的关系,然后根据业务需求将其用于查找隐藏模式或进行相关分析。例如,使用关联,我们可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新希望教育2025年中考生物试题命题比赛模拟试卷(11)含解析
- 邢台学院《诊断基本检查一般检查》2023-2024学年第一学期期末试卷
- 老年ERCP患者麻醉管理
- 广东省东莞市信义校2024届中考押题数学预测卷含解析
- 2024-2025新职工入场安全培训考试试题答案考点提分
- 2025公司主要负责人安全培训考试试题B卷
- 2025年企业员工岗前安全培训考试试题完整参考答案
- 2024-2025公司项目部管理人员安全培训考试试题黄金题型
- 2025年公司安全培训考试试题及参考答案(综合题)
- 2025年公司项目负责人安全培训考试试题带答案(黄金题型)
- 科技论文写作课件(原创)
- 小学书法粤教版 五年级下册 集字练习
- 外研版(一起)二年级英语下册全册教案教学设计版
- 农村建房安全合同书参考
- 施工电梯租赁合同及安全协议
- 安徽省【小升初】小升初数学试卷试题附答案(有难度)
- 青岛农业大学毕业实习鉴定表
- 广汽设计cs000t zn00z016车身密封条
- 2019第五版新版PFMEA 注塑实例
- (完整word版)计算机社团活动记录
- 车辆租赁管理办法
评论
0/150
提交评论