数据挖掘与商务智能总结_第1页
数据挖掘与商务智能总结_第2页
数据挖掘与商务智能总结_第3页
数据挖掘与商务智能总结_第4页
数据挖掘与商务智能总结_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——数据挖掘与商务智能总结第一章绪论

什么是数据挖掘,什么是商业智能

从大型数据库中提取好玩儿的(非平凡的、蕴涵的、从前未知的且是潜在有用的)信息或模式。

商业智能是要在必需的时间段内,把正确有用的信息传递给适当的决策者,以便为有效决策提供信息支持。

分类算法的评价标准

召回率recall=系统检索到的相关文件数/相关文件总数确凿率precision(查准率)=系统检索到的相关文件数/系统返回的文件总数其次章数据仓库什么是数据仓库

是运用新信息科技所提供的大量数据存储、分析能力,将以往无法深入整理分析的客户数据建立成为一个强大的顾客关系管理系统,以协助企业制定精准的运营决策。

数据仓库的基本特征

1面向主题2整合性3长期性4稳定性第三章数据挖掘简介数据挖掘的一般功能

1分类2估计3预计4关联分类5聚类数据挖掘的完整步骤

1理解数据与数据所代表的含义2获取相关知识与技术3整合与检查数据

4取出错误或不一致的数据5建模与假设6数据挖掘运行

7测试与验证所挖掘的数据8解释与使用数据数据挖掘建模的标准CRISP-CM

跨行业数据挖掘的标准化过程

第四章数据挖掘中的主要方法

基于SQLServer2023SSAS的十种数据挖掘算法是什么

1.决策树2.聚类3.Bayes分类4.有序规则5.关联规则6.神经网络7.线性回归8.Logistic回归9.时间序列10.文本挖掘第五章数据挖掘与相关领域的关系

数据挖掘与机器学习、统计分析之间的区别与联系(再看看书整理下)32页

处理大量实际数据更具优势,并且使用数据挖掘工具无需具备专业的统计学背景。

数据分析的需求和趋势已经被大量大型数据库所实现,并且可以进行企业级别的

数据挖掘应用。

相对于重视理论和方法的统计学而言,数据挖掘更强调应用,终究数据挖掘目的是便利企业用户的使用。

第六章SQLServer2023中的商业智能商业智能(BI)的核心技术是什么数据仓库和数据挖掘

第七章SQLServer2023中的数据挖掘

MicrosoftSQLServerManagementStudio提供了两个用于管理数据库项目(如脚本、查询、数据连接和文件)的容器是什么?1项目2解决方案

第八章SQLServer2023的分析服务什么是UDM?统一维度模型

第九章SQLServer2023的报表服务什么是报表服务,其功能

是一个基于服务器的完整平台,可创立、管理和交付传统报表和交互式报表。1制作报表2管理报表3提交报表

第十章决策树模型什么是决策树?

是数据挖掘的一项主要分析工具。

(决策树能从一个或多个预计变量中,针对类别因变量的选项,预计出个例的趋势变化关系等。也可以由结果来反推原因。)SQLServer2023决策树算法步骤

第十一章贝叶斯分类什么是简单贝叶斯分类器是简单又使用的分类方法。

SQLServer2023贝叶斯分类算法步骤第十二章关联规则

什么是关联规则可解决哪些问题?

是分析发现数据库中不同变量或个体间(例如商品间的关系及年龄与购买行为?)之间关系程度,并用这些规则找出顾客购买行为模式,如购买了台式计算机外设产品(打印机、音箱、硬盘?)的相关影响。发现这样的规则可以应用于商品货架摆设、库存安排以及根据购买行为模式对客户进行分类。

兴趣度指标的意义

当兴趣度指标大于1的时候,这条规则就是比较好的;当兴趣度小于1的时候,这条规则就是没有很大意义的。兴趣度越大,规则的实际意义就越好。

SQLServer2023关联规则算法步骤第十三章聚类分析什么是聚类分析

聚类分析的思想与判断分析类似,同样是由样本分组,寻觅到多维数据点中的差异之处。不同的地方有两点:(1)聚类分析的分类方式并不需要预先指定一个指针变量;(2)聚类分析属于一种非参数分析方法,所以并没有十分严谨的数理依据,也无需假设总体为正态分布。

在聚类方法中定量地描述研究对象之间的相近程度的指标两个1相像系数2距离(用的比较多)聚类分析中“类〞的具有什么特征(判断)

–聚类所说的类不是事先给定的,而是根据数据的相像性和距离来划分–聚类的数目和结构都没有事先假定

聚类分析方法的分类

1基于层次的方法2基于划分的方法

k-means(K均值聚类)属于哪种聚类划分聚类的方法欧式距离的计算

聚类的原则是最大化类内的相像性,最小化类间的相像性(选择)

SQLServer2023聚类分析算法步骤第十四章时序聚类分析

序列聚类与关联规则挖掘区别是什么?

?SequenceClustering:在找出先后发生事物的关系,重点在于分析数据

间先后序列关系。

?Association则是找出某一事件或资料中会同时出现的状态,例如项目A

是某事件的一部份,则项目B也出现在该事件中的机率有a%。

序列模式解决什么问题?

时序聚类算法用于根据某一顺序对数据分组。

?例如,Web应用程序的用户经常依照各种路径浏览网站。此算法可以根

据浏览站点的页面顺序对用户进行分组,以帮助分析消费者并确定是否某个路径比其他路径具有更高的收益。

?此算法还可以用于预计,例如预计用户可能访问的下一个页面。利用顾客

购买的时间间隔序列数据可以分析顾客的购买物和时间的相关性,有一致或类似行为的顾客会被分在一致的聚娄中,这样的分析不但可以包含物品购买的相关也包含了在时间上对购买物的关联性。因此若能针对这样的数据聚类,在应用上会更加灵活。

包含时间间间隔的有序序列的数值数据和定性数据相像度计算方法

1事件共同发生种类相像度2事件发生周期相像度3基于一致子序列长度的相

似度

SQLServer2023时序聚类分析算法步骤第十五章线性回归模型什么是线性回归

回归分析是以一个或多个自变量描述、预计或控制特定因变量的分析。

回归分析主要在了解自变量与因变量间的数量关系。主要目的:了解自变量与因变量关系方向及强度。以自变量所建立模式对固变量作预计。

回归分析根据自变量个数的不同可以分为:简单回归分析。多元回归分析。回归分析中变量的筛选原则:相关理论或规律。研究人员探讨变量关系来决定。

什么是多元回归分析

多元回归:回归分析中自变量的数量有多个选择回归变量的常用方法

1所有可能回归法2向前选择法3向后淘汰法4逐步回归法SQLServer2023线性回归分析算法步骤第十六章罗吉斯回归模型什么是罗吉斯回归

Logistic回归模型在分析二分类或有序因变量与解释变量的关系。

SQLServer2023罗吉斯回归分析算法步骤第十七章神经网络模型什么是人工神经网络

ANN就是ArtificialNeuralNetworks,意思是人工神经网络。人工神经网络理论是用神经元这种抽象的数学模型来描述客观世界的生物细胞的。在数据挖掘中能够得到应用。

神经网络的能力特征

1非线性2非局域性3非定常性4非凸性

神经网络的算法

1单层知觉网络2多层知觉网络

SQLServer2023神经网络模型步骤第十八章时间序列模型时间序列分析的目的

1对时间序列未来趋势作预计

2将时间序列分解成主要趋势成分、季节变化成分。3检验理论模型是否能正确反映现象。

时间序列的特点

时间序列由四个影响成分所组成,分别是长期趋势(Trend),循环变动(CyclicalFluctuation),季节变动(SeasonalFluctuation)、不规则变动(IrregularFluctuation)。因此进行时间序列时应先将此四个成分分解出来,以了解各个成分的影响。时间序列的各观测值寻常自相关,且时间相隔越长,相关程度越小。时间序列的时间单位可以年、季、月、周、日等,应划分为一致间隔的时间单位。不同时间单位的时间序列可转换成一致时间单位的时间序列。

时间序列应依时间顺序排列,不可任意变更。

时间序列分析前,须将数据按时间次序以纵轴为变量,横轴为时间作图,即时间序列图。

在利用SQLSERVER2023进行数据挖掘时,数据挖掘的任务中,什么可以没有输入

时间序列模型可以不用输入

时间序列的四个成分

趋势成分循环成分季节成分随即成分常见的时序预计方法

平滑法回归模型趋势投影SQLServer2023时间序列模型步骤第十九章SQLServer2023整合服务什么是SSIS

SQLserver整合服务

SSISdesigner几个重要部分

数据流控制流程控件

如何理解控制流与数据流分开

答在SQLserver中试验中数据与操作是分开的,数据流与控制流有各自的组建。其次十章文本挖掘模型

文本挖掘的数据预处理技术(文本分析技术)有哪些

三个:分词技术特征表示特征提取文本分析处理的数据类型

结构化数据和非结构化数据

常用的文本挖掘技术有哪些

文本分类文本聚类自动摘要关联分析可视化。

其次十一章SQLServer2023的DMX语言DMX全称

DataminingExtension

DMX是SQLServer用于建立和操作数据挖掘模型的语言,其组成有哪些由数据定义语言、数据操作语言以及函数和运算子等组成。

数据流控制流程控件

如何理解控制流与数据流分开

答在SQLserver中试验中数据与操作是分开的,数据流与控制流有各自的组建。其次十章文本挖掘模型

文本挖掘的数据预处理技术(文本分析技术)有哪些

三个:分词技

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论