统计学在数据挖掘中的简单应用_第1页
统计学在数据挖掘中的简单应用_第2页
统计学在数据挖掘中的简单应用_第3页
统计学在数据挖掘中的简单应用_第4页
统计学在数据挖掘中的简单应用_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学在数据挖掘中的简单应用

高印会2016年5月主要内容一、数据挖掘工作概述二、基本统计理论三、朴素贝叶斯分类算法四、隐马尔科夫模型一、数据挖掘工作概述MongoDB/HBase数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。其工作包含多个方向:1.基础数据挖掘包括常见的分类、聚类、预测、关联分析等2.文本挖掘包括情感挖掘、主题模型、Tag挖掘等3.NLP(自然语言处理)4.推荐算法5.机器学习包括计算机视觉、深度神经网络等二、基本统计理论条件概率:同时P(A|B)与P(B|A)的关系如下:贝叶斯定理:常见分布:二项、泊松、高斯概率乘法:三、朴素贝叶斯分类(NaiveBayesianclassification)--简介朴素贝叶斯分类当特征属性为连续值时,通常假定其值服从高斯分布。即:当时,即某个类别下某个特征项划分没有出现时,就会产生该现象。对没类别所有划分的计数加1,这样当训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述概率为0的情况。--特殊情况处理朴素贝叶斯分类--通用流程介绍朴素贝叶斯分类职位三级职位类别分类--实际业务应用四、隐马尔科夫模型(HiddenMarkovModel)HMM的问题抛出:如何根据海藻的状态序列和以往天气状态序列推测处以后的天气状态?--简介隐马尔科夫模型HMM的形式描述:一个隐马尔科夫模型是一个三元组:(,,)--简介马尔科夫假设:给定一个状态序列,一个状态发生的概率只依赖于前n个状态。HMM能解决的三个基本问题:--HMM解决的问题隐马尔科夫模型隐马尔科夫--HMM的维特比算法对于网格中的每一个中间以及终止状态,都有一个到达该状态的最有可能路径。我们称这样的路径为局部最佳路径,对应的概率叫做局部最佳概率。下图显示的是天气状态对于观察序列的一阶状态转移情况:最可能的隐藏状态序列是使下面这个概率最大的组合:Pr(观察序列|隐藏状态的组合)例如,对于网格中所显示的观察序列,最可能的隐藏状态序列是下面这些概率中最大概率所对应的那个隐藏状态序列:Pr(dry,damp,soggy|sunny,sunny,sunny),Pr(dry,damp,soggy|sunny,sunny,cloudy),Pr(dry,damp,soggy|sunny,sunny,rainy),....Pr(dry,damp,soggy|rainy,rainy,rainy)这种方法是可行的,但是通过穷举计算每一个组合的概率找到最可能的序列是极为昂贵的。我们可以利用这些概率的时间不变性来降低计算复杂度。--维特比算法简介隐马尔科夫模型--维特比算法简介隐马尔科夫模型隐马尔科夫模型

--维特比应用场景词性标注问题:4×1×1×2×2×2×3=96种可能性,哪种可能性最大?基于语料库的分词算法:隐马尔科夫模型--维特比应用场景隐藏状态值集合为(B,M,E,S),每个状态代表的是该字在词语中的位置:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论