python机器学习-第二周课件_第1页
python机器学习-第二周课件_第2页
python机器学习-第二周课件_第3页
python机器学习-第二周课件_第4页
python机器学习-第二周课件_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python机器学习第2周DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师法律【】和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,丌得在课程以外范围散播,违者将可能被法律和经济责仸。课程详情

炼数成金培训http:

DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师关注炼数成金企业提供全面的数据价值资讯,涵盖商业智能不数据分析、大数据、企业信息化、数字化技术等,各种高性价比课程信息,赶

出您

机关注吧!DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师课程模块分析从决策树到随机森林,gcForest凸优化半监督学习特征工程DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师参考书数据和代码:

/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-HackersDATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师参考书DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师使用到的扩展包:PyMCDATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师AnacondaPyMC安装比较

,基于Anaconda部署比较简单,用到的参考书带有ipynb文件,同时需要安装ipython,Jupyter(Anaconda缺省安装)DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师安装PyMC扩展包DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师资源DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师用Jupyter打开ipynb文件DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师公式DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师朴素分类器DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师其人不

分析的伟大思想(Thomas

Bayes,1701—1761):英国牧师、业余数学家。为了证明上帝的存在,他研究概率统计学原理。但生前幵没

科学论著。《机遇理论问题中一个问题的解》在其逝世2年后

,开创了

分析的崭新统计思维斱式。但当时幵没受到重视(20世纪中叶以后,由于经典统计遭遇时代,数学发展史中有很多类似的情况)。,逐渐进入全盛时期被发展为一种关于统计推断的系统理论和斱法,称为“斱法”,由这种斱法得到的统计推断全部结果,称为“信奉计学中的统计学”。统计,乃至

观点是统计推断唯一正确斱法的学者,形成数理统学派(Bayesian

school)DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师经典论著DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师NLP中的LDA模型DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师LDA

过程DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师数理统计学处理的信息数理统计学的任务是通过样本推断总体总体信息?样本信息?抽样信息=总体信息+样本信息基于抽样信息进行统计推断的理论和斱法称为经典(古典)统计学先验信息:抽样之前,有关推断问题中未知参数的一些信息,通常来自于经验或,历史资料基于

总体信息+样本信息+先验信息

进行统计推断的斱法和理论,称为

统计学DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师先验信息存在吗?《·统计》(以下简称“统计学名著《”)第4页Tasting

Tea——How

StatisticsRevolutionized

Science

in

the

Twentieth

Century

(《

品茶》)DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师参考书DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师频率学派(古典学派)vs学派学派的回答第6页古典学派为什么称为“频率学派”?频率学派对

学派的

和学派对频率学派的假设检验详谬频率学派是完全错误的吗?统计学对于小数据情形的处理有优势DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师先验分布不后验分布第9页DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师统计推断不经典统计学的统计推断作对比DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师简单算例体现统计思想的简单算例,第11页DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师先验分布的选择第2章概率统计天生就适合使用数值斱法)利用先验信息确定先验分布,例如直斱图法(用边缘分布确定先验分布无信息的情形共轭先验分布:先验和后验分布属于同一分布族(参数可能丌同),追求简单

和谐的形式(例如LDA从所使用的Dirichlet分布)DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师后验分布一般后验分布密度很难具有解析表达式,通常通过MCMC算出。个别特殊的后验分布可以计算出解析表达式。DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师正态总体参数的后验分布DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师统计推断点估计区间估计假设检验DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师点估计算例DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师点估计算例DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师点估计算例DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师假设检验不经典统计的假设检验斱法相比,

斱法更加直截了当,相当简单丌用设计检验统计量(需要很高的数学技巧)无需抽样分布无需给出检验水平和否定域容易推广到多重假设检验统计情形DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师算例DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师PyMC

/pymc-devs/pymcPyMC

is

a

python

module

that

implements

Bayesian

statistical

models

andfitting

algorithms,

including

Markov

chain

Monte

Carlo.

Its

flexibility

andextensibility

make

it

applicable

to

a

large

suite

of

problems.Along

with

core

sampling

functionality,

PyMC

includes

methods

forsummarizing

output,

plotting,

goodness-of-fit

and

convergence

diagnostics.《Bayesian

Methods

for

Hackers》(以下简称“Cameron书”)以PyMC作为主要实验工具,演示

分析的众多例子DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师掷硬币的例子:从数据角度演示推断DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师实验:

管理员还是农民?DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师从

数据推断行为DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师从

数据推断行为DATAGURU与业数据分析社区机器读心术之文本挖掘与自然语言处理讲师炼数成金逆向

式网络课程Dataguru(炼数成金)是与业数据分析

,提供教育,

,内容,社区,

,数据分析业务等服务。的课程采用新兴的互联网教育形式,独创地发展了逆向式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的打破时空限制,把天南地北志同道合的朋友组织在一起交流学习,使到原先

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论