




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 数 据 分 析 山东交通学院 李晓燕数据分析先导课 大数据处理技术数学分析概率论与数理统计高等代数并行课后续课数据挖掘技术 Matlab 及应用数学模型与实验 课程地位专业任选课/第4学期/56学时/3.5学分2022/7/24 内容及学时安排 数据描述性分析 1023456 报告 2+2 7聚类分析 8 判别分析 8 主成分与典型相关分析 8回归分析 12MABLAB基础 81 参考资料2022/7/24MATLAB软件实现SASRSPSS2022/7/24商业数据分析初学三部曲 CDA数据分析师 I级培训教材经管之家/forum.php?gid=1统计之都/在线课程资源2022/7/24
2、中国大学慕课在线开放课程/course/JSETI-1001754246腾讯课堂 /course/244016学堂在线 /网络教学平台 布置作业提交作业2022/7/24考核方式考核:平时50%+期末50%期末成绩:闭卷笔试+上机考试 平时成绩:作业40%+课堂表现20%+课程报告40%课程作业 实验报告/纸质作业课堂表现 考勤/课堂提问/随堂测验/上机演示/知识分享2022/7/24课程报告: (1)组队2-3人,调研,选题;(2)收集数据,数据处理;(3)数据建模;(4)提交论文占60分;(5)答辩占40分:10-20分钟,2-3个问题;(6)评分:老师70%+学生30% 2022/7/2
3、4应知应会:掌握各种方法的原理和应用范围,会建立模型;用Matlab等软件进行统计分析,熟悉输出结果,进行解释。建议:“师傅领进门,修行在个人” 。理论应用并重:理论重点是思路,应用重点是实践 重视练习:做练习加深理解,勤操作熟悉软件 不缺课:内容前后呼应,缺课不利学习 2022/7/24数据分析概述2 课程体系及应用1 数据分析的概念3 统计学产生及发展5 数据的分布4 常用软件及应用2022/7/24你想过下面的问题吗?如何对成绩进行评价?比较成绩差异?找出特长生?各科成绩间关联性?某年级抽6名学生5 门课期末成绩序号 政治 语文 外语 数学 物理 1 99 94 93 100 100 2
4、 99 88 96 99 97 3 100 98 81 96 100 4 93 88 88 99 96 5 100 91 72 96 78 6 75 73 88 97 89数据分析是以各变量n次观测组成的数据矩阵为依据,依实际问题需要进行分析数据矩阵“数据!数据!数据!”、“我不能做无米之炊!”Sherlock福尔摩斯2022/7/24 1. 数据分析的概念 以数据为依据,以统计方法为理论、计算机及统计软件为工具,挖掘数据统计规律。2022/7/24数据分析研究的过程确定目标通过收集-整理-分析数据,提取有用信息并形成结论,发挥数据资料功能和作用。2022/7/241.2 数据的来源与分类搜集
5、渠道一手数据 专门调查或试验直接得到二手数据 媒体、机构发布间接得到收集方式观测数据 不可控制条件下被动收集试验数据 可控条件下主动收集数据维度时间序列数据按时间顺序收集的数据,时间维度横截面数据同一时间点不同对象的数据,个体维度2022/7/24 2 课程体系及应用 大部分学科都涉及数据分析工作,因此数据分析几乎可与任一学科结合起来。 如生物统计(biostatistics)、经济计量学(econometrics)、生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。数据分析方法SPSShadoopsparkmahouthifs聚类 stormma
6、preduce kafka大数据分析分类数理统计分析聚类分析回归分析相关分析判别分析主成分分析方差分析多元统计随机事件参数估计数字特征概率统计随机变量2022/7/24概率统计描述性分析参数估计假设检验方差分析回归分析典型相关分析主成分分析典型相关分析聚类分析判别分析多元统计的理论基础多元数据的统计推断变量间的相互关系简化数据结构(降维问题)分类与判别(归类问题) 本课程体系2022/7/24 数据分析应用领域 1.教育学7.服装工业2.医学8.经济学3.气象学9.农业4.环境科学10.社会科学5.考古地质11.文学6.生物学12.其他基因鉴定种群分类成绩预测 分类排名诊断病例药物研究天气预报
7、灾情预防环境监测 污染治理矿产预测考古断代服装设计型号确定灌区分类品种筛选信用评价经济决策青少年犯罪研究 虚词频数鉴定作品交通体育军事心理学3.气象学-天气预报雷达图/product/radar/index/procode/JC_RADAR_AZ9531_JB2022/7/244.环境科学-分析污染气体浓度,布局监测点,污染治理./cysc/ny/gdxw/201301/24/t20130124_21325056.shtml2022/7/24雾霾地图2022/7/245.处理地质观测数据,进行矿产预测、构造解释、工程勘探等.8. 网上购物,网站评价2022/7/24 10.社会科学-美国总统大
8、选 1936年大选: Alf London F.D.R ? Literary Digest (文摘)送出一千万份问卷(返回240万份),预测London赢. Gallop(盖洛普)只问了5000人说 Roosevelt (罗斯福)会赢. 最后罗斯福和盖洛普都赢了.文摘倒闭了. 2016年大选: 希拉里 特朗普 2016.10.14-20日民调显示,希拉里44%40%。 2016.11.9日,特获276票,逆袭成功当任第45任总统。 特朗普当选是对大数据技术的严峻考验2022/7/24 大数据巫师: Nate Silver 内特希尔瓦预测特朗普失败 获党内提名可能性2% 希拉里获胜 在67.3%
9、情况下原因沉默的大多数胜利 特观点代表中和下层人 民利益,没有话语权, 被网络忽视的人群人心难测 大数据预测不到人心, 看到的是表面现象而已成功预测2008年和2012年美国大选依靠的技术叫贝叶斯理论 :P(A|B) 用t-分布对波动建模2022/7/24主成分分析大学排名:敏感问题。如何理解不同机构不同结果呢?学生成绩综合评价 公司信用评价:如何根据财务和商业资料来判断一个公司的信用等级呢?聚类分析与判别分析东部和西部概念比较笼统,如何选择指标来把各省/市/县进行分类?DNA鉴定/蝴蝶的分类 确定红楼梦前四十和后四十回是否曹雪芹一人写? 其他应用举例 2022/7/24相关分析高中成绩和大学
10、成绩是否密切相关?地震与油价上涨有关? 水质污染和那些因素有关?如何确定重金属污染源? 回归分析电影票房影响因素有哪些?客户流失分析如何设计调查问卷,收集数据,调查大学生喜欢的手机品牌?2 课程体系及应用2022/7/24社会经济统计数理统计政治算术国势学派最早流派之一。创始人德国康令(H.Conring 1606-81)和阿享瓦尔(G.Achenwall 171972).采用文字记述形式,把重要事项系统整理罗列(报表).创始人格朗特(J.Graunt 162074)和威廉.配第(W.Petty 1623-87)。主张以数字、重量和尺度来说话,用图表形式概括数字资料.创始人比利时凯特勒(L.A
11、.J.Quetelet 1796-74),产生19世纪中,把概率论引进统计学,为统计数量分析奠定数理基础(数学统计学院).代表人恩格尔(1821-96)和梅尔(1841-1925).19世纪后兴起德国,融会国势和政治算术学派观点,把政府统计和社会调查融合起来,形成社会经济统计学,影响较大.(经济管理学院).3 统计学的发展与其他学科关系统计学的产生:17世纪中叶,英国威廉配第政治算术问世. 2022/7/24 3 统计学的发展历史上著名的统计学家Jacob Bernoulli (伯努利)(1654-1705) Edmond Halley (哈雷) (1656-1742) De Moivre (
12、棣莫弗) (1667-1754) Thomas Bayes (贝叶斯) (1702-1761)Leonhard Euler (欧拉) (1707-1783)Pierre Simon Laplace (拉普拉斯) (1749-1827)Adrien Marie Legendre (勒让德) (1752-1833) Thomas Robert Malthus (马尔萨斯) (1766-1834)Friedrich Gauss (高斯) (1777-1855)Johann Gregor Mendel (孟德尔) (1822-1884)Karl Pearson (皮尔逊) (1857-1936)Ron
13、ald Aylmer Fisher (费希尔) (1890-1962)Jerzy Neyman(奈曼) (1894-1981)Egon Sharpe Pearson (皮尔逊) (1895-1980)William Feller (费勒)(1906-1970).C.R. 劳教授(1920-)Thomas Robert Malthus (马尔萨斯)Pierre Simon Laplace (拉普拉斯)Leonhard Euler (欧拉)Friedrich Gauss (高斯)Johann Gregor Mendel (孟德尔)2022/7/24统计学与数学的关系数学思维以演绎为主 每个人都要死
14、的苏格拉底是人所以苏格拉底要死的 -数学的思维过程统计各领域利用几乎所有数学;但统计本身的数学为具体目标服务,一般不形成数学体系。统计以归纳为主,兼有演绎路口每过去20辆小轿车,有100辆自行车通过平均每10个轿车载12于是你认为小轿车和自行车在路口运载能力为24:100 -典型的统计思维过程2022/7/24统计学与计算机的关系最初计算机仅仅是为科学计算而设计和建造的。统计是大型计算机最早用户,由于统计和数据打交道,没有计算机的发展统计就没有前途.计算机和统计的发展相辅相成2022/7/24统计学与数据挖掘的关系统计学内容上假设检验和参数估计时间上统计学是经典学科。研究优势统计学科的数据挖掘
15、侧重于算法理论和技术应用数据挖掘内容上分析数据中的结构、模式并产生特定形式的信息,是统计学的补充和扩展。时间上计算机和大数据催生的新学科研究优势计算机学科的数据挖掘侧重算法开发和软件实现都是数据分析处理技术。依托学科背景,从各自优势角度做同一件事2022/7/24ExcelSPSSRMATLABSAS数据分析功能强大,统计分析领域巨无霸。全球100强91家用SAS。需一定编程技术,价高科学计算以编程为主软件,应用广泛,有统计包。免费开源,编程方便,可从网上下载软件包和程序。学统计用的多,主要问题没有“傻瓜化”易操作,功能全,价格低。非统计工作者的选择数据表格软件,画图和简单统计分析功能(需装数
16、据分析功能) 4 常用统计软件介绍python免费开源,编程方便。代码易读、易维护。丰富的扩展库,可以轻易完成各种高级任务。2022/7/24FORTRANGAUSSEviewsS-PLUSArcGis地理信息处理软件,空间统计分析Minitab、Statistica:功能强大齐全,“傻瓜化”, 不普遍。处理回归和时间序列的软件应用广、历史长、速度快、功能强、有统计包。需编程,操作不易。 4 常用统计软件介绍搞经济的喜欢,编程强。中国用的不多332022/7/245 常见参数分布及数字特征一维总体分布 常用的参数分布类型需要认真复习!342022/7/24分布函数5.1 一维总体分布35202
17、2/7/24总体p分位数 数字特征 5.1 一维总体分布2022/7/24置信区间-置信区间372022/7/24(1)正态分布 .密度 5.2 常用的参数分布类型382022/7/24(2)对数正态分布 .背景:如一变量可看成许多独立因子之积,近似正态分布.如股票投资长益可看成每天收益率的乘积. (3)指数分布 背景:产品失效是偶然失效时,寿命服从指数分布,失效率与时间无关.从任一时刻算寿命服从相同指数分布.392022/7/24(4)Gamma分布 背景:表示早期、偶发、耗损失效等不同寿命分布,比指数、正态分布更具普遍性。适用于各种形式的分布., , (5)Weibull分布 背景:瑞典物
18、理学家Wallodi Weibull于1939年引进,是可靠性分析及寿命检验的理论基础.402022/7/24(6)Beta分布 背景:取值在一有限区间的分布,可当作取值在区间总体的概率模式.412022/7/24抽样分布二项分布: 泊松分布: 均匀分布: , 分布: 分布: 分布: 422022/7/24样本分布举例 , 分布: 分布: 分布: 样本方差2022/7/24复习概率论与数理统计知识1.分布函数、概率密度2.常见分布F、t、正态分布密度3.数字特征 期望、方差4.置信区间5分钟课堂-布尔家族布尔 1815-(George Boole)妻子(Mary Everest)叔叔乔治艾佛斯
19、特曾任印度大地测量局总测量师,英国殖民者用艾佛斯特(Everest)命名珠穆拉玛峰小女艾捷尔丽莲伏尼(Ethel Lilian Voynich)牛虻作者长女玛丽爱伦(Mary Ellen)和数学家Charles Howard Hinton结婚长子George Hinton采矿工程师 儿子William Howard Hinton 中文名韩丁,农学家、记者、马克思主义者。著名作品翻身。儿子Howard Everest Hinton。昆虫学家,英国皇家学会会士。次女长子是数学家四子Sebastian 二子Eric 三子William 女儿Joan Chase Hinton 中文名寒春,杨振宁同学,曼哈顿计划女科学家。1948年来延安,从事奶牛养殖工作,北京第一位中国绿卡获得者。儿子 1947-杰佛瑞艾佛斯特辛顿(Geoffrey Everest Hinton)。人工智能复兴标志性人物、深度学习教父2022/7/241.1.2 多元统计分析研究内容和方法 1.多元统计的理论基础多维随机向量及多维正态随机向量及由此定义的各种多元统计量,推导其分布并研究性质、抽样分布理论概率论与数理统计、数据描述性分析.2.多元数据的统计推断参数估计和假设检验问题.特别是多元正态分布的均值向量及协方差阵的估计和假设检验等问题数据描述性分析等.3.变量间的相互关系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中原地产手房买卖合同
- 学校采购校服合同
- 工地门窗安装合同
- 建设工程劳务分包合同
- 场地汽车租赁合同
- 污水处理厂施工合同
- 漳州理工职业学院《飞机液压与燃油系统》2023-2024学年第二学期期末试卷
- 漳州理工职业学院《室内模型设计》2023-2024学年第二学期期末试卷
- 江西水利职业学院《现代仪器分析综合实验》2023-2024学年第二学期期末试卷
- 北京邮电大学世纪学院《物流管理》2023-2024学年第二学期期末试卷
- 2.1大都市的辐射功能-以我国上海为例(第一课时)课件高中地理湘教版(2019)选择性必修2+
- 长鑫存储校招在线测评题库
- FOCUS-PDCA改善案例-提高术前手术部位皮肤准备合格率医院品质管理成果汇报
- 2023年智能网联汽车产业洞察暨生态图谱报告1
- 《中医妇科总论》课件
- 事业单位考试综合应用能力(综合管理类A类)试卷及解答参考
- 申论公务员考试试题与参考答案(2024年)
- 《幼儿行为观察与分析案例教程》教学教案
- 小学科学教育课程实施方案
- DB11T 1035-2013 城市轨道交通能源消耗评价方法
- 供应室课件大全
评论
0/150
提交评论