




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计分析方法与Stata应用(2015年春季学期)第一讲 Stata的学习背景与学习意义一、Stata是什么?“Stata”并非数个单词的缩写(因此其正确拼写为Stata而非STATA),而是由“statistics”和“data”合成的一个新词,Stata公司的员工都将其读做“Stay-ta”。从这个小小的趣闻中,可以看出Stata在问世之初(1985年)的主要功能在于统计分析和数据处理。经历了三十余年的发展,Stata已经升级到第13.1版(表1),在不断强化上述功能的同时,Stata在矩阵运算、绘图、编程等方面的功能也在不断加强。表1 Stata发展历程版本发布日期版本发布日期13.1O
2、ct-137Dec-0013Jun-136Jan-9912.1Jan-125Sep-9612Jul-114Jan-9511.2Mar-113.1Aug-9311.1Jun-103Mar-9211Jul-092.1Aug-9010.1Aug-082.05Apr-8910Jun-072Jun-889.2Apr-061.5Feb-879.1Sep-051.4May-869Apr-051.3Aug-858.2Oct-031.2May-858.1Jul-031.1Feb-858Jan-031Jan-85资料来源:http:/www.S/support/faqs/res/history.h
3、tmlStata擅长数据处理、面板数据分析、时间序列分析、生存分析,以及调查数据分析,但其它方面的功能也并不逊色(表2)。表2Stata的功能一览数据处理和绘图Data managementGraphics统计分析和检验Basic statisticsNonparametric methodsExact statisticsANOVA/MANOVA其它检验方法和函数回归分析Linear modelsGLMMLEGMMMultilevel mixed modelsPanel dataProbit/Logit/CountTime series多变量模型(多元统计)抽样和模拟分析Multivaria
4、te methodsCluster analysisResampling and simulation调查分析和生存分析Survey methodsSurvival analysisEpidemiologists编程Programming languageMataUser-written commands二、为什么要学习Stata1.时代发展的需要:大数据时代的兴起(1)什么是大数据?传统的统计分析常常希望数据多多益善。也就是说,数据越多,分析越深入,所得的结论就越全面。从字面含义上理解似乎指的是数量庞大信息量巨大的数据。大数据常常被描述成已经大到无法用传统的数据处理工具进行管理和分析的极大的
5、数据集。超大的数据量只是大数据概念的一个部分。大数据涉及结构化数据、非结构化数据和半结构化数据这三类数据。结构化数据通常指的是传统数据库中的数据,利用结构化查询语言(Structured Query Language,简称SQL) 来存取数据以及查询、更新和管理数据库系统。非结构化数据一般无法直接进行商业智能分析,这是由于非结构化数据无法直接存储到数据库表中,也无法被程序直接使用。二进制图片文件就是非结构化数据的一个典型例子。半结构化数据介于结构化数据和非结构化数据之间。半结构化数据不具有严格的结构因而不同于结构化数据。半结构化数据也不同于非结构化数据,它使用标签和各种标识区分不同的元素,并利
6、用层级结构来定义数据。(2)理解大数据的概念需要把握4个维度,统称为4V特征。海量性(Volume)。大数据都是数量巨大的数据。很多企业都拥有海量数据,数据量很容易就积累到TB(1012字节)级,甚至跃升至PB(1015字节)级。多样性(Variety)。大数据冲破结构化数据的局限,不仅包括结构化数据,还覆盖了如文本、音频、视频、点击流、日志文件等各种类型的非结构化数据。精确性(Veracity)。数据量多不见得都是好事,庞杂的数据可能会导致对收集到的信息的误读或统计误差,因此信息的纯度对价值发掘至关重要。时效性(Velocity)。大数据对时效性要求很高,企业必须能够在短时间内高速、流畅地处
7、理源源不断产生或流入企业的海量实时数据,方能最大化地显现出大数据的商业价值。与此同时,大数据还应被归档存储,以备不时之需。(3)在大数据的范畴下,包含如下方面。传统商业智能(Traditional Business Intelligence, BI)。传统的商业智能对来自数据库、应用程序和其他可访问数据源提供的详细商业数据进行深度分析,通过运用基于事实的决策支持系统,给用户提供可操作性的建议,辅助企业用户做出更好的商业决策。数据挖掘 (Data Mining, DM)。数据挖掘是人们对数据进行多角度的分析并从中提炼有价值的信息的过程。数据挖掘的对象通常是静态数据和归档数据。统计应用 (Stat
8、istical Application)。统计应用通常是基于统计学原理利用算法来处理数据,一般用于民意调查、人口普查以及其他统计数据集。为了更好地估计、测试或预测分析,可以使用统计软件分析收集到的样本观测值来推断总体特征。调查问卷和实验报告这类经验数据都是用于数据分析的主要数据来源。预测分析 (Predictive Analysis)。预测分析是统计应用的一个分支,人们基于从各个数据库得到的发展趋势及其他相关信息,分析数据集进行预测。预测分析在金融和科学领域显得尤为重要,因为加入对外部影响因素的分析,更容易形成高质量的预测结论。预测分析的一个主要目标是为业务流程、市场销售和生产制造等规避风险并
9、寻求机遇。(4)大数据的商业价值正在得到越来越多的实现和证明。对大数据商业价值的渴求,促使组织机构利用企业内部和外部数据“仓库”中的数据来揭示发展规律、进行数据统计、获取竞争情报,协助他们部署下一步战略。据IBM公司称,全球每天产生2.5亿亿(2.51018)字节的数据,当今世界90%的数据都是近两年产生的。这些数据来源广泛,有的来自收集气候信息的传感器,有的来自社交媒体网站,还有的是网络上传的数字照片和视频、电子商务交易记录,甚至是手机GPS信号等。大数据的价值及其重要性已经在一些领域得到了证明。美国国家海洋和大气管理局(NOAA)、美国国家航空航天局(NASA)、部分制药公司和许多能源公司
10、正在把大数据技术运用于日常工作并从海量的数据中提取价值。美国国家海洋和大气管理局运用大数据的方法助力气候、生态系统、天气和商业研究,美国国家航空航天局则使用大数据从事航空航天等研究。在大数据的帮助下,制药公司和能源公司已经在药物测试和地理分析方面得到了实际的效益。纽约时报利用大数据工具进行文本分析和Web挖掘;迪士尼公司则分析了旗下所有店铺、主题公园和网站的数据,试图发现数据间的关联性,进而理解用户行为。2.自身进步的需要两个政策背景:一个是国家要加大职业技术教育,另一个是取消文理分科。一个教育背景:人大、北大等名校都开设Stata课。结论:文科生要加强技术方法的学习。3.为什么选择Stata
11、由图可知,SAS比Stata使用更广泛。好了,下面是一张预测图三、如何学习Stata?1. 三门基础课微积分、线性代数、概率论与数理统计,缺一不可。基础有多重要?有一句广告词:ItsonlyaboutFundamentals.你只需做好基本功。基础打好了,学习统计、计量,真的势如破竹;如果基础不行,想要有多难,就有多难。1.1 微积分。推荐教材:同济六版高等数学,国内相关的参考资料非常丰富,内容详略基本得当,也比较流行。想比较有深度的,可以看史济怀、常庚哲的数学分析(高等教育出版社,2012)。1.2 线性代数。1.3 概率论与数理统计。1.4基础课程的系列教材,如果能找到视频,就更好了。比如
12、吉林大学陈殿友的线性代数、高等数学,麻省理工的Gilbert Strang的线性代数,中科大的缪柏其概率论与数理统计,中科大史济怀或复旦陈纪修的数学分析,都是极好的。不过要真看完你就研究生毕业了(如果你是两年制的研究生)。另外,我觉得有些考研的数学视频也是不错。个人觉得Strang的线代超赞,但适合先经历一次国内教材和教授方式的“洗脑”,你就觉得老外讲得真心好!没有比较的话,你会发现线代永远是那么的抽象。2 Stata图书1.应用STATA做统计分析 (更新至STATA10.0版)(劳伦斯汉密尔顿著,郭志刚等译,重庆大学出版社,2011)。2.社会统计分析与数据处理技术:STATA软件的应用(
13、杨菊华,中国人民大学出版社,2008)我个人觉得是最适合入门的教材。3. 数据管理与模型分析:STATA软件应用(杨菊华,中国人民大学出版社,2012)。4. 陈强-高级计量经济学及Stata应用 第二版5. 人大陈传波stata十八讲6. 现代医学统计方法与Stata应用_第二版(陈峰)(1)网络资源值得一提的有如下几个:Stata官方网站。Stata公司提供的Web resources,涵盖了大量相关网络资源;其FAQ则提供了各种常见问题的解答;Statalist则是一个类似于人大经济论坛的免费的讨论区。加入Statalist的方法很简单,你只需要发送邮件至,邮件内容无需任何称谓,只需写上
14、“subscribe Statalist”的字样即可。接到确认信息后,你便成为一名Statalist的成员了。当然,即使不加入,你仍然可以浏览,但不能提问。Stata website:http:/www.S 导航图Sata resources:http:/www.S/links/resources1.html(大量网络教程链接)Stata journal:http:/www.S/support/faqs/res/sj.htmlStata library:http:/www.ats.ucla
15、.edu/stat/Stata/library/Statalist archive:/cgi-bin/lwgate/STATALIST/archives/Stata FAQs:http:/www.S/support/faqs/Stata statistics FAQs:http:/www.S/support/faqs/stat/Stata listserver:http:/www.S/support/Statalist/Stata discussion list:Statalisthsphsun
16、2.Stata bookstore:http:/www.S/bookstore/Stata Manual:http:/www.S/manuals/ UCLA(加州大学洛杉矶分校)提供的网络教程。该网站提供的Data Management、Graphics、Regression、Logistic Regression、Multilevel Modeling、Survey Data Analysis等模块都非常出色;其Web Books、Textbook Examples模块则非常细致地呈现了几十本非常流行的统计和计量教材的Stat
17、a实例;对于LaTeX感兴趣的朋友,则可以通过Stata Tools for LaTeX模块获得诸多有用的信息;在Graph examples模块中,则列举了四十余种图形的绘制方法;最后,在Classes and Seminars模块中,你可以在线观看数十个Stata教学视频。Data ManagementGraphicsANOVARegressionLogistic (and Categorical) RegressionCount ModelsMultilevel ModelingSurvival AnalysisSurvey Data AnalysisFrequently Asked Q
18、uestions(FAQ) Statistical AnalysisData Analysis Examples(绝佳的数据处理专题)Annotated Output(详细解读Stata输出结果)Textbook Examples(包含十余本教科书的Stata实例)Web Books(两本Stata网络教程)What statistical analysis should I use?(常用统计分析的Stata实例)Stata Portal(a comprehensive links)人大经济论坛。若从人数上来讲,人大经济论坛或许是全球最大的经济类论坛了。目前,其计量经济学板块又细分出多个计量
19、软件专题讨论区。在Stata专版已发布了4000余个讨论主题(18000余条回复),而Stata上传下载区则汇集了大量学习资料。在统计软件培训班VIP答疑区中,Stata培训班的学员所提出的问题,可以在24小时内得到详尽的回复。人大经济论坛Stata专版:/bbs/forum-67-1.html人大经济论坛Stata上传下载区:/bbs/forum-121-1.html人大经济论坛统计软件培训班VIP答疑区(针对Stata视频教程学员):/bbs/forum-114-1.ht
20、ml(所有Stata问题24小时内回复)3.5 一些常用的网站:3.5.2 人大经济论坛:/3.5.3 新浪爱问: /3.5.4 统计之都: /3.5.5 UCLA stata: /stat/stata/3.5.7 coursera:/4 一些适用于社会科学类的实证教材4.1 社会学教材教参方法系列(全5本):谢宇:社会学方法与定量研究(社会科学文献出版社,2012),回归分析(社会科学文
21、献出版社,2012);4.2 万卷方法丛书4.3 格致方法定量研究系列:如高级回归分析(格致出版社,2011),数据分析方法五种,线性回归分析基础,等等。4.4 计量经济学系列: 杰弗里M伍德里奇,计量经济学导论,中国人民大学出版社,2010第4版。 威廉H格林,计量经济分析,中国人民大学出版社,第6版。3 所有这些书籍,配套的stata数据、程序与答案都不难找到。如果你能找到英文版,看英文的也很好(如果你有能力!)。真的,学完这些书,基本上在社会学的研究生毕业之前,不太需要别的什么方法书了。你所需要的,只是如何将这些应用于社会学研究的实践而已。面板数据计量经济分析_4ed(Baltagi)5
22、.统计学图书:现代外国优秀统计学著作译丛全套15本中英对照:01外国统计学优秀著作译丛 统计学统计与真理统计学的世界(第五版)爱上统计学(第2版)驯服偶然.(加)伊恩哈金女士品茶四、如何学好Stata?(1) 好脑瓜不如烂笔头。这是一个适用于学习任何新知识的“秘诀”,对于功能强大,以敲命令为基础的Stata软件而言尤其如此。因此,你要时刻记录新学到的命令、方法和技巧,并定期整理。若能将这些手记与其他Stata用户分享,你会有更多的收获。(2) 学以致用。在了解了Stata的基本功能和架构后,想要进一步提升自己的最佳途径就是动手写一篇实证分析的论文,并自始至终用Stata解决所有问题。这项工作的起点是一份以txt或Excel格式存储的原始数据文件,中间过程完整地记录于一个do-files文档中,最终的分析结果要自动输出到Word, Excel或LaTeX文档中。(3) 不耻下问。这个不用多言了,你只需克服“不耻”,进而多花些精力考虑考虑该如何提问即可(注:很多人不会提问)。五、Stat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职工食堂承包协议书(2024版)
- 2025年灯具配附件:触点合作协议书
- 2025年高速铁路客车轴承合作协议书
- 小区单元房租赁合同
- 土方外运项目合作协议书
- 物业设施租赁合同
- 2025年度科研机构实验室保洁人员聘用合同
- 2025年度时尚品牌独家授权合作协议
- 餐饮合作协议书范本3
- 二零二五年度旅游纪念品店面营业员服务协议
- 2025湖南省低空经济发展集团有限公司招聘11人笔试参考题库附带答案详解
- 七年级下册道德与法治(2025年春)教材变化详细解读
- GB/T 11856.1-2025烈性酒质量要求第1部分:威士忌
- 认识常用电子元件图解课件
- 2025年铁岭卫生职业学院单招职业技能测试题库1套
- 2025年黑龙江商业职业学院单招职业技能测试题库及参考答案
- 2025年深圳市高三年级第一次调研考试英语(含答案)
- GB/T 20840.10-2025互感器第10部分:低功率无源电流互感器的补充技术要求
- 部编版小学(2024版)小学道德与法治一年级下册《有个新目标》-第一课时教学课件
- 课题申报参考:中外文艺交流互鉴研究
- 少年商学院《DeepSeek中小学生使用手册》
评论
0/150
提交评论