听课笔记大数据概论_第1页
听课笔记大数据概论_第2页
听课笔记大数据概论_第3页
听课笔记大数据概论_第4页
听课笔记大数据概论_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

刘涛雄大纲大数据概论大数据的主要技术手段数据分析技术:机器学习概论“大数据社会科学”何为大数据?(BigData)特点:大。超过常用软件工具的收集、管理和处理数据的能力范围的数据集。但是,也不是简单地以规模论大,而是相对的复杂程度。如果以现在计算机的能力:针对简单查询(如关键词查询),数据量为TB或PB是即可称为大数据。针对复杂查询(如数据挖掘),数据量为GB至TB时即可称为大数据。大数据特性:4VVolume:体量巨大Velocity:速度极快Variety:模态多样Veracity:真伪难辨无所不在的数据生成源:全社会(发言、网状结构)、网络用户(浏览行为、搜索行为)、管理者(发票、医院记录、交通检测)、商业机构(手机记录、信用卡记录、保险记录、商场购物记录)、健康数据(电子医疗设备记录、医疗检测)、卫星信息系统(物联网)我们都有哪些数据?文本信息中文分词多媒体时间序列(高频数据)空间数据网页数据社会网络大数据与社会科学第一层次:基于数据的知识发现(KnowledgeDiscoverinDatabase,KDD)有理论假设的好处:可以节省信息量,缩小搜寻范围。当数据获取和处理能力足够强,KDD也能体现其优势。例子:HedonometricsandTwitterHowObama’sDataCrunchershelpedhimwin活跃领域:数据挖掘(datamining)政治学、经济学、社会学、心理学、管理学如:priceindex预测(forcasting)和现测(nowcasting)如:对googletrends的利用社会计算(ComputationalSocialSciences)Computationabout(of)thepeople:如社会情感Computationforthepeople:如信任计算、风险计算Computationbythepeople:如主体参与、群体智能大数据的主要技术手段关键技术Hadoop:分布式管理平台来自Google的设计思想:一个分布式文件系统和并行执行环境(HDFS和MapReduce)方便用户处理海量数据云计算机器学习计算机针对特定任务(Tasks)和效果评价指标(PerformanceMeasurement),基于已有经验(Experiences),自动地不断改进算法,并随着E的扩大不断提高对T的执行效果(P)T:任务P:效果评价E:经验集(训练集)训练和预测最佳预测:Bias-Variance平衡一般来说,模型越复杂,变量越多,Bias2越低,但var(f(x))越大所以对于模型选择,一个很重要的准则是降维。大数据对社会科学的机遇与挑战机遇数据来源极大拓展获取信息速度大大加快计算能力极大增强核心:技术、数据+人挑战数据太多维数灾难?数据太乱结构化与非结构化生成机制难掌握(DGP,DataGeneratingProcess)谁是总体?谁在创造数据?总体创造数据的动机和行为机制是什么?官方统计还有存在必要吗?结构化数据与非结构化数据社会科学:因果与相关社会科学的核心:因果解释自然科学与社会科学:可控实验与自然实验困难:反向因果与共因变量统计学:从相关到因果大数据:相关易于因果,相关重于因果?大数据对研究还有意义吗?大数据同样会促进“因果解释”社会科学的研究范式:假设检验(演绎法)大数据:寻找相关(归纳法)信息增加与避免错误因果政策:预测与因果我们是不是过于重视“因果”?关键:数据生成机制是否稳定?两类政策问题:“降雨术问题”与“雨伞”问题降雨术:因果(干预问题)雨伞:预测(对策问题)但任何一个政策措施,其影响可能是十分复杂的,有能被解释的部分也有不能被解释的部分。互联网金融简介对中国的贡献征信财富管理P2P大数据要和先进的方法一起使用一、传统金融业务传统方式(支付、个人理财)放在互联网上支付二、互联网和金融的化学反应、支付体系互联网征信P2P贷款众筹网络虚拟支付功能%费率资源分配投融资渠道不畅,超过30%中国人储蓄率在20%以上征信的分类资产(个人企业)是否诚信(个人)中国征信市场的现状人民银行的征信系统有8亿数据(活跃的有3亿)25%的人有征信数据美国有70%的人电商有个人消费数据(大概有3亿)征信与消费的结合租车4W+1H5P5C+1S支付数据——财务关系消费数据——消费习惯金融数据——信用记录社交数据——个人特征行为数据——P2P点对点线上获取信息和资金流程:获取借贷列表和信用审核信贷审核:实地审核线上项目审核系统确定借款利率固定利率按融资期限长短和信用等级确定利率确定担保模式:共同体众筹类型(按回报划分)捐赠众筹(共)产品众筹(共)股权众筹(权益)债权众筹(权益)私的含义:小众大额非公开宣传持有人不能超过200人针对高端人群众包把复杂的任务以自由自愿的形式外包给非特定的大众网络的做法模式利用空闲时间靠大众力量之Rm(“A“)清除Ls()显示出Vector一位cMatrix二位Arraym*n*q*p一种类型储存ListVectorMatrix二位Array8月25日社会网络分析郑路1、概要网络是指物体节点和物体之间的连线所组成的集合。节点:行动者:个人、作为单元互动结构的网络网络研究看成是一切互动形式的研究信息传递网站链接信息交换贸易信用与资金流动友谊信任网络分析的隐含前提比起节点自身的属性,节点之间的关系对行为的影响更甚。买东西的决定受周围人际关系的影响朋友的朋友对你的心里趋向有影响某一节点的行为不仅与直接相联的连带有关,也会受到整个网络结构连结模式的影响。从关注:“个体特征”到关注“关系”现在营销分析关注社交网络,微信的股价是600亿,2015年赚了18亿美元,小群体分析:社会思潮分析:美国选民的政治空间两极化。网络与政治观点的关系?国际贸易与国际关系城市兴起莫斯科为什么成为首都热丽亚为什么成为政治、经济、文化中心与地理位置有关,陆陆与水陆,水陆更重要新潮事物的扩散传染病的传播黑色节点临床确定人生物性与社会性的传播?被动与主动社会没有时空限制、生物传播很少出现病原体变异,但是社会性会变异八卦谣言。也可以由于某一因素突然变得活跃传播,北京折叠。社会网络与健康——孤独感Facebook2、网络概念化与测量距离:连结两个节点的最短路径的长度。连带强度:结构洞:小世界现象:联系在观测的一个月,两个用户至少发生过一次对话。三度影响力原则我们被影响并影响着相距“三度”的人?你朋友的朋友的朋友如何影响你的感受、思考和行为……传染:什么可以在连结中传递?(病菌、金钱、暴力、时尚、捐献器官、感受快乐、发胖)是人以群分还是人际影响人们选择与他们类似的人产生社会交往(或交朋友),还是会调适自己的行为,使自己和朋友们更像。人行道实验连带强度:强关系:家庭成员与亲密朋友弱关系:熟人和“泛泛之交”的朋友结构洞:两个网络群体的节点间无直接关系或关系间断的现象,从网络整体来看,晋升、加薪的机会文本数据挖掘与分析一、社会科学中的文本分析文本不是主流文本资料难获取花时间难推广:文革与现在难管理:文本难以管理、储存?难分析:coding文本分析繁荣的条件逐步具备:大规模文本数据采集储存和管理能力增强文本分析方法蓬勃发展:可推广、系统化和廉价化文本资料指数级增长通过文本表达的社会意义更广泛文本分析师收集数据的方法论:研究者采集他人理解世

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论