数量模型与算法基础:幂律_第1页
数量模型与算法基础:幂律_第2页
数量模型与算法基础:幂律_第3页
数量模型与算法基础:幂律_第4页
数量模型与算法基础:幂律_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

幂律齐普夫定律Zipf'sLawZipf定律是美国学者G.K.齐普夫提出的。可以表述为:在自然语言的语料库里,一个单词出现的次数与它在频率表里的排名成反比。上个世纪30年代,Zipf对此作出了研究,并给出了量化的表达——齐普夫定律(Zipf'sLaw):一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。就是

r×f=C

Or f=C/r^1Zipf定律是文献计量学的重要定律之一,它和洛特卡定律、布拉德福定律一起被并称为文献计量学的三大定律。汉字使用频率统计使用频率排名前5个汉字(使用频率之和为10%): 的一是了我使用频率排名第(6~17)个汉字(使用频率之和为10%):

不人在他有这个上们来到时/link?url=SQyragilOETE2Ofcid4lPySETscZildBRh-gcmasz_kFg_PaHdnEfvIyfmt3dC7WDCTA5UJNGwpkyu9j3BhuuonZMVus-NQ0iRkTqtcsNGmZipf模型

模型模拟3000个城市的人口数据clc;clearall%用Zipf模型模拟3000个城市的人口数据,放入gm变量中npm=3000gm1=30000000pwr=1fori=1:npmgm(i)=gm1/i^pwr;endforplot(gm,"ok")figure%建立新图画面loglog([1:npm],gm,“-or”)%画双对数点线图Zipf模型续:

20%城里居住着80%的人口吗?%计算排名前20%的城里居住的人口(某国)gm20和%排名前20%的城里居住的人口占总人口的百分比,即相对规模,xdgm20zgm=sum(gm)%总规模pm20=npm/5gm20=0;fori=1:pm20gm20=gm20+gm(i);endforgm20xdgm20=gm20/zgm%百分相对规模100个城市,3000W,plot(gm)1000个城市,3000W,plot(gm)1000个城市,3000万loglog(gm)Zipf模型:中国一线城市人口触顶?房地产/房价预测需要:中国一线城市人口触顶?中国1000城市人口数据直线拟合大部数据Zipf模型观察,比较Zipf直线从US人口局下载到的资料有

2000至2008年10年间的普查资料宁夏回族自治区2010年第六次全国人口普查主要数据公报

区统计局2011年5月10日/link?url=FEIb_yYlwNjgA6IR1xnZyJwe-TxbCHzA5h5q7M2gmrAOxfp_MnYC4V4-vUfYmXpjIcc7QIBy-4SxwBk31AfKIa人口数(人)比重[8](%)自然增长率(‰)人口密度[9]练习题如城市人口服从ZIPF模型,计算排名前20%城市居住人口的占比是否是80%。clc;clearallnpm=2000rk1=30000000pwr=1%Zipf'slawfori=1:npmrk(i)=rk1/i^pwr;endfor%总人口zrk=sum(rk)zrk20p=sum(rk(1:0.2*npm))rkzb20p=zrk20p/zrk%人口占比fori=1:npmrkzb(i)=rk(i)/zrk;endfor%人口累计占比rkljzb(1)=rkzb(1);fori=2:npmrkljzb(i)=rkljzb(i-1)+rkzb(i);endforfigure1loglog([1:npm],rk,"or")%bar([1:npm],rkzb,"r")%holdon%plot(rkljzb,"-og")%%%%%%%%%%%%%%%%%%%%%城市人口(按排名百分数)xscale=npm/100rkp(1)=sum(rk(1:1*xscale));rkzbp(1)=rkp(1)/zrk;forj=2:100rkp(j)=sum(rk((j-1)*xscale+1:j*xscale));rkzbp(j)=rkp(j)/zrk;endfor%人口累计占比(按排名百分数)forj=1:100rkljzbp(j)=sum(rkzbp(1:j));endforfigure2ifxscale<1bar([1:npm],rkzb,"r")holdonplot(rkljzb,"-og")xlabel("pm")ylabel("citysize%/cumulativesize")holdoffelsebar([1:100],rkzbp,"r")holdonplot(rkljzbp,"-og")xlabel("pm%")ylabel("citysize%/cumulativesize%")holdoff

endif百分累积占比线详细:19%城市聚集了80%的人口Zipf应用:20/80原则你一定听过这样的说法:80%的财富集中在20%的人手中……80%的用户只使用20%的功能……20%的用户贡献了80%的访问量………………“二八原则”或“20/80原则”如果把所有的单词(字)放在一起看呢?会不会20%的词(字)占了80%的出现次数?答案是肯定的。《链接》《链接》提出了清晰无疑的观点:在互联网上我们不是随机链接在一起。“互联网是由少数高链接性的节点串联起来的,极少数的几个点拥有海量点击,而绝大多数网站只有寥寥可数的人造访。管理创新:冥律分布管理创新遵循着冥律分布原则:有少量根本改变管理实践的突破性想法,也会有大量价值不高、影响力弱的主意。但是,这不能成为不创新的理由。创新就是一项概率游戏,你做得越多,20%就越可能实现。六个烧饼和半个烧饼冥律:《人类行为93%是可以预测的》

/review/5613867/

真相到底是什么?答案是人类行为93%是可被预测的,这些行为的发生则遵循着冥律分布。

冥律本是个数学统计概念,其典型的例子便是帕累托定律:大部分人都很穷,极少数人掌握着大部分财富。也就是说,每出现一个比尔·盖茨,意味着一大群穷人的诞生。

作者认为,冥律分布意味着爆发点的出现。理由是,短时间的活跃与长时间的耽搁相互交替,这与帕累托定律是一脉相通的。(汉语:三年不鸣,一鸣惊人)幂律分布

幂律分布的示意图如右图所示,其通式可写成

y=c*x^(-k),其中x,y是正的随机变量,c,k均为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。洛特卡定律洛特卡定律

是由美国学者A.J.洛特卡在20世纪20年代率先提出的描述科学生产率的经验规律,又称“倒数平方定律”定义

它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;写N篇论文的作者数量约为写一篇论文作者数量的1/n2……,而写一篇论文作者的数量约占所有作者数量的60%。123456789n1¼1/91/n^2洛特卡定律该定律被认为是第一次揭示了作者频率与文献数量之间的关系,描述科学生产率的频率分布规律。1926年,在美国一家人寿保险公司供职的统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物《华盛顿科学院报》上发表了一篇题名为“科学生产率的频率分布”的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。这篇论文发表后并未引起多大反响,直到1949年这一成果才引起学术界关注,并誉之为“洛特卡定律”。布拉德福(S.C.Bradford)定律布拉德福定律是由英国著名文献学家S.C.Bradford于1934年率先提出的描述文献分散规律的经验定律。其文字表述为:如果将科技期刊按其刊载某学科专业论文的数量多少,以递减顺序排列,那么可以把期刊分为专门面对这个学科的核心区、相关区和非相关区。各个区的文章数量相等,此时核心区、相关区,非相关区期刊数量成1:n:n^2的关系。布拉德福定律是文献计量学的重要定律之一,它和洛特卡定律、Zipf定律一起被并称为文献计量学的三大定律。帕累托分布(图)

/wiki/%E5%B8%95%E7%B4%AF%E6%89%98%E5%88%86%E5%B8%83帕累托分布(1)帕累托分布可以归纳为一个非常简洁的表述:通过市场交易,20%的人将占有80%的社会财富,如果交易可以不断进行下去,那么,“在因和果、努力和收获之间,普遍存在着不平衡关系,典型的情况是:80%的收获来自20%的努力;其他80%的力气只带来20%的结果”。帕累托分布(续)19世纪末期,意大利经济学家维弗雷多·帕累托在研究英国人的收入分配问题时发现,绝大部分社会财富最终总会流向少数人群;他还发现,某一部分人口占总人口的比例,与这一部分人所拥有的财富的份额具有比较确定的计量经济关系;进一步的研究证实,这种不平衡模式可以重复出现,甚至可以预测。经济学把这一社会财富的分布状态,称为“帕累托分布”。帕累托分布(续)

丹尼尔·贝尔在《帕累托分布与收入最大化》中进一步叙述到:“如果待分配的财富总量是100万元,人数为100人,那么我们会有这样一组对应的分配比例:排在前面的20个人,分得80万元;同理,这20人中的4个人,分得64万元;4个人中的1个人,分得50万元。”

帕累托分布从经济学角度论证出,社会分配的“绝对的失衡”必然导致“绝对的贫困”,甚至导致“宗教末日审判”的来临,除非我们可以通过政治手段,人为地阻止财富向高端不断聚集,否则,贫富双方的利益冲突是不可避免的。大致是帕累托分布的例子在现代工业资本主义创造了大量中产阶级前后,财富在个人之间的分布。人类居住区的规模接近绝对零度时,爱因斯坦凝聚的团簇在互联网流量中文件规模的分布油田的石油储备数量龙卷风带来的灾难的数量幂律分布特征:

双对数坐标下,一条斜率为负数k的直线

y=c*x^(-k),对上式两边取对数,log(y)=C-k*log(x)可知logy与logx满足线性关系,即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。图2双对数坐标下一个幂律分布幂律分布是自组织临界系统幂律分布是自组织临界系统在混沌边缘,即从稳态过渡到混沌态的一个标志,利用它可以预测这类系统的相位及相变。它认为,由大量相互作用的成分组成的系统会自然地向自组织临界态发展;当系统达到这种状态时,即使是很小的干扰事件也可能引起系统发生一系列灾变。著名的“沙堆模型”形象地说明了自组织临界态的形成和特点(如图):沙崩~金融市场中泡沫崩溃设想在一平台上缓缓地添加沙粒,一个沙堆逐渐形成。开始时,由于沙堆平矮,新添加的沙粒落下后不会滑得很远。但是,随着沙堆高度的增加,其坡度也不断增加,沙崩的规模也相应增大,但这些沙崩仍然是局部性的。到一定时候,沙堆的坡度会达到一个临界值,这时,新添加一粒沙子(代表来自外界的微小干扰)就可能引起小到一粒或数粒沙子,大到涉及整个沙堆表面所有沙粒的沙崩。这时的沙堆系统处于“自组织临界态”,有趣的是,临界态时沙崩的大小与其出现的频率呈幂律关系。这里所谓的“自组织”是指该状态的形成主要是由系统内部各组成部分间的相互作用产生,而不是由任何外界因素控制或主导所致,这是一个减熵有序化的过程;“临界态”是指系统处于一种特殊的敏感状态,微小的局部变化可以不断被放大、进而扩延至整个系统。自组织临界理论可以解释诸如火山爆发、山体滑坡、岩层形成、日辉耀斑、物种灭绝、交通阻塞、以及金融市场中泡沫崩溃的现象。帕累托图/view/5909be88d0d233d4b14e6998.html?re=view帕累托图/search/detail?ct=503316480&z=0&ipn=d&word=%E5%B8%95%E7%B4%AF%E6%89%98%E5%9B%BE&step_word=&hs=0&pn=32&spn=0&di=93327212330&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&istype=0&ie=utf-8&oe=utf-8&in=&cl=2&lm=-1&st=undefined&cs=1550935768%2C142525475&os=3259913055%2C572163191&simid=3099126859%2C3634882463&adpicid=0&ln=1954&fr=&fmq=1476978987259_R&fm=&ic=undefined&s=undefined&se=&sme=&tab=0&width=&height=&face=undefined&ist=&jit=&cg=&bdtype=0&oriquery=&objurl=http%3A%2F%2F%2FbewIAbdwVfgTOmGfASuBNg%3D%3D%2F867505878224150616.png&fromurl=ippr_z2C%24qAzdH3FAzdH3Fks52_z%26e3B8mn_z%26e3Bv54AzdH3FxylllsfAzdH3Fks52AzdH3FfpwptvAzdH3F809ll8cnnda88d8b8a898abbbAzdH3F&gsm=0&rpstart=0&rpnum=0帕累托图的作用

显示每种已识别的原因分别导致了多少缺陷

相对少量的原因通常造成多数的问题或缺陷帕累托图是质量管理工具之一。帕累托图是一种按发生频率排序的特殊直方图。在质量管理中,可以通过帕累托图显示每种已识别的原因分别导致了多少缺陷。排序的目的是为了有重点地采取纠正措施。项目团队首先要处理那些导致最多缺陷的原因。帕累托图在概念上与帕累托法则有关。帕累托法则认为,相对少量的原因通常造成大多数的问题或缺陷。该法则通常称为80/20原则,即80%的问题是由20%的原因导致的。帕累托图也用于汇总各种类型的数据,并进行80/20分析。上次课留的课后练习:用Octave/Matlab

画出以下帕累托图提示:可能用到函数主要有:sum();cumsum();bar(),plot(),holdon;clc;clearallYuanyin=1:6;tYuanyin=['gcwj''sjbz''lx''xtgz''glzl''qt'];F=[3826175311];totalf=sum(F)F00=F./totalf;CF00=cumsum(F00);bar(Yuanyin,F00,'b');holdonplot(Yuanyin,CF00,'-or');holdoffYuanyintYuanyinFF00CF00用Octave画帕累托图原因:15个第一原因发生结果:0.86(百次)所需学习工具:bar()cumsum()holdonOctave画帕累托图clc;clear%====C=1pm=1:15;F=C./pm.^1.8;%F是原因/发生频率/重要性占比,服从帕累托分布X=pm;%====F00=F./sum(F);figure1bar(X,F00,'b');CF00=cumsum(F00);figure2plot(X,CF00,'-or');figure3bar(X,F00,'b');holdonplot(X,CF00,'-or');holdoff三部曲准备数据yuanyin=[1:6]F=[3826175311]加工/处理/模拟/etcTotal=Sum()F00Cf00=cumsum(F00)显示结果bar(F00)plot(CF00)for循环的简化和点操作符Matlab中,变量可以是矩阵,矢量或单个数,

X=[12345]

Y=[246810]

Y/X=?点操作=分别算数运算

Z=Y./X

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论