网络测量与分析技术课件_第1页
网络测量与分析技术课件_第2页
网络测量与分析技术课件_第3页
网络测量与分析技术课件_第4页
网络测量与分析技术课件_第5页
已阅读5页,还剩153页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络测量与分析技术黄泳铭华北计算技术研究所2008年秋季网络测量与分析技术1Self-SimilarityinWorldWideWebTraffic:

EvidenceandPossibleCauses

I.INTRODUCTIONII.BACKGROUNDIII.RELATEDWORKIV.EXAMININGWEBTRAFFICSELF-SIMILARITYV.EXPLAININGWEBTRAFFICSELF-SIMILARITYSelf-SimilarityinWorldWide2Self-SimilarityinWorldWideWebTraffic:

EvidenceandPossibleCauses(cont’d)VI.CONCLUSIONSelf-SimilarityinWorldWide3Abstract最近,自相似性这一概念已经被证明适用于广域网和局域网的网络流量。本文,我们证明网络流量表现出WorldWideWeb(万维网)传输的自相似性,并且我们对自相似做出了一种假设的解释。Abstract最近,自相似性这一概念已经被证明适用于广域网4总的方法:对NCSAMosaic实际用户做一套追踪。我们检查WWW流量的结构。总的方法:5两大步骤:首先我们证明WWW流量显示它与自相似模型一致性。其次我们证明自相似性可以被解释成是基于WWW文件大小的基本分配,传输中高速缓存和用户偏好的影响,用户的“思考时间”的影响和在一个局域网中许多传输的叠加。两大步骤:6I.INTRODUCTION为了正确制定和执行的计算机网络和网络服务,如万维网,了解网络流量的性质是关键。最近的局域网流量和广域网流量调查共同挑战已经被承认的网络流量模型,例如泊松过程I.INTRODUCTION为了正确制定和执行的计算机网络7发生在许多或所有时间段的流量可以用自相似性概念描述。由于在一个长的时间范围内已观查到自相似性过程的发生,它应该表现出长相关性;在任意时刻的估计值应该与将来时段的估计值相一致。发生在许多或所有时间段的流量可以用自相似性概念描述。8然而,在网络流量中自相似背后的原因还没有被清楚地认出。在本文中,我们列出一些情况,网络流量的自相似可以从文件系统的特点和用户行为方面解释。然而,在网络流量中自相似背后的原因还没有被清楚地认出。在本9两个必要工具ON/OFFsources(在SectionII-C中会详细描述)WorldWideWeb两个必要工具ON/OFFsources(在Section10数据采集工作NCSAMosaic捕获用户访问网站的访问模式我们的数据包括50多万用户文件传输要求而且包含了详细的时间和传输长度。另外,我们调查了一些Web服务器而得到文件大小的信息用来比较客户的访问模式和出现在服务器上的访问模式。数据采集工作NCSAMosaic捕获用户访问网站的访问模11文章结构第一部分:我们考虑我们衡量的Web流量最繁忙时间自相似的可能性。第二部分:利用网络流量,用户偏好,以及文件大小数据,我们解释某一特定网络的传输时间和空闲时间是重尾的原因。文章结构第一部分:我们考虑我们衡量的Web流量最繁忙时间自相12II.BACKGROUNDA.DefinitionofSelf-SimilarityB.StatisticalTestsforSelf-SimilarityC.Heavy-TailedDistributionsII.BACKGROUNDA.Definitionof13A.DefinitionofSelf-Similarity给一个零平均值固定时间序列X=(Xt;t=1,2,3,.....),定义m聚合度序列

X(m)=(X(m)k;k=1,2,3,...)我们称序列X是H-self-similar,对于所有确定的m,X(m)有与被mk重新调节的序列X有相同的分布A.DefinitionofSelf-Similari14

15如果X是H-self-similar,它有相同的自相关函数作为序列Xm中的所有m如果X是H-self-similar,它有相同的自相关函数16一个长相关性进程有一个自相关函数当一个长相关性进程有一个自相关函数17这个进程的自相关函数遵循幂衰减,与传统流量模式显示的指数衰减相比较。幂衰减要慢于指数衰减。对时间序列采用自相似模型一个吸引人的特点(适当的时候)是一个序列的自相似程度可以只用一个单一的参数表示。这个参数表示序列的自相关函数的衰减速度。该参数用Hurst参数表示这个进程的自相关函数遵循幂衰减,与传统流量模式显示的指数衰减18II.BACKGROUNDA.DefinitionofSelf-SimilarityB.StatisticalTestsforSelf-SimilarityC.Heavy-TailedDistributionsII.BACKGROUNDA.Definitionof19B.StatisticalTestsfor

Self-Similarity本文中用四种方法测试自相似:1.variance–timeplot2.R/S

plot3.periodogrammethod4.WhittleestimatorB.StatisticalTestsfor

Self20由于我们只关心在我们的数据中的长相性,所以我们用第四种方法Whittleestimator。其两个基本结构是这是分行高斯噪声(FGN)和fractionalARIMA(p,d,p)。因为每小时收集的数据都使m增加,在使用FGN模型时Whittleestimator适用于每个m聚合度数据。由于我们只关心在我们的数据中的长相性,所以我们用第四种方法21随着m的增加,短相关性达到数据的平均值,如果H的值始终不变,我们可以确信它估量出了自相似的基本水平。置信区间的增长将趋于聚集程度增加;然而如果随着聚集程度的增加H的估计出现稳定,我们认为置信区间具有代表性。随着m的增加,短相关性达到数据的平均值,如果H的值始终不变,22II.BACKGROUNDA.DefinitionofSelf-SimilarityB.StatisticalTestsforSelf-SimilarityC.Heavy-TailedDistributionsII.BACKGROUNDA.Definitionof23C.Heavy-TailedDistributions如果一个分部是重尾分布那么应该符合简单的重尾分布是Pareto分布,Pareto分布在其整个范围是双曲线C.Heavy-TailedDistributions如24Pareto分布的概率函数是其累积分布函数是参数k是随机变量的最小可能值Pareto分布的概率函数是25为了估计我们数据中重尾的出现我们使用log–logcomplementarydistribution(LLCD)plots有可能用LLCDplot产生参数的粗略估计为了估计我们数据中重尾的出现我们使用log–logcomp26III.RELATEDWORK先前的广域网研究已经研究了FTP,TELNET,NNTP,和SMTPtraffic我们的数据通过在一个“stub”network的WWW流量研究补充先前的研究。因为WWW流量可以解释互联网流量的很大一部分。III.RELATEDWORK先前的广域网研究已经研究了27我们集中研究网络流量的自相似性的原因。由于这个原因,我们并不分析流量资源的低,正常,繁忙的时段。相反,我们着重于在我们的记录中四个繁忙的时间。我们的文件是根据在应用层收集的数据而不是网络层。因此,我们可以检查传输时间和文件大小的关系,并能对这些分布的高速缓存和用户偏好的影响进行估计。我们集中研究网络流量的自相似性的原因。由于这个原因,我们并不28IV.EXAMININGWEBTRAFFICSELF-SIMILARITYA.DataCollectionB.Self-SimilarityofWWWTrafficIV.EXAMININGWEBTRAFFICSELF29A.DataCollection我们收集数据从1994年十一月21日到1995年5月8日,但是本文里用的数据只是从1995年1月17日到1995年2月28日。选择这段时间是因为各部门的WWW使用明显降低而且因为1995年3月初Mosaic在我们的网站不再是占主导地位的浏览器。这个研究跟踪数据的统计在表I。A.DataCollection我们收集数据从1994年30表1

表131IV.EXAMININGWEBTRAFFICSELF-SIMILARITYA.DataCollectionB.Self-SimilarityofWWWTrafficIV.EXAMININGWEBTRAFFICSELF32

B.Self-SimilarityofWWWTraffic

我们集中研究流量序列中的个别时间,以便能够提供一个尽可能接近于静止的数据。提供这四种方法的一个例子,我们在图1中分析1995年2月5日星期四4-5点这一小时的数据。

B.Self-SimilarityofWWWT33图1(a)variance–time分析

图1(a)variance–time分析34图1(b)R/S

plot分析

图1(b)R/Splot分析35图1(c)periodogrammethod

图1(c)periodogrammethod36以上的三个图各表示用variance–timeplot、R/S

plot和periodogrammethod方法分析一个小时的数据证明了网络流量具有自相似性。我们使用的Whittleestimator方法要求提供基本时间序列的构成。因此我们使用分型高斯噪声模型,用这种方法分析四个最忙时间的结果见图2以上的三个图各表示用variance–timeplot、R37图2(a)最繁忙时间

图2(a)最繁忙时间38图2(b)次繁忙时间

图2(b)次繁忙时间39图2(c)次空闲时间

图2(c)次空闲时间40图2(d)最空闲时间

图2(d)最空闲时间41以上四图表明我们使用的Whittleestimator方法分析网络上的数据得到的判断依然是在“stub”network网络传输具有自相似性。以上四图表明我们使用的Whittleestimator方法42V.EXPLAININGWEBTRAFFICSELF-SIMILARITYA.SuperimposingHeavy-TailedRenewalProcessesB.ExaminingTransmissionTimesC.ExaminingQuietTimesV.EXPLAININGWEBTRAFFICSELF43A.SuperimposingHeavy-TailedRenewalProcesses考虑大量同时存在的进程,每个不是ON就是OFF。每个进程的ON和OFF周期交替,并且其中ON的时间分配是参数为的重尾,或者OFF的时间分配是参数为的重尾。这样的模型相当于一个工作站的网络,每个不是保持沉默,就是以恒定速率传输数据。A.SuperimposingHeavy-Tailed44对于这种模式,它显示出许多资源的收集结果是一个自相似fractionalGaussiannoise过程,其中对于这种模式,它显示出许多资源的收集结果是一个自相似frac45通过这个模型来解释Web流量的自相似性需要解释ON或OFF时间的重尾分布。在我们的研究中ON时间相当于独个网站文件的传输持续时间,OFF时间相当于传输间隔时间。如果ON和OFF时间的重尾分布这是为什么?为了回答这些问题,我们可以分析我们的客户记录的特点。通过这个模型来解释Web流量的自相似性需要解释ON或OFF时46V.EXPLAININGWEBTRAFFICSELF-SIMILARITYA.SuperimposingHeavy-TailedRenewalProcessesB.ExaminingTransmissionTimesC.ExaminingQuietTimesV.EXPLAININGWEBTRAFFICSELF47B.ExaminingTransmissionTimes1)TheDistributionofWebTransmissionTimes:我们首先观察的网络文件传输时间分布显示文件传输时间有明显的分布规律。图3(a)显示发生在测量期间所有的130140文件的持续时间的LLCDplot。图3(b)显示对变量k的Hillestimator的估计值B.ExaminingTransmissionTime48图3(a)LLCDplot

图3(a)LLCDplot49图3(b)Hillestimator

图3(b)Hillestimator50从图3可以看出ON时间的基本分布在一个非常高或者无穷的差异状态。值得注意的是在ON时间分布的大量的ON/OFF进程的收集结果是一个自相似进程。从图3可以看出ON时间的基本分布在一个非常高或者无穷的差异状512)WhyAreWebTransmissionTimesHighlyVariable?:为了理解为什么传输时间存在较大差异,我们检查网络文件本身的大小分布。首先,我们展示在我们日志中文件传输的大小分布。所有的130140个文件传输的结果在图4中显示。2)WhyAreWebTransmissionTi52图4(a)LLCDplot

图4(a)LLCDplot53图4(b)Hillestimator

图4(b)Hillestimator54由图4可以观察出文件大小大于10000字节时,流量分布似乎可以相当好的被重尾分布建模。由图4可以观察出文件大小大于10000字节时,流量分布似乎可55一个重要问题是:为什么文件传输表现出重尾分布?filerequest不是其主要原因,其真正原因是文件传输似乎更跟据在Web中的Availablefile而定。就这两个原因的具体分析见图5一个重要问题是:为什么文件传输表现出重尾分布?56图5(a)filerequest

图5(a)filerequest57图5(b)uniquefile

图5(b)uniquefile58UniqueFiles,FileTransfers和FileRequests的关系在图6中可以观察的更详细。UniqueFiles,FileTransfers和Fi59是什么决定了uniquefiles的分布呢?为了帮助回答这个问题,我们调查了遍布北美的32个网站服务器。事实上,所有可见文件的分布出现在32个网络服务器很接近我们的客户踪迹的uniquefiles分布。Uniquefiles和AvailableFiles的文件分布见图7是什么决定了uniquefiles的分布呢?60图7图761图7表明Uniquefiles可以被考虑成是AvailableFiles的版本。这种说法依据的假设是,缓存管理不根据引用文件的大小排除或引用;并且Uniquefiles是在一套AvailableFiles中不注重大小的抽样。因此,我们断定只要缓存是有效的,在Web中AvailableFiles可能是文件传输重尾的首要限定,用户的要求不再重要。图7表明Uniquefiles可以被考虑成是Availab623)WhyAreAvailableFilesHeavy-Tailed?:如果AvailableFiles在Web上是重尾,一个可能的解释可能是明确支持多种格式可能促进文件大小变大,因此增加分布大小的尾重。然而我们发现多种方式在一定层度上增加尾重,事实上,它不是重尾的根本原因。可见图8。3)WhyAreAvailableFilesHea63图8

图864图8的中把所有服务器文件根据文件扩展名规成7个类别。我们使用的类别有:图片,文字,音频,视频。结果表明文本文件分布也许是重尾。图8的中把所有服务器文件根据文件扩展名规成7个类别。我们使用65事实上,文件大小分布有很长的tails之前已注意到,但他们没有明确检查尾的power-law行为,值的测量被忽视了。我们把我们的记录中Web文件的分布和Unix文件系统在一次观测中发现的文件分布作比较。收集的数据见图9事实上,文件大小分布有很长的tails之前已注意到,但他们没66图9

图967令人惊讶的是,图9显示了我们的Web比Unix文件系统对小文件有偏好。更重要的是,Web文件的tail分布与Unix文件tail分布不一样。令人惊讶的是,图9显示了我们的Web比Unix文件系统对小文68V.EXPLAININGWEBTRAFFICSELF-SIMILARITYA.SuperimposingHeavy-TailedRenewalProcessesB.ExaminingTransmissionTimesC.ExaminingQuietTimesV.EXPLAININGWEBTRAFFICSELF69C.ExaminingQuietTimes在第5章A部分,我们认为网络流量的自相似性是重尾ON/OFF进程的叠加。ON时间相当于个人网络文件的传输持续时间,OFF时间相当于工作站没有接收到Web数据的周期。规定OFF时间分两种情况是“积极OFF”时间和“消极OFF“的时间。积极OFF时间和消极OFF时间的差异在本节考虑的OFF时间分布中很重要。C.ExaminingQuietTimes在第5章A部70从我们的追踪中抽出OFF时间,我们进行如下解释。在每个Mosaic通信中,ai是URL的i请求的绝对达到时间,ci是URL的i请求的绝对传输时间,遵循(ci-ai)是ON时间的随机变量(如图3中的描述),而(ai+1-ci)是OFF时间的随机变量。图10显示了(ai+1-ci)的LLCD的plot。从我们的追踪中抽出OFF时间,我们进行如下解释。在每个Mos71图10

图1072积极的OFF时间代表客户机需要传输文件的时间(例如,解释,格式化,和展示文件部分)。似乎可以解释成在1ms到1s范围的OFF时间不是主要由于客户检查数据,而是更主要的视机器处理和数据本身的被接收到文件部分的展示时间而定。该区别在图11中被说明。积极的OFF时间代表客户机需要传输文件的时间(例如,解释,格73图11

图1174另一种描述方法是通过检查URL要求的间隔时间即(ai+1-ai)的分布,图12显示了该分布。另一种描述方法是通过检查URL要求的间隔时间即(ai+175在图12中的凹陷处,反映了两个根本分布的出现。第一个是URL要求的间隔时间用来回答单一用户的要求(或者是用户click)。第二个是URL要求的间隔时间用来回答两个连续用户要求。这些分布的不同是受ON时间分布和OFF时间分布的影响,但是后者是受ON时间分布,积极的OFF时间和消极的OFF时间影响。在图12中的凹陷处,反映了两个根本分布的出现。第一个是URL76我们在先前的章节看到ON时间是重尾分布,在本节我们看到OFF时间是重尾分布,我们判断ON时间(和availablefiles在WEB中的分布)更有可能是流量自相似性的造成原因,而不是OFF时间。我们在先前的章节看到ON时间是重尾分布,在本节我们看到OFF77VI.CONCLUSION本文中我们证明了网络流量中存在自相似,更重要的是我们沿着两条思路描述了网络流量自相似的发生:第一,传输时间可能是重尾,主要因为在Web中可用文件的分布。第二,我们证明空闲时间也可能是重尾,主要受用户“思考时间”的影响。VI.CONCLUSION本文中我们证明了网络流量中存在自78在这项研究中一些问题被提出:首先,Web流量到广域网流量的归纳不明显。第二个问题涉及流量序列中观测自相似要求的数量。在这项研究中一些问题被提出:79网络测量与分析技术黄泳铭华北计算技术研究所2008年秋季网络测量与分析技术80Self-SimilarityinWorldWideWebTraffic:

EvidenceandPossibleCauses

I.INTRODUCTIONII.BACKGROUNDIII.RELATEDWORKIV.EXAMININGWEBTRAFFICSELF-SIMILARITYV.EXPLAININGWEBTRAFFICSELF-SIMILARITYSelf-SimilarityinWorldWide81Self-SimilarityinWorldWideWebTraffic:

EvidenceandPossibleCauses(cont’d)VI.CONCLUSIONSelf-SimilarityinWorldWide82Abstract最近,自相似性这一概念已经被证明适用于广域网和局域网的网络流量。本文,我们证明网络流量表现出WorldWideWeb(万维网)传输的自相似性,并且我们对自相似做出了一种假设的解释。Abstract最近,自相似性这一概念已经被证明适用于广域网83总的方法:对NCSAMosaic实际用户做一套追踪。我们检查WWW流量的结构。总的方法:84两大步骤:首先我们证明WWW流量显示它与自相似模型一致性。其次我们证明自相似性可以被解释成是基于WWW文件大小的基本分配,传输中高速缓存和用户偏好的影响,用户的“思考时间”的影响和在一个局域网中许多传输的叠加。两大步骤:85I.INTRODUCTION为了正确制定和执行的计算机网络和网络服务,如万维网,了解网络流量的性质是关键。最近的局域网流量和广域网流量调查共同挑战已经被承认的网络流量模型,例如泊松过程I.INTRODUCTION为了正确制定和执行的计算机网络86发生在许多或所有时间段的流量可以用自相似性概念描述。由于在一个长的时间范围内已观查到自相似性过程的发生,它应该表现出长相关性;在任意时刻的估计值应该与将来时段的估计值相一致。发生在许多或所有时间段的流量可以用自相似性概念描述。87然而,在网络流量中自相似背后的原因还没有被清楚地认出。在本文中,我们列出一些情况,网络流量的自相似可以从文件系统的特点和用户行为方面解释。然而,在网络流量中自相似背后的原因还没有被清楚地认出。在本88两个必要工具ON/OFFsources(在SectionII-C中会详细描述)WorldWideWeb两个必要工具ON/OFFsources(在Section89数据采集工作NCSAMosaic捕获用户访问网站的访问模式我们的数据包括50多万用户文件传输要求而且包含了详细的时间和传输长度。另外,我们调查了一些Web服务器而得到文件大小的信息用来比较客户的访问模式和出现在服务器上的访问模式。数据采集工作NCSAMosaic捕获用户访问网站的访问模90文章结构第一部分:我们考虑我们衡量的Web流量最繁忙时间自相似的可能性。第二部分:利用网络流量,用户偏好,以及文件大小数据,我们解释某一特定网络的传输时间和空闲时间是重尾的原因。文章结构第一部分:我们考虑我们衡量的Web流量最繁忙时间自相91II.BACKGROUNDA.DefinitionofSelf-SimilarityB.StatisticalTestsforSelf-SimilarityC.Heavy-TailedDistributionsII.BACKGROUNDA.Definitionof92A.DefinitionofSelf-Similarity给一个零平均值固定时间序列X=(Xt;t=1,2,3,.....),定义m聚合度序列

X(m)=(X(m)k;k=1,2,3,...)我们称序列X是H-self-similar,对于所有确定的m,X(m)有与被mk重新调节的序列X有相同的分布A.DefinitionofSelf-Similari93

94如果X是H-self-similar,它有相同的自相关函数作为序列Xm中的所有m如果X是H-self-similar,它有相同的自相关函数95一个长相关性进程有一个自相关函数当一个长相关性进程有一个自相关函数96这个进程的自相关函数遵循幂衰减,与传统流量模式显示的指数衰减相比较。幂衰减要慢于指数衰减。对时间序列采用自相似模型一个吸引人的特点(适当的时候)是一个序列的自相似程度可以只用一个单一的参数表示。这个参数表示序列的自相关函数的衰减速度。该参数用Hurst参数表示这个进程的自相关函数遵循幂衰减,与传统流量模式显示的指数衰减97II.BACKGROUNDA.DefinitionofSelf-SimilarityB.StatisticalTestsforSelf-SimilarityC.Heavy-TailedDistributionsII.BACKGROUNDA.Definitionof98B.StatisticalTestsfor

Self-Similarity本文中用四种方法测试自相似:1.variance–timeplot2.R/S

plot3.periodogrammethod4.WhittleestimatorB.StatisticalTestsfor

Self99由于我们只关心在我们的数据中的长相性,所以我们用第四种方法Whittleestimator。其两个基本结构是这是分行高斯噪声(FGN)和fractionalARIMA(p,d,p)。因为每小时收集的数据都使m增加,在使用FGN模型时Whittleestimator适用于每个m聚合度数据。由于我们只关心在我们的数据中的长相性,所以我们用第四种方法100随着m的增加,短相关性达到数据的平均值,如果H的值始终不变,我们可以确信它估量出了自相似的基本水平。置信区间的增长将趋于聚集程度增加;然而如果随着聚集程度的增加H的估计出现稳定,我们认为置信区间具有代表性。随着m的增加,短相关性达到数据的平均值,如果H的值始终不变,101II.BACKGROUNDA.DefinitionofSelf-SimilarityB.StatisticalTestsforSelf-SimilarityC.Heavy-TailedDistributionsII.BACKGROUNDA.Definitionof102C.Heavy-TailedDistributions如果一个分部是重尾分布那么应该符合简单的重尾分布是Pareto分布,Pareto分布在其整个范围是双曲线C.Heavy-TailedDistributions如103Pareto分布的概率函数是其累积分布函数是参数k是随机变量的最小可能值Pareto分布的概率函数是104为了估计我们数据中重尾的出现我们使用log–logcomplementarydistribution(LLCD)plots有可能用LLCDplot产生参数的粗略估计为了估计我们数据中重尾的出现我们使用log–logcomp105III.RELATEDWORK先前的广域网研究已经研究了FTP,TELNET,NNTP,和SMTPtraffic我们的数据通过在一个“stub”network的WWW流量研究补充先前的研究。因为WWW流量可以解释互联网流量的很大一部分。III.RELATEDWORK先前的广域网研究已经研究了106我们集中研究网络流量的自相似性的原因。由于这个原因,我们并不分析流量资源的低,正常,繁忙的时段。相反,我们着重于在我们的记录中四个繁忙的时间。我们的文件是根据在应用层收集的数据而不是网络层。因此,我们可以检查传输时间和文件大小的关系,并能对这些分布的高速缓存和用户偏好的影响进行估计。我们集中研究网络流量的自相似性的原因。由于这个原因,我们并不107IV.EXAMININGWEBTRAFFICSELF-SIMILARITYA.DataCollectionB.Self-SimilarityofWWWTrafficIV.EXAMININGWEBTRAFFICSELF108A.DataCollection我们收集数据从1994年十一月21日到1995年5月8日,但是本文里用的数据只是从1995年1月17日到1995年2月28日。选择这段时间是因为各部门的WWW使用明显降低而且因为1995年3月初Mosaic在我们的网站不再是占主导地位的浏览器。这个研究跟踪数据的统计在表I。A.DataCollection我们收集数据从1994年109表1

表1110IV.EXAMININGWEBTRAFFICSELF-SIMILARITYA.DataCollectionB.Self-SimilarityofWWWTrafficIV.EXAMININGWEBTRAFFICSELF111

B.Self-SimilarityofWWWTraffic

我们集中研究流量序列中的个别时间,以便能够提供一个尽可能接近于静止的数据。提供这四种方法的一个例子,我们在图1中分析1995年2月5日星期四4-5点这一小时的数据。

B.Self-SimilarityofWWWT112图1(a)variance–time分析

图1(a)variance–time分析113图1(b)R/S

plot分析

图1(b)R/Splot分析114图1(c)periodogrammethod

图1(c)periodogrammethod115以上的三个图各表示用variance–timeplot、R/S

plot和periodogrammethod方法分析一个小时的数据证明了网络流量具有自相似性。我们使用的Whittleestimator方法要求提供基本时间序列的构成。因此我们使用分型高斯噪声模型,用这种方法分析四个最忙时间的结果见图2以上的三个图各表示用variance–timeplot、R116图2(a)最繁忙时间

图2(a)最繁忙时间117图2(b)次繁忙时间

图2(b)次繁忙时间118图2(c)次空闲时间

图2(c)次空闲时间119图2(d)最空闲时间

图2(d)最空闲时间120以上四图表明我们使用的Whittleestimator方法分析网络上的数据得到的判断依然是在“stub”network网络传输具有自相似性。以上四图表明我们使用的Whittleestimator方法121V.EXPLAININGWEBTRAFFICSELF-SIMILARITYA.SuperimposingHeavy-TailedRenewalProcessesB.ExaminingTransmissionTimesC.ExaminingQuietTimesV.EXPLAININGWEBTRAFFICSELF122A.SuperimposingHeavy-TailedRenewalProcesses考虑大量同时存在的进程,每个不是ON就是OFF。每个进程的ON和OFF周期交替,并且其中ON的时间分配是参数为的重尾,或者OFF的时间分配是参数为的重尾。这样的模型相当于一个工作站的网络,每个不是保持沉默,就是以恒定速率传输数据。A.SuperimposingHeavy-Tailed123对于这种模式,它显示出许多资源的收集结果是一个自相似fractionalGaussiannoise过程,其中对于这种模式,它显示出许多资源的收集结果是一个自相似frac124通过这个模型来解释Web流量的自相似性需要解释ON或OFF时间的重尾分布。在我们的研究中ON时间相当于独个网站文件的传输持续时间,OFF时间相当于传输间隔时间。如果ON和OFF时间的重尾分布这是为什么?为了回答这些问题,我们可以分析我们的客户记录的特点。通过这个模型来解释Web流量的自相似性需要解释ON或OFF时125V.EXPLAININGWEBTRAFFICSELF-SIMILARITYA.SuperimposingHeavy-TailedRenewalProcessesB.ExaminingTransmissionTimesC.ExaminingQuietTimesV.EXPLAININGWEBTRAFFICSELF126B.ExaminingTransmissionTimes1)TheDistributionofWebTransmissionTimes:我们首先观察的网络文件传输时间分布显示文件传输时间有明显的分布规律。图3(a)显示发生在测量期间所有的130140文件的持续时间的LLCDplot。图3(b)显示对变量k的Hillestimator的估计值B.ExaminingTransmissionTime127图3(a)LLCDplot

图3(a)LLCDplot128图3(b)Hillestimator

图3(b)Hillestimator129从图3可以看出ON时间的基本分布在一个非常高或者无穷的差异状态。值得注意的是在ON时间分布的大量的ON/OFF进程的收集结果是一个自相似进程。从图3可以看出ON时间的基本分布在一个非常高或者无穷的差异状1302)WhyAreWebTransmissionTimesHighlyVariable?:为了理解为什么传输时间存在较大差异,我们检查网络文件本身的大小分布。首先,我们展示在我们日志中文件传输的大小分布。所有的130140个文件传输的结果在图4中显示。2)WhyAreWebTransmissionTi131图4(a)LLCDplot

图4(a)LLCDplot132图4(b)Hillestimator

图4(b)Hillestimator133由图4可以观察出文件大小大于10000字节时,流量分布似乎可以相当好的被重尾分布建模。由图4可以观察出文件大小大于10000字节时,流量分布似乎可134一个重要问题是:为什么文件传输表现出重尾分布?filerequest不是其主要原因,其真正原因是文件传输似乎更跟据在Web中的Availablefile而定。就这两个原因的具体分析见图5一个重要问题是:为什么文件传输表现出重尾分布?135图5(a)filerequest

图5(a)filerequest136图5(b)uniquefile

图5(b)uniquefile137UniqueFiles,FileTransfers和FileRequests的关系在图6中可以观察的更详细。UniqueFiles,FileTransfers和Fi138是什么决定了uniquefiles的分布呢?为了帮助回答这个问题,我们调查了遍布北美的32个网站服务器。事实上,所有可见文件的分布出现在32个网络服务器很接近我们的客户踪迹的uniquefiles分布。Uniquefiles和AvailableFiles的文件分布见图7是什么决定了uniquefiles的分布呢?139图7图7140图7表明Uniquefiles可以被考虑成是AvailableFiles的版本。这种说法依据的假设是,缓存管理不根据引用文件的大小排除或引用;并且Uniquefiles是在一套AvailableFiles中不注重大小的抽样。因此,我们断定只要缓存是有效的,在Web中AvailableFiles可能是文件传输重尾的首要限定,用户的要求不再重要。图7表明Uniquefiles可以被考虑成是Availab1413)WhyAreAvailableFilesHeavy-Tailed?:如果AvailableFiles在Web上是重尾,一个可能的解释可能是明确支持多种格式可能促进文件大小变大,因此增加分布大小的尾重。然而我们发现多种方式在一定层度上增加尾重,事实上,它不是重尾的根本原因。可见图8。3)WhyAreAvailableFilesHea142图8

图8143图8的中把所有服

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论