第二讲提高数据处理能力意识总动员_第1页
第二讲提高数据处理能力意识总动员_第2页
第二讲提高数据处理能力意识总动员_第3页
第二讲提高数据处理能力意识总动员_第4页
第二讲提高数据处理能力意识总动员_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、提高现代数据处理意识与处理能力总动员提高现代数据处理意识与处理能力总动员 大数据时代谈数据处理重要性源自维基百科的大数据(big data)介绍(1) Big data12 是一系列的数据集的集合其之大之复杂导致传统数据处理方法和现场的数据管理工来处理变得很具有挑战性。 有以下三方面的挑战:capture, curation, storage,3 search, sharing, transfer, analysis,4 visualization. 研究大数据的动机在于要获得比分析单个数据集多得多的额外信息。 与分散研究相比,同样的数据协同研究会得到潜在的相关性,有可能发现 商业网点的倾向。

2、从而提高研究的品质。 prevent diseases, link legal citations, combat crime, and determine real-time roadway traffic conditions.“567 都是大数据时代的新问题。源自维基百科的大数据(big data)介绍(2) 到了 2012, 对于数据规模的限制(limits on the size of data sets )的要求已经提上了议事日程。89 如下领域:气象学、染色体、通讯、复杂物理模拟,生物和环境工程(meteorology, genomics,10 connectomics, com

3、plex physics simulations,11 and biological and environmental research.12)互联网、金融、商业(Internet search, finance and business informatics)都不得不对数据规模限制。 数据大规模增长主要因为无处不在的信息传感器空中遥感技术(ubiquitous information-sensing mobile devices, aerial sensory technologies), 还有software logs, cameras, microphones, radio-freq

4、uency identification readers, and wireless sensor networks.1314 从 1980s 15 起,平均每40个月涨一倍,而到了 2012, every day 2.5 quintillion (2.51018) bytes of data were created.16 The challenge for large enterprises is determining who should own big data initiatives that straddle the entire organization.17大数据(big d

5、ata)介绍(3) Big data is difficult to work with using most relational database management systems and desktop statistics and visualization packages, requiring instead massively parallel software running on tens, hundreds, or even thousands of servers.18 What is considered big data varies depending on t

6、he capabilities of the organization managing the set, and on the capabilities of the applications that are traditionally used to process and analyze the data set in its domain. For some organizations, facing hundreds of gigabytes of data for the first time may trigger a need to reconsider data manag

7、ement options. For others, it may take tens or hundreds of terabytes before data size becomes a significant consideration.19大数据的定义Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process the data within a tolerable elap

8、sed time.20 Big data sizes are a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set. The target moves due to constant improvement in traditional DBMS technology as well as new databases like NoSQL and their ability to handle larger

9、amounts of data.21 With this difficulty, new platforms of big data tools are being developed to handle various aspects of large quantities of data.In a 2001 research report22 and related lectures, META Group (now Gartner) analyst Doug Laney defined data growth challenges and opportunities as being t

10、hree-dimensional, i.e. increasing volume (amount of data), velocity (speed of data in and out), and variety (range of data types and sources). Gartner, and now much of the industry, continue to use this 3Vs model for describing big data.23 In 2012, Gartner updated its definition as follows: Big data

11、 are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.24If Gartners definition (the 3Vs) is still widely used (with new Vs usuall Veracity being added by Marketing De

12、partments25), the growing maturity of the concept fosters a more sound difference between Big Data and Business Intelligence, regarding data and their use :数据处理的定位数据处理的定位计算机的飞速发展改变了我们的生活的方方面面。我们面对的是越来计算机的飞速发展改变了我们的生活的方方面面。我们面对的是越来越多的数据。从这些堆积成山的数据挖掘信息,就是直接或间接地为越多的数据。从这些堆积成山的数据挖掘信息,就是直接或间接地为社会的各行各业创造财

13、富。社会的各行各业创造财富。数学的个人英雄主义时代即将过去,解决现实社会中的实际问题是学数学的个人英雄主义时代即将过去,解决现实社会中的实际问题是学问的必然回归。这需要现代数据处理技术。问的必然回归。这需要现代数据处理技术。不识字是文盲,不懂现代科学技术是科盲,这些都已经成为了共识。不识字是文盲,不懂现代科学技术是科盲,这些都已经成为了共识。不懂现代数据处理技术会是什么呢?当然就是不懂现代数据处理技术会是什么呢?当然就是“数盲数盲”。试想,见到。试想,见到一堆数据什么也看不出来,这与旧社会连自己的名字都读不懂的文盲一堆数据什么也看不出来,这与旧社会连自己的名字都读不懂的文盲有何异?有何异?数据

14、处理是市场需求当今社会,充斥了数据。有多大的数据处理能力,就会带来多大的当今社会,充斥了数据。有多大的数据处理能力,就会带来多大的财富。财富。现代的处理数据的学问,不能停留在少数专家学者的论文和书斋里,现代的处理数据的学问,不能停留在少数专家学者的论文和书斋里,这样根本适应不了庞大的市场需求。这样根本适应不了庞大的市场需求。现代数据处理技术不仅需要我们的学生来传承,更需要他们将其发现代数据处理技术不仅需要我们的学生来传承,更需要他们将其发扬光大。扬光大。学习、掌握、创新现代数据处理方法是时代的要求,也是提升综合学习、掌握、创新现代数据处理方法是时代的要求,也是提升综合素质的最佳模式。娴熟地掌握

15、现代数据处理技术,是应该从大学本素质的最佳模式。娴熟地掌握现代数据处理技术,是应该从大学本可开始抓起。可开始抓起。 通过我校百项工程,我已经欣喜地看到了我们的部分同学已经有了通过我校百项工程,我已经欣喜地看到了我们的部分同学已经有了数据处理的意识,希望继续发扬光大。数据处理的意识,希望继续发扬光大。今后还要在课外举办一些培训机会,要让大家像背诵珠算口诀的重今后还要在课外举办一些培训机会,要让大家像背诵珠算口诀的重要性那样来看待现代数据处理。要性那样来看待现代数据处理。数据的分类数据是一个广泛内涵的名词,在多数人的大脑中形成的固定的概念是以一些观测到的数字的序列。这只看对了一半。按照现代的观点来

16、看,数据从类型上至少可以分为以下三大类:字符串形式储存的数据字符串形式储存的数据(人类语言类文章,计算机语言,DNA序列,蛋白质序列,)数值形式储存的数据数值形式储存的数据(数列,矩阵,表格,)声音与图像形式储存的数据声音与图像形式储存的数据(录音带,图像,基因芯片,)数据处理从本能到技能自从有了人类以来,人就在自觉不自觉地与数据打交道。但是,有些数据处理的能力是与生俱来的,例如,听与说母语是生存本能所决定的。特别在混合居住地区,很多人可以不上学就能懂得好几种语言(这是上天的恩赐,是本能)。在数学人的眼中,上述所有数据,都可以转化为数值型的数据。信息论,信号学,数值代数,概率统计,机器学习,计

17、算机软件,图像处理,数据挖掘等等,哪一个不是应数据处理的需求而产生的?要掌握这些,就需要学习,这就是技能。数据处理的能力划分示意图大约大约50数据处理能力对于绝大部分人是与生俱来的。数据处理能力对于绝大部分人是与生俱来的。比如,区分颜色,辨别声音,简单交流思想,数数,简单分类等等。大约大约30数据处理能力对于绝大部分人是要后天通过科普学习才能掌握的。数据处理能力对于绝大部分人是要后天通过科普学习才能掌握的。比如,驾车,修理,推销,投保,理财,广告,装璜,算术,网页浏览,收发电子邮件,短信,文字编辑等等。大约大约15数据处理能力对于绝大部分人是要后天通过刻苦学习才能掌握的。数据处理能力对于绝大部

18、分人是要后天通过刻苦学习才能掌握的。比如,语义分析,信息论,信号分析,数值代数,概率统计,机器学习,计算机软件,图像分析,密码学,数据挖掘等等。大约大约5的数据处理能力对于绝大部分人是学也学不会的,这就是创造数据处的数据处理能力对于绝大部分人是学也学不会的,这就是创造数据处理工具的能力。掌握此能力就是此行业的顶级专家。他们是根据实际需求,理工具的能力。掌握此能力就是此行业的顶级专家。他们是根据实际需求,随着科学技术和认识世界的知识体系不断增大而实时地创造出或者普及相应随着科学技术和认识世界的知识体系不断增大而实时地创造出或者普及相应的数据处理技巧。的数据处理技巧。现代数据处理的概况现代数据处理

19、的概况所谓现代数据处理,我们将之界定为1980年代至现在的,基于计算机科学的所有数据处理方法。具有浓重的计算特征,因此也不妨称为计算数据处理(computational data processing)。大致可以划分为以下几个大的板块:数据挖掘(Data Mining)嵌入技术(Embedology)数据融合(Data Fusion)随机图理论(Random Graph)机器学习 (Machine Learning)所有内容,无不基于很强的数学背景知识,特别是线性代数、频谱分析、信息论、概率论,数理统计,随机过程。现代数据处理代表性的方法列举了解数据挖掘,了解线性代数与数据挖掘的关系的最佳文献

20、是Lars Elden 2006年发表的重要文献题为: Numerical Linear algebra in data mining。我曾经作为Math Review义务评论员,在写评论时给予了该文高度的赞赏原评论如下: 数据挖掘数据挖掘 评论原件 This paper offers a best mode to extract all “nodes” and “edges” from the huge benchmark set of the 118 literatures scattered in many fields and over about a 70-year period,

21、and set up all important concepts within a highest quality atlas (a paper of 58 pages) that leads the beginners (even for the experienced researchers) perfectly to understand what the data-mining is, and what the important roles are played by linear algebra. This paper itself is one kind of the high

22、est-level text-mining/ text-summarization. It still makes my eyes brightly although I assumed that I had understood what data mining is before I read this paper. As well as, the writing style of this paper is excellent too, so, I have a little bit shame for that I have no the good writing ability to

23、 write down this review.评论原件续So many important algebra methods and algorithms used in several areas of data mining are integrated by the author on three lines (rank reduction, low-rank approximation, and eigenvalue/singular value problems) with the same root (i.e.Wedderburn algorithm). Using Wedderb

24、urn rank reduction procedure as the clue, the author fishes out at least 22 important algebra methods/algorithms as follows: SVD, TSVD, GSVD, PCA, PCR, PLS, LBD, PLS, LSI, LDA, Perron-Frobenius theorem, Eckart-Young optimality, thin QR decomposition, agglomerative clustering, multiple-dimensional sc

25、aling, k-means methods, self-organizing maps, bipartite graph, spectral clustering methods, last squares problem, tangent distance, etc. What the meanings of these concepts are? What the connections among these concepts are? We may find the novel style to state them from this paper. This paper will

26、be interested in for comprehensive readers who are mathematicians or not. 评论原件续Synchronously, this paper offers many examples involving handwritten digit classification, information retrieval, search engines, web search engines, Google PageRank, query matching, term-weighting scheme, latent semantic

27、 indexing, stemmed Medline collection, text summarization, etc, all of these will let mathematical readers get more unexpected feelings expediently. In contrast, for researchers working for Internet/computational sciences, they may be interested in these relationships among these numerical linear al

28、gebra methods mentioned above too, although they may not like to complement all proofs mathematically.In conclusion, this paper will be cited by more researchers and it has comprehensive readers. I wish the readers may also find this feeling that they would like to keep this paper as the good refere

29、nce. 嵌入技术嵌入技术 在生活中,很早就诞生了想看看地下是什么,人体内是什么的欲望。比如,神话中孙悟空能钻进人体内,也有能钻入地下潜行的土行狲。现实中现代医学技术给出了B超,CT,地质勘探技术,已经基本完成了此心愿。当我们看到B超图像或代表地下矿藏分布的大屏幕时,没有人会怀疑是假的。数学中的嵌入技术在数学中,流形中的运动轨迹就看不到,是否也有如此的一个大屏幕来显示呢?对于掌握了数学语言的人来说,欧几里德空间乃至Hilbert空间,就是数学家的大屏幕。于是诞生了数学中的嵌入术。嵌入术雏形诞生较早(H. Whitney 与F. Takens分别给出),但提出嵌入术的概念是Tim Sauer 在

30、1991年的统计物理杂志上首次提出的。嵌入术不仅自成体系,而且也对于其它方向也是不可或缺的,为数据挖掘,数据融合,机器学习等提供营养。发展嵌入术,或者巧妙使用嵌入术,对于解决复杂系统问题是十分有利的。数据融合(数据融合(Data Fusion) 简单地说,数据融合就是将来源于多个数据源的既非独立,也非完备信息乃至模糊的数据信息在适当的方法下将它们融合在一起得出一个更清晰的信息。这是解决复杂系统问题引起的数据处理需求而产生的。特点是,处理方法仁者见仁,智者见智。虽有方法可循,但又可以不拘一格。中国古老的盲人摸象的故事也告诉我们,如果对于大象事先有先验知识,将所有各自摸到的信息汇总,就有可能融合出

31、大象的信息,否则很难。代表性的参考文献为3.随机图随机图 从数学角度来看,研究复杂系统,复杂网络的理想化的模型就是随机图理论。随着技术的发展,人类直接和间接地感受到了复杂网络的普遍存在性。而且网络的普遍性已经令现代人的生活感到了巨大的方便和快捷(比如互联网),但也令研究者感受到了巨大的挑战。复杂网络系统中存在的众多的新问题,对于任何一个单一学科都是难以驾驭的。数学因其超前性、低成本性,以及仿真性等特性被认定为解决复杂系统的最具有潜力的工具。随机图理论的复杂性特征结合复杂网络的复杂性特征:节点多,关联性复杂,小世界性显著。研究者自然地提出了随机图理论。它虽然是复杂网络的理想化与特殊化,但在网络时

32、代的大背景之下,随机图的理论会迎来一个蓬勃发展时期。与此同时,为了推动复杂系统研究的发展,数学的各分支之间,数学与计算机科学、与物理学、与化学、与生命科学等学科与学科之间等等,自20世纪中后期形成的相互孤立的割据的格局,将会在朝夕之间被打通。各学科之间交叉,共同谱写出面对共同问题的合作新局面。 随机图理论发展简史随机图理论可以追溯到1960年代由Erdos等人提出的ER模型【4】。但真正比较贴近现实的随机图的理论是2001年由Newman等人提出的顶点度数任意随机图【5】。该文的基本假设是顶点度数服从power-law分布,并且对于一阶矩理论推导与时尚的Simulation仿真实验看起来都天衣

33、无缝。特别关于scalefree 的图的产生和应用给人耳目一新的感受【6】。该文使得对复杂网络的研究起到了很大的推动作用。如果搜索关键词:Newman M E J,Random graphs with arbitrary degree,那么搜索引擎Google 将给出很多与此相关的内容。2001年之后的随机图的理论与应用几乎都深受该文的影响。随机图除了ER随机图和PowerLaw分布随机图之外,还很丰富。其实,任给一个分布函数(取整数值),都存在一个随机图,它的度数服从该分布。随机图也是概率统计的一个新的生长点随机图不仅仅看作是顶点度数为随机变量的图就满足了。在我们看来,随机图也是概率统计的一

34、个新的生长点,利用图作为框架,将个随机变量(或者随机过程):看作一个图中的个节点,而不是按照传统的方式视为元随机向量。请读者不要不以为然,这对于概率统计而言是革命性的。比如,如果我们手头有个随机变量(或者随机过程):,如果没有随机图,概率统计学者会怎样处理它们呢?一般就会“不妨设它们是彼此独立的”或者往往会通过样本检验发现它们彼此之间相关性或许较弱(或许较强时剔除一些)而视为彼此不相关,因此将它们可以装入维随机向量空间。比如Cover在处理股票市场中股票就是这么做的【9】。这样做带来相当大的副作用,那就是忽略了大量的所谓冗余信息,使得数据融合【10】没有用武之地。但最根本的是不适用于处理大部份

35、实际问题。而以图作为框架,将视为图中的个节点,那么就不存在这样的问题了。特别,如果将图用其邻接矩阵来表示,那么我们可以看到,将装入图的动作,相当于将它们嵌入到一个维的嵌入映射【11】。虽然维数高了,但其分离性得到了本质的提高。而且可以借助与奇异值或者非负矩阵分解等降维工具【12,13】,使得维数问题不会成为技术障碍,而所得的结果就不再受到主观的假设束缚了。机器学习机器学习 (Machine Learning)机器学习是电子与计算机工程系的重要分支,表现形式好像是一些算法的累积,其代表算法:神经网络算法,遗传算法,退火算法,HMM算法,支持向量机(SVM)等等。近些年来机器学习方法在生物信息学为

36、代表的许多领域的数据处理过程中展示了它的魅力。特别针对支持向量机,现在依然还是热点。关于该方法的简介,我们将在后续的内容中另外给出。现代数据处理的展望 现代数据处理技术是开放的,与时俱进的,从来没有固步自封过。它随着我们认识世界的知识库不断增大,将会发展出更多的好方法。比如,粗糙集方法对于依据部分不完备信息做出尽可能完善的决策方案的良好表现也被收录在现代数据处理技术中。一些应用前景非常可关的算法很快会被吸收进入现代数据处理技术的大家庭中。例如,K. Djalil, S. Abdellatif, T. Gilles, 等给出的Prediction, orthogonal polynomials

37、and Toeplitz matrices A fast and reliable approximation to the Durbin-Levinson algorithm,将为现代数据处理带来不可估量的贡献,我提交给Math Review的评论是这样写的。赶快学习学习现代数据处理技术不识字是文盲,不懂现代科学技术是科盲,这些都已经成为了共识。不懂现代数据处理技术会是什么呢?当然是数盲。试想,见到一堆数据什么也看不出来,会是什么结果?这与旧社会的文盲有何异?当今社会,充斥了数据,任何进制的数据都在我们身边。它们都是大自然派生出来的语言,所不同于人类语言,它只要能看就行,不需要听说。赶快学习

38、学习现代数据处理技术,是我们提高“文化”素质的必由之路。References1 E. Lars (2006): Numerical linear algebra in data mining, Acta Numerica, pp327-384. 2 Tim Sauer, James A. Yorke and Martin Casdagli (1991): Embedology, Journal of Statistical Phyics, Vol 65, Nos 3/4.3 D.P. Mandic et al (2005): Data fusion for modern Engineering Applications: An Overview, W. Duch et al (Eds): ICANN 2005, LNCS 3697, pp 715-721, Springer-Verlag Berlin Heidlberg.4 P. Erdos an

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论