版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 不确定数据TopK查询技术研究 黄玲玲杨剀Summary:高效的Top-K查询处理是不确定数据管理的一项重要技术。从确定性算法技术和近似算法技术两方面研究典型的不确定数据的Top-K查询算法,分析概率与分值的平衡方式,介绍统一化排序思想以及综合多种查询特征的新型查询方式,最后提出不确定性Top-K查询的研究方向及不确定性查询处理技术的研究热点。关键字:不确定性数据;Top-K查询;确定算法技术;近似算法技术;排序函数;概率TP311 文献标志码:A0 引言随着传感器网络和移动对象的应用,不确定数据无处不在,如传感器数据、RFID数据、隐私数据、LBS数据、Web应用数据等等。同时人们也逐渐认
2、识到不确定数据处理带来的巨大价值。目前,不确定数据查询技术已经成为空间和移动数据库的前沿研究领域1。其中面向不確定数据库的Top-K查询处理在涉及大量数据交互方面的拓展应用则是一项高效基础重要技术2。面向确定数据库的Top-K查询的定义非常清晰,即返回Ranking函数值最大的K个元组。但是,由于不确定数据概率维度的存在,确定数据集上的Top-K查询算法无法直接应用到不确定数据集合上3。基于此,本文拟从确定性算法技术和近似算法技术两方面展开典型不确定数据的Top-K查询算法研究,同时分类综述近年来不确定数据Top-K查询的研究成果,并指出下一步的的挑战与发展方向。1 典型不确定数据Top-K定
3、义和算法研究针对不确定性Top-K查询,学者们从多种应用需要以及设定侧面给出了不同的查询语义。其中U-TopK4,5、U-kRanks4,6、c-typical-Topk7、Global-TopK8、PT-K9-11、Expected Rank12-13等得到了广泛认同,而且可分别适用于不同的应用场景。与此同时,不确定查询算法随即进入了深度探索的研究完善阶段。对不确定查询处理的确定性算法技术的研究焦点就是如何利用查询语义的特点避免展开整个可能世界空间4-5,7-10,12-13,从而提高查询效率。1.1 确定性算法技术Re等人14较早地研究了概率数据库中的Top-K查询问题,阐述了通过SQL语
4、句查询概率数据中概率值最大的Top-K元组,其元组的概率即为排序函数值。然而,多数不确定数据上的Top-K查询通常在可能的世界模型语义下聚集查询结果来排序概率数据以获取查询结果。Soliman等人4针对不确定数据上的Top-K查询问题,首次研究提出了解决查询的不确定数据模型以及U-TopK查询和U-KRanks查询的定义。概括来说,U-TopK查询返回一个长度为K的元组矢量,而且是在所有的可能世界中的发生概率为最大;U-KRanks查询返回在各个级别中出现的总概率最大的元组。Soliman证明了按分值排序读取记录可以使U-TopK查询和U-KRanks查询读取最少记录完成查询,并设计实现了可确
5、保最优性的查询算法。因此,这2种查询方法就是将查询问题转化为状态空间搜索问题,研究转化为实例化最少的状态。各元组首先按照ranking函数从小到大进行排序,然后不断构造搜索空间,缩小空间的范围,最终获得查询结果。在c-typical-TopK查询中也使用了状态空间扩展方法。当所求的Top-K具有最优子结构性质时,还可以采用动态规划的方法。动态规划的目标是发现求解Top-K问题的最优子结构性质。文献7中求解的c-typical-TopK和文献5中求解的Global TopK都表现出同样性质。动态规划算法满足最优化原理,能够将求解的问题分解成若干个子问题(阶段),且下一个子阶段的求解依赖于上一个子
6、阶段的运行结果,最终就是一句尾端子阶段的求解来依次求得其它阶段的输出解。在确定性算法中,除了前文提到的状态空间方法和动态规划方法外,泊松二项递推的方法也是常用方法之一。当不确定性数据库只存在记录级不确定性且并未提供生存规则时,可以将每条记录的出现与否视作实验的2种对立结果:n次实验代表数据库的n条记录。如PT-K查询和global-TopK查询都需要求解每条记录出现在Top-K中的概率。如果将记录按分值排序,记录t出现在Top-K中的概率可以理解为如下表述事件:在排队序列中,排位在t前的那些记录同时出现小于等于k-1个记录的概率,因此可以使用泊松二项分布的递推方法2。记录级不确定数据库大致满足
7、泊松二项分布的条件,在多种Top-K处理中都体现了泊松二项递推的思想9-11,15-17。当探知生存规则时,只要对生存规则设计具体处理,就可以将问题转化成简单情况。由于不确定性Top-K查询处理建立在不确定数据模型和可能世界语义的基础上,而可能世界空间随着数据量成指数增长,由此则导致许多求解问题均具有NP难度。因此,近似算法应运而生,并能以较高的精确度大幅提升求解速度。1.2 近似算法技术文献10不仅提出了概率阈值PT-K查询定义,并针对此研究开发提出了高效的精确查询算法和快速的抽样近似查询算法。在求取PT-K时,在可能世界空间改善可能世界实例。每取样一个可能世界实例,即对出现在Top-K中的
8、记录ID控制加1。在样本足够多的情况下,记录的累计频度接近该记录的真实Top-K概率。因此,在用户不需要完全精确答案的前提下,为了进一步提高查询效率,很多学者都采用近似的方法来处理不确定性Top-K查询,以牺牲少量精度的方式换取更高的处理效率5,9-10,13,15-16,18。在不确定性Top-K的确定算法处理技术中,关键求解概率大多具有递减性质,并依赖一些其它的限制条件,在求解一些特定不确定性Top-K时,本来需要扫描所有记录,但是根据一些已知条件会发现某位置后的记录在解集中的可能性微乎其微,因此可以利用已知结果维护一个逐渐逼近真实值的阈值,使得求解为精确度非常高的近似解集。expecte
9、d Rank Top-K12-13和global Top-K8,19就采用了逼近阈值的近似求解来支持设计实现的。 例如,在expected Rank 求解中,需要求解每个记录在所有可能世界的期望位置,再求取其中最好的k个。可按分值期望顺序扫描记录,不断更新已扫描记录的期望排位上限,并重新计算尾部记录排位下限。当有k个记录的排位上限大于尾部记录排位下限时算法结束,得到的结果将具有接近理想的近似程度。Global-TopK则是使用记录分值排序表1和记录概率排序表2两个列表,扫描表1,并计算当前扫描记录的概率,利用表2和当前扫描记录来估算所有未见记录的global Top-K上限,设定阈值进行剪枝加
10、速算法。可见,阈值逼近通过扫描按特定顺序排列的记录,不断更新某些特定值以逼近停止条件。虽然在算法结构上没有明显改进,但是因为在保证一定精确度的前提下限制了扫描记录的数量,极大的縮短了求解时间,有时甚至可达数量级的变动,从而优势提升了查询效率。除了阈值逼近以外,近似求解也可通过近似取样技术和近似计算技术而获取生成。近似取样技术采用随机采样技术(即蒙特卡罗MonteCarlo方法20),保证了在具有巨大实例数目的可能世界中随机选取部分实际样本且样本达到一定数目的条件下,计算的概率能够比较接近于真实结果。近似计算技术则需要合理构建不确定数据的概率分布函数来计算概率的近似值,以此来最佳提升计算的效率,
11、如泊松分布近似计算方法。独立样本使用基本的蒙特卡罗方法产生,分值连续时,求解各种不确定性Top-K查询时需要在联合概率密度函数上进行积分运算,使用马尔可夫链的蒙特卡罗方法21,保证以高概率的方式取样到有效的可能世界,提高近似程度。如MS-TopK查询的蒙特卡罗取样方法22、PT-K查询的蒙特卡罗积分方法23、U-TopK查询的动态马尔可夫取样方法24。综上所述可知,确定性算法一般要比近似算法复杂程度高,而近似算法通过少量精度损失却可大幅提升查询效率。2分值与概率的平衡研究Li采用规范Kendall距离15对比同一数据集上的5种不确定性Top-K返回的结果,发现各语义返回结果差异显著,有些结果甚
12、至完全相反。究其原因,主要有2点,分别是:记录的概率和Ranking函数分值。通常有3种方式来处理分值和概率这两大因素:1)先进行分值排序再求取概率,如U-TopK。但是在利用分值求得所有的Top-K序列后,再将概率作为唯一的衡量标准,将导致弊端纷显,因而应将分值重新纳入考量范畴。2)先求取概率,再进行分值排序,如文献5中指出在位置概率U-iRanks的基础上根据Top-K位置上记录的位置概率总和最大来进行优化,利用二分图匹配的方式找出最优排序。但是这种平衡方式可能使得到的结果序列在任何可能世界均不存在,并且也不是所有场景都能使用概率总和最大化目标的求解方式。3)同时综合考虑概率和排序,如gl
13、obal TopK和Expected Rank。分值与排序的平衡方式一直是不确定数据Top-K查询的重要研究问题。事实上,在平衡概率和分值时,各种不确定性Top-K语义根据不同的应用需要,分别设定了各自的权衡标准,满足各自应用部分的排序要求。Li等人15在分析各种排序函数定义缺点的基础上,尝试研究统一化排序,把概率数据库上的Top-K查询问题看成多目标化问题,并且提出一种通用的处理框架和带有2种参数的排序函数PRFw和PRFc。参数的选取直接关系分值与概率的平衡,而且不同的参数的设置使用户能够灵活改变查询结果。然而由于缺少显式的选择函数和参数描述,需要用户定义合适的排序函数及参数是很困难的。裴
14、建等人25提出概率Skyline查询的概念以检索Skyline概率大于某个阈值的不确定对象,避免了用户定义排序函数。但是可能导致无法控制返回结果的数目,因此,用户还是需要设置具体概率阈值。为了解决概率阈值难于设置的问题,研究尝试将Top-K查询与其它查询方式联合起来,配置支持拓展开发。文献26将Top-K查询与Skyline相结合,提出概率Top-K支配(PTD)查询的定义,使其具有Skyline查询和概率排序查询的优点,能够获得针对某个查询点具有最大支配能力的k个不确定对象。文献27将传统的聚集查询与Top-K查询相结合,提出排序-聚集查询的概念,通过建模空间搜索问题、引入具有保证性的空间搜
15、索算法和流水线的处理框架,部分枚举解空间快速获得查询结果。这种综合多种查询特征的新型查询方式可以获得多种查询的优势,使得查询结果更有利于实际应用。3 结束语综合国内外不确定性Top-K查询的研究现状以及最新研究成果,如何开发高效的查询处理方法、如何平衡分值与概率、如何设计满足不同应用环境的新型查询语义依然是未来研究的重要方向。此外,由于很多现实应用领域数据环境的不确定性和复杂性,例如分布式系统、高维数据库、数据流等,使得在这种环境下的不确定性Top-K查询正日趋现实具体与复杂。分布式系统中如何降低交互程度28-30、不确定数据流上Top-K查询时间维的处理31-32、高维数据库因维度提高而带来
16、的Top-K语义变化和查询效率问题将成为研究焦点。因此,分布式环境下不确定数据查询方法33-34、基于流数据环境下不确定数据查询方法35-37、基于高维数据库的不确定查询算法30,38-41亦可能成为未来持续研究热点。Reference:1 蒋涛,高云君,张彬,等. 不确定数据查询处理J. 电子学报,2013,41(5):966-976.2 李文凤, 彭智勇, 李德毅. 不确定性Top-K 查询处理J. 软件学报,2012,23(6):1542-1560.3郭长友,郑雪峰,高秀莲. 基于不确定理论的不确定性数据Top-k查询计算J. 计算机科学.2016,43(3):225-230. 4 SO
17、LIMAN M A, LLYAS I F, CHANG K C C. Top-K query processing in uncertain databasesC/IEEE International Conference on Data Engineering. Washington: IEEE Computer Society Press, 2007. 896-905.5 SOLIMAN M A, LLYAS I F. Ranking with uncertain scoresC/IEEE International Conference on Data Engineering. Wash
18、ington:IEEE Computer Society Press, 2009:317-328.6 LIAN L, CHEN L. Probabilistic ranked queries in uncertain databasesC/International Conference on EDBT.New York: ACM Press,2008: 511-522.7 GE Tingjian, ZDONIK S, MADDEN S. Top-K queries on uncertain data: on score distribution and typical answersC/Pr
19、oceedings of the 2009 ACM SIGMOD International Conference on Management of data. Rhode Island, USA:ACM,2009: 375-388.8 ZHANG X, CHOMICKI J. On the semantics and evaluation of Top-K queries in probabilistic databasesJ. Distributed and Parallel Databases, 2009, 26(1):67-126.9 Hua M, Pei J, Zhang WJ, L
20、in XM. Ranking queries on uncertain data: A probabilistic threshold approachC/Proceedings of the 2008 ACM SIGMOD international conference on Management of data. Vancouver, Canada:ACM, 2008. 673-686.10 Hua M, Pei J, Zhang W J, et al. Efficiently answering probabilistic threshold Top-k queries on unce
21、rtain dataR/Burnaby:Simon Fraser University,2007.11 HUA M, PEI J. Ranking queries on uncertain dataJ. The VLDB Journal, 2011, 42(1):9-32.12 CORMODE G, LI F, YI K. Semantics of ranking queries for probabilistic data and expected ranksC/IEEE International Conference on Data Engineering. Washington: IE
22、EE Computer Society Press, 2009, 23(12):305-316.13 JESTES J, CORMODE G, LI F, et al. Semantics of ranking queries for probabilistic dataJ. IEEE Transactions on Knowledge & Data Engineering, 2010,23(12):305-316.14 RE C,DALVI N, DAN S. Efficient top-k query evaluation on probabilistic dataC /Proc of I
23、nt Conf on Data Engineering(ICDE). Piscataway,NJ:IEEE,2007:886-895.15 LI J, SAHA B, DESHPANDE A. A unified approach to ranking in probabilistic databasesJ. The VLDB Journal, 2011,20(2):249-275.16 LI J, DESHPANDE A. Ranking continuous probabilistic datasetsJ. Proceedings of the Vldb Endowment, 2010,3
24、(1-2):638-649.17 YI K, LI F, KOLLIOS G, et al. Efficient processing of Top-k queries in uncertain databasesC/IEEE International Conference on Data Engineering. Cancun, Mexico:IEEE,2008,20(12):1406-1408. 18 GE T, ZDONIK S. Handling uncertain data in array database systemsC/IEEE International Conferen
25、ce on Data Engineering.Cancun, Mexico: IEEE, 2008:1140-1149.19 ZHANG X, CHOMICKI J. On the semantics and evaluation of Top-K queries in probabilistic databasesJ. Journal of Distributed and Parallel Databases, 2009,26(1):67-126.20 KARP R M,LUBY M.Monte-carlo algorithms for enumeration and reliability
26、 problemsC/24th Annual Symposium on Foundations of Computer Science (sfcs 1983). Tucson, Arizona,1983:56-64.21 SOLIMAN M A, LLYAS I F,BEN-DAVID S.Supporting rankingqueries on uncertain and incomplete dataJ.The VLDB Journal,2010,19(4):477-501.22 RE C,DALVI N, SUCIU D. Efficient top-k query evaluation
27、 onprobabilistic dataC/Proc of IEEE ICDE Conf. Istanbul,Turkey:IEEE Computer Society,2007:886-895.23 HUA Ming, PEI Jian, LIN Xue-ming. Ranking queries on uncertain dataJ.The VLDB Journal,2011,20(1):129-153.24 SOLIMAN M A, LLYAS I F,CHANG C C.Probabilistic top-k and ranking-aggregate queriesJ.Acm Tra
28、nsactions on Database Systems,2008,33(3):15-19.25 PEI J,JIANG B,LIN X,et al.Probabilistic skylines on uncertain dataC /International Conference on Very Large Data Bases.Kohala coast, Hawaii:ACM,2015,38(1):1-39.26 LIAN X,CHEN L.Top-k dominating queries in uncertain databasesC / Proceedings of the 12t
29、h International Conference on Extending Database Technology: Advances in Database Technology.Saint Petersburg, Russia:ACM,2009:660-671.27 SOLIMAN M A,LLYAS I F, CHANG C C.Probabilistic top-k and ranking-aggregate queriesJ.ACM Trans on Database Systems(TODS).2008,33(3):15-19.28 WANG G, YUAN Y, SUN Y,
30、 et al. PeerLearning: A content-based e-learning material sharing system based on P2P networkJ. World Wide Web, 2011,13(3):275-305.29 LI F, YI K, JESTES J. Ranking distributed probabilistic dataC/Acm Sigmod International Conference on Management of Data. Providence, RI, USA: ACM , 2009:361-374.30 EL
31、-DESOUKY A/, ALI H/, ABDUL-AZEEM Y M. Ranking distributed uncertain database systems: Discussion and analysisC/International Conference on Computer Engineering & Systems. Cairo, Egypt:IEEE,2010,54(1):295-300.31 JIN C Q, YI K, CHEN L, et al. Sliding window Top-K queries on uncertain streamsJ. The VLD
32、B Journal, 2010,19(3):411-435.32 JIN C Q, GAO M, ZHOU A Y. Handling ER-Top K query on uncertain streamsM/ HUTCHISON D, KANADE T, KITTLER J, et al. Lecture Notes in Computer Science, Berlin Heidelberg:Springer ,2011,6587:326-340. 33 LI Feifei,YI Ke, JESTES J. Ranking distributed probabilistic dataC/Proceedings of the 2009 ACM SIGMOD International Conference on Management of data.Rhode Island,USA:ACM,2009:361-374.34 DING Xiaofeng,JIN Hai. Efficie
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商务星球版地理八年级下册:8.2 《新疆维吾尔自治区》 听课评课记录
- 八年级政治下册第六单元我们的人身权利6.2《维护人格尊严》情境探究型听课评课记录(粤教版)
- 个人中介房屋租赁协议书范本
- 房屋转租三方合同范本
- 楼层架管出租协议书范本
- 私立中学转让合同书
- 2025年度互联网广告合同终止的多重市场监管情形
- 区中心房屋租赁合同范本
- 2025年度商品车运输与新能源汽车充电设施安装合同
- 二零二五年度新能源研发私人厂房租赁合同
- 2025南网科研院系统内招聘13人易考易错模拟试题(共500题)试卷后附参考答案
- 关于合同知识的全面解读
- IEC 62368-1标准解读-中文
- HG+20231-2014化学工业建设项目试车规范
- 2024年湖南高速铁路职业技术学院单招职业适应性测试题库附答案
- 典当业务计划方案
- 老化箱点检表A4版本
- 音标教学课件(共73张PPT)
- 群雄起源-武将表(按智排序)
- Image-Pro_Plus图像分析软件
- 自由组合定律的应用9331的变式
评论
0/150
提交评论