版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章查找西安科技大学计算机学院张小艳数据结构与算法设计第八章查找
现在数据存储量一般很大,为了在大量信息中找到所需信息,就需用到查找技术。查找是对查找表进行的操作,而查找表是一种非常灵活、方便的数据结构。其数据元素之间仅存在“同属于一个集合”的这一种关系。在日常生活中,人们几乎每天都要进行“查找”工作。在手机通讯录中查找电话号码,在英文字典中查找某个单词的读音和含义等。“通讯录”和“英文字典”就是查找表。
在计算机各种系统软件或应用软件中,查找表也是一种最常见的结构之一。如编译程序中符号表、信息处理系统中的信息表等。所有需要被查的数据所在的集合就是查找表。
查找表(searchtable):由同一类型的数据元素(或记录)构成的集合。由于“集合”中的数据元素之间存在着松散的关系,因此查找表是一种应用灵便的数据结构,可以是线性表、树、图。
所谓“查找”,即为在一个含有众多的数据元素(或记录)的查找表中找出某个“特定的”数据元素(或记录)。为了便于讨论,必须给出这个“特定的”词的确切含义,引入“关键字”的概念。
关键字(key):数据元素(或记录)中某个数据项的值,用它可以标识(识别)一个数据元素(或记录)。如果一个关键字可以唯一地标识一个数据元素,则称其为主关键字;否则为次关键字。当数据元素仅有一个数据项,数据元素的值就是关键字。查找静态查找表动态查找表哈希表基本概念查找查找表平均查找长度顺序查找折半查找分块查找二叉排序树平衡二叉树(了解)B树(了解)哈希函数处理冲突的方法平均查找长度
显然,在一个结构中查找某个数据元素的过程依赖于这个数据元素在结构中所处的位置。因此,对表进行查找的方法取决于表中数据元素依赖何种关系(这个关系是人为地加上的)组织在一起的。
查找表是一种非常灵便的数据结构,数据元素之间仅存在着“同属一个集合”的松散关系,给查找带来不便。为此,需在数据元素之间人为地加上一些关系,以便按某种规则进行查找,即以另一种数据结构来表示查找表。
本章所讨论的查找表分两大类:
静态查找表、动态查找表。
静态查找表:只做查找操作的查找表。它的主要操作有:
(1)查询某个“特定的”数据元素是否在查找表中。
(2)查找某个“特定的”数据元素的各种属性。静态查找表在查找之前已经存在,查找是在已经有的数据集中找我们需要的。但是,随着时间的推移,新的信息不断出现,查找表也应该不断更新。为此,引进了动态查找表。动态查找表:在查找的过程中同时插入查找表中不存在的数据元素,或者删除已经存在的某个数据元素。显然动态查找表的操作就是两个:
(1)查找时插入数据元素。
(2)查找时删除数据元素。此外,还有一种表——哈希表,它是一种既适合于静态查找也适合于动态查找的查找表,具体技术会在8.4节详细介绍。
查找基于的数据结构是集合,集合中记录之间没有本质的关系,可是要想获得较高的查找性能,我们可以改变数据元素之间的关系,在存储时可以将查找集合组成线性表、树、图等结构。
平均查找长度(averagesearchlength):为确定记录在查找表中的位置,需和给定值进行比较的关键字次数的期望值称为查找算法在查找成功时的平均查找长度。对于长度为n的查找表,查找成功时的平均查找长度为其中,Pi为查找表中查找第i个记录的概率,且
Ci为找到表中其关键字与给定值相等的第i个记录时,和给定值已进行过比较的关键字次数,显然Ci随查找过程不同而不同。由于查找算法的基本操作是关键字之间的比较操作,所以可以用平均查找长度来衡量查找算法的性能。
基于静态查找表主要有顺序表、有序顺序表、索引顺序表、倒排表,查找法可分为顺序查找法、折半查找法和分块查找法。8.2.1顺序表在顺序表上查找的基本思想是:用给定关键字与顺序表中各元素的关键字逐个比较,直到成功或失败(所有元素均不成功)。存储结构可为顺序存储结构,也可为链式存储结构。这种查找方法叫做顺序查找。8.2静态查找表下面给出顺序结构有关数据类型的定义:
#defineLISTSIZE20typedefstruct{KeyTypekey;/*关键字域*/…/*其他域*/}ElemType;typedefstruct{ElemTyper[LISTSIZE];intlength;}STable;STablest;
st就是查找表,st.r[1]~st.r[length] 存储记录,将给定的关键字存放在st.r[0]中,即st.r[0].key=k,st.r[0]作为哨兵,称为监视哨,可以起到防止越界的作用。查找过程可用下述算法描述之:1intSearchSeq(STablest,KeyTypek)
/*在顺序表中查找关键字等于k的元素,若找到,则函数值为该元素在表中的位置,否则为0*/2{3inti;4st.r[0].key=k;5i=st.length;6while(st.r[i].key!=k)i--;7return(i);8}K=26K=78假设表长为n,那么查找第i个数据元素时需要进行n-i+1次比较,即Ci=n-i+1,又假设查找每个元素的概率相等,即Pi=1/n,则顺序查找算法查找成功时的平均查找长度为:
顺序查找算法查找失败时,关键字从第n个一直比较到第0个,所以需要进行n+1次比较,因此,平均查找长度为n+1。顺序查找法的特点是算法简单且适应面广,对表的结构无任何要求,无论记录是否按关键字有序均可应用,而且,上述所有讨论对线性链表也同样适用。其缺点是平均查找长度较大(与后面将要讨论的其他查找算法相比),特别是当n很大时,查找效率较低。8.2.2有序顺序表在有序顺序表上查找的算法主要有顺序查找、折半查找和插值查找方法。
1.顺序查找在有序顺序表上顺序查找的方法和8.2.1节讨论的顺序表上的查找方法类似,但一般情况下不需要比较到st.r[0] 就可判断出要查找的数据元素不在数据元素集合中。例如,
要查找的数据元素是50,当顺序查找与38比较后就可确定50不在数据元素集合中。有序顺序表的查找算法如下:1intSearchSeq(STablest,KeyTypek)
/*在有序顺序表中查找关键字等于k的元素,若找到,则函数值为该元素在表中的位置,否则为0*/2{inti;3st.r[0].key=k;4i=st.length;5while(st.r[i].key>k)i--;6if(st.r[i].key==k)return(i);7elsereturn(0);8}假设表长为n,那么查找第i个数据元素时需要进行n-i+1次比较,即Ci = n-i+1,又假设查找每个元素的概率相等,即Pi = 1/n,则有序顺序查找算法的平均查找长度为查找失败的情况分析:因为关键字是有序的,查找大于第n个元素的需要比较1次,查找大于第n-1小于第n个元素的,比较次数为2次,依次类推,查找大于第i-1且小于第i个元素的,比较次数为n-i+1次,在等概率情况下,查找不成功的平均查找长度为2.折半查找折半查找又称为二分查找法,这种方法要求待查找的表顺序存储而且表中关键字大小有序排列。其查找过程是:先确定待查记录所在的范围(区间),然后逐步缩小范围直到找到或找不到记录为止。具体方法是:将表中间位置的关键字与查找关键字进行比较,如果两者相等,则查找成功;否则利用中间位置记录将表分成前、后两个子表,如果中间位置的关键字大于查找关键字,则进一步查找前一子表,否则查找后一子表。重复以上过程,直到找到满足条件的记录,查找成功,或直到子表不存在为止,此时查找不成功。
查找key = 26的查找此时st.r[mid].key与key相等,则查找成功key = 85的查找过程此时low > high,则表明表中没有等于key的元素,查找不成功。折半查找的算法如下:1intBinSearch(STablest,KeyTypekey)2{intlow,high,mid;3low=1;high=st.length;/*置区间初值*/4while(low<=high)5{6mid=(low+high)/2;/*折半*/7if(key==st.r[mid].key)8return(mid); /*找到待查元素*/9else10if(key<st.r[mid].key)11high=mid-1; /*继续在前半区间进行查找*/12else13low=mid+1; /*继续在后半区间进行查找*/14}15return(0);16}查找不成功的节点折半查找在查找不成功时和给定值进行的比较次数最多也不超过。
对于n个结点的判定树的深度为。折半查找在查找成功时,所进行的关键字比较次数至多为。所以,折半查找的时间复杂度为O(lb n),显然比顺序查找效率高。折半查找的效率要好于顺序查找,特别是在表长较大时,其差别更大。但是折半查找只能对顺序存储结构的有序表进行。对需要经常进行查找操作的应用来说,以一次排序的投入而使多次查找收益,显然是合算的。3.插值查找
为什么一定是折半呢,可不可以折四分之一或者其他?比如在英文字典中查“apple”,我们会在前面的页面查,如果查“zero”,会在后面的页面查,显然不会折半从中间去查。也就是说,折半查找算法中的语句6:mid=(low+high)/2,我们可以进行修改。求取中点,其中low和high分别为表的两个端点下标,kx为给定值。若kx < st.r[mid].key,则high = mid-1,继续左半区查找;若kx > st.r[mid].key,则low = mid+1,继续右半区查找;若kx = st.r[mid].key,查找成功。8.2.3索引顺序表当顺序表中的数据元素个数非常大时,为了提高查找速度,可在顺序表上建立索引表。我们把要在其上建立索引表的顺序表称为主表,主表中存放着数据元素的全部信息,索引表中只存放主表中要查找数据元素的主关键字和索引信息。要使索引表的查找效率高,索引表必须有序。但主表中的数据元素不一定要按关键字有序,但是要分块有序。分块查找过程如下:第一步,将待查关键字K与索引表中的关键字进行比较,以确定待查记录所在的块。具体可用顺序查找法或折半查找法进行。第二步,用顺序查找法,在相应的块内查找关键字为K的记录。查找41
分块查找的平均查找长度由两部分构成,即查找索引表时的平均查找长度LB以及在相应的块内进行顺序查找的平均查找长度LW,即
ASLbs=LB+LW
假定将长度为n的表分成b块,且每块含s个数据元素,则b=n/s。又假定表中每个元素的查找概率相等,则每个索引项的查找概率为1/b,块中每个元素的查找概率为1/s。若用顺序查找法确定待查元素所在块,则有:
将b=代入,得:
可见,此时的平均查找长度不仅和表长n有关,而且和每一个块中元素个数s有关。在给定n的前提下,s是可以选择的。容易证明,当s取时,ASLbs取最小值+ 1。这个值比顺序查找有了很大改进,但远不及折半查找,因此在确定所在块的过程中,由于块间有序,所以可以应用折半、插值等手段来提高效率。若用折半查找法确定待查元素所在的块,则有:LB = lb (b+1) - 1
8.2.4倒排表
大家都用过互联网上的搜索引擎,在搜索信息时,能够在极短的时间内给出一些结果。是什么样的查找技术能达到这样高效呢?
比如有2篇文章,这里举例比较简单,也就是2个句子,编号分别为1、2,有1. Agoodmedicinetasksbitter2. Agoodbookisagoodfriend.假设,我们忽略大小写,可以整理出一个单词表,英文单词文章编号a1,2book2bitter1friend2good1,2medicine1is2tasks1
有了这样一个单词表,在查找文章时就很方便了,比如,搜索“good”,系统先在这张表中查找,找到后将它对应文章编号的地址(一般在搜索引擎中就是标题和链接)返回。由于单词表是有序的,而且返回的只是文章编号,所以整体速度非常快。
这个表就是索引表,索引项通常包含次关键字和记录号。它的特点是每项都包含一个属性值和具有该属性值的各记录的地址,显然在这个表中是由属性(字段、次关键字)的值来查找记录,不是通常的通过记录号查找其属性值,因此称为倒排索引。
倒排索引的优点就是查找记录非常快,在索引表生成之后,查找不用去读取记录,就可以得到结果。但也有明显的缺点,就是表中记录号不定长。如上面的例子中,如果文章比较多,倒排索引中的记录号也就比较复杂,维护起来就比较困难,其插入、删除操作就需要做相应处理。可采用批量处理,也就是累积到一定规模后再处理。搜索技术在实际应用中是非常复杂的,比如首先要提取单词,英文比较方便,中文就要涉及分词技术;还有搜索时检索到的记录有上千条,如何组织等。这里仅仅是抛砖引玉,希望引起读者对搜索技术的兴趣,相关的技术知识读者可以查阅相关资料。8.3动态查找表8.3.1二叉排序树
1、二叉排序树概念二叉排序树又称为二叉查找树,它是一种特殊的二叉树,其定义为:二叉排序树或者是一棵空树,或者是具有如下性质的二叉树:①若它的左子树非空,则左子树上所有结点的值均小于根结点的值;②若它的右子树非空,则右子树上所有结点的值均大于根结点的值;③它的左、右子树也分别是二叉排序树。
由二叉排序树的定义可以得出一个重要性质:
中序遍历一棵二叉排序树时可以得到一个递增有序序列。如对图进行中序遍历,可得到序列:
06,15,39,58,67,76,80,88,97。2.二叉排序树查找过程对二叉排序树进行查找的过程类似于在折半查找判定树上所进行的查找过程,其不同之处为:折半查找的判定树是静态的,二叉排序树是动态的。查找K=58K=78
二叉排序树的操作中,使用二叉链表作为存储结构,其结点结构说明如下:
typedefstructnode{ KeyTypekey;structnode*lchild,*rchild;}BSTNode,*BSTree;二叉排序树的查找算法如下:1BSTreeSearchBST(BSTreebt,KeyTypekey)2{3if(!bt)returnNULL;4else5if(bt->key==key)returnbt;6else7if(key<bt->key)8returnSearchBST(bt->lchild,key);/*在左子树查找*/9else10returnSearchBST(bt->rchild,key);/*在右子树查找*/11}3.二叉排序树的插入和生成已知一个关键字值为key的结点s,若将其插入到二叉排序树中,只要保证插入后仍符合二叉排序树的定义即可。插入过程可描述如下:①若二叉排序树是空树,则key成为二叉排序树的根。②若二叉排序树是非空树,则将key与二叉排序树的根进行比较,如果key等于根结点的值,则停止插入;如果key小于根结点的值,则将key插入左子树;如果key大于根结点的值,则将key插入右子树。二叉排序树的插入算法如下:1viodInsertBST(BSTree*bt,KeyTypekey)/*若在二叉排序树中不存在关键字等于key的元素,插入该元素*/2{3BSTrees;4if(*bt==NULL)/*递归结束条件*/5{6s=(BSTree)malloc(sizeof(BSTNode));7s->key=key;8s->lchild=NULL;s->rchild=NULL;9*bt=s;10}11else12if(key<(*bt)->key)13InsertBST(&((*bt)->lchild),key);/*将s插入左子树*/14else15if(key>(*bt)->key)16InsertBST(&((*bt)->rchild),key);/*将s插入右子树*/17}二叉排序树的插入是将待插元素插入到二叉排序树的叶结点上,不需要移动元素。
给定一个元素序列,利用二叉排序树的插入算法动态构造一棵二叉排序树。关键字序列:56,26,67,12,37,98,建立二叉排序树假设KeyType为整型。构造二叉排序树的算法如下所示:voidCreateBST(BSTree*bt) 2{3KeyTypekey;4*bt=NULL;5scanf(″%d″,&key);6while(key!=ENDKEY)/*ENDKEY为自定义常数,作为结束标识*/7{8InsertBST(bt,key);9scanf(″%d″,&key);10}11}
可以看出,对于同样的元素,如果输入顺序不同,构造的二叉排序树形状不同。26,67,12,37,56,9856,26,67,12,37,9812,26,37,56,67,984.二叉排序树的删除查找待删结点,若找不到,空操作;否则,假设待删除结点为p,结点p的双亲为f,并假设p是f的左孩子(右孩子的情况类似)下面分三种情况进行讨论:①p为叶子结点,由于删去叶子结点不破坏整棵树的结构,则只需修改其双亲结点的指针即可:
f->lchild=NULL;free(p);下面分三种情况进行讨论:②p结点只有左子树,或只有右子树,则p的左子树或右子树直接改为其双亲结点f的左子树:
f->lchild=p->lchild或f->lchild=p->rchild;free(p);③p结点既有左子树,又有右子树,如图所示,此时有两种处理方法:方法一:首先找到p结点在二叉排序树的中序遍历序列中的直接前驱s结点(无右子树),然后将p的左子树改为f的左子树,而将p的右子树改为s的右子树:f->lchild=p->lchild;s->rchild=p->rchild;free(p);
方法二:首先找到p结点在二叉排序树的中序遍历序列中的直接前驱s结点,q为s结点的双亲,如图(a)所示。利用s结点的值代替p结点的值,原s结点的左子树改为s结点的双亲q的右子树,再将s结点删除:
p->key=s->key;q->rchild=s->lchild;free(s);
若s结点是p结点的左子树的根,q等于p,如图(c)所示。利用s结点的值代替p结点的值,原s结点的左子树改为s结点的双亲q的左子树,再将s结点删除:
p->key=s->key;q->lchild=s->lchild;free(s);
结果如图(d)所示。将其三种情况综合所得的删除算法如下所示:1BSTreeDelBST(BSTreebt,KeyTypek)2{BSTreep,f,s,q;3p=bt;f=NULL;4while(p)5{6if(p->key==k)break;/*如果查找到关键字退出循环*/7f=p; /*f指向查找过程中当前结点的双亲结点*/8if(p->key>k)p=p->lchild; /*在左子树中查找*/9elsep=p->rchild; /*在右子树中查找*/10};11if(p==NULL)returnbt;/*如果没有查找到关键字返回*/12if(p->lchild&&p->rchild) /*p左右子树不空*/13{q=p;14s=p->lchild;15while(s->rchild)/*找待删节点的前驱*/16{q=s;17s=s->rchild;18}19p->key=s->key; /*s的值覆盖p的值*/if(q!=p)/*原s结点的左子树改为s结点的双亲q的右子树*/q->rchild=s->lchild;elseq->lchild=s->lchild;24free(s);25}26else27{28if(!p->rchild) /*p左子树不空*/29{q=p;30p=p->lchild;31}32else /*p右子树不空*/33{q=p;34p=p->rchild;35}36if(!f)bt=p;37else38if(q==f->lchild)f->lchild=p;39elsef->rchild=p;40free(q);41}42returnbt;43}5.二叉排序树的查找性能分析
在二叉排序树上进行查找,若查找成功,则是从根结点出发走了一条从根到待查结点的路径;若查找不成功,则是从根结点出发走了一条从根结点到叶子结点的路径。因此二叉排序树的查找与折半查找过程类似,在二叉排序树中查找到一个记录时,其比较次数不超过树的深度。但是,对于长度为n的表来说,折半查找的判定树是唯一的,而含有n个结点的二叉排序树却不唯一,结点插入的顺序不同,所构成的二叉排序树的形态和深度就不同。
而二叉排序树的平均查找长度ASL与二叉排序树的形态有关,二叉排序树的深度越浅,其平均查找长度ASL越小。在二叉排序树上进行查找时的平均查找长度与二叉排序树的形态有关。
当插入的关键字有序时,构成的二叉排序树是一单支树,其深度为n,其平均查找长度ASL=(n+1)/2,与顺序查找相同,这是最坏情况。最好情况下,二叉排序树在生成过程中,树的形态比较均匀,最终得到的二叉排序树形态与折半查找的判定树形态相似,此时它的平均查找长度大约是lbn。如果把n个结点按各种可能的次序插入到二叉排序树中,则有n! 棵二叉排序树(其中有形态相同的),可以证明,对这些二叉排序树的查找长度进行平均,得到的平均查找长度仍然是O(lbn)。
就平均性能而言,二叉排序树与折半查找的查找性能相差不大,并且在二叉排序树上进行插入和删除十分方便,无需移动大量结点。因此,对于需要经常做插入、删除、查找运算的表,宜采用二叉排序树结构。当查找表对查找性能要求比较高时,需要在生成二叉排序树的过程中对二叉排序树进行“平衡化”处理,使所生成的二叉排序树始终保持“平衡”状态。8.3.2平衡二叉树**
平衡二叉树(balancedbinarytree)又称为AVL树,是一种二叉排序树,具有以下性质:
①它是一棵空树或它的左、右两个子树的高度差的绝对值不超过1;②左右两个子树都是一棵平衡二叉树。我们将二叉树上结点的左子树深度减去右子树的深度的值称为该结点的平衡因子BF(balancefactor)。那么,平衡二叉树上所有结点的平衡因子只可能是
-1、0、1。如果二叉树上有一个结点的平衡因子的绝对值大于1,则该二叉树就不平衡了。AVL树上任何结点的左、右子树的深度之差不超过1,可以证明它的深度和lb n是同数量级的(n是结点个数)。由此,AVL树的平均查找长度也和lbn是同数量级。有一序列{13,24,37,90,53},构建二叉排序树的过程如图
一般情况下,假设由于二叉排序树上插入结点而失去平衡的最小子树的根结点指针为a(即离插入结点最近,且平衡因子绝对值超过1的祖先结点),则失去平衡后进行调整的规律可归纳为以下四种情况:(1) LL型平衡旋转。b=a->lchild;a->lchild=b->rchild;a->BF=0;b->rchild=a;b->BF=0;(2) RR型平衡旋转b=a->rchild;a->rchild=b->lchild;a->BF=0;b->lchild=a;b->BF=0;(3) LR型平衡旋转。b=a->lchild;c=b->rchild;b->rchild=c->lchild;a->lchild=c->rchild;b->BF=0;a->BF=-1;c->lchild=b;c->rchild=ac->BF=0;(4) RL型平衡旋转b=a->rchild;c=b->lchild;b->lchild=c->rchild;a->rchild=c->lchild;b->BF=0;a->BF=1;c->lchild=a;c->rchild=bc->BF=0;
综上所述,平衡旋转是当二叉排序树在插入结点后产生不平衡时进行的。因此,要建立一棵平衡的二叉排序树,需要对前一小节的算法CreateBST作如下几点修改:
(1)判别插入结点之后是否产生不平衡;
(2)找到失去平衡的最小子树;
(3)判别旋转类型并作相应调整。
平衡二叉树上所有结点的平衡因子的绝对值都不超过1。所以,在插入结点之后,若二叉排序树上某个结点的平衡因子的绝对值大于1,则说明出现不平衡;同时,失去平衡的最小子树的根结点必为离插入结点最近且插入之前的平衡因子的绝对值大于零(在插入结点之后,其平衡因子的绝对值才有可能大于1)的祖先结点。
在对CreateBST算法进行修改时,假设插入结点为s,需要做到:
(1)在查找插入位置的过程中,记下离插入位置最近且平衡因子不等于零的结点,令指针a指向该结点。
(2)插入之后,修改自a到s路径上所有结点的平衡因子值。
(3)判别树是否失去平衡。即在插入结点之后,a结点的平衡因子绝对值是否大于1。若是,则需判别旋转类型并作相应处理,否则插入过程结束。在平衡二叉树上进行查找和二叉排序树的查找相同,因此,在查找过程中和给定值进行比较的关键字个数不超过树的深度。
如果我们需要查找的集合本身没有顺序,在频繁查找的同时也需要经常进行插入和删除操作,显然需要建立一棵二叉排序树,如果二叉排序树不平衡的话,查找的效率是非常低的,因此在构建时,就让这棵二叉排序树是平衡二叉树,这样查找的时间复杂度为O(lb n),而插入和删除的平均查找长度也是O(lb n)。8.4哈希表的查找8.4.1什么是哈希表在数据元素的存储位置和其关键字之间建立某种关系,那么在查找时,就无需进行比较或只做少数比较就能直接由关键字找到相应存储位置。哈希表正是基于这种思想。哈希表又叫杂凑表或散列表。
其基本思想是:首先在数据元素的关键字k和数据元素的存储位置addr之间建立一个对应关系H,使得addr=H(k),H称为哈希函数。在建立哈希表时,把关键字为k的元素直接存入H(k)的单元中;以后当查找关键字为k的元素时,再利用哈希函数计算出该元素的存储地址addr=H(k),从而达到了按关键字直接存取元素的目的。理想情况是希望不经过任何比较,一次存取便能获得所查记录,也就是说,哈希函数在关键字和地址之间建立一一对应关系。这种理想状态的哈希函数特别少。
当关键字集合很大时,关键字值不同的元素可能会得到相同的地址,即k1≠k2,但H(k1)=H(k2),这种现象称为冲突。此时称k1和k2为同义词。实际应用中,冲突是不可避免的,只能通过改进哈希函数的性能来减少冲突。由此可以看出,哈希表的构造及查找主要包括以下两方面的内容:①如何构造哈希函数;②如何处理冲突。8.4.2哈希函数的构造方法构造哈希函数的方法很多,但如何构造一个“好”的哈希函数是带有很强的技术性和实践性的问题。这里“好”的哈希函数是指哈希函数的构造方法简单并且发生冲突的可能性小。也就是说,一个好的哈希函数能将给定的数据集合均匀地散列到地址区间中。下面介绍构造哈希函数常用的六种方法。
(1)直接定址法。取关键字或关键字的某个线性函数值作为哈希地址,即
H(key)=key或H(key)=a×key+b
其中a、b为常数,在使用时为了使哈希地址与存储空间吻合可调整a、b的值。例如,查找表是一张从1岁到100岁的人口统计表,如表所示。若该查找表以年龄作为关键字,则哈希函数取关键字自身,这样一来可以直接由年龄得到相应元素的存储地址。哈希函数:H(key)=key。
又如,有一个新中国成立后出生的人口调查表,关键字是年份,哈希函数取关键字加一常数:
H(key) = key + (-1948)
直接定址法的特点是地址集合和关键字集合的大小相同,即一个关键字对应一个存储地址,因此不会发生冲突,而且构造方法特别简单。但是在实际应用中能使用这种哈希函数的情况很少,这种方法只适合于关键字分布基本连续,且关键字集合较小的情形。(2)数字分析法。
如果事先知道关键字集合,并且每个关键字的位数比哈希表的地址码位数多时,可以从关键字中选出分布较均匀的若干位,构成哈希地址。例如,有90个记录,关键字为8位十进制整数:d1d2d3…d7d8,如果哈希表的地址空间为0~99,假设这90个关键字中的一部分如下所示:经过分析,各关键字中d3和d7分布较均匀,则哈希函数可设置为:H(key) = H(d1d2d3…d7d8) = d3d7数字分析法适合于关键字是数字的情形,且可能出现的关键字均事先知道。(3)平方取中法。当无法确定关键字中哪几位分布比较均匀时,可以先求出关键字的平方值,然后按需要取平方值的中间几位作为哈希地址。这是因为:平方后中间几位和关键字中的每一位都相关,故不同的关键字会以较高的概率产生不同的哈希地址。例如,某一查找表的关键字为十进制4位整数,表长为1000,则可取平方后的第2、3、4位作为哈希地址,如表8.4所示。(4)叠加法。按哈希表地址位数将关键字分成位数相等的几部分(最后一部分可以较短),然后将这几部分相加,舍弃最高进位后的结果就是哈希地址。具体方法有折叠法与移位法。折叠法是从一端向另一端沿分割界来回折叠,然后将各段相加;移位法是将分割后的每部分低位对齐相加。例如,key=67117278098765478,哈希表长为1000,则应把关键字分成3位一段,在此舍去最低的两位78,分别进行移位叠加和折叠叠加,求得哈希地址为264和155,如图所示。(5)除留余数法。取关键字被某个不大于哈希表表长的数除后所得余数作为哈希地址。假设表长为m,p为小于等于m的最大素数,则哈希函数为
H(key) = key%p其中%为求模运算为了尽可能少地产生冲突,通常取p为不大于表长且最接近表长m的素数,例如表长m=1000时,可取p=997。除留余数法是一种最简单,也是最常用的构造哈希函数的方法,不仅可以对关键字直接取模,也可以在对关键字进行其他运算之后取模。(6)伪随机数法。采用一个伪随机数作为哈希函数,即
H(key)=random(key)。在实际应用中,应根据具体情况,灵活采用不同的方法,并用实际数据测试它的性能,以便作出判定。哈希函数的选择,通常应考虑以下五个因素:①计算哈希函数所需的时间;②关键字的长度;③哈希表的长度;④关键字的分布;⑤记录查找的频率。
8.4.3处理冲突的方法通过构造性能良好的哈希函数可以减少冲突,但一般不可能完全避免冲突,因此解决冲突是哈希法的另一个关键问题。创建哈希表和查找哈希表都会遇到冲突,两种情况下解决冲突的方法应一致。常用的解决冲突的方法有以下四种。
1.开放定址法开放定址法也称再散列法,其基本思想是:当关键字key的哈希地址addr=H(key)出现冲突时,以addr为基础产生另一个哈希地址addr1,如果addr1仍冲突,再以addr1为基础,产生另一个哈希地址addr2,…,直到找出一个不冲突的哈希地址addri,将相应元素存入其中。(1)线性探测再散列。
di = 1,2,3,…,m-1
发生冲突时,顺序查看表中下一单元,直到找出一个空单元或查遍全表。
(2)二次探测再散列。
di = 12,-12,22,-22,…,k2,-k2(k≤m/2)
发生冲突时,在表的左右进行跳跃式探测,比较灵活。
(3)伪随机探测再散列。
di = 伪随机数序列具体实现时,应建立一个伪随机数发生器,并给定一个随机数作起点。
例如,哈希表长为11,哈希函数为:H(key)=key%11。假定在表中已经存入关键字为60,17,29的元素现有第4个元素,其关键字为38,H(38) = 5,与60发生冲突;若用线性探测再散列的方法处理时,下一个哈希地址H1=(5+1)%11=6,仍冲突;再找下一哈希地址H2=(5+2)%11=7,仍冲突,继续找下一哈希地址H3=(5+3)%11=8,此时不再冲突,
若用二次探测再散列的方法处理,第4个元素,其关键字为38,H(38)=5,与60发生冲突;下一个哈希地址H1=(5+12)%11=6,仍冲突;再找下一哈希地址H2=(5-12)%11=4,此时不再冲突,将元素存入4号单元中
可以看出,线性探测再散列容易产生“二次聚集”,即在处理同义词的冲突时又导致非同义词的冲突。线性探测再散列的特点是,只要哈希表不满,就一定能找到一个不冲突的哈希地址,而二次探测再散列和伪随机探测再散列则不一定。2.链地址法将所有关键字是同义词的元素连接成一条线性链表,并将其链头存在相应的哈希地址所指的存储单元中。因此,查找、插入和删除主要在同义词链中执行。例如,已知一组关键字(71,27,26,30,16,46,19,42,24,49,64),哈希表长为13,哈希函数为:
H(key)=key%133.再哈希当发生冲突时,再用另一个哈希函数来计算下一个哈希地址,如果再发生冲突,再使用另一个哈希函数,直到不发生冲突。这样预先设置一个哈希函数的序列:
Hi=RHi(key)i = 1,2,…,kRHi均是不同的哈希函数,在同义词产生地址冲突时,计算另一个哈希函数地址,直到冲突不再发生。这种方法不易产生聚集,但增加了计算时间。
4.建立公共溢出区建立公共溢出区的基本思想是:将哈希表分为基本表和溢出表两部分,凡是与基本表发生冲突的元素一律填入溢出表。8.4.4哈希表的查找过程哈希表的查找过程与哈希表的创建过程基本一致,当查找关键字为k的元素时,首先计算addr=H(k)。如果单元addr为空,则所查元素不存在;如果单元addr中元素的关键字为k,则找到所查元素;否则,按构造哈希表时解决冲突的方法,找出下一个哈希地址,直到哈希表中的某个位置为空或表中所填记录的关键字等于给定值为止。上述查找过程可表示如下:
(1)按给定关键字k求哈希地址addr=H(k)。
(2)若地址
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国换向器云母板行业投资前景及策略咨询研究报告
- 2024至2030年中国循环工装组装线行业投资前景及策略咨询研究报告
- 人教版数学六年级上册-92比和百分数-教学课件
- 2024至2030年中国反斗式紫外光晒版机行业投资前景及策略咨询研究报告
- 2024至2030年异形管组项目投资价值分析报告
- 2024至2030年中国政区拼接模型项目投资价值分析报告
- 2024年中国高压中置式电容柜市场调查研究报告
- 2024年链式推进器项目可行性研究报告
- 2024年还原橄榄绿染料项目可行性研究报告
- 2024年中国红木盆景架市场调查研究报告
- 中西文化比较与跨文化交际知到章节答案智慧树2023年南开大学
- 音乐鉴赏知到章节答案智慧树2023年山东科技大学
- 组团儿上春晚《八戒返乡》小品台词
- 美国军事思想的基本观念美国军事思想的主要内容美国军事思
- 疖疔、有头疽、发、丹毒、瘰疬、走陷
- 麦当劳人力资源管理
- 美发师中级评分记录表
- WS/T 415-2013无室间质量评价时实验室检测评估方法
- 2023年执业中药师中药学专业知识一考试真题及答案完整版
- 电子科技大学C语言程序设计期末考试试卷
- 六年级美术上册第6课秋之韵优秀课件1
评论
0/150
提交评论