Python实现各种排序_第1页
Python实现各种排序_第2页
Python实现各种排序_第3页
Python实现各种排序_第4页
Python实现各种排序_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、在Python实践中,我们往往遇到排序问题,比如在对搜索结果打分的排序(没有排序就没有Google等搜索引擎的存在),当然,这样的例子数不胜数。数据结构也会花大量篇幅讲解排序。之前一段时间,由于需要,我复习了一下排序算法并用Python实现了各种排序算法,放在这里作为参考。最简单的排序有三种:插入排序,选择排序和冒泡排序。这三种排序比较简单,它们的平均时间复杂度均为0(n2),在这里对原理就不加赘述了。代码直接贴出来。插入排序:冒泡排序:选择排序:这里我们可以看到这样的句子:不了解Python的同学可能会觉得奇怪,没错,这是交换两个数的做法,通常在其他语言中如果要交换a与b的值,常常需要一个中

2、间变量temp,首先把a赋给temp,然后把b赋给a,最后再把temp赋给b。但是在python中你就可以这么写:a,b=b,a,其实这是因为赋值符号的左右两边都是元组(这里需要强调的是,在python中,元组其实是由逗号,来界定的,而不是括号)。平均时间复杂度为0(nlogn)的算法有:归并排序,堆排序和快速排序。归并排序。对于一个子序列,分成两份,比较两份的第一个元素,小者弹出,然后重复这个过程。对于待排序列,以中间值分成左右两个序列,然后对于各子序列再递归调用。源代码如下,由于有工具函数,所以写成了callable的类:堆排序,是建立在数据结构堆上的。关于堆的基本概念、以及堆的存储方式这

3、里不作介绍。这里用一个列表来存储堆(和用数组存储类似),对于处在i位置的兀素,2*i+1位置上的是其左孩子,2*i+2是其右孩子,类似得可以得出该兀素的父元素。首先我们写一个函数,对于某个子树,从根节点开始,如果其值小于子节点的值,就交换其值。用此方法来递归其子树。接着,我们对于堆的所有非叶节点,自下而上调用先前所述的函数,得到一个树,对于每个节点(非叶节点),它都大于其子节点。(其实这是建立最大堆的过程)在完成之后,将列表的头兀素和尾兀素调换顺序,这样列表的最后一位就是最大的数,接着在对列表的0到n-1部分再调用以上建立最大堆的过程。最后得到堆排序完成的列表。以下是源代码:最后一种要说明的交

4、换排序算法(以上所有算法都为交换排序,原因是都需要通过两两比较交换顺序)自然就是经典的快速排序。先来讲解一下原理。首先要用到的是分区工具函数(partition),对于给定的列表(数组),我们首先选择基准元素(这里我选择最后一个元素),通过比较,最后使得该元素的位置,使得这个运行结束的新列表(就地运行)所有在基准元素左边的数都小于基准元素,而右边的数都大于它。然后我们对于待排的列表,用分区函数求得位置,将列表分为左右两个列表(理想情况下),然后对其递归调用分区函数,直到子序列的长度小于等于1。下面是快速排序的源代码:细心的朋友在这里可能会发现一个问题,如果待排序列正好是顺序的时候,整个的递归将

5、会达到最大递归深度(序列的长度)。而实际上在操作的时候,当列表长度大于1000(理论值)的时候,程序会中断,报超出最大递归深度的错误(maximumrecursiondepthexceeded)。在查过资料后我们知道,Python在默认情况下,最大递归深度为1000(理论值,其实真实情况下,只有995左右,各个系统这个值的大小也不同)。这个问题有两种解决方案,1)重新设置最大递归深度,采用以下方法设置:2)第二种方法就是采用另外一个版本的分区函数,称为随机化分区函数。由于之前我们的选择都是子序列的最后一个数,因此对于特殊情况的健壮性就差了许多。现在我们随机从子序列选择基准元素,这样可以减少对特

6、殊情况的差错率。新的randomizepartition函数如下:完整的randomize_quick_sort的代码如下(这里我直接继承之前的quick_sort类):关于快速排序的讨论还没有结束。我们都知道,Python是一门很优雅的语言,而Python写出来的代码是相当简洁而可读性极强的。这里就介绍快排的另一种写法,只需要三行就能够搞定,但是又不失阅读性。(当然,要看懂是需要一定的Python基础的)代码如下:怎么样看懂了吧,这段代码出自Pythoncookbook第二版,这种写法展示出了列表推导的强大表现力。对于比较排序算法,我们知道,可以把所有可能出现的情况画成二叉树(决策树模型),

7、对于n个长度的列表,其决策树的高度为h,叶子节点就是这个列表乱序的全部可能性为n!,而我们知道,这个二叉树的叶子节点不会超过2h,所以有2人h=n!,取对数,可以知道,h=logn!,这个是近似于0(nlogn)。也就是说比较排序算法的最好性能就是O(nlgn)。那有没有线性时间,也就是时间复杂度为0(n)的算法呢?答案是肯定的。不过由于排序在实际应用中算法其实是非常复杂的。这里只是讨论在一些特殊情形下的线性排序算法。特殊情形下的线性排序算法主要有计数排序,桶排序和基数排序。这里只简单说一下计数排序。计数排序是建立在对待排序列这样的假设下:假设待排序列都是正整数。首先,声明一个新序列list2

8、,序列的长度为待排序列中的最大数。遍历待排序列,对每个数,设其大小为i,list2i+,这相当于计数大小为i的数出现的次数。然后,申请一个list,长度等于待排序列的长度(这个是输出序列,由此可以看出计数排序不是就地排序算法),倒序遍历待排序列(倒排的原因是为了保持排序的稳定性,及大小相同的两个数在排完序后位置不会调换),假设当前数大小为i,listlist2i-1=i,同时list2i自减1(这是因为这个大小的数已经输出一个,所以大小要自减)。于是,计数排序的源代码如下:各种排序算法介绍完(以上的代码都通过了我写的单元测试),我们再回到Python这个主题上来。其实Python从最早的版本开

9、始,多次更换内置的排序算法。从开始使用C库提供的qsort例程(这个方法有相当多的问题),到后来自己开始实现自己的算法,包括2.3版本以前的抽样排序和折半插入排序的混合体,以及最新的适应性的排序算法,代码也由C语言的800行到1200行,以至于更多。从这些我们可以知道,在实际生产环境中,使用经典的排序算法是不切实际的,它们仅仅能做学习研究之用。而在实践中,更推荐的做法应该遵循以下两点:当需要排序的时候,尽量设法使用内建Python列表的sort方法。当需要搜索的时候,尽量设法使用内建的字典。我写了测试函数,来比较内置的sort方法相比于以上方法的优越性。测试序列长度为5000,每个函数测试3次

10、取平均值,可以得到以下的测试结果:Themethodinsertion_sortspendsauerage1.32033332189sThemethodbubble_sortspendsauerage2.93066660563sThemethodselection_sortspendsaverage1-05733331045sThemethodmerge_soitspendsauerage0.0669999917348sThemethodheap_soitspendsaverage0.0920000076294sThemethodquick_sortspendsaverage0.0230000

11、019073sThemethodquick_sort_2spendsaverage0.0283332665761sThemethodrandomized_quick_sortspendsauevage0.0353333950043sThemethodcounting_sortspendsaverage0.0126666227976sThemethodpythonic_sortspendsauerage0.00233332316081s可以看出,Python内置函数是有很大的优势的。因此在实际应用时,我们应该尽量使用内置的sort方法。由此,我们引出另外一个问题。怎么样判断一个序列中是否有重复元素,如果有返回True,没有返回False。有人会说,这不很简单么,直接写两个嵌套的迭代,遍历就是了。代码写下来应该是这样:这种方法的代价是非常大的(平均时间复杂度是0(n2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论