兼顾内存和速度的C语言代码优化的方法_第1页
兼顾内存和速度的C语言代码优化的方法_第2页
兼顾内存和速度的C语言代码优化的方法_第3页
兼顾内存和速度的C语言代码优化的方法_第4页
兼顾内存和速度的C语言代码优化的方法_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第第页兼顾内存和速度的C语言代码优化的方法在本篇文章中,我(指原)收集了很多经验和方法。应用这些经验和方法,可以帮助我们从执行速度和内存使用等方面来优化(C语言)代码。

简介

在最近的一个项目中,我们需要开发一个运行在移动设备上但不保证图像高质量的轻量级JPEG库。期间,我总结了一些让程序运行更快的方法。在本篇文章中,我收集了一些经验和方法。

应用这些经验和方法,可以帮助我们从执行速度和内存使用等方面来优化C语言代码。

尽管在C代码优化方面有很多的指南,但是关于编译和你使用的(编程)机器方面的优化知识却很少。

通常,为了让你的程序运行的更快,程序的代码量可能需要增加。代码量的增加又可能会对程序的复杂度和可读性带来不利的影响。这对于在(手机)、PDA等对于内存使用有很多限制的小型设备上编写程序时是不被允许的。

因此,在代码优化时,我们的座右铭应该是确保内存使用和执行速度两方面都得到优化。

声明

实际上,在我的项目中,我使用了很多优化(ARM)编程的方法(该项目是基于ARM平台的),也使用了很多互联网上面的方法。但并不是所有文章提到的方法都能起到很好的作用。所以,我对有用的和高效的方法进行了总结收集。同时,我还修改了其中的一些方法,使他们适用于所有的编程环境,而不是局限于ARM环境。

哪里需要使用这些方法?

没有这一点,所有的讨论都无从谈起。程序优化最重要的就是找出待优化的地方,也就是找出程序的哪些部分或者哪些模块运行缓慢亦或消耗大量的内存。只有程序的各部分经过了优化,程序才能执行的更快。

程序中运行最多的部分,特别是那些被程序内部循环重复调用的方法最该被优化。

对于一个有经验的码农,发现程序中最需要被优化的部分往往很简单。此外,还有很多工具可以帮助我们找出需要优化的部分。我使用过Visual(C++)内置的性能工具profiler来找出程序中消耗最多内存的地方。

另一个我使用过的工具是(英特尔)的Vtune,它也能很好的(检测)出程序中运行最慢的部分。根据我的经验,内部或嵌套循环,调用第三方库的方法通常是导致程序运行缓慢的最主要的起因。

整形数

如果我们确定整数非负,就应该使用unsignedint而不是int。有些(处理器)处理无符号unsigned整形数的效率远远高于有符号signed整形数(这是一种很好的做法,也有利于代码具体类型的自解释)。

因此,在一个紧密循环中,声明一个int整形变量的最好方法是:

记住,整形in的运算速度高浮点型float,并且可以被处理器直接完成运算,而不需要借助于FPU(浮点运算单元)或者浮点型运算库。

尽管这不保证编译器一定会使用到(寄存器)存储变量,也不能保证处理器处理能更高效处理unsigned整型,但这对于所有的编译器是通用的。

例如在一个计算包中,如果需要结果精确到小数点后两位,我们可以将其乘以100,然后尽可能晚的把它转换为浮点型数字。

除法和取余数

在标准处理器中,对于分子和分母,一个32位的除法需要使用20至140次循环操作。除法函数消耗的时间包括一个常量时间加上每一位除法消耗的时间。

对于ARM处理器,这个版本需要20+4.3N次循环。这是一个消耗很大的操作,应该尽可能的避免执行。有时,可以通过乘法表达式来替代除法。

例如,假如我们知道b是正数并且b*c是个整数,那么(a/b)>c可以改写为a>(c*b)。如果确定操作数是无符号unsigned的,使用无符号unsigned除法更好一些,因为它比有符号signed除法效率高。

合并除法和取余数

在一些场景中,同时需要除法(x/y)和取余数(x%y)操作。这种情况下,编译器可以通过调用一次除法操作返回除法的结果和余数。如果既需要除法的结果又需要余数,我们可以将它们写在一起,如下所示:

通过2的幂次进行除法和取余数

如果除法中的除数是2的幂次,我们可以更好的优化除法。编译器使用移位操作来执行除法。因此,我们需要尽可能的设置除数为2的幂次(例如64而不是66)。并且依然记住,无符号unsigned整数除法执行效率高于有符号signed整形出发。

上面两种除法都避免直接调用除法函数,并且无符号unsigned的除法使用更少的计算机指令。由于需要移位到0和负数,有符号signed的除法需要更多的时间执行。

取模的一种替代方法

我们使用取余数操作符来提供算数取模。但有时可以结合使用if语句进行取模操作。考虑如下两个例子:

优先使用if语句,而不是取余数运算符,因为if语句的执行速度更快。这里注意新版本函数只有在我们知道输入的count结余0至59时在能正确的工作。

使用数组下标

如果你想给一个变量设置一个代表某种意思的字符值,你可能会这样做:

或者这样做:

一种更简洁、更快的方法是使用数组下标获取字符数组的值。如下:

全局变量

全局变量绝不会位于寄存器中。使用指针或者函数调用,可以直接修改全局变量的值。因此,编译器不能将全局变量的值缓存在寄存器中,但这在使用全局变量时便需要额外的(常常是不必要的)读取和存储。所以,在重要的循环中我们不建议使用全局变量。

如果函数过多的使用全局变量,比较好的做法是拷贝全局变量的值到局部变量,这样它才可以存放在寄存器。这种方法仅仅适用于全局变量不会被我们调用的任意函数使用。例子如下:

注意,(te)st1必须在每次增加操作时加载并存储全局变量er(rs)的值,而test2存储localerrs于寄存器并且只需要一个计算机指令。

使用别名

考虑如下的例子:

尽管*data的值可能从未被改变,但编译器并不知道anyfunc函数不会修改它,所以程序必须在每次使用它的时候从内存中读取它。如果我们知道变量的值不会被改变,那么就应该使用如下的编码:

这为编译器优化代码提供了条件。

变量的生命周期分割

由于处理器中寄存器是固定长度的,程序中数字型变量在寄存器中的存储是有一定限制的。

有些编译器支持“生命周期分割”(live-rangesplitting),也就是说在程序的不同部分,变量可以被分配到不同的寄存器或者内存中。

变量的生命周期开始于对它进行的最后一次赋值,结束于下次赋值前的最后一次使用。在生命周期内,变量的值是有效的,也就是说变量是活着的。不同生命周期之间,变量的值是不被需要的,也就是说变量是死掉的。

这样,寄存器就可以被其余变量使用,从而允许编译器分配更多的变量使用寄存器。

需要使用寄存器分配的变量数目需要超过函数中不同变量生命周期的个数。如果不同变量生命周期的个数超过了寄存器的数目,那么一些变量必须临时存储于内存。这个过程就称之为分割。

编译器首先分割最近使用的变量,用以降低分割带来的消耗。禁止变量生命周期分割的方法如下:

限定变量的使用数量:这个可以通过保持函数中的表达式简单、小巧、不使用太多的变量实现。将较大的函数拆分为小而简单的函数也会达到很好的效果。

对经常使用到的变量采用寄存器存储:这样允许我们告诉编译器该变量是需要经常使用的,所以需要优先存储于寄存器中。然而,在某种情况下,这样的变量依然可能会被分割出寄存器。

变量类型

C编译器支持基本类型:char、short、int、long(包括有符号signed和无符号unsigned)、float和double。使用正确的变量类型至关重要,因为这可以减少代码和数据的大小并大幅增加程序的性能。

局部变量

我们应该尽可能的不使用char和short类型的局部变量。对于char和short类型,编译器需要在每次赋值的时候将局部变量减少到8或者16位。这对于有符号变量称之为有符号扩展,对于无符号变量称之为零扩展。

这些扩展可以通过寄存器左移24或者16位,然后根据有无符号标志右移相同的位数实现,这会消耗两次计算机指令操作(无符号char类型的零扩展仅需要消耗一次计算机指令)。

可以通过使用int和unsignedint类型的局部变量来避免这样的移位操作。这对于先加载数据到局部变量,然后处理局部变量数据值这样的操作非常重要。无论输入输出数据是8位或者16位,将它们考虑为32位是值得的。

考虑下面的三个函数:

尽管结果均相同,但是第一个程序片段运行速度高于后两者。

指针

我们应该尽可能的使用引用值的方式传递结构数据,也就是说使用指针,否则传递的数据会被拷贝到栈中,从而降低程序的性能。我曾见过一个程序采用传值的方式传递非常大的结构数据,然后这可以通过一个简单的指针更好的完成。

函数通过参数接受结构数据的指针,如果我们确定不改变数据的值,我们需要将指针指向的内容定义为常量。例如:

这个示例告诉编译器函数不会改变外部参数的值(使用const修饰),并且不用在每次访问时都进行读取。同时,确保编译器限制任何对只读结构的修改操作从而给予结构数据额外的保护。

指针链

指针链经常被用于访问结构数据。例如,常用的代码如下:

然而,这种的代码在每次操作时必须重复调用p->pos,因为编译器不知道p->pos->x与p->pos是相同的。一种更好的方法是缓存p->pos到一个局部变量:

另一种方法是在Object结构中直接包含Point3类型的数据,这能完全消除对Point3使用指针操作。

条件执行

条件执行语句大多在if语句中使用,也在使用关系运算符(等)或者布尔值表达式(无符号关系运算x==0,x!=0(或者x>0)。

C代码中每次关系运算符的调用,编译器都会发出一个比较指令。如果操作符是上面提到的,编译器便会优化掉比较指令。例如:

尽可能的使用上面的判断方式,这可以在关键循环中减少比较指令的调用,进而减少代码体积并提高代码性能。C语言没有借位和溢出位的概念,因此,如果不借助(汇编),不可能直接使用借位标志C和溢出位标志V。但编译器支持借位(无符号溢出),例如:

懒检测开发

在if(a>10程序执行的大部分时间发生在循环中,因此十分值得在循环执行时间上下一番功夫。

循环终止

如果不加注意,循环终止条件的编写会导致额外的负担。我们应该使用计数到零的循环和简单的循环终止条件。简单的终止条件消耗更少的时间。看下面计算n!的两个程序。第一个实现使用递增的循环,第二个实现使用递减循环。

第二个程序的fact2_func执行效率高于第一个。

更快的f(or)()循环

这是一个简单而高效的概念。通常,我们编写for循环代码如下:

i从0循环到9。如果我们不介意循环计数的顺序,我们可以这样写:

这样快的原因是因为它能更快的处理i的值–测试条件是:i是非零的吗?如果这样,递减i的值。对于上面的代码,处理器需要计算“计算i减去10,其值非负吗?如果非负,i递增并继续”。

简单的循环却有很大的不同。这样,i从9递减到0,这样的循环执行速度更快。

这里的语法有点奇怪,但确实合法的。循环中的第三条语句是可选的(无限循环可以写为for(;;))。如下代码拥有同样的效果:

或者更进一步的:

这里我们需要记住的是循环必须终止于0(因此,如果在50到80之间循环,这不会起作用),并且循环计数器是递减的。使用递增循环计数器的代码不享有这种优化。

合并循环

如果一个循环能解决问题坚决不用二个。但如果你需要在循环中做很多工作,这坑你并不适合处理器的指令缓存。这种情况下,两个分开的循环可能会比单个循环执行的更快。下面是一个例子:

函数循环

调用函数时总是会有一定的性能消耗。不仅程序指针需要改变,而且使用的变量需要压栈并分配新变量。为提升程序的性能,在函数这点上有很多可以优化的。在保持(程序代码)可读性的同时也需要代码的大小是可控的。

如果在循环中一个函数经常被调用,那么就将循环纳入到函数中,这样可以减少重复的函数调用。代码如下:

应改为:

循环展开

简单的循环可以展开以获取更好的性能,但需要付出代码体积增加的代价。循环展开后,循环计数应该越来越小从而执行更少的代码分支。如果循环迭代次数只有几次,那么可以完全展开循环,以便消除循坏带来的负担。

这会带来很大的不同。循环展开可以带非常可观的节省性能,原因是代码不用每次循环需要检查和增加i的值。例如:

编译器通常会像上面那样展开简单的,迭代次数固定的循环。但是像下面的代码:

下面的代码(Example1)明显比使用循环的方式写的更长,但却更有效率。block-sie的值设置为8仅仅适用于测试的目的,只要我们重复执行“loop-contents”相同的次数,都会有很好的效果。

在这个例子中,循环条件每8次迭代才会被检查,而不是每次都进行检查。由于不知道迭代的次数,一般不会被展开。因此,尽可能的展开循环可以让我们获得更好的执行速度。

统计非零位的数量

通过不断的左移,提取并统计最低位,示例程序1高效的检查一个数组中有几个非零位。示例程序2被循环展开四次,然后通过将四次移位合并成一次来优化代码。经常展开循环,可以提供很多优化的机会。

尽早的断开循环

通常,循环并不需要全部都执行。例如,如果我们在从数组中查找一个特殊的值,一经找到,我们应该尽可能早的断开循环。例如:如下循环从10000个整数中查找是否存在-99。

上面的代码可以正常工作,但是需要循环全部执行完毕,而不论是否我们已经查找到。更好的方法是一旦找到我们查找的数字就终止继续查询。

假如待查数据位于第23个位置上,程序便会执行23次,从而节省9977次循环。

函数设计

设计小而简单的函数是个很好的习惯。这允许寄存器可以执行一些诸如寄存器变量申请的优化,是非常高效的。

函数调用的性能消耗

函数调用对于处理器的性能消耗是很小的,只占有函数执行工作中性能消耗的一小部分。参数传入函数变量寄存器中有一定的限制。这些参数必须是整型兼容的(char,shorts,ints和floats都占用一个字)或者小于四个字大小(包括占用2个字的doubles和longlongs)。

如果参数限制个数为4,那么第五个和之后的字就会存储在栈上。这便在调用函数是需要从栈上加载参数从而增加存储和读取的消耗。

看下面的代码:

函数g2中的第五个和第六个参数存储于栈上并在函数f2中进行加载,会多消耗2个参数的存储。

减少函数参数传递消耗

减少函数参数传递消耗的方法有:

尽量保证函数使用少于四个参数。这样就不会使用栈来存储参数值。

如果函数需要多于四个的参数,尽量确保使用后面参数的价值高于让其存储于栈所付出的代价。

通过指针传递参数的引用而不是传递参数结构体本身。

将参数放入一个结构体并通过指针传入函数,这样可以减少参数的数量并提高可读性。

尽量少用占用两个字大小的long类型参数。对于需要浮点类型的程序,double也因为占用两个字大小而应尽量少用。

避免函数参数既存在于寄存器又存在于栈中(称之为参数拆分)。现在的编译器对这种情况处理的不够高效:所有的寄存器变量也会放入到栈中。

避免变参。变参函数将参数全部放入栈。

叶子函数

不调用任何函数的函数称之为叶子函数。在以下应用中,近一半的函数调用是调用叶子函数。由于不需要执行寄存器变量的存储和读取,叶子函数在任何平台都很高效。

寄存器变量读取的性能消耗,相比于使用四五个寄存器变量的叶子函数所做的工作带来的系能消耗是非常小的。所以尽可能的将经常调用的函数写成叶子函数。

函数调用的次数可以通过一些工具检查。下面是一些将一个函数编译为叶子函数的方法:

避免调用其他函数:包括那些转而调用C库的函数(比如除法或者浮点数操作函数)。

对于简短的函数使用__inline修饰()。

内联函数

内联函数禁用所有的编译选项。使用__inline修饰函数导致函数在调用处直接替换为函数体。这样代码调用函数更快,但增加代码的大小,特别在函数本身比较大而且经常调用的情况下。

使用内联函数的好处如下:

没有函数调用负担。函数调用处直接替换为函数体,因此没有诸如读取寄存器变量等性能消耗。

更小的参数传递消耗。由于不需要拷贝变量,传递参数的消耗更小。如果参数是常量,编译器可以提供更好的优化。

内联函数的缺陷是如果调用的地方很多,代码的体积会变得很大。这主要取决于函数本身的大小和调用的次数。

仅对重要的函数使用inline是明智的。如果使用得当,内联函数甚至可以减少代码的体积:函数调用会产生一些计算机指令,但是使用内联的优化版本可能产生更少的计算机指令。

使用查找表

函数通常可以设计成查找表,这样可以显著提升性能。查找表的精确度比通常的计算低,但对于一般的程序并没什么差异。

许多(信号)处理程序(例如,调制解调器解调软件)使用很多非常消耗计算性能的sin和cos函数。对于实时系统,精确性不是特别重要,sin、cos查找表可能更合适。当使用查找表时,尽可能将相似的操作放入查找表,这样比使用多个查找表更快,更能节省存储空间。

浮点运算

尽管浮点运算对于所有的处理器都很耗时,但对于实现信号处理软件时我们仍然需要使用。在编写浮点操作程序时,记住如下几点:

浮点除法很慢。浮点除法比加法或者乘法慢两倍。通过使用常量将除法转换为乘法(例如,x=x/3.0可以替换为x=x*(1.0/3.0))。常量的除法在编译期间计算。

使用float代替double。Float类型的变量消耗更好的内存和寄存器,并由于精度低而更加高效。如果精度够用,尽可能使用float。

避免使用先验函数。先验函数,例如sin、exp和log是通过一系列的乘法和加法实现的(使用了精度扩展)。这些操作比通常的乘法至少慢十倍。

简化浮点运算表达式。编译器并不能将应用于整型操作的优化手段应用于浮点操作。例如,3*(x/3)可以优化为x,而浮点运算就会损失精度。因此,如果知道结果正确,进行必要手工浮点优化是有必要的。

然而,浮点运算的表现可能不能满足特定软件对性能的需求。这种情况下,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论