前言 Python一直以来被大家所诟病的一点就是执行速度慢,但不可否认的是Python依然是我们学习和工作中的一大利器。本文总结了15个tips有助于提升Python执行速度、优化性能。目录如何测量程序的执行时间1。使用map()进行函数映射2。使用set()求交集3。使用sort()或sorted()排序4。使用collections。Counter()计数5。使用列表推导6。使用join()连接字符串7。使用x,yy,x交换变量8。使用while1取代whileTrue9。使用装饰器缓存10。减少点运算符(。)的使用11。使用for循环取代while循环12。使用Numba。jit加速计算13。使用Numpy矢量化数组14。使用in检查列表成员15。使用itertools库迭代如何测量程序的执行时间 关于Python如何精确地测量程序的执行时间,这个问题看起来简单其实很复杂,因为程序的执行时间受到很多因素的影响,例如操作系统、Python版本以及相关硬件(CPU性能、内存读写速度)等。在同一台电脑上运行相同版本的语言时,上述因素就是确定的了,但是程序的睡眠时间依然是变化的,且电脑上正在运行的其他程序也会对实验有干扰,因此严格来说这就是实验不可重复。 我了解到的关于计时比较有代表性的两个库就是time和timeit。 其中,time库中有time()、perfcounter()以及processtime()三个函数可用来计时(以秒为单位),加后缀ns表示以纳秒计时(自Python3。7始)。在此之前还有clock()函数,但是在Python3。3之后被移除了。上述三者的区别如下:time()精度上相对没有那么高,而且受系统的影响,适合表示日期时间或者大程序的计时。perfcounter()适合小一点的程序测试,会计算sleep()时间。processtime()适合小一点的程序测试,不计算sleep()时间。 与time库相比,timeit有两个优点:timeit会根据您的操作系统和Python版本选择最佳计时器。timeit在计时期间会暂时禁用垃圾回收。 timeit。timeit(stmtpass,setuppass,timer,number1000000,globalsNone)参数说明:stmtpass:需要计时的语句或者函数。setuppass:执行stmt之前要运行的代码。通常,它用于导入一些模块或声明一些必要的变量。timer:计时器函数,默认为time。perfcounter()。number1000000:执行计时语句的次数,默认为一百万次。globalsNone:指定执行代码的命名空间。 本文所有的计时均采用timeit方法,且采用默认的执行次数一百万次。 为什么要执行一百万次呢?因为我们的测试程序很短,如果不执行这么多次的话,根本看不出差距。1。使用map()进行函数映射 Exp1:将字符串数组中的小写字母转为大写字母。 测试数组为oldlist〔life,is,short,i,choose,python〕。 方法一newlist〔〕forwordinoldlist:newlist。append(word。upper()) 方法二list(map(str。upper,oldlist)) 方法一耗时0。5267724000000005s,方法二耗时0。41462569999999843s,性能提升21。292。使用set()求交集 Exp2:求两个list的交集。 测试数组:a〔1,2,3,4,5〕,b〔2,4,6,8,10〕。 方法一overlaps〔〕forxina:foryinb:ifxy:overlaps。append(x) 方法二list(set(a)set(b)) 方法一耗时0。9507264000000006s,方法二耗时0。6148200999999993s,性能提升35。33 关于set()的语法:、、分别表示求并集、交集、差集。3。使用sort()或sorted()排序 我们可以通过多种方式对序列进行排序,但其实自己编写排序算法的方法有些得不偿失。因为内置的sort()或sorted()方法已经足够优秀了,且利用参数key可以实现不同的功能,非常灵活。二者的区别是sort()方法仅被定义在list中,而sorted()是全局方法对所有的可迭代序列都有效。 Exp3:分别使用快排和sort()方法对同一列表排序。 测试数组:lists〔2,1,4,3,0〕。 方法一defquicksort(lists,i,j):ifij:returnlistpivotlists〔i〕lowihighjwhileij:whileijandlists〔j〕pivot:j1lists〔i〕lists〔j〕whileijandlists〔i〕pivot:i1lists〔j〕lists〔i〕lists〔j〕pivotquicksort(lists,low,i1)quicksort(lists,i1,high)returnlists 方法二lists。sort() 方法一耗时2。4796975000000003s,方法二耗时0。05551999999999424s,性能提升97。76 顺带一提,sorted()方法耗时0。1339823999987857s。 可以看出,sort()作为list专属的排序方法还是很强的,sorted()虽然比前者慢一点,但是胜在它不挑食,它对所有的可迭代序列都有效。 扩展:如何定义sort()或sorted()方法的key 1。通过lambda定义学生:(姓名,成绩,年龄)students〔(john,A,15),(jane,B,12),(dave,B,10)〕students。sort(keylambdastudent:student〔0〕)根据姓名排序sorted(students,keylambdastudent:student〔0〕) 2。通过operator定义importoperatorstudents〔(john,A,15),(jane,B,12),(dave,B,10)〕students。sort(keyoperator。itemgetter(0))sorted(students,keyoperator。itemgetter(1,0))先对成绩排序,再对姓名排序 operator的itemgetter()适用于普通数组排序,attrgetter()适用于对象数组排序 3。通过cmptokey()定义,最为灵活importfunctoolsdefcmp(a,b):ifa〔1〕!b〔1〕:return1ifa〔1〕b〔1〕else1先按照成绩升序排序elifa〔0〕!b〔0〕:return1ifa〔0〕b〔0〕else1成绩相同,按照姓名升序排序else:return1ifa〔2〕b〔2〕else1成绩姓名都相同,按照年龄降序排序students〔(john,A,15),(john,A,14),(jane,B,12),(dave,B,10)〕sorted(students,keyfunctools。cmptokey(cmp))4。使用collections。Counter()计数 Exp4:统计字符串中每个字符出现的次数。 测试数组:sentencelifeisshort,ichoosepython。 方法一counts{}forcharinsentence:counts〔char〕counts。get(char,0)1 方法二fromcollectionsimportCounterCounter(sentence) 方法一耗时2。8105250000000055s,方法二耗时1。6317423000000062s,性能提升41。945。使用列表推导 列表推导(listcomprehension)短小精悍。在小代码片段中,可能没有太大的区别。但是在大型开发中,它可以节省一些时间。 Exp5:对列表中的奇数求平方,偶数不变。 测试数组:oldlistrange(10)。 方法一newlist〔〕forxinoldlist:ifx21:newlist。append(x2) 方法二〔x2forxinoldlistifx21〕 方法一耗时1。5342976000000021s,方法二耗时1。4181957999999923s,性能提升7。576。使用join()连接字符串 大多数人都习惯使用来连接字符串。但其实,这种方法非常低效。因为,操作在每一步中都会创建一个新字符串并复制旧字符串。更好的方法是用join()来连接字符串。关于字符串的其他操作,也尽量使用内置函数,如isalpha()、isdigit()、startswith()、endswith()等。 Exp6:将字符串列表中的元素连接起来。 测试数组:oldlist〔life,is,short,i,choose,python〕。 方法一sentenceforwordinoldlist:sentenceword 方法二。join(oldlist) 方法一耗时0。27489080000000854s,方法二耗时0。08166570000000206s,性能提升70。29 join还有一个非常舒服的点,就是它可以指定连接的分隔符,举个例子oldlist〔life,is,short,i,choose,python〕sentence。join(oldlist)print(sentence) lifeisshortichoosepython7。使用x,yy,x交换变量 Exp6:交换x,y的值。 测试数据:x,y100,200。 方法一tempxxyytemp 方法二x,yy,x 方法一耗时0。027853900000010867s,方法二耗时0。02398730000000171s,性能提升13。888。使用while1取代whileTrue 在不知道确切的循环次数时,常规方法是使用whileTrue进行无限循环,在代码块中判断是否满足循环终止条件。虽然这样做没有任何问题,但while1的执行速度比whileTrue更快。因为它是一种数值转换,可以更快地生成输出。 Exp8:分别用while1和whileTrue循环100次。 方法一i0whileTrue:i1ifi100:break 方法二i0while1:i1ifi100:break 方法一耗时3。679268300000004s,方法二耗时3。607847499999991s,性能提升1。949。使用装饰器缓存 将文件存储在高速缓存中有助于快速恢复功能。Python支持装饰器缓存,该缓存在内存中维护特定类型的缓存,以实现最佳软件驱动速度。我们使用lrucache装饰器来为斐波那契函数提供缓存功能,在使用fibonacci递归函数时,存在大量的重复计算,例如fibonacci(1)、fibonacci(2)就运行了很多次。而在使用了lrucache后,所有的重复计算只会执行一次,从而大大提高程序的执行效率。 Exp9:求斐波那契数列。 测试数据:fibonacci(7)。 方法一deffibonacci(n):ifn0:return0elifn1:return1returnfibonacci(n1)fibonacci(n2) 方法二 importfunctoolsfunctools。lrucache(maxsize128)deffibonacci(n):ifn0:return0elifn1:return1returnfibonacci(n1)fibonacci(n2) 方法一耗时3。955014900000009s,方法二耗时0。05077979999998661s,性能提升98。72 注意事项:缓存是按照参数作为键,也就说在参数不变时,被lrucache装饰的函数只会执行一次。所有参数必须可哈希,例如list不能作为被lrucache装饰的函数的参数。importfunctoolsfunctools。lrucache(maxsize100)defdemo(a,b):print(我被执行了)returnabifnamemain:demo(1,2)demo(1,2) 我被执行了(执行了两次demo(1,2),却只输出一次)fromfunctoolsimportlrucachelrucache(maxsize100)deflistsum(nums:list):returnsum(nums)ifnamemain:listsum(〔1,2,3,4,5〕) TypeError:unhashabletype:list functools。lrucache(maxsize128,typedFalse)的两个可选参数:maxsize代表缓存的内存占用值,超过这个值之后,就的结果就会被释放,然后将新的计算结果进行缓存,其值应当设为2的幂。typed若为True,则会把不同的参数类型得到的结果分开保存。10。减少点运算符(。)的使用 点运算符(。)用来访问对象的属性或方法,这会引起程序使用getattribute()和getattr()进行字典查找,从而带来不必要的开销。尤其注意,在循环当中,更要减少点运算符的使用,应该将它移到循环外处理。 这启发我们应该尽量使用from。。。import。。。这种方式来导包,而不是在需要使用某方法时通过点运算符来获取。其实不光是点运算符,其他很多不必要的运算我们都尽量移到循环外处理。 Exp10:将字符串数组中的小写字母转为大写字母。 测试数组为oldlist〔life,is,short,i,choose,python〕。 方法一newlist〔〕forwordinoldlist:newlist。append(str。upper(word)) 方法二newlist〔〕upperstr。upperforwordinoldlist:newlist。append(upper(word)) 方法一耗时0。7235491999999795s,方法二耗时0。5475435999999831s,性能提升24。3311。使用for循环取代while循环 当我们知道具体要循环多少次时,使用for循环比使用while循环更好。 Exp12:使用for和while分别循环100次。 方法一i0whilei100:i1 方法二forinrange(100):pass 方法一耗时3。894683299999997s,方法二耗时1。0198077999999953s,性能提升73。8212。使用Numba。jit加速计算 Numba可以将Python函数编译码为机器码执行,大大提高代码执行速度,甚至可以接近C或FORTRAN的速度。它能和Numpy配合使用,在for循环中或存在大量计算时能显著地提高执行效率。 Exp12:求从1加到100的和。 方法一defmysum(n):x0foriinrange(1,n1):xireturnx 方法二fromnumbaimportjitjit(nopythonTrue)defnumbasum(n):x0foriinrange(1,n1):xireturnx 方法一耗时3。7199997000000167s,方法二耗时0。23769430000001535s,性能提升93。6113。使用Numpy矢量化数组 矢量化是NumPy中的一种强大功能,可以将操作表达为在整个数组上而不是在各个元素上发生。这种用数组表达式替换显式循环的做法通常称为矢量化。 在Python中循环数组或任何数据结构时,会涉及很多开销。NumPy中的向量化操作将内部循环委托给高度优化的C和Fortran函数,从而使Python代码更加快速。 Exp13:两个长度相同的序列逐元素相乘。 测试数组:a〔1,2,3,4,5〕,b〔2,4,6,8,10〕 方法一〔a〔i〕b〔i〕foriinrange(len(a))〕 方法二importnumpyasnpanp。array(〔1,2,3,4,5〕)bnp。array(〔2,4,6,8,10〕)ab 方法一耗时0。6706845000000214s,方法二耗时0。3070132000000001s,性能提升54。2214。使用in检查列表成员 若要检查列表中是否包含某成员,通常使用in关键字更快。 Exp14:检查列表中是否包含某成员。 测试数组:lists〔life,is,short,i,choose,python〕 方法一defcheckmember(target,lists):formemberinlists:ifmembertarget:returnTruereturnFalse 方法二iftargetinlists:pass 方法一耗时0。16038449999999216s,方法二耗时0。04139250000000061s,性能提升74。1915。使用itertools库迭代 itertools是用来操作迭代器的一个模块,其函数主要可以分为三类:无限迭代器、有限迭代器、组合迭代器。 Exp15:返回列表的全排列。 测试数组:〔Alice,Bob,Carol〕 方法一defpermutations(lst):iflen(lst)1orlen(lst)0:return〔lst〕result〔〕foriinlst:templstlst〔:〕templst。remove(i)temppermutations(templst)forjintemp:j。insert(0,i)result。append(j)returnresult 方法二importitertoolsitertools。permutations(〔Alice,Bob,Carol〕) 方法一耗时3。867292899999484s,方法二耗时0。3875405000007959s,性能提升89。98 根据上面的测试数据,我绘制了下面这张实验结果图,可以更加直观的看出不同方法带来的性能差异。 从图中可以看出,大部分的技巧所带来的性能增幅还是比较可观的,但也有少部分技巧的增幅较小(例如编号5、7、8,其中,第8条的两种方法几乎没有差异)。 总结下来,我觉得其实就是下面这两条原则:1。尽量使用内置库函数 内置库函数由专业的开发人员编写并经过了多次测试,很多库函数的底层是用C语言开发的。因此,这些函数总体来说是非常高效的(比如sort()、join()等),自己编写的方法很难超越它们,还不如省省功夫,不要重复造轮子了,何况你造的轮子可能更差。所以,如果函数库中已经存在该函数,就直接拿来用。2。尽量使用优秀的第三方库 有很多优秀的第三方库,它们的底层可能是用C和Fortran来实现的,像这样的库用起来绝对不会吃亏,比如前文提到的Numpy和Numba,它们带来的提升都是非常惊人的。类似这样的库还有很多,比如Cython、PyPy等,这里我只是抛砖引玉。 原文链接:https:www。jb51。netarticle238190。htm