Python编写循环的两个建议 | 鹅厂实战

系统 1170 0

Python编写循环的两个建议 | 鹅厂实战_第1张图片


作者 | piglei(腾讯高级工程师)

转载自腾讯技术工程知乎专栏


循环是一种常用的程序控制结构。我们常说,机器相比人类的最大优点之一,就是机器可以不眠不休的重复做某件事情,但人却不行。而“ 循环 ”,则是实现让机器不断重复工作的关键概念。


在循环语法方面,Python 表现的即传统又不传统。它虽然抛弃了常见的 for(init;condition;incrment) 三段式结构,但还是选择了 for 和 while 这两个经典的关键字来表达循环。绝大多数情况下,我们的循环需求都可以用 for in 来满足, while 相比之下用的则更少些。


虽然循环的语法很简单,但是要写好它确并不容易。在这篇文章里,我们将探讨什么是“地道”的循环代码,以及如何编写它们。


什么是“地道”的循环?


“地道”这个词,通常被用来形容某人做某件事情时,非常符合当地传统,做的非常好。打个比方,你去参加一个朋友聚会,同桌的有一位广东人,对方一开口,句句都是标准京腔、完美儿化音。那你可以对她说:“您的北京话说的真 地道 ”。


既然“地道”这个词形容的经常是口音、做菜的口味这类实实在在的东西,那“地道”的循环代码又是什么意思呢?让我拿一个经典的例子来解释一下。


如果你去问一位刚学习 Python 一个月的人:“如何在遍历一个列表的同时获取当前下标?”。他可能会交出这样的代码:


              
            


上面的循环虽然没错,但它确一点都不“地道”。一个拥有三年 Python 开发经验的人会说,代码应该这么写:

            


            

for  i,  name   in  enumerate(names):
    print(i,  name )


enumerate() 是 Python 的一个内置函数,它接收一个“可迭代”对象作为参数,然后返回一个不断生成 (当前下标,当前元素) 的新可迭代对象。这个场景使用它最适合不过。


所以,在上面的例子里,我们会认为第二段循环代码比第一段更“地道”。

因为它用更直观的代码,更聪明的完成了工作。


enumerate() 所代表的编程思路


不过,判断某段循环代码是否地道,并不仅仅是以知道或不知道某个内置方法作为标准。我们可以从上面的例子挖掘出更深层的东西。


如你所见,Python 的 for 循环只有 for in 这一种结构,而结构里的前半部分 - 赋值给 item- 没有太多花样可玩。所以后半部分的 可迭代对象 是我们唯一能够大做文章的东西。而以 enumerate() 函数为代表的“修饰函数”,刚好提供了一种思路: 通过修饰可迭代对象来优化循环本身。


这就引出了我的第一个建议。


建议1:使用函数修饰被迭代对象来优化循环


使用修饰函数处理可迭代对象,可以在各种方面影响循环代码。而要找到合适的例子来演示这个方法,并不用去太远,内置模块 itertools 就是一个绝佳的例子。


简单来说,itertools 是一个包含很多面向可迭代对象的工具函数集。我在之前的系列文章《容器的门道》里提到过它。


如果要学习 itertools,那么 Python 官方文档 是你的首选,里面有非常详细的模块相关资料。但在这篇文章里,侧重点将和官方文档稍有不同。我会通过一些常见的代码场景,来详细解释它是如何改善循环代码的。


1. 使用 product 扁平化多层嵌套循环


虽然我们都知道“扁平的代码比嵌套的好”。但有时针对某类需求,似乎一定得写多层嵌套循环才行。比如下面这段:


            

def   find_twelve (num_list1, num_list2, num_list3) :
     """从 3 个数字列表中,寻找是否存在和为 12 的 3 个数
    """

     for  num1  in  num_list1:
         for  num2  in  num_list2:
             for  num3  in  num_list3:
                 if  num1 + num2 + num3 ==  12 :
                     return  num1, num2, num3


对于这种需要嵌套遍历多个对象的多层循环代码,我们可以使用 product() 函数来优化它。product() 可以接收多个可迭代对象,然后根据它们的笛卡尔积不断生成结果。


            

from  itertools  import  product

def   find_twelve_v2 (num_list1, num_list2, num_list3) :
     for  num1, num2, num3  in  product(num_list1, num_list2, num_list3):
         if  num1 + num2 + num3 ==  12 :
             return  num1, num2, num3


相比之前的代码,使用 product() 的函数只用了一层 for 循环就完成了任务,代码变得更精炼了。


2. 使用 islice 实现循环内隔行处理


有一份包含 Reddit 帖子标题的外部数据文件,里面的内容格式是这样的:


            

python-guide: Python best practices guidebook, written  for  humans.
---
Python  2  Death Clock
---
Run any Python Script with an Alexa Voice Command
---
<... ...>


可能是为了美观,在这份文件里的每两个标题之间,都有一个 "---" 分隔符。现在,我们需要获取文件里所有的标题列表,所以在遍历文件内容的过程中,必须跳过这些无意义的分隔符。


参考之前对 enumerate() 函数的了解,我们可以通过在循环内加一段基于当前循环序号的 if 判断来做到这一点:


            

def   parse_titles (filename) :
     """从隔行数据文件中读取 reddit 主题名称
    """

     with  open(filename,  'r' as  fp:
         for  i, line  in  enumerate(fp):
             # 跳过无意义的 '---' 分隔符
             if  i %  2  ==  0 :
                 yield  line.strip()


但对于这类在循环内进行隔行处理的需求来说,如果使用 itertools 里的 islice() 函数修饰被循环对象,可以让循环体代码变得更简单直接。


islice(seq,start,end,step) 函数和数组切片操作( list[start:stop:step] )有着几乎一模一样的参数。如果需要在循环内部进行隔行处理的话,只要设置第三个递进步长参数 step 值为 2 即可(默认为 1)。

            


            

from  itertools  import  islice

def   parse_titles_v2 (filename) :
     with  open(filename,  'r' as  fp:
         # 设置 step=2,跳过无意义的 '---' 分隔符
         for  line  in  islice(fp,  0 None 2 ):
             yield  line.strip()


3. 使用 takewhile 替代 break 语句


有时,我们需要在每次循环开始时,判断循环是否需要提前结束。比如下面这样:


            

for  user  in  users:
     # 当第一个不合格的用户出现后,不再进行后面的处理
     if   not  is_qualified(user):
         break

     # 进行处理 ... ...


对于这类需要提前中断的循环,我们可以使用 takewhile() 函数来简化它。 takewhile(predicate,iterable) 会在迭代   iterable   的过程中不断使用当前对象作为参数调用   predicate   函数并测试返回结果,如果函数返回值为真,则生成当前对象,循环继续。否则立即中断当前循环。


使用 takewhile 的代码样例:


            

from  itertools  import  takewhile

for  user  in  takewhile(is_qualified, users):
     # 进行处理 ... ...


itertools 里面还有一些其他有意思的工具函数,他们都可以用来和循环搭配使用,比如使用 chain 函数扁平化双层嵌套循环、使用 zip_longest 函数一次同时循环多个对象等等。


篇幅有限,我在这里不再一一介绍。如果有兴趣,可以自行去官方文档详细了解。


4. 使用生成器编写自己的修饰函数


除了 itertools 提供的那些函数外,我们还可以非常方便的使用生成器来定义自己的循环修饰函数。


让我们拿一个简单的函数举例:


            

def   sum_even_only (numbers) :
     """对 numbers 里面所有的偶数求和"""
    result =  0
     for  num  in  numbers:
         if  num %  2  ==  0 :
            result += num
     return  result


在上面的函数里,循环体内为了过滤掉所有奇数,引入了一条额外的 if 判断语句。如果要简化循环体内容,我们可以定义一个生成器函数来专门进行偶数过滤:


            

def   even_only (numbers) :
     for  num  in  numbers:
         if  num %  2  ==  0 :
             yield  num

def   sum_even_only_v2 (numbers) :
     """对 numbers 里面所有的偶数求和"""
    result =  0
     for  num  in  even_only(numbers):
        result += num
     return  result


将 numbers 变量使用 even_only 函数装饰后, sum_even_only_v2 函数内部便不用继续关注“偶数过滤”逻辑了,只需要简单完成求和即可。


Hint:当然,上面的这个函数其实并不实用。在现实世界里,这种简单需求最适合直接用生成器/列表表达式搞定:sum(numfornuminnumbersifnum%2==0)


建议2:按职责拆解循环体内复杂代码块


我一直觉得循环是一个比较神奇的东西,每当你写下一个新的循环代码块,就好像开辟了一片黑魔法阵,阵内的所有内容都会开始无休止的重复执行。


但我同时发现,这片黑魔法阵除了能带来好处, 它还会引诱你不断往阵内塞入越来越多的代码,包括过滤掉无效元素、预处理数据、打印日志等等。甚至一些原本不属于同一抽象的内容,也会被塞入到同一片黑魔法阵内。


你可能会觉得这一切理所当然,我们就是迫切需要阵内的魔法效果。如果不把这一大堆逻辑塞满到循环体内,还能把它们放哪去呢?


让我们来看看下面这个业务场景。在网站中,有一个每 30 天执行一次的周期脚本,它的任务是是查询过去 30 天内,在每周末特定时间段登录过的用户,然后为其发送奖励积分。


代码如下:


            

import  time
import  datetime

def   award_active_users_in_last_30days () :
     """获取所有在过去 30 天周末晚上 8 点到 10 点登录过的用户,为其发送奖励积分
    """

    days =  30
     for  days_delta  in  range(days):
        dt = datetime.date.today() - datetime.timedelta(days=days_delta)
         # 5: Saturday, 6: Sunday
         if  dt.weekday()  not   in  ( 5 6 ):
             continue

        time_start = datetime.datetime(dt.year, dt.month, dt.day,  20 0 )
        time_end = datetime.datetime(dt.year, dt.month, dt.day,  23 0 )

         # 转换为 unix 时间戳,之后的 ORM 查询需要
        ts_start = time.mktime(time_start.timetuple())
        ts_end = time.mktime(time_end.timetuple())

         # 查询用户并挨个发送 1000 奖励积分
         for  record  in  LoginRecord.filter_by_range(ts_start, ts_end):
             # 这里可以添加复杂逻辑
            send_awarding_points(record.user_id,  1000


上面这个函数主要由两层循环构成。外层循环的职责,主要是获取过去 30 天内符合要求的时间,并将其转换为 UNIX 时间戳。之后由内层循环使用这两个时间戳进行积分发送。


如之前所说,外层循环所开辟的黑魔法阵内被塞的满满当当。但通过观察后,我们可以发现 整个循环体其实是由两个完全无关的任务构成的:“挑选日期与准备时间戳” 以及 “发送奖励积分 ”。


复杂循环体如何应对新需求


这样的代码有什么坏处呢?让我来告诉你。


某日,产品找过来说,有一些用户周末半夜不睡觉,还在刷我们的网站,我们得给他们发通知让他们以后早点睡觉。于是新需求出现了:“ 给过去 30 天内在周末凌晨 3 点到 5 点登录过的用户发送一条通知”


新问题也随之而来。敏锐如你,肯定一眼可以发现,这个新需求在用户筛选部分的要求,和之前的需求非常非常相似。但是,如果你再打开之前那团循环体看看,你会发现代码根本没法复用,因为在循环内部,不同的逻辑完全被 耦合 在一起了。☹️


在计算机的世界里,我们经常用“ 耦合 ”这个词来表示事物之间的关联关系。上面的例子中,“挑选时间”和“发送积分”这两件事情身处同一个循环体内,建立了非常强的耦合关系。


为了更好的进行代码复用,我们需要把函数里的“挑选时间”部分从循环体中解耦出来。而我们的老朋友,“ 生成器函数 ”是进行这项工作的不二之选。


使用生成器函数解耦循环体


要把 “挑选时间” 部分从循环内解耦出来,我们需要定义新的生成器函数 gen_weekend_ts_ranges(),专门用来生成需要的 UNIX 时间戳:


            

def   gen_weekend_ts_ranges (days_ago, hour_start, hour_end) :
     """生成过去一段时间内周六日特定时间段范围,并以 UNIX 时间戳返回
    """

     for  days_delta  in  range(days_ago):
        dt = datetime.date.today() - datetime.timedelta(days=days_delta)
         # 5: Saturday, 6: Sunday
         if  dt.weekday()  not   in  ( 5 6 ):
             continue

        time_start = datetime.datetime(dt.year, dt.month, dt.day, hour_start,  0 )
        time_end = datetime.datetime(dt.year, dt.month, dt.day, hour_end,  0 )

         # 转换为 unix 时间戳,之后的 ORM 查询需要
        ts_start = time.mktime(time_start.timetuple())
        ts_end = time.mktime(time_end.timetuple())
         yield  ts_start, ts_end


有了这个生成器函数后,旧需求“发送奖励积分”和新需求“发送通知”,就都可以在循环体内复用它来完成任务了:


            

def   award_active_users_in_last_30days_v2 () :
     """发送奖励积分"""
     for  ts_start, ts_end  in  gen_weekend_ts_ranges( 30 , hour_start= 20 , hour_end= 23 ):
         for  record  in  LoginRecord.filter_by_range(ts_start, ts_end):
            send_awarding_points(record.user_id,  1000 )

def   notify_nonsleep_users_in_last_30days () :
     """发送通知"""
     for  ts_start, ts_end  in  gen_weekend_ts_range( 30 , hour_start= 3 , hour_end= 6 ):
         for  record  in  LoginRecord.filter_by_range(ts_start, ts_end):
            notify_user(record.user_id,  'You should sleep more' )

            

总结


在这篇文章里,我们首先简单解释了“地道”循环代码的定义。然后提出了第一个建议:使用修饰函数来改善循环。之后我虚拟了一个业务场景,描述了按职责拆解循环内代码的重要性。


一些要点总结:


  • 使用函数修饰被循环对象本身,可以改善循环体内的代码

  • itertools 里面有很多工具函数都可以用来改善循环

  • 使用生成器函数可以轻松定义自己的修饰函数

  • 循环内部,是一个极易发生“代码膨胀”的场地

  • 请使用生成器函数将循环内不同职责的代码块解耦出来,获得更好的灵活性


看完文章的你,有没有什么想吐槽的?请留言或者在 项目 Github Issues 告诉我吧。


附录


  • 题图来源: Photo by Lai man nung on Unsplash

  • 更多系列文章地址:https://github.com/piglei/one-python-craftsman


(*本文为 AI科技大本营转载文章,转载请联系原作者)


精彩推荐



Python编写循环的两个建议 | 鹅厂实战_第2张图片


6月29-30日 ,2019以太坊技术及应用大会 特邀 以太坊创始人V神与以太坊基金会核心成员 ,以及海内外知名专家齐聚北京,聚焦前沿技术,把握时代机遇,深耕行业应用,共话以太坊2.0新生态。


扫码或点击阅读原文,既享优惠购票!


Python编写循环的两个建议 | 鹅厂实战_第3张图片


推荐阅读

  • Bert时代的创新:Bert在NLP各领域的应用进展 | 技术头条

  • 免费GPU哪家强?谷歌Kaggle vs. Colab

  • 高能!8段代码演示Numpy数据运算的神操作

  • Python编写循环的两个建议 | 鹅厂实战

  • Lambda 表达式有何用处?

  • 9年前他用1万个比特币买了两个披萨, 9年后他把当年的代码卖给了苹果,成为了 GPU 挖矿之父

  • TIOBE 6月编程语言排行榜:Python 势不可挡,或在四年之内超越Java、C

  • 漫威金刚狼男主弃影炒币了?



640?wx_fmt=png 你点的每个“在看”,我都认真当成了喜欢

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论