一文搞懂Python可迭代、迭代器和生成器的概念

关于我
一个有思想的程序猿，终身学习实践者，目前在一个创业团队任team lead，技术栈涉及Android、Python、Java和Go，这个也是我们团队的主要技术栈。
Github：https://github.com/hylinux1024
微信公众号：终身开发者(angrycode)

在 Python 中可迭代( Iterable )、迭代器( Iterator )和生成器( Generator )这几个概念是经常用到的，初学时对这几个概念也是经常混淆，现在是时候把这几个概念搞清楚了。

0x00 可迭代(Iterable)

简单的说，一个对象(在Python里面一切都是对象)只要实现了只要实现了 __iter__() 方法，那么用 isinstance() 函数检查就是 Iterable 对象；

例如

            
              class IterObj:

    def __iter__(self):
        # 这里简单地返回自身
        # 但实际情况可能不会这么写
        # 而是通过内置的可迭代对象来实现
        # 下文的列子中将会展示
        return self

上面定义了一个类 IterObj 并实现了 __iter__() 方法，这个就是一个 可迭代(Iterable)对象

            
                  it = IterObj()
    print(isinstance(it, Iterable))  # true
    print(isinstance(it, Iterator))  # false
    print(isinstance(it, Generator)) # false

记住这个类，下文我们还会看到这个类的定义。

常见的可迭代对象

在 Python 中有哪些常见的可迭代对象呢？

集合或序列类型（如 list 、 tuple 、 set 、 dict 、 str ）
文件对象
在类中定义了 __iter__() 方法的对象，可以被认为是 Iterable 对象，但自定义的可迭代对象要能在 for 循环中正确使用，就需要保证 __iter__() 实现必须是正确的（即可以通过内置 iter() 函数转成 Iterator 对象。关于 Iterator 下文还会说明，这里留下一个坑，只是记住 iter() 函数是能够将一个可迭代对象转成迭代器对象，然后在 for 中使用）
在类中实现了如果只实现 __getitem__() 的对象可以通过 iter() 函数转化成迭代器但其本身不是可迭代对象。所以当一个对象能够在 for 循环中运行，但不一定是 Iterable 对象。

关于 第1、2点 我们可以通过以下来验证

            
                  print(isinstance([], Iterable))  # true list 是可迭代的
    print(isinstance({}, Iterable))  # true 字典是可迭代的
    print(isinstance((), Iterable))  # true 元组是可迭代的
    print(isinstance(set(), Iterable))  # true set是可迭代的
    print(isinstance('', Iterable))  # true 字符串是可迭代的

    currPath = os.path.dirname(os.path.abspath(__file__))
    with open(currPath+'/model.py') as file:
        print(isinstance(file, Iterable)) # true

我们再来看 第3点 ，

            
                  print(hasattr([], "__iter__")) # true
    print(hasattr({}, "__iter__")) # true
    print(hasattr((), "__iter__")) # true
    print(hasattr('', "__iter__")) # true

这些内置集合或序列对象都有 __iter__ 属性，即他们都实现了同名方法。但这个可迭代对象要在 for 循环中被使用，那么它就应该能够被内置的 iter() 函数调用并转化成 Iterator 对象。
例如，我们看内置的可迭代对象

            
                  print(iter([])) # 
              
                
    print(iter({})) # 
                
                  
    print(iter(())) # 
                  
                    
    print(iter('')) #

它们都相应的转成了对应的迭代器( Iterator )对象。
现在回过头再看看一开始定义的那个 IterObj 类

            
              class IterObj:

    def __iter__(self):
        return self 

it = IterObj()
print(iter(it))

我们使用了 iter() 函数，这时候将再控制台上打印出以下信息：

            
              Traceback (most recent call last):
  File "/Users/mac/PycharmProjects/iterable_iterator_generator.py", line 71, in 
              
                
    print(iter(it))
TypeError: iter() returned non-iterator of type 'IterObj'

出现了类型错误，意思是 iter() 函数不能将‘非迭代器’类型转成迭代器。

那如何才能将一个可迭代( Iterable )对象转成迭代器( Iterator )对象呢？
我们修改一下 IterObj 类的定义

            
              class IterObj:

    def __init__(self):
        self.a = [3, 5, 7, 11, 13, 17, 19]

    def __iter__(self):
        return iter(self.a)

我们在构造方法中定义了一个名为 a 的列表，然后还实现了 __iter__() 方法。

修改后的类是可以被 iter() 函数调用的，即也可以在 for 循环中使用

            
                  it = IterObj()
    print(isinstance(it, Iterable)) # true
    print(isinstance(it, Iterator)) # false
    print(isinstance(it, Generator)) # false
    print(iter(it)) # 
              
                
    for i in it:
        print(i) # 将打印3、5、7、11、13、17、19元素

因此在定义一个可迭代对象时，我们要非常注意 __iter__() 方法的内部实现逻辑，一般情况下，是通过一些已知的可迭代对象（例如，上文提到的集合、序列、文件等或其他正确定义的可迭代对象）来辅助我们来实现

关于 第4点 说明的意思是 iter() 函数可以将一个实现了 __getitem__() 方法的对象转成迭代器对象，也可以在 for 循环中使用，但是如果用 isinstance() 方法来检测时，它不是一个可迭代对象。

            
              class IterObj:

    def __init__(self):
        self.a = [3, 5, 7, 11, 13, 17, 19]

    def __getitem__(self, i):
        return self.a[i]

it = IterObj()
print(isinstance(it, Iterable)) # false
print(isinstance(it, Iterator)) # false
print(isinstance(it, Generator)) false
print(hasattr(it, "__iter__")) # false
print(iter(it)) # 
              
                

for i in it:
    print(i) # 将打印出3、5、7、11、13、17、19

这个例子说明了可以 在 for 中使用的对象，不一定是可迭代对象。

现在我们做个小结：

一个可迭代的对象是实现了 __iter__() 方法的对象
它要在 for 循环中使用，就必须满足 iter() 的调用(即调用这个函数不会出错，能够正确转成一个 Iterator 对象)
可以通过已知的可迭代对象来辅助实现我们自定义的可迭代对象。
一个对象实现了 __getitem__() 方法可以通过 iter() 函数转成 Iterator ，即可以在 for 循环中使用，但它不是一个可迭代对象(可用isinstance方法检测())

0x01 迭代器(Iterator)

上文很多地方都提到了 Iterator ,现在我们把这个坑填上。
当我们对可迭代的概念了解后，对于迭代器就比较好理解了。
一个对象实现了 __iter__() 和 __next__() 方法，那么它就是一个迭代器对象。 例如

            
              class IterObj:

    def __init__(self):
        self.a = [3, 5, 7, 11, 13, 17, 19]

        self.n = len(self.a)
        self.i = 0

    def __iter__(self):
        return iter(self.a)

    def __next__(self):
        while self.i < self.n:
            v = self.a[self.i]
            self.i += 1
            return v
        else:
            self.i = 0
            raise StopIteration()

在 IterObj 中，构造函数中定义了一个列表 a ,列表长度 n ,索引 i 。

            
                  it = IterObj()
    print(isinstance(it, Iterable)) # true
    print(isinstance(it, Iterator)) # true
    print(isinstance(it, Generator)) # false
    print(hasattr(it, "__iter__")) # true
    print(hasattr(it, "__next__")) # true

我们可以发现上文提到的
集合和序列对象是可迭代的但不是迭代器

            
                  print(isinstance([], Iterator)) # false
    print(isinstance({}, Iterator)) # false
    print(isinstance((), Iterator)) # false
    print(isinstance(set(), Iterator)) # false
    print(isinstance('', Iterator)) # false

而 文件对象是迭代器

            
                  currPath = os.path.dirname(os.path.abspath(__file__))
    with open(currPath+'/model.py') as file:
        print(isinstance(file, Iterator)) # true

一个迭代器( Iterator )对象不仅可以在 for 循环中使用，还可以通过内置函数 next() 函数进行调用。例如

            
              it = IterObj()
next(it) # 3
next(it) # 5

0x02 生成器(Generator)

现在我们来看看什么是生成器？
一个生成器既是可迭代的也是迭代器

定义生成器有两种方式：

列表生成器
使用 yield 定义生成器函数

先看第1种情况

            
                  g = (x * 2 for x in range(10)) # 0～18的偶数生成器 
    print(isinstance(g, Iterable)) # true
    print(isinstance(g, Iterator)) # true
    print(isinstance(g, Generator)) # true
    print(hasattr(g, "__iter__")) # true
    print(hasattr(g, "__next__")) # true
    print(next(g)) # 0
    print(next(g)) # 2

列表生成器可以不需要消耗大量的内存来生成一个巨大的列表，只有在需要数据的时候才会进行计算。
再看第2种情况

            
              def gen():
    for i in range(10):
        yield i

这里 yield 的作用就相当于 return ,这个函数就是顺序地返回 [0,10) 的之间的自然数，可以通过 next() 或使用 for 循环来遍历。
当程序遇到 yield 关键字时，这个生成器函数就返回了，直到再次执行了 next() 函数，它就会从上次函数返回的执行点继续执行，即 yield 退出时保存了函数执行的位置、变量等信息，再次执行时，就从这个 yield 退出的地方继续往下执行。
在 Python 中利用生成器的这些特点可以实现协程。协程可以理解为一个轻量级的线程，它相对于线程处理高并发场景有很多优势。

看下面一个用协程实现的 生产者-消费者模型

            
              def producer(c):
    n = 0
    while n < 5:
        n += 1
        print('producer {}'.format(n))
        r = c.send(n)
        print('consumer return {}'.format(r))

def consumer():
    r = ''
    while True:
        n = yield r
        if not n:
            return
        print('consumer {} '.format(n))
        r = 'ok'

if __name__ == '__main__':
    c = consumer()
    next(c)  # 启动consumer
    producer(c)

这段代码执行效果如下

            
              producer 1
consumer 1 
producer return ok
producer 2
consumer 2 
producer return ok
producer 3
consumer 3 
producer return ok

协程实现了 CPU 在两个函数之间进行切换从而实现并发的效果。

0x04 引用

https://docs.python.org/3.7/

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义