Python生成器系统学习路线第207讲_核心原理与实战案例详解【指导】

生成器是可暂停恢复的状态机:next()从上次yield继续执行,send(value)还传递value给上个yield;首次send必须为None;yield from实现协程双向通信;GeneratorExit触发finally清理;生成器表达式惰性求值省内存,列表推导式支持随机访问。

生成器对象的 __next__send 到底怎么触发状态迁移

生成器不是一次性执行完的函数,而是一个可暂停、可恢复的状态机。每次调用 __next__(或内置函数 next())时,它从上次 yield 暂停的位置继续执行,直到遇到下一个 yield 或函数结束。

send(value) 不仅会唤醒生成器,还会把 value 作为上一个 yield 表达式的返回值。注意:首次调用 send() 必须传 None,否则报 TypeError: can't send non-None value to a just-started generator

  • 第一次调用必须是 next(gen)gen.send(None),否则直接崩溃
  • yield 左侧赋值(如 data = yield item)只在 send() 后生效;next() 相当于 send(None)
  • 生成器退出后(抛出 StopIteration),再调用任何方法都会引发 RuntimeError: generator already exhausted
def echo_gen():
    while True:
        received = yield "ready"
        if received == "quit":
            break
        print(f"got: {received}")

g = echo_gen() print(next(g)) # 输出 "ready" print(g.send("hello")) # 输出 got: hello,返回 "ready" g.send("quit") # 触发 break,下次 next 会 raise StopIteration

为什么 yield from 不只是语法糖,而是协程组合的关键原语

yield from 不仅简化嵌套生成器的委托写法,更重要的是它建立了调用方、外层生成器、子生成器三者之间的双向通信通道——异常、return 值、send 数据都能穿透传递。

对比手写循环:for x in subgen: yield x 只能单向产出值,无法将外部 sendthrow 透传给子生成器,也无法捕获子生成器的 return 值。

  • yield from subgen 会自动处理 StopIteration 并提取其 value 属性,作为当前表达式的返回值
  • 若子生成器被 throw() 中断,外层生成器也会同步收到该异常(除非自己捕获)
  • Python 3.5+ 的 async/await 底层正是基于 yield from 构建的,所以理解它等于理解 await 的本质
def sub():
    yield 1
    return "done"

def top(): result = yield from sub() # result = "done" print(f"sub returned: {result}") yield 2

g = top() print(next(g)) # 1 print(next(g)) # 2

此时 sub 已 return,top 中 print 执行,然后抛出 StopIteration("done")

GeneratorExit 异常和 finally 块的真实执行时机

当生成器对象被垃圾回收、或显式调用 close() 时,解释器会向其抛出 GeneratorExit 异常。这个异常不能被常规 except Exception: 捕获,必须显式写 except GeneratorExit:,且**禁止在该 except 块中 yield** —— 否则触发 RuntimeError

更可靠的做法是把清理逻辑放在 finally 块里,它保证在生成器退出前(无论正常结束、close()、还是未捕获异常)都会执行。

  • GeneratorExitBaseException 子类,不属于 Exception 体系,所以 except:except Exception: 都抓不到
  • finally 是最安全的资源释放位置,但要注意:若 finally 中发生未捕获异常,会覆盖原始的 GeneratorExit
  • close() 是唯一标准方式主动终止生成器并触发清理;不要依赖 GC 时间点
def risky_gen():
    try:
        yield "working"
    finally:
        print("cleanup done")  # close()、StopIteration、或异常退出时都会执行

g = risky_gen() print(next(g)) g.close() # 输出 "cleanup done"

生成器与列表推导式的性能分水岭在哪

生成器表达式((x*2 for x in range(10**6)))和列表推导式([x*2 for x in range(10**6)])的核心差异不在语法,而在内存占用模型:前者是惰性求值的迭代器,后者是一次性分配并填充完整列表。

当数据量大、或下游只消费部分元素时,生成器明显胜出;但若需要多次遍历、随机索引、或长度判断(len()),就必须用列表——因为生成器只能单向消费一次,且没有长度属性。

  • 生成器表达式不支持 len()index()、切片([1:5])等操作
  • 对同一生成器多次调用 list(gen) 会得到空列表(第二次已耗尽)
  • 若后续要转成列表,且确定数据量可控,直接用列表推导式反而更简洁;不必为“看起来更函数式”强行用生成器

真正该用生成器的场景:读大文件逐行处理、数据库游标流式获取、实时传感器数据管道、递归结构的深度优先遍历……这些都不是“省几MB内存”的问题,而是“不这么做就爆内存或阻塞”的刚需。