Python自定义迭代器实战_控制循环行为技巧【指导】

__iter__ 必须返回 self 而非 self.__next__,因为迭代器协议要求 __iter__ 返回一个实现 __next__ 方法的对象;返回函数会导致 TypeError。

为什么 __iter__ 必须返回 self 而不是直接返回 self.__next__

因为迭代器协议要求 __iter__ 返回一个实现了 __next__ 方法的对象,而不是可调用对象本身。如果返回 self.__next__(一个函数),后续 for 循环或 next() 会报 TypeError: 'function' object is not an iterator

正确做法是让类同时实现 __iter____next__,并在 __iter__ 中返回 self

class Countdown:
    def __init__(self, start):
        self.start = start
def __iter__(self):
    return self  # ✅ 返回自身,满足迭代器协议

def __next__(self):
    if self.start <= 0:
        raise StopIteration
    self.start -= 1
    return self.start + 1

常见错误:在 __iter__ 中写 return self.__next__return lambda: ... —— 这样返回的是函数,不是迭代器。

如何在 __next__ 中安全处理状态重置与多次遍历

默认情况下,自定义迭代器是一次性的(遍历完再 for 一次就什么也不输出)。若需支持多次遍历,不能靠外部重置属性,而应在 __iter__ 中重建状态。

  • ❌ 错误:把计数器放在 __init__ 里且不重置 → 第二次 for 无输出
  • ✅ 正确:在 __iter__ 中初始化/重置状态变量(如 self._current = self.start
  • ⚠️ 注意:不要在 __iter__ 中调用 self.__next__,否则首次 for 会跳过第一个值

示例(支持重复遍历):

class CountdownRepeatable:
    def __init__(self, start):
        self.start = start
def __iter__(self):
    self._current = self.start  # ✅ 每次迭代都重置
    return self

def __next__(self):
    if self._current <= 0:
        raise StopIteration
    val = self._current
    self._current -= 1
    return val

yield 写生成器 vs 手写 __iter__/__next__:什么时候必须手写

90% 的场景用生成器函数(def + yield)更简洁;但以下情况必须手写迭代器类:

  • 需要在多次遍历间共享并维护复杂状态(如文件读取位置 + 缓存 + 解析上下文)
  • 要控制 __iter__ 的返回行为(例如返回不同子迭代器)
  • 需在迭代过程中响应外部修改(如动态更新 self.limit 并影响后续 next()
  • 继承已有类且需复用其属性/方法,而生成器无法继承

比如一个带暂停/恢复的计数器:

class PausedCounter:
    def __init__(self, start, stop):
        self.start = start
        self.stop = stop
        self.current = start
        self.paused = False
def __iter__(self):
    return self

def __next__(self):
    while self.current < self.stop:
        if not self.paused:
            val = self.current
            self.current += 1
            return val
        # 暂停时主动让出控制权,不 raise StopIteration
        raise StopIteration  # ❌ 错!这会让 for 直接结束
    raise StopIteration

注意:上面这个例子实际不能靠 raise StopIteration 实现“暂停”,真正暂停需用协程或额外标志位配合外部调度 —— 这正是手写迭代器难以绕开的复杂点。

调试自定义迭代器时最常忽略的两个细节

一是忘记在 __next__ 中显式抛出 StopIteration,导致无限循环或 RuntimeError: generator raised StopIteration(Python 3.7+ 对隐式返回做了限制);二是把可变对象(如列表、字典)作为迭代器状态,却在外部被意外修改,引发逻辑错乱。

检查清单:

  • 每次 __next__ 调用是否最终都会走到 raise StopIteration 或返回值?
  • 所有状态变量(self._pos, self._buffer 等)是否只在类内部可控修改?
  • 是否测试了空输入、边界值(如 start == stop)、异常提前退出(如 break 后再次 for)?

尤其注意:Python 不保证 __iter__ 在每次 for 开始前只调用一次 —— 某些工具(如 itertools.chain)可能反复调用它,所以状态重置逻辑必须健壮。