Python多进程系统学习路线第217讲_核心原理与实战案例详解【教程】_技术教程

Python多进程需用if name == '__main__':保护主模块，否则spawn方式下子进程重复导入导致递归或失败；Pool.map适合同构批量阻塞处理，apply_async适用于异步单任务；共享状态须用Value、Array、Manager或Lock等IPC机制，禁用全局变量。

Python 多进程不是“开多个线程就能并行”的简单替换，multiprocessing 模块背后依赖操作系统级的进程创建（fork 或 spawn），数据不共享、通信需显式设计、启动开销大——这些特性直接决定你能不能真正压榨 CPU，而不是写出一堆假并行代码。

为什么 `Process` 启动后不执行目标函数？

常见于 Windows 或 macOS 上使用 spawn 启动方式时，主模块未加 if __name__ == '__main__': 保护。子进程重新导入模块，导致重复触发 Process(...).start()，形成无限递归或静默失败。

必须把进程创建和启动逻辑放在 if __name__ == '__main__': 块内
在 Linux 上用 fork 可能“侥幸”通过，但跨平台代码必须守这条规则
PyInstaller 打包后也常因缺少该判断报错，错误信息类似：AttributeError: Can't get attribute 'worker' on

`Pool` 的 `map` 和 `apply_async` 到底怎么选？

Pool.map 是阻塞式批量分发，适合输入数据同构、处理逻辑一致、且你愿意等全部结果；apply_async 是非阻塞单任务提交，适合任务耗时差异大、需要提前响应、或要动态控制并发数。

map 内部会自动切分可迭代对象，但整个调用会阻塞直到所有子任务完成
apply_async 返回 AsyncResult 对象，需手动调用 .get(timeout=...) 获取结果，超时抛 multiprocessing.TimeoutError
若传入函数引用了闭包变量或 lambda，spawn 方式下会序列化失败，改用普通函数 + 显式参数传递

如何安全地在多进程间共享状态？

别直接用全局变量，它在每个进程中是独立副本。真要共享，得用 multiprocessing 提供的同步原语：

只读数据：用 multiprocessing.Value（标量）或 multiprocessing.Array（一维数组），支持 ctypes 类型，如 Value('i', 0)
复杂结构：用 multiprocessing.Manager() 创建代理对象（dict, list, Namespace），但性能较差，因为走进程间通信（IPC）
计数/开关类状态：优先用 multiprocessing.Semaphore、Lock 或 Event，避免竞态；Lock 必须在子进程中显式 acquire/release，不能依赖 with 语句自动释放（某些 spawn 场景下上下文管理器失效）

from multiprocessing import Process, Value, Lock
def worker(sharedcounter, lock):
for  in range(1000):
with lock:  # 安全递增
shared_counter.value += 1
if name == 'main':
counter = Value('i', 0)
lock = Lock()
processes = [Process(target=worker, args=(counter, lock)) for _ in range(4)]
for p in processes:
p.start()
for p in processes:
p.join()
print(counter.value)  # 输出 4000