探索惊群 ①

惊群比较抽象，类似于抢红包 😁。它多出现在高性能的多进程/多线程服务中，例如：nginx。

探索惊群 系列文章将深入 Linux (5.0.1) 内核，透过 多进程模型 去剖析惊群现象、惊群原理、惊群的解决方案。

1. 概述
2. 解决方案
3. 参考

1. 概述

1.1. 惊群现象

多进程睡眠等待 共享 资源，当资源到来时，多个进程被 无差别 唤醒，争抢处理资源。

1.2. 惊群影响

惊群问题影响的本质：内耗，具体表现为：

问题	描述
系统资源开销巨大	大量进程/线程被频繁唤醒，但仅有少数能成功获取资源，其余大多数在尝试失败后被迫立即休眠。这种持续的“唤醒-竞争-失败-休眠”循环，导致进程上下文切换次数激增，造成CPU时间的无谓浪费，系统空转严重。
资源分配严重不均	多个进程/线程无序争抢共享资源，缺乏高效的协调机制。这容易导致“马太效应”，即少数进程可能长期垄断资源，而其他多数进程则陷入资源匮乏的困境，损害了系统的公平性与整体性能。
系统吞吐量显著下降	宝贵的 CPU 计算周期被大量耗费在进程调度和内部竞争上，而非用于处理实际业务。这直接导致系统在单位时间内完成的有效工作量（即吞吐量）急剧降低，无法充分发挥硬件性能。
请求响应延迟增加	一个本可以被快速处理的请求，可能因为陷入与大量无效唤醒进程的竞争队列中，而导致其处理时间被显著拉长。这对追求低延迟的服务（如数据库、实时通信）是致命的。
系统可扩展性变差	惊群效应会随着并发数的增加而急剧恶化。系统规模越大，被同时唤醒的进程越多，竞争就越激烈，性能损耗呈非线性增长。这使得系统无法通过简单地增加工作进程数来提升性能，严重制约了水平扩展能力。
稳定性风险与“饿死”现象	在极端情况下，持久的资源分配不均可能导致某些进程长期无法获得资源（即被“饿死”）。同时，高频度的竞争可能大幅增加调度延迟，在实时或高可用性系统中，甚至可能触发看门狗超时，导致进程被误杀，引发服务中断。

1.3. 惊群原因

问题本质：进程睡眠 唤醒 时机问题。

多进程/线程等待共享资源，当资源到来时，多进程/线程被 无差别 唤醒争抢资源，缺乏有效的资源分配调度机制。

详细请参考：探索惊群 ③ - nginx 惊群现象

2. 解决方案

需要围绕两个方面去展开。

避免共享资源争抢（独占）。
资源尽量合理分配（负载均衡）。

换个角度去思考，如果红包私发，而不是扔进群组里… 这个思路应该是解决惊群问题的关键。😎

2.1. reuseport

内核解决惊群问题，目前 nginx 最好的惊群解决方案，基于 linux 内核 so_reuseport 端口重用网络特性。

每个子进程拥有独立的 listen socket 资源队列，避免资源争抢；多个队列也提升了并发吞吐。
新链接通过网络四元组通过哈希分配到各个子进程的 listen socket 资源队列，资源分配相对合理（负载均衡）。

详情请参考：探索惊群 ⑥ - nginx - reuseport / [内核源码] 网络协议栈 - listen (tcp)

2.2. NGX_EXCLUSIVE_EVENT

内核解决惊群问题，基于 linux 4.5+ 内核增加的 epoll 属性 EPOLLEXCLUSIVE 独占资源属性。

原理非常简单，只唤醒一个睡眠等待的进程处理资源。避免无差别地唤醒多个进程，尽量使得各个进程忙碌起来。

缺点：

多个进程争抢一个 listen socket 的共享资源。
单个资源队列，将会是并发吞吐瓶颈。

详情请参考：探索惊群 ⑤ - nginx - NGX_EXCLUSIVE_EVENT

2.3. accept_mutex

应用层解决惊群问题，多个子进程通过应用层抢锁，成功者可以独占 listen socket 获取资源的权利。

优点：有效地避免了惊群。

缺点：

因为抢锁时机问题，原来抢到锁的进程下次抢到锁的概率很高，导致有些进程很忙，有些没那么忙，负载不均，资源利用率比较低。
一个时间段内，只有一个子进程独占 listen socket 的共享资源，无法同时利用多核优势。
单个资源队列，将会是并发吞吐瓶颈。

详情请参考：探索惊群 ④ - nginx - accept_mutex

3. 参考

Nginx惊群效应引起的系统高负载

本文作者： wenfh2020
本文链接： https://wenfh2020.com/2021/09/25/thundering-herd/
版权声明： 本文可以（非商业）自由拷贝，转载，请注明出处，谢谢！ 🤝

文章目录

关注我们

探索惊群 ①

1. 概述

1.1. 惊群现象

1.2. 惊群影响

1.3. 惊群原因

2. 解决方案

2.1. reuseport

2.2. NGX_EXCLUSIVE_EVENT

2.3. accept_mutex

3. 参考

文章目录

关注我们

搜索文章

探索惊群 ①

1. 概述

1.1. 惊群现象

1.2. 惊群影响

1.3. 惊群原因

2. 解决方案

2.1. reuseport

2.2. NGX_EXCLUSIVE_EVENT

2.3. accept_mutex

3. 参考