LWN:futex robust list 的 API 变更

关注了就能看到更多这么棒的文章哦~

Jake Edge
 Gemini translation
 原文链接:https://lwn.net/Articles/1056387/ 

由 Jake Edge 发表
 2026 年 2 月 4 日 


LPC 

健壮 futex (robust futex) 内核 API 是一种让用户空间 (user-space) 程序确保其持有的锁在退出时能被正确清理的方法。但正如 André Almeida 在东京举行的 2025 年 Linux Plumbers Conference (LPC) 的 “Gaming on Linux” 微型会议 (microconference) 会话 (session) 中所描述的那样,该 API 存在许多不同的问题。他提出了一些关于新 API 的想法,旨在解决其中的许多问题,并希望与参会者进行讨论;此外,他还想谈谈一个难以触发的竞态条件 (race condition)。 

“几年前,我为 futex 开发了一个新 API,”Almeida 在开场时说道,“那么为什么不也为健壮列表开发一个新 API 呢?”他所指的是在 2022 年并入 5.16 内核的新 futex API,其形式为 futex_waitv() 系统调用 (system call)(文档)。futex2 API 的其他一些部分(相关文章)已随 2024 年的 Linux 6.7 发布。 

SteamOS 发行版 (distribution) 是 Linux 游戏开发工作的主要阵地,其游戏所使用的二进制接口 (ABI) 是 x86 架构上的 Windows ABI。虽然大多数游戏是为该 ABI 构建的,但 SteamOS 也可以在 Arm64 上运行,这带来了“许多有趣的挑战”。除了提供 Windows ABI 的 Proton 兼容层 (compatibility layer) 之外,它还添加了 FEX 模拟器 (emulator) 以在 Arm64 处理器上运行 x86 二进制文件。这对内核的各个领域都有影响,包括 futex、内存管理和文件系统。 

FEX 是一种即时编译 (JIT, just-in-time) 编译器,用于将 32 位和 64 位的 x86 指令转换为 Arm64 机器代码。作为其中的一部分,当它发现 syscall 指令时,需要将其翻译为 Arm64 系统调用,但这对于某些 x86-32 系统调用的效果并不理想。FEX 项目有一个维基页面描述了这些存在问题的调用,其中之一就是 set_robust_list()。 

set_robust_list() 用于避免当 futex 持有者在释放锁之前死亡时出现的问题,这种情况会导致等待该锁的其他线程陷入饥饿。因此,当线程获取锁时,它可以将该锁添加到健壮列表中,这是一个在用户空间维护的链表 (linked list)。线程使用 set_robust_list() 告知内核该列表头的位置。内核中线程的退出路径利用这些信息来唤醒列表中每个 futex 的所有等待线程;它还会为每个 futex 添加 FUTEX_OWNER_DIED 标记。他提到的另一个细节是,在执行操作(获取或释放锁)期间,但在链表更新之前,futex 可以被放入列表头的一个“待处理 (pending)”字段中,以便在此时发生崩溃时仍能进行清理。 

为什么要变更?

他说,出于几个原因,需要一个新的 API。首先,与 x86 不同,Arm64 不同时具备 32 位和 64 位系统调用,因此模拟 32 位应用程序非常困难——因为缺少“兼容 (compat)”系统调用。例如,64 位系统调用无法处理 32 位的健壮列表,因为由于指针大小 (pointer size) 不同,它无法解析该列表。因此需要一个新接口,允许用户空间通知内核这是 32 位还是 64 位的健壮列表,以便内核能够正确解析。 

现有接口的另一个缺点是,一个线程只能设置一个健壮列表,但 FEX 也想使用健壮 futex。如果应用程序已经使用了它们,FEX 就必须在两者之间做出选择。新接口将提供一种为一个线程设置多个列表头的方法。 

目前,内核处理的健壮列表项有 2048 个的限制,这是为了避免陷入无限循环。但这一限制从未作为 API 的一部分记录在案,因此用户空间程序并不知情,这导致了针对 GNU C 库的一个错误报告 (bug report)。他说,在新的 API 中,要么应该将该限制记录并作为 API 的一部分公开,要么应该通过引入针对循环列表的对策来取消这一限制。 

最后一个问题“更有趣”但也“有点难以解释”;这是一个在解锁 futex 时可能发生的竞态条件 (race condition)。解锁健壮 futex 的正常步骤如下: 

  1. 将 futex 的地址放入健壮列表的待处理 (pending) 槽位中

  2. 从健壮列表中移除该 futex

  3. 执行底层解锁,清除 futex 并唤醒等待它的任何线程

  4. 清除待处理槽位

然而,在第三步和第四步之间,另一个线程可能会认为自己是该 futex 的唯一使用者,从而决定释放它。那个线程随后可能会在原 futex 所在的同一位置分配内存。接着,正准备执行第四步的原线程死亡,导致内核在 futex 处写入 FUTEX_OWNER_DIED,从而损坏了某些随机内存。这很难复现,但它确实会发生。 

Almeida 表示,他不确定该如何解决这个问题。也许将退出路径与线程发起的所有 mmap() 和 munmap() 调用进行串行化是一种可能。另一个想法可能是以某种方式改变围绕待处理字段的 API,以避免这种竞争。前一天他参加了可扩展调度器类 (sched_ext) 微型会议,这让他想到也许可以编写一个专门的调度器来可靠地复现该问题;这将有助于修复过程,也可以转化为测试用例。 

新 API

他在会话中提出的 API 似乎比他在 2025 年 11 月(LPC 前几周)发布的第 6 版补丁集又有所演进。它包含两个新的系统调用: 

●●●
..set_robust_list2(struct.robust_list_head.*head,.unsigned.int index,
...................unsigned.int cmd,.unsigned.int flags);
...................
..get_robust_list2(int.pid,.void **head_ptr,
...................unsigned.int index,.unsigned.int flags);

index 参数用于区分不同的列表,以便库和应用程序可以拥有各自的列表。set_robust_list2() 的 cmd 参数可以是 CREATE_LIST_32(或 64),以使用 head 指针创建相应位数 (bitness) 的列表;在这种情况下,调用会返回一个与该列表关联的未使用索引。通过传递感兴趣的索引,可以使用 SET_LIST_32(或 64)命令覆盖列表。LIST_LIMIT 命令返回每个任务支持的列表数量。(所有这些命令名称的全称据推测都会包含 FUTEX_ROBUST_LIST_CMD_ 部分。)get_robust_list2() 将仅返回给定 pid 和 index 的健壮列表头(存入 head_ptr)。 

讨论

随后,Almeida 开始征求提问和评论。Liam Howlett 指出,健壮列表的退出路径需要内核中的内存不足 (OOM, out-of-memory) 处理延迟,因此可以通过将 OOM 处理延迟设为零并触发任务的 OOM-kill 来更轻松地复现该竞态条件。glibc 维护者 Carlos O'Donell 表示,虽然这可能是真的,但这并不能真正引向竞态条件的解决方案,他和 musl libc 项目的 Rich Felker 都曾研究过这一问题。如果要推出新的 API,那么这就是坐下来研究出妥善解决方案,并确定现有 C 库如何随着时间的推移过渡到新接口的“绝佳机会”。 

“情况还会变得更糟,”Howlett 说道。正在退出的任务可能会被控制组 (control-group, cgroup) 子系统冻结,这意味着 OOM 处理程序可能需要无限期等待才能清理现场。他说,这是在创建新 API 的过程中应该理清的另一个环节。 

O'Donell 说,新 API 的使用者需要能够注册与内核共享的结构体中的位数,这很有道理。他询问是否应该考虑 32 位或 64 位以外的大小,但 Howlett 指出提案 API 中有一个未使用的 flags 参数,如果需要的话可以使用。 

对话转回了 OOM 处理程序的延迟,似乎没人能完全理解它。O'Donell 想知道这是否是为了修复 Almeida 所担心的竞态条件在其他背景下出现时所做的尝试。Howlett 表示,他认为这是为了在退出处理代码处理健壮列表之前,阻止 OOM killer 释放持有锁的内存。Sebastian Siewior 表示他也不清楚为什么要添加这个延迟,但他会将其列入调查清单。 

关于 OOM-killer 延迟的起因和方式还有一些进一步的讨论,但会议时间已到。感兴趣的读者可能想参考演讲的 YouTube 视频和 幻灯片。总的来说,参会者似乎一致认为需要新的 API,并且没有听到对其拟议形式的实质性抱怨,但在进入上游之前显然仍有一些细节需要敲定。 

[ 我要感谢我们的差旅赞助商 Linux 基金会,感谢他们资助我前往东京参加 Linux Plumbers Conference。] 

LWN 评论概述:

文章底部的评论主要探讨了跨架构兼容性和多运行时协作的问题。一位用户询问是否可以增加对大端和小端(endianness)转换的支持,因为 QEMU 的用户态模式在模拟异构架构时也会遇到健壮列表布局不匹配的问题。另一位用户则关注多个用户空间运行时之间的协作,指出目前每个线程只能有一个健壮列表,而 libc 并没有提供与其他原生 futex 使用者集成的机制,并对比了已经实现多用户支持的 rseq 接口。 

  全文完
 LWN 文章遵循 CC BY-SA 4.0 许可协议。 

欢迎分享、转载及基于现有协议再创作~

长按下面二维码关注,关注 LWN 深度文章以及开源社区的各种新近言论~

代码转载自:https://pan.quark.cn/s/8ce4326d996e 对于在 CentOS 7 系统中修改网卡配置文件后无法使设置生效的情况,经过实践验证,可以通过使用 nmcli 命令来进行调整。完成修改之后,需要重新启动虚拟机以使更改生效,这样操作流程即告完成。如果设置仍然无法生效,则表明虚拟机在启动过程中所获取的 IP 地址配置并非针对 eth0,此时可以对其它网卡的配置文件进行修改或将其移除。在 CentOS 7 系统中,网络配置的管理机制与早期版本存在差异,主要体现为采用了 Network Manager 服务来负责网络接口的管理。在某些情形下,尽管修改了 `/etc/sysconfig/network-scripts` 目录下的 `ifcfg-eth0` 文件,但网络配置却未能即时生效。此类问题的发生通常源于 CentOS 7 采用了不同于以往的配置读取方法。接下来将具体阐述如何借助 nmcli 命令来处理这一挑战。 以 root 用户身份登录系统并打开终端界面。nmcli 是 Network Manager 提供的命令行界面工具,它支持在命令行环境下执行网络连接的建立、编辑、查询及管理任务。针对修改 eth0 网卡配置的需求,可以遵循以下步骤进行操作: 1. 导航至 `/etc/sysconfig/network-scripts` 目录: ``` cd /etc/sysconfig/network-scripts ``` 2. 检查该目录内是否存在 `ifcfg-eth0.bak` 文件,该备份文件可能是先前调整配置时遗留下来的,若存在可能造成冲突。若发现该文件,可以选择将其删除: ``` [root@localhost netw...
代码转载自:https://pan.quark.cn/s/46fd08fb879c 网管教程 从入门到精通软件篇 ★一。★详尽的xp修复控制台指令及其应用!!! 放入xp(2000)的光盘,安装时选择R,执行修复! Windows XP(涵盖 Windows 2000)的控制台指令是在系统遭遇某些意外状况时的一种极具效用的诊断、检测以及恢复系统功能的工具。笔者确实一直期望能够将这方面的指令进行归纳,此次由老范辛苦整理了这份极具价值的秘籍。 Bootcfg bootcfg 命令用于启动配置与故障恢复(对大多数计算机而言,即 boot.ini 文件)。 带有特定参数的 bootcfg 命令仅在运用故障恢复控制台时方可使用。能够在命令行界面下运用带有不同参数的 bootcfg 命令。 用法: bootcfg /default 设定默认引导选项。 bootcfg /add 向引导清单中增添 Windows 安装。 bootcfg /rebuild 重复整个 Windows 安装流程并让用户选择需添加的项目。 注意:运用 bootcfg /rebuild 之前,应先借助 bootcfg /copy 命令备份 boot.ini 文件。 bootcfg /scan 探查用于 Windows 安装的全部磁盘并展示结果。 注意:这些结果被静态存储,并用于当前会话。若在当前会话期间磁盘配置发生变动,为获取更新的探查结果,必须先重启计算机,然后再次探查磁盘。 bootcfg /list 列示引导清单中已有的项目。 bootcfg /disableredirect 在启动引导程序中禁用重定向。 bootcfg /redirect [ PortBaudRrate] |[ useBio...
代码下载链接: https://pan.quark.cn/s/fc524f791b68 AA制程,即Active Alignment,被理解为主动对准,是一种用于确定零部件装配中相对位置的方法。在摄像头封装阶段,涉及图像传感器、镜座、马达、镜头、线路板等多个部件的重复组装,而传统的封装设备如CSP及COB等,均是依据设备设定的参数进行零部件的移动装配,因而零部件的叠加误差会逐渐增大,最终在摄像头上表现为拍照最清晰的位置可能偏离画面中心、四边清晰度不均等现象。伴随智能手机和其他高端电子产品的普及,摄像头模组的性能正日益受到重视。高分辨率、卓越的低光表现以及稳定视频输出是现代用户所期望的。在摄像头模组的制造环节,各部件的精准定位对成像质量具有决定性作用。因此,一种名为“AA制程”(Active Alignment)的前沿技术被开发出来,成为摄像头精密对准的核心技术。 AA制程,即Active Alignment,是一种在摄像头封装过程中应用的主动对准方法。该方法在多个组件装配阶段发挥作用,涵盖图像传感器、镜座、马达、镜头和线路板等部件。传统的封装方式,例如CSP(Chip Scale Package)和COB(Chip On Board),依赖于设备预设的参数进行组装,但随着组件数量的增加,误差也会累积,最终影响摄像头的表现。例如在成像质量上可能出现中心位置偏移、四角清晰度不一致等问题。 AA制程技术的核心在于实时监测与主动调整。在组装过程中,它借助先进的检测设备持续监控半成品的状态,并根据实时信息对组装部件进行精确修正,从而显著降低装配误差。通过这种技术,能够确保摄像头模组中各组件的相对位置准确无误,从而使得最终的成像效果更加稳定,特别是在中心区域和四角的清晰度上...
内容概要:本文介绍了一套基于Matlab实现的光子晶体90度弯曲波导的二维时域有限差分法(2D FDTD)仿真代码,旨在通过数值模拟手段深入研究光子晶体波导中的光传播特性。该资源聚焦于电磁场与光子学领域的仿真技术应用,系统实现了FDTD算法在复杂介质结构中的建模过程,涵盖空间网格剖分、时间步进迭代、完美匹配层(UPML)边界条件处理、总场散射场(TFSF)激励源设置、介电常数分布定义及电磁场演化可视化等核心模块,能够有效分析光在90度弯曲波导中的传输效率、模式分布与反射损耗等关键性能指标。; 适合人群:具备电磁场理论基础和Matlab编程能力的研究生、科研人员以及从事光子晶体器件设计与仿真的工程技术人员。; 使用场景及目标:①用于教学演示FDTD方法的基本原理与算法流程,帮助理解麦克斯韦方程的离散化求解过程;②支撑科研工作中对光子晶体弯曲波导结构的传输特性进行仿真分析与性能优化;③作为开发更复杂光子集成器件(如分束器、滤波器)数值仿真工具的基础框架; 阅读建议:建议使用者结合经典FDTD教材(如Taflove著作)深入理解算法理论,并在Matlab环境中逐模块调试代码,重点关注电场与磁场的交替更新过程、UPML吸收边界的设计实现以及TFSF源的引入方式,从而全面提升对时域电磁仿真机制的掌握与应用能力。
内容概要:本文围绕直驱式永磁同步电机(PMSM)的矢量控制仿真模型展开研究,基于Simulink平台构建了完整的电机控制系统仿真模型,涵盖电机本体建模、坐标变换(如Clark变换与Park变换)、磁场定向控制(FOC)、电流环与速度环的PI调节、空间矢量脉宽调制(SVPWM)等核心技术环节,旨在实现对电机转矩与转速的高精度、动态响应良好的控制。通过系统化仿真验证控制策略的有效性与鲁棒性,深入分析各模块间的信号流向与控制逻辑,为电机驱动系统的设计与优化提供理论依据和技术支撑,是理论联系工程实践的重要桥梁。; 适合人群:具备电机学、电力电子与自动控制基础知识,熟悉Simulink/MATLAB仿真环境,从事电气工程、自动化、新能源车辆、智能制造等方向的研究生、科研人员及工程技术人员。; 使用场景及目标:①深入理解永磁同步电机矢量控制的核心原理与系统架构;②掌握在Simulink中从零开始搭建复杂电机控制系统的方法与技巧;③应用于课程设计、毕业论文、科研项目中的控制算法验证、参数整定与性能优化;④为后续的硬件在环(HIL)测试或实物系统开发奠定仿真基础。; 阅读建议:建议结合经典电机控制理论教材同步学习,注重理论推导与仿真实现的对应关系,动手实践模型搭建、参数调试与波形分析,特别关注PI控制器参数整定对系统稳定性、动态响应速度和抗干扰能力的影响,通过反复仿真迭代加深对控制机理的理解。
代码下载地址: https://pan.quark.cn/s/a4b39357ea24 Subversion,即 SVN,是一种在软件开发行业中普遍应用的版本管理工具。它支持团队成员之间的协作,用于管理和监控项目文件的历史版本,并保证多人同时编辑时的数据一致性。本指南将深入讲解 SVN 的核心概念、主要目录的权限设置、用户身份验证方式以及基础操作步骤,是初学者入门的理想学习资料。 一、SVN概述 SVN的中心是版本库,它负责存储所有文件和目录,并构建成文件树的结构。版本库能够允许多个客户端进行连接,执行数据的读取或写入。用户可以通过写操作将自己的修改同步至版本库,而其他用户则可以通过读操作来查看这些变更。这种集中式的版本管理机制使团队协作更加高效和有序。 二、SVN的访问权限配置 在 SVN 系统中,不同的用户或用户团队会被分配不同的访问权限。以质量管理部门的 SVN 实例为例: - 主管朱猛、张凯峰、吕鑫、张颂、马凌具备读写权限。 - 员工陈玲及其他成员仅拥有读权限。 - 项毓毅享有读写权限,主管团队则只有读权限。 - 张凯峰同样拥有读写权限,而其他同事仅能进行读取操作。 三、登录凭证 用户在访问 SVN 时,需要使用基于姓名拼音的用户名和符合特定规则的密码。例如,用户张三的登录名设定为"zhangs",密码为"zhangs#123",这样的设置旨在简化记忆和管理工作。 四、基础操作指南 1. 安装 SVN 客户端:本教程推荐采用 TortoiseSVN 进行安装,可以从指定的 FTP 地址获取安装包。 2. 读取操作: - 项毓毅和管理团队可以直接检出到"质量管理部"目录。 - 其他员工需要分别检出到"部门财富库"和"产品线管理"子目录,因为他们无法访问"部...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值