LWN:Dentry negativity

探讨了Linux内核中负目录项(negativedentries)的作用及其带来的内存占用问题,提出了一种通过sysctl参数限制其数量的方法,以及社区对此的不同观点。

关注了就能看到更多这么棒的文章哦~

Dentry negativity

By Jonathan Corbet
March 12, 2020

原文来自:https://lwn.net/Articles/814535/

2017年时,Waiman Long提出patch来限制kernel里保存的"negative dentries"的数量。3年过去了,好消息是这个功能还在继续,可是,看起来仍然不能合入mainline。也可以理解,其实大多数人还根本不知道什么是negative dentries,以及为什么kernel开发者会关心这个概念。这里底层的问题其实更加难以解决。

Linux kernel里的dentry是一个目录项在内存中的表现形式。有了它,此前解析过的路径就不需要再逐个目录节点解析一次了,可以直接拿到目标文件或目录。这些dentry cache可以让文件路径lookup工作大大加速。尤其是那些频繁访问的目录(如/tmp, /dev/null, /usr/bin/tetris)都在dentry cache里,可以节省大量filesystem I/O操作。

而negative dentry则不太一样:这是指文件树lookup过程中失败的项目在memory中的记录。如果用户敲入“more cowbell”命令并且当前目录下没有cowbell这个文件,那么kernel就会相应创建一个negative dentry。如果我们这个假象用户很固执,一直重复键入这个命令,kernel就可以以更快的方式来告诉用户“这个文件不存在”,尽管用户更早看到这个消息其实也不会怎么开心。

所以negative dentry可能有助于那些经常敲错命令的场景。不过其实它还有一些其他的重要作用。人们发现真实系统中经常出现对不存在的文件进行lookup的操作,并且经常都是针对一些固定文件。比如寻找动态链接库的动作就是一个典型例子,人们可能会按指示敲入类似下列的命令:

    $ strace -eopenat /usr/bin/echo 'Subscribe to LWN'

在我的系统上,输出是这样的:

    openat(AT_FDCWD, "/lib64/libc.so.6", O_RDONLY|O_CLOEXEC) = 3
    openat(AT_FDCWD, "/usr/lib/locale/locale-archive", O_RDONLY|O_CLOEXEC) = -1 ENOENT (No such file or directory)
    openat(AT_FDCWD, "/usr/share/locale/locale.alias", O_RDONLY|O_CLOEXEC) = 3
    openat(AT_FDCWD, "/usr/lib/locale/en_US.UTF-8/LC_IDENTIFICATION", O_RDONLY|O_CLOEXEC) = -1 ENOENT (No such file or directory)
    openat(AT_FDCWD, "/usr/lib/locale/en_US.utf8/LC_IDENTIFICATION", O_RDONLY|O_CLOEXEC) = 3
    [...]

这么简单的一个echo命令就会在Fedora 31系统上触发13次文件查找失败。如果调用oowriter的话就会有68次,而调用gnucash则会触发277次。对这种应用程序来说,如果能优化这些文件查找失败的情况,就能让人感受到程序启动时间有加快。编译器或者各种语言的运行时(例如Java虚拟机)也会有许多失败的文件查找。可以想象一下C的#include操作或者Python的import操作就能理解了。我在自己的系统上编译了一个"allmodconfig"的kernel,就观察到了52,799,262次文件查找失败,这肯定有优化价值。

不过negative dentry有一个小问题,他们需要占用内存空间。所有这些失败的文件查找算在一起,可能会生成许多许多negative dentries,甚至可能导致内存太紧张从而把其他一些有用数据也挤出去了。LWN在2002年的时候就报道过人们对这个问题的抱怨,来自memory-management的开发者Andrea Arcangeli。不过一般来说kernel里的shrinker机制可以管控好dentry cache整体,同样也能控制住negative dentry不要占用太多。

不过Long主要关注的是普通shrinker无法处理的情况。他在2月底的时候发出了最新版本patch set。他指出,正常的dentry是受限于系统中的文件总数的,而negative dentry代表的系统中不存在的文件,则不会有数量上限。Eric Sandeen就举出了一个例子来做了解释,在NSS library中有些代码在启动时会专门去打开10,000个不存在的文件,目的是搜集一些时间信息。就算不提这些极端情况,其实negative dentries的数量仍然有可能会增长到非常大的。

Long在他的patch set中增加了一个新的sysctl开关/proc/sys/fs/dentry-dir-max。值为0时(缺省情况),系统的行为跟现在保持不变。如果改成某个正整数,那么所有negative dentries的数量就不能超过这个数字。但是这个限制数不可以低于256,避免系统过于频繁地清理dentry。在需要清理时,代码会先挑最近没有引用过的dentry来清理,确保总数小于上限值的7/8。如果这个功能没有打开的话,就会用一个static key(译者注:我不知道怎么翻译了)来避免系统被此机制拖慢。

目前看来大家都不反对限制一下这些negative dentry的数量上限。不过这里所选择的实现方式其实还是有些争议的。每次新增sysctl开关其实都会有人有意见,就像Matthew Wilcox所说:“A sysctl is just a way of blaming the sysadmin for us not being very good at programming”。通常来说,系统管理员很难第一时间发现这些sysctl开关,甚至很难了解清楚该怎么设置。系统管理员又怎么能知道自己的系统和负载情况下应该设置多大的上限值呢?

因此,Wilcox等人认为应该增加一个kernel动态计算出来的数字,并且可以人工调整。Long建议说让系统管理员来配置系统中可以用多大的内存来供negative dentry使用,而不用像现在这样来设置目录数量。Wilcox其实不关心内部实现是怎样的方式,但是他坚持认为应该可以自适应来计算得出。

Dave Chinner则表示怀疑这种机制是否真的有用。他建议把那些违背规则的应用程序直接全部都限制到同一个memory cgroup里面。这样当cgroup内部内存不够的时候,系统会在这一组应用程序中来回收内存,也包括回收它们的negative dentries。他认为既然本来就有限制某个进程使用的内存总量的有效机制了,那么没有必要再增加一个。

Long回答说,尽管cgroup有些帮助,但是没法完全解决问题。系统中negative dentries的数量过多的话会导致触发negative dentry的程序性能下降,哪怕cgroup把它跟其他部分隔离开也不能改变这一点。他还指出,系统守护进程经常是在root cgroup下运行的,这样就没法通过这种方式来限制。

正如这一系列patch此前几次提出的时候一样,讨论还没得到任何结论,就冷却了下来。这版patch进入mainline的机会,不比2年前的版本更高。所以人们试图控制kernel中negative dentries数量的最新努力,又一次没能成功。

全文完

LWN文章遵循CC BY-SA 4.0许可协议。

欢迎分享、转载及基于现有协议再创作~

长按下面二维码关注,关注LWN深度文章以及开源社区的各种新近言论~

代码下载链接: https://pan.quark.cn/s/a4b39357ea24 iSecure Center综合安防管理平台配置手册V2.0最新完整版。综合安防管理平台是一个集成了多种功能的智能化系统,通过接入视频监控、停车场、门禁以及报警检测等设备,达成安防信息化集成与联动。以电子地图作为核心载体,融合各类安防设备,达成安防信息化集成与联动。 【海康威视iSecure Center综合安防管理平台配置手册 V2.0.0】是专门针对该公司的安防管理系统而编写的详细指南。iSecure Center是一个集成化、智能化的解决方案,其目标是通过整合视频监控、停车场管理、门禁控制和报警系统等多个安全子系统,达成全面的安防信息化集成与联动。平台的核心作用是借助电子地图作为基础,整合各种安防功能,以提供高效且全面的安全监控和管理。 手册中明确指出,iSecure Center的配置和使用仅限于海康威视HIKVISION的用户,并且详细说明了版权和法律声明,强调手册内容的所有权归属于杭州海康威视数字技术股份有限公司,未经授权,禁止进行任何形式的复制、翻译或修改。同时,手册也声明了产品仅适用于中国大陆地区,并且在法律允许的范围内,产品按照现有状态提供,不提供任何形式的保证,对于因使用产品或手册所导致的损失,公司不承担任何赔偿责任。 手册还特别警示用户,将产品接入互联网可能面临风险,如网络攻击、黑客入侵或病毒感染,用户需自行承担这些风险。同时,用户必须遵守适用的法律法规,不得将产品用于侵犯第三方权利或不当用途,否则公司将不承担任何责任。 在操作前,手册提供了符号约定,包括说明、注意和危险等级的标识,帮助用户理解文档中关键信息的重要性。例如,“注意”用于提醒用户重要操作或...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值