YOLOv11多模态融合实战：RGB+红外线（IR）双输入下的HCANet模块优化与性能突破

原创

于 2026-02-12 21:46:58 发布 · 85 阅读

标签

#YOLOv11 #多模态融合 #HCANet #目标检测

收录于

1. 为什么需要RGB+红外线的多模态融合？

在目标检测领域，单一模态的数据往往存在明显的局限性。比如在夜间、雾霾、强光逆光等复杂环境下，传统的RGB摄像头采集的图像质量会大幅下降。这时候红外成像就能发挥独特优势——它不依赖可见光，通过物体自身的热辐射成像，在完全黑暗的环境中也能清晰呈现目标轮廓。

但红外图像也有短板：缺乏色彩和纹理细节，难以区分外观相似的不同物体。去年我在做一个安防项目时就深有体会：夜间红外画面中的人和电线杆热成像轮廓非常相似，仅靠红外数据误检率高达30%。后来引入RGB图像进行多模态融合后，准确率直接提升了22个百分点。

多模态融合的核心思想就是让不同传感器数据优势互补。常见的融合策略有三种：

前期融合（Early Fusion）：在输入层直接拼接图像
中期融合（Mid Fusion）：在特征提取后融合
后期融合（Late Fusion）：分别检测后合并结果

实测下来，中期融合在YOLOv11上表现最好。因为它既保留了各模态的独立特征提取过程，又能在深层网络中进行特征交互。下面这个对比表格很能说明问题：

融合方式	mAP@0.5	推理速度(FPS)	显存占用
单RGB	0.712	142	3.2GB
单IR	0.653	138	3.1GB
前期融合	0.785	125	4.7GB
中期融合	0.832	118	5.1G

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sql99

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

AI助力提升道路交通安全，基于YOLOv11全系列【n/s/m/l/x】参数模型开发构建红外夜视路面交通场景下行人、车辆智能化检测识别预警系统

Together_CZ的博客

12-24

817

AI助力提升道路交通安全，基于YOLOv11全系列【n/s/m/l/x】参数模型开发构建红外夜视路面交通场景下行人、车辆智能化检测识别预警系统

YOLOv11多模态融合实战：RGB+红外线（IR）双输入下的HCANet模块优化，突破小目标检测瓶颈

blue的专栏

02-17

804

本文实战解析了如何将HCANet的卷积和注意力融合模块（CAFM）集成到YOLOv11中，构建RGB与红外线（IR）双模态输入的目标检测模型。该方案通过中期特征融合与CAFM模块的动态加权机制，有效结合了RGB的纹理细节与IR的热辐射轮廓优势，显著提升了夜间及复杂场景下的小目标检测精度，成功突破了检测瓶颈。

参与评论您还未登录，请先登录后发表或查看评论

AMD and Nvidia GOP update 1.9.6

06-30

打开链接下载源码： https://pan.quark.cn/s/c43e5bd27521 标题中的“AMD and Nvidia GOP update 1.9.6.rar”表示这是一个包含了AMD与Nvidia显卡的GOP（Graphics Output Protocol）驱动程序升级至1.9.6版本的压缩文件。该更新主要针对显卡在UEFI（统一可扩展固件接口）环境下的图形输出性能进行优化，并致力于提升系统的稳定性。在描述中提及“显卡附加UEFI引导工具，最新版”，表明此次更新内含了一个专为UEFI BIOS环境设计的显卡引导工具，或许表现为一个自启动脚本或程序，例如GOPupd.bat。通过这一工具，用户能够在UEFI模式下对显卡进行精确的配置和初始化，从而保障操作系统能够最大化地发挥显卡的效能。必需的组件包括“colorama-0.4.3”，这是一个在Windows平台上用于管理颜色控制序列的Python模块，可能在更新过程中用于生成彩色命令行显示，以增强用户交互的直观性。此外，“Visual C++Redistributable”是微软提供的运行时支持库，旨在确保基于C++编译的应用程序能够正常运行，此处可能用于更新工具或相关依赖模块。标签“uefi bios”突显了该更新与UEFI BIOS系统的紧密关联，暗示其将作用于计算机的启动序列及硬件初始化过程。压缩包内的文件清单如下： 1. GOPupd.bat - 很有可能是负责执行GPU UEFI引导更新的核心脚本。 2. #Nvidia_ROM_Info.bat 和 #AMD_ROM_Info.bat - 这两个文档可能用于采集Nvidia与AMD显卡的ROM数据，以辅助识别显卡型号并执行适配性验证。 3....

Delphi 7 控件之ColorCbo.7z

06-30

Delphi 7 控件之ColorCbo.7z

STM32H750 idle serial interrupt, DMA UART receive, STM32CubeMX generate MDK5 compile

06-30

代码下载地址： https://pan.quark.cn/s/a2e2c95e6128 意法半导体（STMicroelectronics）研发的STM32H750是一款性能优越的微控制器，属于STM32H7系列，拥有卓越的处理性能以及多元化的外设接口。在此项工作中，我们将研究如何借助STM32H750达成串口空闲中断（IDLE interrupt）的运用、借助DMA完成UART（通用异步收发传输器）的数据传输，并且探究如何运用STM32CubeMX配置并构建MDK5（Keil uVision5）项目。串口空闲中断是串口通信中的一个核心功能，当串口在一段时间内没有进行数据交换时，会引发该中断。这种功能在需要实时监测串口状态的应用场合中非常有价值，比如，在等待特定指令或需要降低能耗的情况下。在STM32H750中，设定串口空闲中断通常包含以下几个环节： 1. 串口设置：在STM32CubeMX中选定相应的UART接口，并激活中断功能。 2. 中断优先级设定：按照应用需求设定中断优先级。 3. 中断服务函数注册：在程序代码中定义中断服务函数以应对中断事件。 4. 启用串口空闲中断：在初始化代码中激活串口的IDLE位，使能中断。 DMA（Direct Memory Access）传输是一种高效的数据传输机制，它允许外设直接与内存进行交互，无需CPU的介入，从而减轻了CPU的工作负担。在STM32H750中，我们可以运用DMA配合UART来接收数据： 1. DMA配置：在STM32CubeMX中为UART选择合适的DMA通道，并设定传输特性。 2. UART配置：将UART设置为DMA模式，并指定接收缓冲区的地址。 3. 中断配置：开启DMA传输完成中断，以便在数据接收完...

113页-城市数字孪生优秀案例集.pdf

06-30

数字孪生也被称为数字映射、数字镜像，核心是在虚拟空间中为物理实体打造一个动态的“数字克隆体”。它依托物理模型、传感器实时数据和历史运行数据，通过多学科融合的仿真过程，精准映射现实世界中实体装备、系统乃至整个城市的全生命周期状态，和传统静态设计图纸不同，这个“孪生体”会随物理实体的状态同步动态更新，实现虚实之间的实时联动。这项技术最核心的优势是能在虚拟空间完成大量高成本、高风险的测试推演，无需改动物理实体就能验证优化方案，大幅降低研发和运维成本。如今它已经深入工业制造、航空航天、智慧城市、水利调度等诸多领域，小到一台发动机的“极限试车”，大到跨区域调水工程的智能调度，数字孪生都能通过模拟仿真提前预判风险、优化流程，成为驱动各行业数字化转型的关键核心技术。

STM32CubeIDE 1.9.0 code completion plugin

06-30

源码直接下载地址： https://pan.quark.cn/s/d64de7ee3e36 STM32CubeIDE是由STMicroelectronics（意法半导体）开发的一款集成开发环境，其核心功能是针对STM32系列微控制器进行优化，并集成了包括源代码编写、编译执行、调试检测以及项目参数设置在内的完整开发工具集。该开发平台依托于Eclipse系统框架构建，旨在为编程人员营造一个便捷且生产力高的工作场景。1.9.0版本属于其产品线中的一个成熟版本，通常包含了若干性能增强措施以及新特性的集成。在嵌入式系统的构建过程中，代码的自动完成机制是一项关键的辅助技术，它能够显著提升工作速率并降低操作失误。专门为这一目的设计的STM32CubeIDE 1.9.0自动代码补全组件，能够有效满足开发者的相关需求。通过将压缩文件中的内容部署到STM32CubeIDE安装路径下的`plugins`子目录中，该插件即可被系统自动检测并激活，从而在代码编写阶段，系统能够基于上下文信息智能地预判并展示潜在的函数名称、变量定义或常量值，进而辅助开发者迅速完成输入任务。基于ARM Cortex-M架构的STM32系列微控制器，在物联网装置、工业自动化系统、个人消费类电子设备等领域具有广泛的部署。在这些应用场景中，单片机扮演着核心角色，而STM32凭借卓越的处理性能、多样化的外部接口配置以及出色的能源控制能力，已成为众多开发者的首选方案。STM32CubeIDE所提供的自动代码补全功能，对于初入行业的开发者而言尤为适宜，因为它能够实时呈现API函数的相关信息，涵盖函数标识符、参数的数据类型与数目，乃至函数的返回类型，从而协助开发者精准地运用STM32的固件库。不仅如此，即便对于已经熟练掌握ST...

2026全球RDMA网络芯片行业研究报告.docx

06-30

2026全球RDMA网络芯片行业研究报告

室外电力巡检机器人加速推动电网运维智能化升级.docx

06-30

室外电力巡检机器人加速推动电网运维智能化升级

Ant Design for React DatePicker中文设置

最新发布

06-30

源码链接： https://pan.quark.cn/s/a4b39357ea24 在 Ant Design for React 框架中的 DatePicker 日期组件，其默认界面语言为英文，但在特定场景下，可能需要将其界面语言调整为中文。本文将详细阐述如何将 Ant Design for React 的 DatePicker 日期组件的初始语言设定为中文。要完成这一设置，首先需要掌握 Ant Design for React 的 DatePicker 日期组件的语言配置机制。通常，DatePicker 组件的语言设置为 en-US，然而，我们可以通过 locale 参数来调整这一配置。单一组件的中文设置 ---------------------- 若需将 Ant Design for React 的 DatePicker 日期组件的界面语言改为中文，可以通过运用 locale 参数来调整其语言设置。例如，可以利用 zh-CN 语言包将 DatePicker 日期组件的界面语言设定为中文。需要导入 zh-CN 语言包： ``` import zhCN from antd/es/date-picker/locale/zh_CN; ``` 接着，在 DatePicker 日期组件内通过 locale 属性设定界面语言为中文： ``` <DatePicker locale={zhCN} />; ``` 实施上述步骤后，DatePicker 日期组件将切换至中文显示。全局语言配置 ------------- 倘若需要在整个应用程序中保持一致的界面语言，可以利用 ConfigProvider 组件来实现全局语言设定。ConfigProvider 组件借助 ...

【工业自动化】基于IEC 61131-3的软PLC全栈开发：ARM/Linux/RTOS平台实时任务调度与Modbus/CANopen通信系统设计

06-30

内容概要：本文系统讲解了企业级软PLC全栈开发的核心技术体系，涵盖传统PLC硬件架构与工作原理、IEC 61131-3五种编程语言（梯形图、功能块图、结构化文本、指令表、顺序功能图）的原理与实现方式，以及软PLC在ARM/Linux及RTOS平台上的运行时系统移植与实时任务调度机制。深入探讨了Modbus RTU/TCP、CANopen等工业通信协议的主从站实现，重点解析了总线周期与PLC任务周期的匹配机制，并介绍了基于PLCopen规范的运动控制技术，包括单轴控制、多轴协同、电子齿轮与电子凸轮等高级功能。全文结合C/C++、C#代码实例，提供可落地的技术方案。; 适合人群：具备嵌入式系统、工业自动化或软件开发基础，从事工控领域研发1-3年的工程师或技术人员；熟悉实时系统、通信协议及运动控制的进阶开发者。; 使用场景及目标：①构建可在ARM、Linux或RTOS上运行的软PLC系统；②实现IEC 61131-3编程语言解析与执行引擎；③集成Modbus、CANopen等工业总线通信；④完成高精度运动控制应用开发；⑤优化任务调度以满足硬实时需求。; 阅读建议：建议结合嵌入式开发环境与工业控制实验平台，边学边实践文中代码示例，重点关注扫描周期控制、任务调度策略与通信协议实现细节，深入理解软PLC的实时性保障机制。

物理信息神经网络PINNs在布洛赫-托雷(Bloch-Torrey)方程上的应用求解【torch案例】（Python代码实现）

06-30

内容概要：本文系统阐述了物理信息神经网络（PINNs）在求解布洛赫-托雷（Bloch-Torrey）方程中的实际应用，结合PyTorch框架提供了完整的Python代码实现案例。该方法通过将物理方程的先验知识嵌入神经网络的损失函数中，实现了无需大量标注数据即可高精度求解复杂的偏微分方程，特别适用于科学计算与工程仿真领域。文章不仅展示了PINNs在特定物理模型中的建模流程与实现细节，还强调了科研过程中逻辑严谨性、善用工具与创新思维的重要性，倡导读者循序渐进地学习，避免因过度纠结技术细节而迷失方向。配套的完整代码与资料可通过指定网盘链接或关注公众号“荔枝科研社”获取。; 适合人群：具备扎实数学基础与Python编程能力，从事科研工作或攻读研究生及以上学位的研究人员，尤其适合专注于物理建模、数值仿真、深度学习与科学计算交叉领域的学习者与开发者。; 使用场景及目标：①掌握PINNs求解经典物理方程（如Bloch-Torrey方程）的整体建模思路与代码实现流程；②深入理解如何将物理守恒律与微分算子作为软约束或硬约束融入神经网络训练过程，从而提升模型的泛化性与物理一致性；③为开展相关课题研究、撰写学术论文、复现前沿研究成果或进行跨学科创新提供可靠的技术参考与代码支持。; 阅读建议：建议读者结合所提供的代码实例，逐行调试并可视化训练过程，重点关注损失函数的设计、物理残差项的构建以及网络超参数的调优策略。同时，推荐关注公众号“荔枝科研社”以获取完整资源包，便于进行更深层次的实践拓展与科研创新。

unity 原生资源包.unitypackage

06-30

官方内置标准资源包（Unity 自带原生素材包） Unity 编辑器自带，不需要外部文件，菜单直接导入： Assets → Import Package 自带分类：2D、Cameras、Characters、Environment、Effects、ParticleSystems、Prototyping、Terrain、UI、Vehicles 等。作用：官方免费基础模型、材质、粒子、相机脚本，纯原生无第三方版权。

Qt Creator快速入门

06-30

Qt Creator快速入门

航天器交会的分布式MPC模型预测控制研究（Matlab代码实现）

06-30

内容概要：本文围绕航天器交会过程中的分布式模型预测控制（MPC）方法展开研究，通过Matlab代码实现相关算法，系统探讨了分布式MPC在提升航天器交会对接控制精度与鲁棒性方面的应用。研究详细阐述了相对动力学建模、状态预测、滚动优化与反馈校正机制，结合多航天器系统的耦合特性与约束条件，构建了分布式优化框架，有效解决了协同控制中的实时性与计算复杂性问题，具备较强的工程应用价值。; 适合人群：具备自动控制理论基础、熟悉Matlab编程，从事航天器控制、飞行器导航与制导、多智能体协同控制等方向的科研人员及研究生。; 使用场景及目标：①应用于航天器近距离交会、编队飞行与自主对接等任务的控制系统设计；②为复杂空间任务中的多航天器协同控制提供算法支撑与仿真验证平台；③支持对分布式MPC在非线性、强耦合、多约束动力学系统中的性能分析与算法优化研究。; 阅读建议：建议读者结合提供的Matlab代码进行仿真复现，重点理解预测模型构建、代价函数设计、分布式求解策略及收敛性分析，可进一步拓展至异构航天器编队或存在通信延迟的场景以深化理论与实践结合。

VS2010 SP1离线完整安装包(1.48G)

06-30

源码链接： https://pan.quark.cn/s/a4b39357ea24 vs2010 sp1的完整离线安装包（大小为1.48G），经过实际测试确认可以正常使用。

python通过flask和前端数据收发

06-30

代码下载地址： https://pan.quark.cn/s/ad4b5be5d2da python代码： # -*- coding: utf-8 -*- from flask import Flask, jsonify, render_template, request import json app = Flask(__name__) # 初始化Flask应用对象 testInfo = {} num = 10 @app.route('/test_post/', methods=['GET', 'POST']) # 定义路由规则 def test_post(): global num receive data recv_data = request.get_data() if re

Delphi 7 控件之AutoUpgrader Pro.7z

06-30

Delphi 7 控件之AutoUpgrader Pro.7z

ethercat通讯协议说明及编程提示

06-30

代码下载链接： https://pan.quark.cn/s/a4b39357ea24 EtherCAT（Ethernet for Control Automation Technology）是一种专为自动化技术打造的实时工业以太网通信协议。该协议于2003年由Beckhoff Automation公司发布，凭借其卓越的高速传输能力、极低的延迟以及精准的时间同步性能，在自动化行业中获得了广泛的部署和应用。本文将详细剖析EtherCAT协议的工作原理、系统架构、核心优势以及相关的编程操作实践。 EtherCAT协议虽然基于标准的TCP/IP协议栈，但通过独特的数据传输方案，实现了设备间数据包的高效快速传送。其核心思想在于“分布式时钟”技术，这一机制保证了所有参与设备能够达到微秒级的时间同步精度，这对于需要精确协调的自动化操作而言至关重要。协议的运作模式遵循主从结构，其中主站负责整体的数据调度和交换任务，而从站则承担具体的控制功能。 1. ** EtherCAT协议结构**：构成EtherCAT网络的基本单元是由一个主站以及多个从站组成，这些从站可以涵盖多种类型的现场设备，例如可编程逻辑控制器（PLC）、各类传感器或执行机构。主站通过在以太网帧中封装控制指令来驱动网络，这些指令信息在从站之间实现无缝传递，每个从站仅处理与其功能相关的数据，并在数据流转过程中进行必要的更新，从而达成高效的数据交互。 2. ** 数据传输**： EtherCAT运用了“反向通道”机制，使得数据在以太网帧的有效载荷区域内进行双向流动。主站发出的指令帧内包含了完整的工作周期数据，从站根据需求提取相关数据，并在返回的响应帧中反馈其状态信息，这种设计显著缩短了通信的延迟时间。 3. ** 时间...