【CUDA】初步了解PageLocked host memory的mapped memory功能使用

本文探讨了CUDA中的PageLocked memory和Mapped memory的优势,特别是在数据传输速度和并发执行方面。实验目标是了解如何使用Mapped pagelocked memory,通过六个步骤展示了创建相关应用程序的过程,包括设置cudaDeviceMapHost标志、分配内存、映射到设备、执行kernel和同步操作。示例代码展示了如何在主机和设备之间共享内存,以提高程序效率。

导言:

    大家都知道CUDA 中PageLocked memory 相比portable memory 有着多种优势:

  1. 在有front-side bus的系统中,pagelocked memory 所提供的host 与device之间的数据传送速度,快得多。测试结果如图Fig.1 Fig.2所示。
  2. kernel execution 和 pagelocked memory 与 device memory 间的数据复制可同时进行(具体有待实验)。
  3. 一些设备(计算能力2.0及以上),pagelocked memory 可以被映射到设备地址空间(mapped memory),从而减少对数据复制的需求,增加程序运行速度,这一项将是本文考察的重点。

    当然pageLocked memory 也有缺点,那就是内存如果占用过多将影响程序的运行速度,因为这一块内存被锁定后无法自由分配给其他线程或程序。当然对于主机内存资源足够用的小e来说根本也不成问题(4G)。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值