导言:
大家都知道CUDA 中PageLocked memory 相比portable memory 有着多种优势:
- 在有front-side bus的系统中,pagelocked memory 所提供的host 与device之间的数据传送速度,快得多。测试结果如图Fig.1 Fig.2所示。
- kernel execution 和 pagelocked memory 与 device memory 间的数据复制可同时进行(具体有待实验)。
- 一些设备(计算能力2.0及以上),pagelocked memory 可以被映射到设备地址空间(mapped memory),从而减少对数据复制的需求,增加程序运行速度,这一项将是本文考察的重点。
当然pageLocked memory 也有缺点,那就是内存如果占用过多将影响程序的运行速度,因为这一块内存被锁定后无法自由分配给其他线程或程序。当然对于主机内存资源足够用的小e来说根本也不成问题(4G)。



本文探讨了CUDA中的PageLocked memory和Mapped memory的优势,特别是在数据传输速度和并发执行方面。实验目标是了解如何使用Mapped pagelocked memory,通过六个步骤展示了创建相关应用程序的过程,包括设置cudaDeviceMapHost标志、分配内存、映射到设备、执行kernel和同步操作。示例代码展示了如何在主机和设备之间共享内存,以提高程序效率。
3452

被折叠的 条评论
为什么被折叠?



