AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

使用malloc分配的数据的CPU内存访问延迟与Tegra TK1上的cudaHostAlloc

时间：2022-03-21分类：asp.Net作者：编程之家

我正在执行一个简单的testing，它比较从malloc（）分配的数据的访问延迟和从主机（cpu执行访问）的cudaHostAlloc（）分配的数据。我注意到访问使用cudaHostAlloc（）分配的数据比访问Jetson Tk1上malloc（）分配的数据要慢得多。

对于独立GPU而言，情况并非如此，似乎只适用于TK1。经过一番调查，我发现用cudaHostAlloc（）分配的数据是映射到进程地址空间的/ dev / nvmap区域的映射（mmap）。对于映射在进程堆上的普通malloc'd数据，情况并非如此。我知道这个映射可能是必要的，以允许GPU访问数据，因为cudaHostAlloc的数据必须从主机和设备都可见。

我的问题是：从主机访问cudaHostAlloc'd数据的开销从哪里来的？数据映射到/ dev / nvmap在cpucaching上未caching？

是否有可能在Windows机器上编译Linux的CUDA C代码？

没有检测到支持CUDA的设备

为什么我的c程序突然使用了30g的虚拟内存？

TensorFlow：libcudart.so.7.5：无法打开共享对象文件：没有这样的文件或目录

限制对Cuda和OpenCL资源的访问

设备内存空间中的cuda程序内核代码

ImportError：libcudart.so.7.0：无法打开共享对象文件：没有这样的文件或目录

使用LLVM / Clang在Win10上使用OpenMP的Cuda

CUDA 5.0：replace为cutil.h？

在Ubuntu 12.10中安装cuda 5样本

我相信我找到了这个行为的原因。经过进一步调查（使用Linux跟踪事件并查看nvmap驱动程序代码）之后，我发现开销的来源是使用NVMAP_HANDLE_UNCACHEABLE标志将使用cudaHostAlloc()分配的数据标记为“uncacheable”。调用pgprot_noncached()是为了确保相关的PTE被标记为不可缓存的。

主机访问使用cudamallocManaged()分配的数据的行为是不同的。数据将被缓存（使用标志NVMAP_HANDLE_CACHEABLE ）。因此从主机访问这个数据就相当于malloc()'d数据。同样重要的是，CUDA运行时不允许设备（GPU）与主机同时访问与cudamallocManaged()一起分配的任何数据，并且这样的操作会生成段错误。但是，运行时允许同时访问设备和主机上的cudaHostAlloc()'d数据，我相信这是使cudaHostAlloc()'d数据无法缓存的原因之一。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

.net6 使用gRPC示例

### 创建一个gRPC服务项目（grpc服务端）和一个 webapi项目（客户端），测试项目结构如下： ![](https://img2023.cnblogs.com/blog/2750888/202308/2750888-20230801172537068-1439068711.png) ###

作者：Net开发-孔明时间：2024-09-27

.Net 6 SignalR 实际业务开发中遇到的问题及解决办法

一、SiganlR 使用的协议类型 1.websocket即时通讯协议 2.Server-Sent Events（SSE）服务器事件 3.longpolling 长轮询。如果客户端开启协商，会按顺序选择可兼容的协议。（默认开启协议协商）如果客户端禁用协商，只...

作者：Net开发-孔明时间：2024-09-27

.Net 6 WebApi 项目部署到 Linux 系统上的 Docker 容器

.Net 6 WebApi 项目在Linux系统上打包成Docker镜像，发布为Docker容器实例步骤教学，超详细！

作者：Net开发-孔明时间：2024-09-27

PowerDesigner与UML建模应用

一、 PD简介PowerDesigner 是一个集所有现代建模技术于一身的完整工具，它集成了强有力的业务建模技术、传统的数据库分析和实现，以及UML对象建模。通过了元数据的管理、冲突分析和真正的企业知识库等功能。利用它可...

作者：小码编匠时间：2024-09-26

分页存储过程的使用

一、存储过程存储过程就像数据库中运行的方法(函数) 优点：速度快，在数据库中保存的存储过程语句都是编译过的允许模块化程序设计提高系统的安全性，防止SQL注入减少网络流量，只传输存储过程的名称二、存储过程...

作者：小码编匠时间：2024-09-26

.NET中应用Ueditor(富文本编辑)的配置和使用

一、Ueditor的下载 1、百度编辑器下载地址：http://ueditor.baidu.com/website/download.html 2、下载完整源码包，解压到任意目录，解压后的源码目录结构如下所示： 3、编辑器展示：二、Ueditor的使用 1、添...

作者：小码编匠时间：2024-09-26

富文本编辑器操作

推荐一款比较牛的富文本编辑器：http://kindeditor.net/

作者：小码编匠时间：2024-09-26

编程中的异或运算应用

一、异或运算异或，英文为exclusive OR，或缩写成xor异或（xor）是一个数学运算符。它应用于逻辑运算。异或的数学符号为“⊕”，计算机符号为“xor”。其运算法则为： a⊕b = (¬a ∧ b) ∨ (a ∧¬...

作者：小码编匠时间：2024-09-26

什么是云计算

一、云计算概念云计算（cloud computing）是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电...

作者：小码编匠时间：2024-09-26

WCF的学习之旅

一、WCF的简单介绍 Windows Communication Foundation(WCF)是由微软发展的一组数据通信的应用程序开发接口，可以翻译为Windows通讯接口，它是MS为SOA （Service Oriented Architecture）战略而设计的一套完整的技术框...

作者：小码编匠时间：2024-09-26