CUDA相关的解决方案

当前位置：代码迷 >> CUDA

CUDA异常解决方案列表

[CUDA] 数组求和的高速方法（利用cuda的共享内存）-第二部分之程序完善
数组求和的快速方法（利用cuda的共享内存）--第二部分之程序完善上一篇提到，那份源码的使用是有限制的。这次来完善一下。其实就是迭代多次，使得最后一次刚好在一个线程块可以求和。完善部分：template<classDType>DTypearray_sum_gpu(DType*dev_ar...

776
热度
[CUDA] 数组求和的高速方法（利用cuda的共享内存）-第三部分之性能分析
数组求和的快速方法（利用cuda的共享内存）--第三部分之性能分析测试的数组数量是constintnum_elements=1<<20;运算次数是1000次。发现gpu的分配内存和拷贝操作很花时间。1对数量为1<<20的数组，1000次cpu求和操作，时间是7720.0ms。...

729
热度
[CUDA] visual profiler 调试cuda并行程序：依据行号定位出错行
visualprofiler调试cuda并行程序：根据行号定位出错行用visualprofiler调试cuda程序，如下图：如图所示，显示某些行的访存问题，如328,329,330等。根据行号到cuda代码中，找到相应的行，查看，分析。如此，毕竟不方便。设想，如果想vs中调试程序那样（双击行号可以定...

636
热度
[CUDA] CUDA程序编译过程中产生警告的解决办法
CUDA程序编译过程中产生警告的解决方法在编译CUDA程序的时候，会产生大量的警告信息，如下：1>1errordetectedinthecompilationof"C:/Users/Allen/AppData/Local/Temp/tmpxft_00001024_00000000-5...

685
热度
[CUDA] cuda核函数又调用核函数，多层并行
cuda核函数再调用核函数，多层并行#include<stdio.h>__global__voidchildKernel(inti){ inttid=blockIdx.x*blockDim.x+threadIdx.x; printf("parent:%d,child:%d\n&...

843
热度
[CUDA] cuda-convnet 卷积神经网络一般性构造卷积核个数和输入输出的关系以及输入输出的个数的说明
cuda-convnet卷积神经网络一般性结构卷积核个数和输入输出的关系以及输入输出的个数的说明:卷积神经网络一般性结构卷积核个数和输入输出的关系以及输入输出的个数的说明:以cifar-10为例:Initializeddatalayer'data',producing3072outp...

767
热度
[CUDA] CUDA跟OpenCL异同点比较
CUDA和OpenCL异同点比较CUDA和OpenCL异同点比较一、概述对CUDA和opencl有一定的编程经验，但是细心的人可以发现，OPENCL就是仿照CUDA来做的。既然两个GPU的编程框架如此相像，那么他们究竟有什么不同呢？下面就一一道来。二、数据并行的模型OpenCL采用的数据并行模型就是...

610
热度
[CUDA] CUDA系列学习（1）An Introduction to GPU and CUDA
CUDA系列学习（一）AnIntroductiontoGPUandCUDA本文从软硬件层面讲一下CUDA的结构，应用，逻辑和接口。分为以下章节：（一）、GPU与CPU（二）、CUDA硬件层面（三）、CUDA安装（四）、CUDA结构与接口4.1Kernels4.2Thread，Block,Grid4....

901
热度
[CUDA] CUDA系列学习（2）CUDA memory & variables
CUDA系列学习（二）CUDAmemory&variables本文来介绍CUDA的memory和变量存放，分为以下章节：（一）、CPUMemory结构（二）、GPUMemory结构（三）、CUDAContext（四）、kernel设计（五）、变量&Memory5.1globalarr...

967
热度
[CUDA] CUDA, 软件抽象的幻像背后
CUDA,软件抽象的幻影背后本文原载于我们的博客planckscale.info，转载于此。版权声明：原创作品，欢迎转载，但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明，否则将追究法律责任。今天最酷炫的事情应该就是来自老黄的这条消息：1TFLOPS，P<...

809
热度
[CUDA] NVIDIA Jetson TK1学习与开发（六）：怎么安装CUDA
NVIDIAJetsonTK1学习与开发（六）：如何安装CUDA本文介绍如何安装CUDA，以CUDA6.0为例介绍。1、InstallingtheCUDAToolkitontoyourdevicefornativeCUDAdevelopmentDownloadthe.debfilefortheCUD...

674
热度
[CUDA] CUDA, 软件抽象的幻像背后之二
CUDA,软件抽象的幻影背后之二本文原载于我的主页：planckscale.info，转载于此。版权声明：原创作品，欢迎转载，但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明，否则将追究法律责任。上一篇里说到，有两点对CUDA的计算能力影响甚大：数据并行，以及用...

727
热度
[CUDA] CUDA系列学习（5）GPU基础算法: Reduce, Scan, Histogram
CUDA系列学习（五）GPU基础算法:Reduce,Scan,Histogram喵~不知不觉到了CUDA系列学习第五讲，前几讲中我们主要介绍了基础GPU中的软硬件结构，内存管理，task类型等；这一讲中我们将介绍3个基础的GPU算法：reduce，scan，histogram，它们在并行算法中非常常...

698
热度
[CUDA] cuda-convnet2与caffe对照
cuda-convnet2与caffe对比出于对性能和多GPU训练CNN的考虑，这段时间一直在研究cuda-convnet2。搜了下，网上居然一篇像样的研究cuda-convnet2代码的文章都找不到，看来假期有的忙了。Caffe作者贾扬清也在一些场合表达了对Convnet2作者Alex的仰慕之情，...

740
热度
[CUDA] CUDA Runtime API 集锦
CUDARuntimeAPI汇总1.cudaChooseDevice:selectcompute-devicewhichbestmatchescriteria;2.cudaDeviceGetAttribute:returnsinformationaboutthedevice;3.cudaDevice...

1090
热度
[CUDA] Barracuda文件格式跟Antelope的区别
Barracuda文件格式和Antelope的区别/**TherearecurrentlytwoInnoDBfileformatswhichareusedtogroupfeatureswithsimilarrestrictionsanddependencies.Usinganenumallowssw...

554
热度
[CUDA] CUDA 二 - 简介
CUDA2----简介CUDA简介CUDA是并行计算的平台和类C编程模型，我们能很容易的实现并行算法，就像写C代码一样。只要配备的NVIDIAGPU，就可以在许多设备上运行你的并行程序，无论是台式机、笔记本抑或平板电脑。熟悉C语言可以帮助你尽快掌握CUDA。CUDA编程CUDA编程允许你的程序执行在...

710
热度
[CUDA] CUDA 五 - GPU架构（Fermi、Kepler）
CUDA5----GPU架构（Fermi、Kepler）GPU架构SM（StreamingMultiprocessors）是GPU架构中非常重要的部分，GPU硬件的并行性就是由SM决定的。以Fermi架构为例，其包含以下主要组成部分：CUDAcoresSharedMemory/L1CacheRegi...

953
热度
[CUDA] CUDA - Dynamic Parallelism
CUDA----DynamicParallelismDynamicParallelism到目前为止，所有kernel都是在host端调用，GPU的工作完全在CPU的控制下。CUDADynamicParallelism允许GPUkernel在device端创建调用。DynamicParallelism...

693
热度
[CUDA] CUDA - Memory Model
CUDA----MemoryModelMemorykernel性能高低是不能单纯的从warp的执行上来解释的。比如之前博文涉及到的，将block的维度设置为warp大小的一半会导致loadefficiency降低，这个问题无法用warp的调度或者并行性来解释。根本原因是获取globalmemory的...

713
热度