当前位置: 代码迷 >> CUDA
 解决方案列表
  • [CUDA] 数组求和的高速方法(利用cuda的共享内存)-第二部分之程序完善

    数组求和的快速方法(利用cuda的共享内存)--第二部分之程序完善上一篇提到,那份源码的使用是有限制的。这次来完善一下。其实就是迭代多次,使得最后一次刚好在一个线程块可以求和。完善部分:template<classDType>DTypearray_sum_gpu(DType*dev_ar...

    776
    热度
  • [CUDA] 数组求和的高速方法(利用cuda的共享内存)-第三部分之性能分析

    数组求和的快速方法(利用cuda的共享内存)--第三部分之性能分析测试的数组数量是constintnum_elements=1<<20;运算次数是1000次。发现gpu的分配内存和拷贝操作很花时间。1对数量为1<<20的数组,1000次cpu求和操作,时间是7720.0ms。...

    729
    热度
  • [CUDA] visual profiler 调试cuda并行程序:依据行号定位出错行

    visualprofiler调试cuda并行程序:根据行号定位出错行用visualprofiler调试cuda程序,如下图:如图所示,显示某些行的访存问题,如328,329,330等。根据行号到cuda代码中,找到相应的行,查看,分析。如此,毕竟不方便。设想,如果想vs中调试程序那样(双击行号可以定...

    636
    热度
  • [CUDA] CUDA程序编译过程中产生警告的解决办法

    CUDA程序编译过程中产生警告的解决方法在编译CUDA程序的时候,会产生大量的警告信息,如下:1>1errordetectedinthecompilationof"C:/Users/Allen/AppData/Local/Temp/tmpxft_00001024_00000000-5...

    685
    热度
  • [CUDA] cuda核函数又调用核函数,多层并行

    cuda核函数再调用核函数,多层并行#include<stdio.h>__global__voidchildKernel(inti){ inttid=blockIdx.x*blockDim.x+threadIdx.x; printf("parent:%d,child:%d\n&...

    843
    热度
  • [CUDA] cuda-convnet 卷积神经网络 一般性构造卷积核个数 和 输入输出的关系以及输入输出的个数的说明

    cuda-convnet卷积神经网络一般性结构卷积核个数和输入输出的关系以及输入输出的个数的说明:卷积神经网络一般性结构卷积核个数和输入输出的关系以及输入输出的个数的说明:以cifar-10为例:Initializeddatalayer'data',producing3072outp...

    767
    热度
  • [CUDA] CUDA跟OpenCL异同点比较

    CUDA和OpenCL异同点比较CUDA和OpenCL异同点比较一、概述对CUDA和opencl有一定的编程经验,但是细心的人可以发现,OPENCL就是仿照CUDA来做的。既然两个GPU的编程框架如此相像,那么他们究竟有什么不同呢?下面就一一道来。二、数据并行的模型OpenCL采用的数据并行模型就是...

    610
    热度
  • [CUDA] CUDA系列学习(1)An Introduction to GPU and CUDA

    CUDA系列学习(一)AnIntroductiontoGPUandCUDA本文从软硬件层面讲一下CUDA的结构,应用,逻辑和接口。分为以下章节:(一)、GPU与CPU(二)、CUDA硬件层面(三)、CUDA安装(四)、CUDA结构与接口4.1Kernels4.2Thread,Block,Grid4....

    901
    热度
  • [CUDA] CUDA系列学习(2)CUDA memory & variables

    CUDA系列学习(二)CUDAmemory&variables本文来介绍CUDA的memory和变量存放,分为以下章节:(一)、CPUMemory结构(二)、GPUMemory结构(三)、CUDAContext(四)、kernel设计(五)、变量&Memory5.1globalarr...

    967
    热度
  • [CUDA] CUDA, 软件抽象的幻像背后

    CUDA,软件抽象的幻影背后本文原载于我们的博客planckscale.info,转载于此。版权声明:原创作品,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。今天最酷炫的事情应该就是来自老黄的这条消息:1TFLOPS,P<...

    809
    热度
  • [CUDA] NVIDIA Jetson TK1学习与开发(六):怎么安装CUDA

    NVIDIAJetsonTK1学习与开发(六):如何安装CUDA本文介绍如何安装CUDA,以CUDA6.0为例介绍。1、InstallingtheCUDAToolkitontoyourdevicefornativeCUDAdevelopmentDownloadthe.debfilefortheCUD...

    674
    热度
  • [CUDA] CUDA, 软件抽象的幻像背后 之二

    CUDA,软件抽象的幻影背后之二本文原载于我的主页:planckscale.info,转载于此。版权声明:原创作品,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。上一篇里说到,有两点对CUDA的计算能力影响甚大:数据并行,以及用...

    727
    热度
  • [CUDA] CUDA系列学习(5)GPU基础算法: Reduce, Scan, Histogram

    CUDA系列学习(五)GPU基础算法:Reduce,Scan,Histogram喵~不知不觉到了CUDA系列学习第五讲,前几讲中我们主要介绍了基础GPU中的软硬件结构,内存管理,task类型等;这一讲中我们将介绍3个基础的GPU算法:reduce,scan,histogram,它们在并行算法中非常常...

    698
    热度
  • [CUDA] cuda-convnet2与caffe对照

    cuda-convnet2与caffe对比出于对性能和多GPU训练CNN的考虑,这段时间一直在研究cuda-convnet2。搜了下,网上居然一篇像样的研究cuda-convnet2代码的文章都找不到,看来假期有的忙了。Caffe作者贾扬清也在一些场合表达了对Convnet2作者Alex的仰慕之情,...

    740
    热度
  • [CUDA] CUDA Runtime API 集锦

    CUDARuntimeAPI汇总1.cudaChooseDevice:selectcompute-devicewhichbestmatchescriteria;2.cudaDeviceGetAttribute:returnsinformationaboutthedevice;3.cudaDevice...

    1090
    热度
  • [CUDA] Barracuda文件格式跟Antelope的区别

    Barracuda文件格式和Antelope的区别/**TherearecurrentlytwoInnoDBfileformatswhichareusedtogroupfeatureswithsimilarrestrictionsanddependencies.Usinganenumallowssw...

    554
    热度
  • [CUDA] CUDA 二 - 简介

    CUDA2----简介CUDA简介CUDA是并行计算的平台和类C编程模型,我们能很容易的实现并行算法,就像写C代码一样。只要配备的NVIDIAGPU,就可以在许多设备上运行你的并行程序,无论是台式机、笔记本抑或平板电脑。熟悉C语言可以帮助你尽快掌握CUDA。CUDA编程CUDA编程允许你的程序执行在...

    710
    热度
  • [CUDA] CUDA 五 - GPU架构(Fermi、Kepler)

    CUDA5----GPU架构(Fermi、Kepler)GPU架构SM(StreamingMultiprocessors)是GPU架构中非常重要的部分,GPU硬件的并行性就是由SM决定的。以Fermi架构为例,其包含以下主要组成部分:CUDAcoresSharedMemory/L1CacheRegi...

    953
    热度
  • [CUDA] CUDA - Dynamic Parallelism

    CUDA----DynamicParallelismDynamicParallelism到目前为止,所有kernel都是在host端调用,GPU的工作完全在CPU的控制下。CUDADynamicParallelism允许GPUkernel在device端创建调用。DynamicParallelism...

    693
    热度
  • [CUDA] CUDA - Memory Model

    CUDA----MemoryModelMemorykernel性能高低是不能单纯的从warp的执行上来解释的。比如之前博文涉及到的,将block的维度设置为warp大小的一半会导致loadefficiency降低,这个问题无法用warp的调度或者并行性来解释。根本原因是获取globalmemory的...

    713
    热度