#include "cuda_gpu_correlation.h"
#include <iostream>
#include <stdio.h>
#include <math.h>
#include <algorithm>
#include <cuda_runtime.h>
#include <cufft.h>
#include "cuda_asserts.h"
#include "cuda_basic_math.h"
#include <time.h>
#include <sys/time.h>
#include <vector>

Include dependency graph for cuda_gpu_correlation.cpp:

Macros
#define	PI 3.14159265359

Functions
__global__ void	calcAbsKernel (cufftComplex d_in, float d_out, int dim)

__global__ void	sumRadiusKernel (float d_in, float d_out, float d_out_max, float d_out_zero, int dim, int radius, int ndim)

__global__ void	calculateMax2 (float d_in, float d_out, float *position, int yxdim, int Ndim, bool firstCall)

__global__ void	pointwiseMultiplicationComplexOneManyKernel_three (cufftComplex M, cufftComplex manyF, cufftComplex MmanyF, cufftComplex manyF_sq, cufftComplex MmanyF_sq, cufftComplex maskAux, int nzyxdim, int yxdim, int ndim, bool power2)

__global__ void	pointwiseMultiplicationComplexOneManyKernel_two (cufftComplex M, cufftComplex manyF, cufftComplex MmanyF, cufftComplex manyF_sq, cufftComplex *MmanyF_sq, int nzyxdim, int yxdim, int ndim, bool power2)

__global__ void	pointwiseMultiplicationComplexOneManyKernel (cufftComplex M, cufftComplex manyF, cufftComplex *MmanyF, int nzyxdim, int yxdim, bool power2)

__global__ void	calculateDenomFunctionKernel (float MFrealSpace, float MF2realSpace, float maskAutocorrelation, float out, int nzyxdim, int yxdim, bool power2)

__global__ void	calculateNccKernel (float RefExpRealSpace, float MFrealSpaceRef, float MFrealSpaceExp, float MF2realSpaceRef, float MF2realSpaceExp, float mask, float *NCC, int nzyxdim, int yxdim, int xdim, int ydim, int maskCount, int max_shift, bool power2yx, bool power2x)

__device__ void	wrapping (int &x, int &y, int xdim, int ydim)

__global__ void	applyTransformKernel (float d_in, float d_out, float *transMat, int nzyxdim, int yxdim, int xdim, int ydim, bool power2yx, bool power2x)

__global__ void	calculateNccRotationKernel (float RefExpRealSpace, cufftComplex polarFFTRef, cufftComplex polarFFTExp, cufftComplex polarSquaredFFTRef, cufftComplex polarSquaredFFTExp, float maskFFTPolarReal, float NCC, int yxdimFFT, int nzyxdim, int yxdim)

__global__ void	pointwiseMultiplicationComplexKernel (cufftComplex reference, cufftComplex experimental, cufftComplex *RefExpFourier, int nzyxdim, int yxdim)

__global__ void	maskingPaddingKernel (float d_in, float mask, float padded_image_gpu, float padded_image2_gpu, float *padded_mask_gpu, int xdim, int ydim, int yxdim, int numImag, int pad_xdim, int pad_ydim, int pad_yxdim, bool experimental, bool power2x)

__global__ void	buildTranslationMatrix (float d_pos, float lastMat, float result, float maxGpu, float *NCC, int Xdim, int Ydim, int Ndim, int NCC_yxdim, int fixPadding, double maxShift2, bool power2x)

__global__ void	buildRotationMatrix (float d_pos, float lastMat, float result, float maxGpu, float auxMax, float NCC, int Xdim, int Ndim, int NCC_yxdim, int fixPadding, double maxShift2, bool power2x)

__global__ void	cart2polar (float image, float polar, float *polar2, int maxRadius, int maxAng, int Nimgs, int Ydim, int Xdim, bool rotate)

__global__ void	calculateMaxThreads (float d_in, float d_out, float *position, int yxdim, int Ndim, int yxdim2, int Ndim2)

void	padding_masking (GpuMultidimArrayAtGpu< float > &d_orig_image, GpuMultidimArrayAtGpu< float > &mask, GpuMultidimArrayAtGpu< float > &padded_image_gpu, GpuMultidimArrayAtGpu< float > &padded_image2_gpu, GpuMultidimArrayAtGpu< float > &padded_mask_gpu, bool experimental, myStreamHandle &myStream)

void	pointwiseMultiplicationFourier (const GpuMultidimArrayAtGpu< std::complex< float > > &M, const GpuMultidimArrayAtGpu< std::complex< float > > &manyF, GpuMultidimArrayAtGpu< std::complex< float > > &MmanyF, myStreamHandle &myStream)

void	pointwiseMultiplicationFourier_two (const GpuMultidimArrayAtGpu< std::complex< float > > &M, const GpuMultidimArrayAtGpu< std::complex< float > > &manyF, GpuMultidimArrayAtGpu< std::complex< float > > &MmanyF, const GpuMultidimArrayAtGpu< std::complex< float > > &manyF_sq, GpuMultidimArrayAtGpu< std::complex< float > > &MmanyF_sq, myStreamHandle &myStream)

void	pointwiseMultiplicationFourier_three (const GpuMultidimArrayAtGpu< std::complex< float > > &M, const GpuMultidimArrayAtGpu< std::complex< float > > &manyF, GpuMultidimArrayAtGpu< std::complex< float > > &MmanyF, const GpuMultidimArrayAtGpu< std::complex< float > > &manyF_sq, GpuMultidimArrayAtGpu< std::complex< float > > &MmanyF_sq, myStreamHandle &myStream, GpuMultidimArrayAtGpu< std::complex< float > > &maskAux)

void	calculateMaxNew2DNew (int yxdim, int Ndim, float *d_data, GpuMultidimArrayAtGpu< float > &d_out, GpuMultidimArrayAtGpu< float > &d_pos, myStreamHandle &myStream)

void	cuda_calculate_correlation_rotation (GpuCorrelationAux &referenceAux, GpuCorrelationAux &experimentalAux, TransformMatrix< float > &transMat, float *max_vector, int maxShift, mycufftHandle &myhandlePadded, bool mirror, StructuresAux &myStructureAux, myStreamHandle &myStream, TransformMatrix< float > &resultRT)

void	cuda_calculate_correlation (GpuCorrelationAux &referenceAux, GpuCorrelationAux &experimentalAux, TransformMatrix< float > &transMat, float *max_vector, int maxShift, mycufftHandle &myhandlePadded, bool mirror, StructuresAux &myStructureAux, myStreamHandle &myStream, TransformMatrix< float > &resultTR, bool saveMaxVector)

void	cuda_calculate_correlation_two (GpuCorrelationAux &referenceAux, GpuCorrelationAux &experimentalAuxTR, TransformMatrix< float > &transMatTR, float max_vectorTR, int maxShift, mycufftHandle &myhandlePaddedTR, bool mirror, StructuresAux &myStructureAuxTR, myStreamHandle &myStreamTR, GpuCorrelationAux &experimentalAuxRT, TransformMatrix< float > &transMatRT, float max_vectorRT, mycufftHandle &myhandlePaddedRT, StructuresAux &myStructureAuxRT, myStreamHandle &myStreamRT, TransformMatrix< float > &resultTR, TransformMatrix< float > &resultRT, mycufftHandle &ifftcb, bool saveMaxVector)

void	apply_transform (GpuMultidimArrayAtGpu< float > &d_original_image, GpuMultidimArrayAtGpu< float > &d_transform_image, TransformMatrix< float > &transMat, myStreamHandle &myStream)

void	cuda_cart2polar (GpuMultidimArrayAtGpu< float > &image, GpuMultidimArrayAtGpu< float > &polar_image, GpuMultidimArrayAtGpu< float > &polar2_image, bool rotate, myStreamHandle &myStream)

void	waitGpu (myStreamHandle &myStream, bool allStreams)

void	calculateAbs (std::complex< float > data, float out, int size, myStreamHandle &myStream)

Macro Definition Documentation

◆ PI

#define PI 3.14159265359

Definition at line 19 of file cuda_gpu_correlation.cpp.

Function Documentation

◆ applyTransformKernel()

__global__ void applyTransformKernel	(	float *	d_in,
		float *	d_out,
		float *	transMat,
		int	nzyxdim,
		int	yxdim,
		int	xdim,
		int	ydim,
		bool	power2yx,
		bool	power2x
	)

Definition at line 386 of file cuda_gpu_correlation.cpp.

 {
 
     extern __shared__ float transMatSD[];
 
     int idxIm = blockDim.x * blockIdx.x + threadIdx.x;
     int idxTh = threadIdx.x;
     int numIm = blockIdx.y;
 
 
     if(idxIm>=yxdim)
         return;
 
     if(idxTh<9)
         transMatSD[idxTh] = transMat[idxTh+(numIm*9)];
     __syncthreads();
 
     float x;
     if (power2x==true)
         x = idxIm & (xdim-1);
     else
         x = idxIm%xdim;
 
     float y = idxIm/xdim;
     float x_orig = 0;
     float y_orig = 0;
 
     //transMat into shared memory
     x -= transMatSD[2]; //transMat[2+(numIm*9)];
     y -= transMatSD[5]; //transMat[5+(numIm*9)];
 
     x = x - xdim/2.0f;
     y = y - ydim/2.0f;
 
     x_orig += transMatSD[0]*x - transMatSD[1]*y + xdim/2.0f;
     y_orig += -transMatSD[3]*x + transMatSD[4]*y + xdim/2.0f;
     // x_orig += transMat[(numIm*9)]*x - transMat[1+(numIm*9)]*y + xdim/2.0f;
     //y_orig += -transMat[3+(numIm*9)]*x + transMat[4+(numIm*9)]*y + ydim/2.0f;
 
     int x_orig00 = (int)floorf(x_orig);
     int y_orig00 = (int)floorf(y_orig);
     int x_orig01 = x_orig00+1;
     int y_orig01 = y_orig00;
     int x_orig10 = x_orig00;
     int y_orig10 = y_orig00+1;
     int x_orig11 = x_orig00+1;
     int y_orig11 = y_orig00+1;
 
     float x_x_low=x_orig-x_orig00;
     float y_y_low=y_orig-y_orig00;
     float one_x=1.0-x_x_low;
     float one_y=1.0-y_y_low;
     float w00=one_y*one_x;
     float w01=one_y*x_x_low;
     float w10=y_y_low*one_x;
     float w11=y_y_low*x_x_low;
 
     wrapping (x_orig00, y_orig00, xdim, ydim);
     wrapping (x_orig01, y_orig01, xdim, ydim);
     wrapping (x_orig10, y_orig10, xdim, ydim);
     wrapping (x_orig11, y_orig11, xdim, ydim);
 
     int imgIdx00=y_orig00 * xdim + x_orig00;
     int imgIdx01=y_orig01 * xdim + x_orig01;
     int imgIdx10=y_orig10 * xdim + x_orig10;
     int imgIdx11=y_orig11 * xdim + x_orig11;
 
     int imgOffset = numIm*yxdim;
     float I00 = d_in[imgIdx00+imgOffset];
     float I01 = d_in[imgIdx01+imgOffset];
     float I10 = d_in[imgIdx10+imgOffset];
     float I11 = d_in[imgIdx11+imgOffset];
     float imVal = I00*w00 + I01*w01 + I10*w10 + I11*w11;
 
     d_out[idxIm+(numIm*yxdim)] = imVal;
 
 }

◆ buildRotationMatrix()

__global__ void buildRotationMatrix	(	float *	d_pos,
		float *	lastMat,
		float *	result,
		float *	maxGpu,
		float *	auxMax,
		float *	NCC,
		int	Xdim,
		int	Ndim,
		int	NCC_yxdim,
		int	fixPadding,
		double	maxShift2,
		bool	power2x
	)

Definition at line 670 of file cuda_gpu_correlation.cpp.

                                                        {
 
     int idx = blockDim.x * blockIdx.x + threadIdx.x;
 
     if(idx>=Ndim)
         return;
 
     float posX;
     int position = (int)d_pos[idx];
     maxGpu[idx] = auxMax[position+(idx*360)];
 
     float posX_aux;
     if (power2x==true)
         posX_aux = position & (Xdim-1);
     else
         posX_aux = position%Xdim;
 
     float Xdim2 = (Xdim/2.0f);
 
 
     if(posX_aux<Xdim2){
         posX = -(posX_aux+1);
     }else if(posX_aux>=Xdim2){
         posX = Xdim-1-posX_aux;
     }
 
     //Fixing padding problem
     posX+=fixPadding;
 
     float rad = (float)(-posX*PI/180);
 
     int idx9 = idx*9;
 
     float new0 = cosf(rad);
     float new1 = -sinf(rad);
     float new2 = 0.0f;
     float new3 = sinf(rad);
     float new4 = cosf(rad);
     float new5 = 0.0f;
     //float new6 = 0.0f;
     //float new7 = 0.0f;
     //float new8 = 1.0f;
 
     float last0 = lastMat[idx9];
     float last1 = lastMat[idx9+1];
     float last2 = lastMat[idx9+2];
     float last3 = lastMat[idx9+3];
     float last4 = lastMat[idx9+4];
     float last5 = lastMat[idx9+5];
     float last6 = lastMat[idx9+6];
     float last7 = lastMat[idx9+7];
     float last8 = lastMat[idx9+8];
 
     float shiftx = new0*last2 + new1*last5 + new2*last8;
     float shifty = new3*last2 + new4*last5 + new5*last8;
     float radShift = shiftx*shiftx + shifty*shifty;
     if(radShift > maxShift2){
         result[idx9] = last0;
         result[idx9+1] = last1;
         result[idx9+2] = last2;
         result[idx9+3] = last3;
         result[idx9+4] = last4;
         result[idx9+5] = last5;
         maxGpu[idx] = NCC[idx*NCC_yxdim];
     }else{
         result[idx9] = new0*last0 + new1*last3 + new2*last6;
         result[idx9+2] = shiftx;
         result[idx9+1] = new0*last1 + new1*last4 + new2*last7;
         result[idx9+3] = new3*last0 + new4*last3 + new5*last6;
         result[idx9+4] = new3*last1 + new4*last4 + new5*last7;
         result[idx9+5] = shifty;
     }
 
 }

◆ buildTranslationMatrix()

__global__ void buildTranslationMatrix	(	float *	d_pos,
		float *	lastMat,
		float *	result,
		float *	maxGpu,
		float *	NCC,
		int	Xdim,
		int	Ydim,
		int	Ndim,
		int	NCC_yxdim,
		int	fixPadding,
		double	maxShift2,
		bool	power2x
	)

Definition at line 584 of file cuda_gpu_correlation.cpp.

                                                        {
 
     int idx = blockDim.x * blockIdx.x + threadIdx.x;
 
     if(idx>=Ndim)
         return;
 
     int position = (int)d_pos[idx];
 
     float posX_aux;
     if (power2x==true)
         posX_aux = position & (Xdim-1);
     else
         posX_aux = position%Xdim;
 
     float posY_aux = (float)(position/Xdim);
     float Xdim2 = (Xdim/2.0f);
     float Ydim2 = (Ydim/2.0f);
     float posX, posY;
 
     if(posX_aux>=Xdim2 && posY_aux>=Ydim2){
         posX = Xdim-1-posX_aux;
         posY = Ydim-1-posY_aux;
     }else if(posX_aux<Xdim2 && posY_aux>=Ydim2){
         posX = -(posX_aux+1);
         posY = Ydim-1-posY_aux;
     }else if(posX_aux<Xdim2 && posY_aux<Ydim2){
         posX = -(posX_aux+1);
         posY = -(posY_aux+1);
     }else if(posX_aux>=Xdim2 && posY_aux<Ydim2){
         posX = Xdim-1-posX_aux;
         posY = -(posY_aux+1);
     }
 
     //Fixing padding problem
     posX+=fixPadding;
     posY+=fixPadding;
 
     int idx9 = idx*9;
 
     float new0 = 1.0f;
     float new1 = 0.0f;
     float new2 = -posX;
     float new3 = 0.0f;
     float new4 = 1.0f;
     float new5 = -posY;
     //float new6 = 0.0f;
     //float new7 = 0.0f;
     //float new8 = 1.0f;
 
     float last0 = lastMat[idx9];
     float last1 = lastMat[idx9+1];
     float last2 = lastMat[idx9+2];
     float last3 = lastMat[idx9+3];
     float last4 = lastMat[idx9+4];
     float last5 = lastMat[idx9+5];
     float last6 = lastMat[idx9+6];
     float last7 = lastMat[idx9+7];
     float last8 = lastMat[idx9+8];
 
     float shiftx = new0*last2 + new1*last5 + new2*last8;
     float shifty = new3*last2 + new4*last5 + new5*last8;
     float radShift = shiftx*shiftx + shifty*shifty;
     if(radShift > maxShift2){
         result[idx9] = last0;
         result[idx9+1] = last1;
         result[idx9+2] = last2;
         result[idx9+3] = last3;
         result[idx9+4] = last4;
         result[idx9+5] = last5;
         maxGpu[idx] = NCC[idx*NCC_yxdim];
     }else{
         result[idx9] = new0*last0 + new1*last3 + new2*last6;
         result[idx9+2] = shiftx;
         result[idx9+1] = new0*last1 + new1*last4 + new2*last7;
         result[idx9+3] = new3*last0 + new4*last3 + new5*last6;
         result[idx9+4] = new3*last1 + new4*last4 + new5*last7;
         result[idx9+5] = shifty;
     }
 
 }

◆ calcAbsKernel()

__global__ void calcAbsKernel	(	cufftComplex *	d_in,
		float *	d_out,
		int	dim
	)

Definition at line 22 of file cuda_gpu_correlation.cpp.

                                                                         {
 
     int idx = blockDim.x * blockIdx.x + threadIdx.x;
 
     if(idx>=dim)
         return;
 
     d_out[idx]=d_in[idx].x;
 
 }

◆ calculateAbs()

void calculateAbs	(	std::complex< float > *	data,
		float *	out,
		int	size,
		myStreamHandle &	myStream
	)

Definition at line 1505 of file cuda_gpu_correlation.cpp.

                                                                                            {
 
     cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
     int numTh = 1024;
     int numBlk = size/numTh;
     if(size%numTh > 0)
         numBlk++;
     calcAbsKernel <<< numBlk, numTh, 0, *stream>>> ((cufftComplex*)data, out, size);
 
 }

◆ calculateDenomFunctionKernel()

__global__ void calculateDenomFunctionKernel	(	float *	MFrealSpace,
		float *	MF2realSpace,
		float *	maskAutocorrelation,
		float *	out,
		int	nzyxdim,
		int	yxdim,
		bool	power2
	)

Definition at line 305 of file cuda_gpu_correlation.cpp.

 {
     int idx = blockDim.x * blockIdx.x + threadIdx.x;
     int idxLow;
     if (power2==true)
         idxLow = idx & (yxdim-1);
     else
         idxLow = idx%yxdim;
 
     if (idx>=nzyxdim)
         return;
 
     out[idx] = sqrt(MF2realSpace[idx] - (MFrealSpace[idx]*MFrealSpace[idx]/maskAutocorrelation[idxLow]));
 
 }

◆ calculateMax2()

__global__ void calculateMax2	(	float *	d_in,
		float *	d_out,
		float *	position,
		int	yxdim,
		int	Ndim,
		bool	firstCall
	)

Definition at line 64 of file cuda_gpu_correlation.cpp.

                                                                                                               {
 
     extern __shared__ float sdata[];
 
     int idx = threadIdx.x;
     int blockSize = blockDim.x;
 
 
     //Version 6
     int i = blockIdx.x * blockSize + idx;
 
     //printf("d_in[%i] %f \n", i, d_in[i]);
 
     int index = 0;
     for(int imN=0; imN<Ndim; imN++){
 
         if(i<yxdim*gridDim.x){
             sdata[idx]=d_in[i+index];
 
             if(firstCall)
                 sdata[idx+blockSize] = (float)idx; //AJ position
             else
                 sdata[idx+blockSize] = position[i+index];
         }
         //if (idx==0)
             //printf("i %i, sdata %f \n", i, sdata[idx]);
 
         __syncthreads();
 
         if(i>=yxdim*gridDim.x)
             sdata[idx]=-1.0;
         __syncthreads();
 
 
         if(blockSize >= 1024){
             if(idx<512){
                 sdata[idx] = fmaxf(sdata[idx], sdata[idx+512]);
                 sdata[idx+blockSize] = (sdata[idx]==sdata[idx+512]) ? sdata[idx+blockSize+512] : sdata[idx+blockSize];
             }
             __syncthreads();
         }
         if(blockSize >= 512){
             if(idx<256){
                 sdata[idx] = fmaxf(sdata[idx], sdata[idx+256]);
                 sdata[idx+blockSize] = (sdata[idx]==sdata[idx+256]) ? sdata[idx+blockSize+256] : sdata[idx+blockSize];
             }
             __syncthreads();
         }
         if(blockSize >= 256){
             if(idx<128){
                 sdata[idx] = fmaxf(sdata[idx], sdata[idx+128]);
                 sdata[idx+blockSize] = (sdata[idx]==sdata[idx+128]) ? sdata[idx+blockSize+128] : sdata[idx+blockSize];
             }
             __syncthreads();
         }
         if(blockSize >= 128){
             if(idx<64){
                 sdata[idx] = fmaxf(sdata[idx], sdata[idx+64]);
                 sdata[idx+blockSize] = (sdata[idx]==sdata[idx+64]) ? sdata[idx+blockSize+64] : sdata[idx+blockSize];
             }
             __syncthreads();
         }
         if(idx<32){
             if(blockSize>=64){
                 if(idx<32){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+32]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+32]) ? sdata[idx+blockSize+32] : sdata[idx+blockSize];
                 }
             }
             if(blockSize>=32){
                 if(idx<16){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+16]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+16]) ? sdata[idx+blockSize+16] : sdata[idx+blockSize];
                 }
             }
             if(blockSize>=16){
                 if(idx<8){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+8]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+8]) ? sdata[idx+blockSize+8] : sdata[idx+blockSize];
                 }
             }
             if(blockSize>=8){
                 if(idx<4){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+4]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+4]) ? sdata[idx+blockSize+4] : sdata[idx+blockSize];
                 }
             }
             if(blockSize>=4){
                 if(idx<2){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+2]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+2]) ? sdata[idx+blockSize+2] : sdata[idx+blockSize];
                 }
             }
             if(blockSize>=2){
                 if(idx<1){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+1]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+1]) ? sdata[idx+blockSize+1] : sdata[idx+blockSize];
                 }
             }
         }
 
         if(idx==0){
             //printf("idx %i sdata[0] %f sdata[blockSize] %f \n", blockIdx.x+(gridDim.x*imN), sdata[0], sdata[blockSize]);
             d_out[blockIdx.x+(gridDim.x*imN)] = sdata[0];
             position[blockIdx.x+(gridDim.x*imN)] = sdata[blockSize];
         }
 
         __syncthreads();
 
         index = index+(int)yxdim;
 
     }
 
 }

◆ calculateMaxNew2DNew()

void calculateMaxNew2DNew	(	int	yxdim,
		int	Ndim,
		float *	d_data,
		GpuMultidimArrayAtGpu< float > &	d_out,
		GpuMultidimArrayAtGpu< float > &	d_pos,
		myStreamHandle &	myStream
	)

Definition at line 1111 of file cuda_gpu_correlation.cpp.

                                                                                                            {
 
     cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
 
     int numTh = 1024;
     int numBlk = Ndim;
 
     d_out.resize(numTh * numBlk);
     d_pos.resize(numTh * numBlk);
 
     calculateMaxThreads<<<numBlk, numTh, 2*numTh * sizeof(float), *stream>>>(d_data, d_out.d_data, d_pos.d_data, yxdim, Ndim, numTh, 1);
 
 }

◆ calculateMaxThreads()

__global__ void calculateMaxThreads	(	float *	d_in,
		float *	d_out,
		float *	position,
		int	yxdim,
		int	Ndim,
		int	yxdim2,
		int	Ndim2
	)

Definition at line 807 of file cuda_gpu_correlation.cpp.

                                                    {
 
     int idx = threadIdx.x;
     int nIm = blockIdx.x;
     int blockSize = blockDim.x;
 
     int posTh = nIm*yxdim + idx;
     int n = ceilf(((float)yxdim/(float)blockSize));
 
     float tmp, tmpPos;
 
     if(idx>=yxdim){
         tmp = -1.0f;
         tmpPos = -1.0f;
     }else{
         tmp = d_in[posTh];
         tmpPos = idx;
         for (int i=1; i<n; i++){
             if (posTh+i*blockSize < yxdim*(nIm+1)){
                 tmp = fmaxf(tmp, d_in[posTh+i*blockSize]);
                 tmpPos = (tmp==d_in[posTh+i*blockSize]) ? idx+i*blockSize : tmpPos;
             }
         }
     }
     int posOut = nIm*blockSize + idx;
     d_out[posOut] = tmp;
     position[posOut] = tmpPos;
 
     __syncthreads();
 
 
     extern __shared__ float sdata[];
 
 
     //Version 6
     int i = blockIdx.x * blockSize + idx;
 
 
     int index = 0;
     for(int imN=0; imN<Ndim2; imN++){
 
         if(i<yxdim2*gridDim.x){
             sdata[idx]=d_out[i+index];
             sdata[idx+blockSize] = position[i+index];
         }
 
         __syncthreads();
 
         if(i>=yxdim2*gridDim.x)
             sdata[idx]=-1.0;
         __syncthreads();
 
 
         if(blockSize >= 1024){
             if(idx<512){
                 sdata[idx] = fmaxf(sdata[idx], sdata[idx+512]);
                 sdata[idx+blockSize] = (sdata[idx]==sdata[idx+512]) ? sdata[idx+blockSize+512] : sdata[idx+blockSize];
             }
             __syncthreads();
         }
         if(blockSize >= 512){
             if(idx<256){
                 sdata[idx] = fmaxf(sdata[idx], sdata[idx+256]);
                 sdata[idx+blockSize] = (sdata[idx]==sdata[idx+256]) ? sdata[idx+blockSize+256] : sdata[idx+blockSize];
             }
             __syncthreads();
         }
         if(blockSize >= 256){
             if(idx<128){
                 sdata[idx] = fmaxf(sdata[idx], sdata[idx+128]);
                 sdata[idx+blockSize] = (sdata[idx]==sdata[idx+128]) ? sdata[idx+blockSize+128] : sdata[idx+blockSize];
             }
             __syncthreads();
         }
         if(blockSize >= 128){
             if(idx<64){
                 sdata[idx] = fmaxf(sdata[idx], sdata[idx+64]);
                 sdata[idx+blockSize] = (sdata[idx]==sdata[idx+64]) ? sdata[idx+blockSize+64] : sdata[idx+blockSize];
             }
             __syncthreads();
         }
         if(idx<32){
             if(blockSize>=64){
                 if(idx<32){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+32]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+32]) ? sdata[idx+blockSize+32] : sdata[idx+blockSize];
                 }
             }
             if(blockSize>=32){
                 if(idx<16){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+16]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+16]) ? sdata[idx+blockSize+16] : sdata[idx+blockSize];
                 }
             }
             if(blockSize>=16){
                 if(idx<8){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+8]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+8]) ? sdata[idx+blockSize+8] : sdata[idx+blockSize];
                 }
             }
             if(blockSize>=8){
                 if(idx<4){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+4]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+4]) ? sdata[idx+blockSize+4] : sdata[idx+blockSize];
                 }
             }
             if(blockSize>=4){
                 if(idx<2){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+2]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+2]) ? sdata[idx+blockSize+2] : sdata[idx+blockSize];
                 }
             }
             if(blockSize>=2){
                 if(idx<1){
                     sdata[idx] = fmaxf(sdata[idx], sdata[idx+1]);
                     sdata[idx+blockSize] = (sdata[idx]==sdata[idx+1]) ? sdata[idx+blockSize+1] : sdata[idx+blockSize];
                 }
             }
         }
 
         if(idx==0){
             d_out[blockIdx.x+(gridDim.x*imN)] = sdata[0];
             position[blockIdx.x+(gridDim.x*imN)] = sdata[blockSize];
         }
 
         __syncthreads();
 
         index = index+(int)yxdim2;
 
     }
 
 }

◆ calculateNccKernel()

__global__ void calculateNccKernel	(	float *	RefExpRealSpace,
		float *	MFrealSpaceRef,
		float *	MFrealSpaceExp,
		float *	MF2realSpaceRef,
		float *	MF2realSpaceExp,
		float *	mask,
		float *	NCC,
		int	nzyxdim,
		int	yxdim,
		int	xdim,
		int	ydim,
		int	maskCount,
		int	max_shift,
		bool	power2yx,
		bool	power2x
	)

Definition at line 323 of file cuda_gpu_correlation.cpp.

 {
 
     //change unsigned... and size_t
     int idx = blockDim.x * blockIdx.x + threadIdx.x;
     int idxLow;
     if (power2yx==true)
         idxLow = idx & (yxdim-1);
     else
         idxLow = idx%yxdim;
 
     if(idx>=nzyxdim)
         return;
 
     int idx_x;
     if (power2x==true)
         idx_x = idxLow & (xdim-1);
     else
         idx_x = idxLow%xdim;
 
     int idx_y=idxLow/xdim;
     if(idx_x>=max_shift && idx_x<xdim-max_shift){
         NCC[idx] = -1;
         return;
     }
     if(idx_y>=max_shift && idx_y<ydim-max_shift){
         NCC[idx] = -1;
         return;
     }
 
     float maskTh = mask[idxLow];
     float MF2realSpaceRefTh = MF2realSpaceRef[idx];
     float MFrealSpaceRefTh = MFrealSpaceRef[idx];
     float MF2realSpaceExpTh = MF2realSpaceExp[idx];
     float MFrealSpaceExpTh = MFrealSpaceExp[idx];
     float RefExpRealSpaceTh = RefExpRealSpace[idx];
 
     float den1 = sqrt(MF2realSpaceRefTh - (MFrealSpaceRefTh*MFrealSpaceRefTh/maskTh));
     float den2 = sqrt(MF2realSpaceExpTh - (MFrealSpaceExpTh*MFrealSpaceExpTh/maskTh));
 
     float num;
     if(den1!=0.0 && den2!=0.0 && !isnan(den1) && !isnan(den2) && maskTh>maskCount*0.9){
         num = (RefExpRealSpaceTh - ((MFrealSpaceRefTh*MFrealSpaceExpTh)/(maskTh)) );
         NCC[idx] = num/(den1*den2);
     }else
         NCC[idx] = -1;
 
 }

◆ calculateNccRotationKernel()

__global__ void calculateNccRotationKernel	(	float *	RefExpRealSpace,
		cufftComplex *	polarFFTRef,
		cufftComplex *	polarFFTExp,
		cufftComplex *	polarSquaredFFTRef,
		cufftComplex *	polarSquaredFFTExp,
		float	maskFFTPolarReal,
		float *	NCC,
		int	yxdimFFT,
		int	nzyxdim,
		int	yxdim
	)

Definition at line 467 of file cuda_gpu_correlation.cpp.

 {
 
     //change unsigned lont int for int and all the size_t
     int idx = blockDim.x * blockIdx.x + threadIdx.x;
     int idxLow = (idx/yxdim)*yxdimFFT;
 
     if(idx>=nzyxdim)
         return;
 
     float normValue = 1.0f/yxdimFFT;
     float maskNorm = maskFFTPolarReal*normValue;
 
     float M1M2Polar = maskFFTPolarReal*maskNorm;
     float polarValRef = cuCrealf(polarFFTRef[idxLow])*maskNorm;
     float polarSqValRef = cuCrealf(polarSquaredFFTRef[idxLow])*maskNorm;
 
     float polarValExp = cuCrealf(polarFFTExp[idxLow])*maskNorm;
     float polarSqValExp = cuCrealf(polarSquaredFFTExp[idxLow])*maskNorm;
 
     float num = (RefExpRealSpace[idx] - (polarValRef*polarValExp/M1M2Polar) );
     float den1 = sqrt(polarSqValRef - (polarValRef*polarValRef/M1M2Polar) );
     float den2 = sqrt(polarSqValExp - (polarValExp*polarValExp/M1M2Polar) );
 
     if(den1!=0.0 && den2!=0.0 && !isnan(den1) && !isnan(den2))
         NCC[idx] = num/(den1*den2);
     else
         NCC[idx] = -1.0;
 
 }

◆ cart2polar()

__global__ void cart2polar	(	float *	image,
		float *	polar,
		float *	polar2,
		int	maxRadius,
		int	maxAng,
		int	Nimgs,
		int	Ydim,
		int	Xdim,
		bool	rotate
	)

Definition at line 749 of file cuda_gpu_correlation.cpp.

 {
     int angle = blockDim.x * blockIdx.x + threadIdx.x;
     int radius = blockDim.y * blockIdx.y + threadIdx.y;
 
     int numIm = blockIdx.z;
 
     if (radius>=maxRadius || angle>=maxAng)
         return;
 
     float x = (float)(radius)*cosf((float)angle*(float)PI/180.0f) + (float)Xdim/2.0f;
     float y = (float)(radius)*sinf((float)angle*(float)PI/180.0f) + (float)Ydim/2.0f;
 
     float dx_low = floorf(x);
     float dy_low = floorf(y);
     int x_low = (int)dx_low;
     int y_low = (int)dy_low;
     float x_x_low=x-dx_low;
     float y_y_low=y-dy_low;
     float one_x=1.0-x_x_low;
     float one_y=1.0-y_y_low;
     float w00=one_y*one_x;
     float w01=one_y*x_x_low;
     float w10=y_y_low*one_x;
     float w11=y_y_low*x_x_low;
 
     int NXY=Xdim*Ydim;
     int NXYpolar=maxAng*maxRadius;
     int imgIdx00=y_low * Xdim + x_low;
     int imgIdx01=imgIdx00+1;
     int imgIdx10=imgIdx00+Xdim;
     int imgIdx11=imgIdx10+1;
     int imgOffset=0;
     int polarOffset=0;
     int polarIdx;
     if(!rotate)
         polarIdx=angle+(radius*maxAng);
     else
         polarIdx = (maxAng-angle-1)+((maxRadius-radius-1)*maxAng);
 
         int n=numIm;
 
         imgOffset = n*NXY;
         polarOffset = n*NXYpolar;
         float I00 = image[imgIdx00+imgOffset];
         float I01 = image[imgIdx01+imgOffset];
         float I10 = image[imgIdx10+imgOffset];
         float I11 = image[imgIdx11+imgOffset];
         float imVal = I00*w00 + I01*w01 + I10*w10 + I11*w11;
         int finalPolarIndex=polarIdx+polarOffset;
         polar[finalPolarIndex] = imVal;
         polar2[finalPolarIndex] = imVal*imVal;
 
 }

◆ cuda_cart2polar()

void cuda_cart2polar	(	GpuMultidimArrayAtGpu< float > &	image,
		GpuMultidimArrayAtGpu< float > &	polar_image,
		GpuMultidimArrayAtGpu< float > &	polar2_image,
		bool	rotate,
		myStreamHandle &	myStream
	)

Definition at line 1478 of file cuda_gpu_correlation.cpp.

 {
     cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
     int numTh = 32;
     int numBlkx = polar_image.Xdim/numTh;
         if(polar_image.Xdim%numTh > 0)
             numBlkx++;
     int numBlky = polar_image.Ydim/numTh;
         if(polar_image.Ydim%numTh > 0)
             numBlky++;
 
     dim3 blockSize(numTh, numTh, 1);
     dim3 gridSize(numBlkx, numBlky, polar_image.Ndim);
 
     cart2polar <<< gridSize, blockSize, 0, *stream>>>
             (image.d_data, polar_image.d_data, polar2_image.d_data, polar_image.Ydim, polar_image.Xdim, polar_image.Ndim, image.Ydim, image.Xdim, rotate);
 }

◆ maskingPaddingKernel()

__global__ void maskingPaddingKernel	(	float *	d_in,
		float *	mask,
		float *	padded_image_gpu,
		float *	padded_image2_gpu,
		float *	padded_mask_gpu,
		int	xdim,
		int	ydim,
		int	yxdim,
		int	numImag,
		int	pad_xdim,
		int	pad_ydim,
		int	pad_yxdim,
		bool	experimental,
		bool	power2x
	)

Definition at line 517 of file cuda_gpu_correlation.cpp.

                                                                                                 {
 
     int idx = blockDim.x * blockIdx.x + threadIdx.x;
     int numIm = blockIdx.y;
 
     if(idx>=yxdim)
         return;
 
     int x_idx1;
     if (power2x==true)
         x_idx1 = idx & (xdim-1);
     else
         x_idx1 = idx%xdim;
 
     int y_idx1 = idx/xdim;
     int idxWriteToMask;
     if(experimental)
         idxWriteToMask = (ydim-1 - y_idx1)*xdim + (xdim-1 - x_idx1);
     else
         idxWriteToMask = y_idx1*xdim + x_idx1;
 
     int xdim2Im = (int)floorf((pad_xdim-xdim)/2.0f);
     int ydim2Im = (int)floorf((pad_ydim-ydim)/2.0f);
     int xdim2Mask = xdim2Im;
     int ydim2Mask = ydim2Im;
     if(experimental && (xdim&1)==0){
         xdim2Im+=1;
         ydim2Im+=1;
     }
 
     int x_idx;
     if (power2x==true)
         x_idx = idxWriteToMask & (xdim-1);
     else
         x_idx = idxWriteToMask%xdim;
 
     int y_idx = idxWriteToMask/xdim;
     int idxWrite;
     int idxWriteMask;
     float d_out, d_out2;
 
     int offset=0;
     //for(int j=0; j<numImag; j++){
 
     int j = numIm;
 
         offset=j*yxdim;
 
         d_out = d_in[idx+offset]*mask[idx];
         d_out2 = d_out*d_out;
 
         idxWrite = (pad_yxdim*j) + (ydim2Im*pad_xdim) + (y_idx*pad_xdim) + xdim2Im + x_idx;
         if((xdim&1)==0)
             idxWriteMask = (pad_yxdim*j) + (ydim2Mask*pad_xdim) + (y_idx*pad_xdim) + xdim2Mask + x_idx;
         else
             idxWriteMask = idxWrite;
         padded_image_gpu[idxWrite] = d_out;
         padded_image2_gpu[idxWrite] = d_out2;
         if(j==0 && padded_mask_gpu!=NULL)
             padded_mask_gpu[idxWriteMask] = mask[idx];
 
     //}
 }

◆ pointwiseMultiplicationComplexKernel()

__global__ void pointwiseMultiplicationComplexKernel	(	cufftComplex *	reference,
		cufftComplex *	experimental,
		cufftComplex *	RefExpFourier,
		int	nzyxdim,
		int	yxdim
	)

Definition at line 501 of file cuda_gpu_correlation.cpp.

 {
     int idx = blockDim.x * blockIdx.x + threadIdx.x;
 
     if(idx>=nzyxdim)
         return;
 
     float normFactor = (1.0f/yxdim);
 
     cuComplex mulOut = cuCmulf(reference[idx], experimental[idx]);
     RefExpFourier[idx] = mulOut*normFactor;
 }

◆ pointwiseMultiplicationComplexOneManyKernel()

__global__ void pointwiseMultiplicationComplexOneManyKernel	(	cufftComplex *	M,
		cufftComplex *	manyF,
		cufftComplex *	MmanyF,
		int	nzyxdim,
		int	yxdim,
		bool	power2
	)

Definition at line 283 of file cuda_gpu_correlation.cpp.

 {
 
     int idx = blockDim.x * blockIdx.x + threadIdx.x;
     int idxLow;
     if (power2==true)
         idxLow = idx & (yxdim-1);
     else
         idxLow = idx%yxdim;
 
     if (idx>=nzyxdim)
         return;
 
     float normFactor = (1.0f/yxdim);
 
     cuComplex mulOut = cuCmulf(manyF[idx], M[idxLow]);
     MmanyF[idx] = mulOut*normFactor;
 
 }

◆ pointwiseMultiplicationComplexOneManyKernel_three()

__global__ void pointwiseMultiplicationComplexOneManyKernel_three	(	cufftComplex *	M,
		cufftComplex *	manyF,
		cufftComplex *	MmanyF,
		cufftComplex *	manyF_sq,
		cufftComplex *	MmanyF_sq,
		cufftComplex *	maskAux,
		int	nzyxdim,
		int	yxdim,
		int	ndim,
		bool	power2
	)

Definition at line 180 of file cuda_gpu_correlation.cpp.

 {
 
     int idx = threadIdx.x;
     int nIm = blockIdx.x;
     int blockSize = blockDim.x;
 
     int posTh = nIm*yxdim + idx;
     int n = ceilf(((float)yxdim/(float)blockSize));
 
     if (idx>=yxdim)
         return;
 
     float normFactor = 1.0f/yxdim;
 
     int myIdx = posTh;
     int myIdxMask = idx;
 
     cufftComplex myM = M[myIdxMask];
     cuComplex mulOut = cuCmulf(manyF[myIdx], myM);
     cuComplex mulOut_sq = cuCmulf(manyF_sq[myIdx], myM);
 
     MmanyF[myIdx] = mulOut*normFactor;
     MmanyF_sq[myIdx] = mulOut_sq*normFactor;
     if(nIm==0)
         maskAux[myIdx] = cuCmulf(myM, myM)*normFactor;
 
     myIdx+=blockSize;
     myIdxMask+=blockSize;
 
     for (int i=1; i<n; i++){
 
         if (posTh+i*blockSize < yxdim*(nIm+1)){
 
             myM = M[myIdxMask];
             mulOut = cuCmulf(manyF[myIdx], myM);
             mulOut_sq = cuCmulf(manyF_sq[myIdx], myM);
 
             MmanyF[myIdx] = mulOut*normFactor;
             MmanyF_sq[myIdx] = mulOut_sq*normFactor;
             if(nIm==0)
                 maskAux[myIdx] = cuCmulf(myM, myM)*normFactor;
 
             myIdx+=blockSize;
             myIdxMask+=blockSize;
 
         }
     }
 }

◆ pointwiseMultiplicationComplexOneManyKernel_two()

__global__ void pointwiseMultiplicationComplexOneManyKernel_two	(	cufftComplex *	M,
		cufftComplex *	manyF,
		cufftComplex *	MmanyF,
		cufftComplex *	manyF_sq,
		cufftComplex *	MmanyF_sq,
		int	nzyxdim,
		int	yxdim,
		int	ndim,
		bool	power2
	)

Definition at line 233 of file cuda_gpu_correlation.cpp.

 {
 
     int idx = threadIdx.x;
     int nIm = blockIdx.x;
     int blockSize = blockDim.x;
 
     int posTh = nIm*yxdim + idx;
     int n = ceilf(((float)yxdim/(float)blockSize));
 
     if (idx>=yxdim)
         return;
 
     float normFactor = 1.0f/yxdim;
 
     int myIdx = posTh;
     int myIdxMask = idx;
 
     cufftComplex myM = M[myIdxMask];
     cuComplex mulOut = cuCmulf(manyF[myIdx], myM);
     cuComplex mulOut_sq = cuCmulf(manyF_sq[myIdx], myM);
 
     MmanyF[myIdx] = mulOut*normFactor;
     MmanyF_sq[myIdx] = mulOut_sq*normFactor;
 
     myIdx+=blockSize;
     myIdxMask+=blockSize;
 
     for (int i=1; i<n; i++){
 
         if (posTh+i*blockSize < yxdim*(nIm+1)){
 
             myM = M[myIdxMask];
             mulOut = cuCmulf(manyF[myIdx], myM);
             mulOut_sq = cuCmulf(manyF_sq[myIdx], myM);
 
             MmanyF[myIdx] = mulOut*normFactor;
             MmanyF_sq[myIdx] = mulOut_sq*normFactor;
 
             myIdx+=blockSize;
             myIdxMask+=blockSize;
 
         }
     }
 }

◆ pointwiseMultiplicationFourier()

void pointwiseMultiplicationFourier	(	const GpuMultidimArrayAtGpu< std::complex< float > > &	M,
		const GpuMultidimArrayAtGpu< std::complex< float > > &	manyF,
		GpuMultidimArrayAtGpu< std::complex< float > > &	MmanyF,
		myStreamHandle &	myStream
	)

Definition at line 973 of file cuda_gpu_correlation.cpp.

 {
     cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
     int numTh = 1024;
     XmippDim3 blockSize(numTh, 1, 1), gridSize;
     manyF.calculateGridSizeVectorized(blockSize, gridSize);
 
     bool power2;
     if (manyF.yxdim & (manyF.yxdim-1))
         power2 = false;
     else
         power2 = true;
     pointwiseMultiplicationComplexOneManyKernel <<< CONVERT2DIM3(gridSize), CONVERT2DIM3(blockSize), 0, *stream >>>
             ((cufftComplex*)M.d_data, (cufftComplex*)manyF.d_data, (cufftComplex*) MmanyF.d_data, manyF.nzyxdim, manyF.yxdim, power2);
 
 }

◆ pointwiseMultiplicationFourier_three()

void pointwiseMultiplicationFourier_three	(	const GpuMultidimArrayAtGpu< std::complex< float > > &	M,
		const GpuMultidimArrayAtGpu< std::complex< float > > &	manyF,
		GpuMultidimArrayAtGpu< std::complex< float > > &	MmanyF,
		const GpuMultidimArrayAtGpu< std::complex< float > > &	manyF_sq,
		GpuMultidimArrayAtGpu< std::complex< float > > &	MmanyF_sq,
		myStreamHandle &	myStream,
		GpuMultidimArrayAtGpu< std::complex< float > > &	maskAux
	)

Definition at line 1015 of file cuda_gpu_correlation.cpp.

 {
     cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
     int numTh = 1024;
     int numBlk = manyF.Ndim;
 
     bool power2;
     if (manyF.yxdim & (manyF.yxdim-1))
         power2 = false;
     else
         power2 = true;
 
     pointwiseMultiplicationComplexOneManyKernel_three <<< numBlk, numTh, 0, *stream >>>
             ((cufftComplex*)M.d_data, (cufftComplex*)manyF.d_data, (cufftComplex*) MmanyF.d_data,
                     (cufftComplex*)manyF_sq.d_data, (cufftComplex*) MmanyF_sq.d_data,
                     (cufftComplex*) maskAux.d_data,
                     manyF.nzyxdim, manyF.yxdim, manyF.Ndim, power2);
 
 }

◆ pointwiseMultiplicationFourier_two()

void pointwiseMultiplicationFourier_two	(	const GpuMultidimArrayAtGpu< std::complex< float > > &	M,
		const GpuMultidimArrayAtGpu< std::complex< float > > &	manyF,
		GpuMultidimArrayAtGpu< std::complex< float > > &	MmanyF,
		const GpuMultidimArrayAtGpu< std::complex< float > > &	manyF_sq,
		GpuMultidimArrayAtGpu< std::complex< float > > &	MmanyF_sq,
		myStreamHandle &	myStream
	)

Definition at line 991 of file cuda_gpu_correlation.cpp.

 {
     cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
     int numTh = 1024;
     int numBlk = manyF.Ndim;
 
     bool power2;
     if (manyF.yxdim & (manyF.yxdim-1))
         power2 = false;
     else
         power2 = true;
 
     pointwiseMultiplicationComplexOneManyKernel_two <<< numBlk, numTh, 0, *stream >>>
             ((cufftComplex*)M.d_data, (cufftComplex*)manyF.d_data, (cufftComplex*) MmanyF.d_data,
                     (cufftComplex*)manyF_sq.d_data, (cufftComplex*) MmanyF_sq.d_data,
                     manyF.nzyxdim, manyF.yxdim, manyF.Ndim, power2);
 
 }

◆ sumRadiusKernel()

__global__ void sumRadiusKernel	(	float *	d_in,
		float *	d_out,
		float *	d_out_max,
		float *	d_out_zero,
		int	dim,
		int	radius,
		int	ndim
	)

Definition at line 33 of file cuda_gpu_correlation.cpp.

                                       {
 
     int idx = blockDim.x * blockIdx.x + threadIdx.x;
     int numIm = floorf(idx/360.0f);
     int angle = idx%360;
 
     if(idx>=dim)
         return;
 
     float out = 0.0;
     float out_max = -100000;
     int idxRead=360*radius*numIm;
     for(int i=0; i<radius; i++){
         if(d_in[idxRead+(360*i)+angle]==-1.0){
             continue;
         }
         out += d_in[idxRead+(360*i)+angle];
         if(d_in[idxRead+(360*i)+angle]>d_out_max[idx]){
             out_max = d_in[idxRead+(360*i)+angle];
         }
 
         if(i==0)
             d_out_zero[idx] = d_in[idxRead+angle];
     }
     d_out[idx] = out;
     d_out_max[idx] = out_max;
 
 }

◆ waitGpu()

void waitGpu	(	myStreamHandle &	myStream,
		bool	allStreams
	)

Definition at line 1497 of file cuda_gpu_correlation.cpp.

                                                         {
     if(!allStreams){
         cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
         gpuErrchk(cudaStreamSynchronize(*stream));
     }else
         gpuErrchk(cudaDeviceSynchronize());
 }

◆ wrapping()

__device__ void wrapping	(	int &	x,
		int &	y,
		int	xdim,
		int	ydim
	)

Definition at line 374 of file cuda_gpu_correlation.cpp.

                                                              {
         //mirror wrapping
         if(x<0)
             x=-x;
         else if(x>=xdim)
             x=xdim-(x-xdim)-1;
         if(y<0)
             y=-y;
         else if(y>=ydim)
             y=ydim-(y-ydim)-1;
 }

Macros

Functions