Collaboration diagram for Cuda GPU Correlation:

Classes
class	StructuresAux

class	GpuCorrelationAux

Functions
void	cuda_calculate_correlation (GpuCorrelationAux &referenceAux, GpuCorrelationAux &experimentalAux, TransformMatrix< float > &transMat, float *max_vector, int maxShift, mycufftHandle &myhandlePadded, bool mirror, StructuresAux &myStructureAux, myStreamHandle &myStream, TransformMatrix< float > &resultTR, bool saveMaxVector)

void	cuda_calculate_correlation_rotation (GpuCorrelationAux &referenceAux, GpuCorrelationAux &experimentalAux, TransformMatrix< float > &transMat, float *max_vector, int maxShift, mycufftHandle &myhandlePadded, bool mirror, StructuresAux &myStructureAux, myStreamHandle &myStream, TransformMatrix< float > &resultRT)

void	apply_transform (GpuMultidimArrayAtGpu< float > &d_original_image, GpuMultidimArrayAtGpu< float > &d_transform_image, TransformMatrix< float > &transMat, myStreamHandle &myStream)

void	padding_masking (GpuMultidimArrayAtGpu< float > &d_orig_image, GpuMultidimArrayAtGpu< float > &mask, GpuMultidimArrayAtGpu< float > &padded_image_gpu, GpuMultidimArrayAtGpu< float > &padded_image2_gpu, GpuMultidimArrayAtGpu< float > &padded_mask_gpu, bool experimental, myStreamHandle &myStream)

void	cuda_calculate_correlation_two (GpuCorrelationAux &referenceAux, GpuCorrelationAux &experimentalAuxTR, TransformMatrix< float > &transMatTR, float max_vectorTR, int maxShift, mycufftHandle &myhandlePaddedTR, bool mirror, StructuresAux &myStructureAuxTR, myStreamHandle &myStreamTR, GpuCorrelationAux &experimentalAuxRT, TransformMatrix< float > &transMatRT, float max_vectorRT, mycufftHandle &myhandlePaddedRT, StructuresAux &myStructureAuxRT, myStreamHandle &myStreamRT, TransformMatrix< float > &resultTR, TransformMatrix< float > &resultRT, mycufftHandle &ifftcb, bool saveMaxVector)

Detailed Description

Function Documentation

◆ apply_transform()

void apply_transform	(	GpuMultidimArrayAtGpu< float > &	d_original_image,
		GpuMultidimArrayAtGpu< float > &	d_transform_image,
		TransformMatrix< float > &	transMat,
		myStreamHandle &	myStream
	)

Definition at line 1447 of file cuda_gpu_correlation.cpp.

                                                                    {
 
     cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
 
     int numTh = 1024;
 
     int numBlk = d_transform_image.yxdim/numTh;
     if(d_transform_image.yxdim%numTh > 0)
         numBlk++;
     dim3 blockSize(numTh, 1, 1);
     dim3 gridSize(numBlk, d_transform_image.Ndim, 1);
 
     bool power2yx, power2x;
     if (d_original_image.yxdim & (d_original_image.yxdim-1))
         power2yx = false;
     else
         power2yx = true;
     if (d_original_image.Xdim & (d_original_image.Xdim-1))
         power2x = false;
     else
         power2x = true;
     applyTransformKernel<<< gridSize, blockSize, 9*sizeof(float), *stream >>>
             (d_original_image.d_data, d_transform_image.d_data, transMat.d_data,
                     d_original_image.nzyxdim, d_original_image.yxdim, d_original_image.Xdim,
                     d_original_image.Ydim, power2yx, power2x);
 
 }

◆ cuda_calculate_correlation()

void cuda_calculate_correlation	(	GpuCorrelationAux &	referenceAux,
		GpuCorrelationAux &	experimentalAux,
		TransformMatrix< float > &	transMat,
		float *	max_vector,
		int	maxShift,
		mycufftHandle &	myhandlePadded,
		bool	mirror,
		StructuresAux &	myStructureAux,
		myStreamHandle &	myStream,
		TransformMatrix< float > &	resultTR,
		bool	saveMaxVector
	)

Definition at line 1205 of file cuda_gpu_correlation.cpp.

 {
 
     cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
 
     myStructureAux.RefExpFourier.resize(referenceAux.d_projFFT.Xdim, referenceAux.d_projFFT.Ydim,
             referenceAux.d_projFFT.Zdim, referenceAux.d_projFFT.Ndim);
 
     int numTh = 1024;
     XmippDim3 blockSize(numTh, 1, 1), gridSize;
     referenceAux.d_projFFT.calculateGridSizeVectorized(blockSize, gridSize);
 
     pointwiseMultiplicationComplexKernel<<< CONVERT2DIM3(gridSize), CONVERT2DIM3(blockSize), 0, *stream >>>
             ((cufftComplex*)referenceAux.d_projFFT.d_data, (cufftComplex*)experimentalAux.d_projFFT.d_data, (cufftComplex*)myStructureAux.RefExpFourier.d_data,
                     referenceAux.d_projFFT.nzyxdim, referenceAux.d_projFFT.yxdim);
 
 
     myStructureAux.RefExpRealSpace.resize(referenceAux.Xdim, referenceAux.Ydim, referenceAux.d_projFFT.Zdim,
             referenceAux.d_projFFT.Ndim);
 
     GpuMultidimArrayAtGpu< std::complex<float> > dull;
     myStructureAux.RefExpFourier.ifftStream(myStructureAux.RefExpRealSpace, myhandlePadded, myStream, false, dull);
 
 
     XmippDim3 blockSize2(numTh, 1, 1), gridSize2;
     myStructureAux.RefExpRealSpace.calculateGridSizeVectorized(blockSize2, gridSize2);
 
     myStructureAux.d_NCC.resize(referenceAux.Xdim, referenceAux.Ydim, referenceAux.d_projFFT.Zdim,
             referenceAux.d_projFFT.Ndim);
 
     bool power2yx, power2x;
     if (referenceAux.MFrealSpace.yxdim & (referenceAux.MFrealSpace.yxdim-1))
         power2yx = false;
     else
         power2yx = true;
     if (referenceAux.MFrealSpace.Xdim & (referenceAux.MFrealSpace.Xdim-1))
         power2x = false;
     else
         power2x = true;
     calculateNccKernel<<< CONVERT2DIM3(gridSize2), CONVERT2DIM3(blockSize2), 0, *stream >>>
             (myStructureAux.RefExpRealSpace.d_data, referenceAux.MFrealSpace.d_data, experimentalAux.MFrealSpace.d_data, referenceAux.MF2realSpace.d_data,
                     experimentalAux.MF2realSpace.d_data, referenceAux.maskAutocorrelation.d_data, myStructureAux.d_NCC.d_data, referenceAux.MFrealSpace.nzyxdim,
                     referenceAux.MFrealSpace.yxdim, referenceAux.MFrealSpace.Xdim, referenceAux.MFrealSpace.Ydim, referenceAux.maskCount, maxShift, power2yx, power2x);
 
     int fixPadding=0;
     if(referenceAux.XdimOrig%2==0 && referenceAux.Xdim%2==0)
         fixPadding=1;
     if(referenceAux.XdimOrig%2==0 && referenceAux.Xdim%2!=0)
         fixPadding=0;
     if(referenceAux.XdimOrig%2!=0 && referenceAux.Xdim%2==0)
         fixPadding=-1;
     if(referenceAux.XdimOrig%2!=0 && referenceAux.Xdim%2!=0)
         fixPadding=0;
 
     calculateMaxNew2DNew(myStructureAux.d_NCC.yxdim, myStructureAux.d_NCC.Ndim,
             myStructureAux.d_NCC.d_data, myStructureAux.d_out_max, myStructureAux.d_pos_max, myStream);
 
     numTh = 1024;
     int numBlk = transMat.Ndim/numTh;
     if(transMat.Ndim%numTh > 0)
         numBlk++;
 
     bool _power2x;
         if (myStructureAux.d_NCC.Xdim & (myStructureAux.d_NCC.Xdim-1))
             _power2x = false;
         else
             _power2x = true;
     double maxShift2 = (2*maxShift)*(2*maxShift);
     buildTranslationMatrix<<<numBlk, numTh, 0, *stream>>> (myStructureAux.d_pos_max.d_data, transMat.d_data, resultTR.d_data,
             myStructureAux.d_out_max.d_data, myStructureAux.d_NCC.d_data, myStructureAux.d_NCC.Xdim, myStructureAux.d_NCC.Ydim,
             myStructureAux.d_NCC.Ndim, myStructureAux.d_NCC.yxdim, fixPadding, maxShift2, _power2x);
 
     resultTR.copyMatrix(transMat, myStream);
 
     if(saveMaxVector)
         gpuErrchk(cudaMemcpyAsync(max_vector, myStructureAux.d_out_max.d_data, myStructureAux.d_NCC.Ndim*sizeof(float), cudaMemcpyDeviceToHost, *stream));
 
 }

◆ cuda_calculate_correlation_rotation()

void cuda_calculate_correlation_rotation	(	GpuCorrelationAux &	referenceAux,
		GpuCorrelationAux &	experimentalAux,
		TransformMatrix< float > &	transMat,
		float *	max_vector,
		int	maxShift,
		mycufftHandle &	myhandlePadded,
		bool	mirror,
		StructuresAux &	myStructureAux,
		myStreamHandle &	myStream,
		TransformMatrix< float > &	resultRT
	)

Definition at line 1127 of file cuda_gpu_correlation.cpp.

 {
 
 
     cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
 
     myStructureAux.RefExpFourierPolar.resize(referenceAux.d_projPolarFFT.Xdim, referenceAux.d_projPolarFFT.Ydim,
             referenceAux.d_projPolarFFT.Zdim, referenceAux.d_projPolarFFT.Ndim);
 
     int numTh = 1024;
     XmippDim3 blockSize(numTh, 1, 1), gridSize;
     referenceAux.d_projPolarFFT.calculateGridSizeVectorized(blockSize, gridSize);
 
     pointwiseMultiplicationComplexKernel<<< CONVERT2DIM3(gridSize), CONVERT2DIM3(blockSize), 0, *stream >>>
             ((cufftComplex*)referenceAux.d_projPolarFFT.d_data, (cufftComplex*)experimentalAux.d_projPolarFFT.d_data,
                     (cufftComplex*)myStructureAux.RefExpFourierPolar.d_data, referenceAux.d_projPolarFFT.nzyxdim,
                     referenceAux.d_projPolarFFT.yxdim);
 
     GpuMultidimArrayAtGpu< std::complex<float> > dull;
     myStructureAux.RefExpRealSpacePolar.resize(referenceAux.XdimPolar, referenceAux.YdimPolar, referenceAux.d_projPolarFFT.Zdim,
             referenceAux.d_projPolarFFT.Ndim);
     myStructureAux.RefExpFourierPolar.ifftStream(myStructureAux.RefExpRealSpacePolar, myhandlePadded, myStream, false, dull);
 
     XmippDim3 blockSize2(numTh, 1, 1), gridSize2;
     myStructureAux.RefExpRealSpacePolar.calculateGridSizeVectorized(blockSize2, gridSize2);
 
     myStructureAux.d_NCCPolar.resize(referenceAux.XdimPolar, referenceAux.YdimPolar, referenceAux.d_projPolarFFT.Zdim,
                 referenceAux.d_projPolarFFT.Ndim);
 
     double maskFFTPolar = (referenceAux.XdimPolar*referenceAux.YdimPolar);
     calculateNccRotationKernel<<< CONVERT2DIM3(gridSize2), CONVERT2DIM3(blockSize2), 0, *stream >>>
             (myStructureAux.RefExpRealSpacePolar.d_data, (cufftComplex*)referenceAux.d_projPolarFFT.d_data, (cufftComplex*)experimentalAux.d_projPolarFFT.d_data,
                     (cufftComplex*)referenceAux.d_projPolarSquaredFFT.d_data, (cufftComplex*)experimentalAux.d_projPolarSquaredFFT.d_data,
                     maskFFTPolar, myStructureAux.d_NCCPolar.d_data, referenceAux.d_projPolarFFT.yxdim, myStructureAux.RefExpRealSpacePolar.nzyxdim,
                     myStructureAux.RefExpRealSpacePolar.yxdim);
 
     //AJ sum along the radius
     numTh = 1024;
     int numBlk = (myStructureAux.d_NCCPolar.Xdim*myStructureAux.d_NCCPolar.Ndim)/numTh;
     if((myStructureAux.d_NCCPolar.Xdim*myStructureAux.d_NCCPolar.Ndim)%numTh!=0)
         numBlk++;
 
     myStructureAux.d_NCCPolar1D.resize(myStructureAux.d_NCCPolar.Xdim,1,1,myStructureAux.d_NCCPolar.Ndim);
     myStructureAux.auxMax.resize(myStructureAux.d_NCCPolar.Xdim,1,1,myStructureAux.d_NCCPolar.Ndim);
     myStructureAux.auxZero.resize(myStructureAux.d_NCCPolar.Xdim,1,1,myStructureAux.d_NCCPolar.Ndim);
     sumRadiusKernel<<< numBlk, numTh, 0, *stream >>>(myStructureAux.d_NCCPolar.d_data, myStructureAux.d_NCCPolar1D.d_data, myStructureAux.auxMax.d_data,
             myStructureAux.auxZero.d_data, myStructureAux.d_NCCPolar.Xdim*myStructureAux.d_NCCPolar.Ndim, myStructureAux.d_NCCPolar.Ydim,
             myStructureAux.d_NCCPolar.Ndim);
 
     calculateMaxNew2DNew(myStructureAux.d_NCCPolar1D.Xdim, myStructureAux.d_NCCPolar1D.Ndim, myStructureAux.d_NCCPolar1D.d_data,
             myStructureAux.d_out_polar_max, myStructureAux.d_pos_polar_max, myStream);
 
     numTh = 1024;
     numBlk = transMat.Ndim/numTh;
     if(transMat.Ndim%numTh > 0)
         numBlk++;
 
     bool _power2x;
     if (myStructureAux.d_NCCPolar1D.Xdim & (myStructureAux.d_NCCPolar1D.Xdim-1))
         _power2x = false;
     else
         _power2x = true;
     double maxShift2 = (2*maxShift)*(2*maxShift);
     myStructureAux.maxGpu.resize(myStructureAux.d_NCCPolar1D.Ndim);
     buildRotationMatrix<<<numBlk, numTh, 0, *stream>>> (myStructureAux.d_pos_polar_max.d_data, transMat.d_data,
             resultRT.d_data, myStructureAux.maxGpu.d_data, myStructureAux.auxMax.d_data, myStructureAux.auxZero.d_data,
             myStructureAux.d_NCCPolar1D.Xdim, myStructureAux.d_NCCPolar1D.Ndim,
             myStructureAux.d_NCCPolar1D.yxdim, 0, maxShift2, _power2x);
 
     resultRT.copyMatrix(transMat, myStream);
 
     gpuErrchk(cudaMemcpyAsync(max_vector, myStructureAux.maxGpu.d_data, myStructureAux.maxGpu.Ndim*sizeof(float), cudaMemcpyDeviceToHost, *stream));
 
 }

◆ cuda_calculate_correlation_two()

void cuda_calculate_correlation_two	(	GpuCorrelationAux &	referenceAux,
		GpuCorrelationAux &	experimentalAuxTR,
		TransformMatrix< float > &	transMatTR,
		float *	max_vectorTR,
		int	maxShift,
		mycufftHandle &	myhandlePaddedTR,
		bool	mirror,
		StructuresAux &	myStructureAuxTR,
		myStreamHandle &	myStreamTR,
		GpuCorrelationAux &	experimentalAuxRT,
		TransformMatrix< float > &	transMatRT,
		float *	max_vectorRT,
		mycufftHandle &	myhandlePaddedRT,
		StructuresAux &	myStructureAuxRT,
		myStreamHandle &	myStreamRT,
		TransformMatrix< float > &	resultTR,
		TransformMatrix< float > &	resultRT,
		mycufftHandle &	ifftcb,
		bool	saveMaxVector
	)

Definition at line 1288 of file cuda_gpu_correlation.cpp.

 {
 
     cudaStream_t *streamTR = (cudaStream_t*) myStreamTR.ptr;
     cudaStream_t *streamRT = (cudaStream_t*) myStreamRT.ptr;
 
 
     myStructureAuxTR.RefExpFourier.resize(referenceAux.d_projFFT.Xdim, referenceAux.d_projFFT.Ydim,
             referenceAux.d_projFFT.Zdim, referenceAux.d_projFFT.Ndim);
     myStructureAuxTR.RefExpRealSpace.resize(referenceAux.Xdim, referenceAux.Ydim, referenceAux.d_projFFT.Zdim,
             referenceAux.d_projFFT.Ndim);
     myStructureAuxTR.d_NCC.resize(referenceAux.Xdim, referenceAux.Ydim, referenceAux.d_projFFT.Zdim,
             referenceAux.d_projFFT.Ndim);
 
     myStructureAuxRT.RefExpFourierPolar.resize(referenceAux.d_projPolarFFT.Xdim, referenceAux.d_projPolarFFT.Ydim,
             referenceAux.d_projPolarFFT.Zdim, referenceAux.d_projPolarFFT.Ndim);
     myStructureAuxRT.RefExpRealSpacePolar.resize(referenceAux.XdimPolar, referenceAux.YdimPolar, referenceAux.d_projPolarFFT.Zdim,
             referenceAux.d_projPolarFFT.Ndim);
     myStructureAuxRT.d_NCCPolar.resize(referenceAux.XdimPolar, referenceAux.YdimPolar, referenceAux.d_projPolarFFT.Zdim,
                 referenceAux.d_projPolarFFT.Ndim);
     myStructureAuxRT.d_NCCPolar1D.resize(myStructureAuxRT.d_NCCPolar.Xdim,1,1,myStructureAuxRT.d_NCCPolar.Ndim);
     myStructureAuxRT.auxMax.resize(myStructureAuxRT.d_NCCPolar.Xdim,1,1,myStructureAuxRT.d_NCCPolar.Ndim);
     myStructureAuxRT.auxZero.resize(myStructureAuxRT.d_NCCPolar.Xdim,1,1,myStructureAuxRT.d_NCCPolar.Ndim);
     myStructureAuxRT.maxGpu.resize(myStructureAuxRT.d_NCCPolar1D.Ndim);
 
 
 
     int numTh = 1024;
     XmippDim3 blockSize(numTh, 1, 1), gridSize;
     referenceAux.d_projFFT.calculateGridSizeVectorized(blockSize, gridSize);
 
 
     pointwiseMultiplicationComplexKernel<<< CONVERT2DIM3(gridSize), CONVERT2DIM3(blockSize), 0, *streamTR >>>
             ((cufftComplex*)referenceAux.d_projFFT.d_data, (cufftComplex*)experimentalAuxTR.d_projFFT.d_data,
                     (cufftComplex*)myStructureAuxTR.RefExpFourier.d_data,
                     referenceAux.d_projFFT.nzyxdim, referenceAux.d_projFFT.yxdim);
 
     XmippDim3 blockSize3(numTh, 1, 1), gridSize3;
     referenceAux.d_projPolarFFT.calculateGridSizeVectorized(blockSize3, gridSize3);
 
 
     pointwiseMultiplicationComplexKernel<<< CONVERT2DIM3(gridSize3), CONVERT2DIM3(blockSize3), 0, *streamRT >>>
         ((cufftComplex*)referenceAux.d_projPolarFFT.d_data, (cufftComplex*)experimentalAuxRT.d_projPolarFFT.d_data,
                     (cufftComplex*)myStructureAuxRT.RefExpFourierPolar.d_data, referenceAux.d_projPolarFFT.nzyxdim,
                     referenceAux.d_projPolarFFT.yxdim);
 
 
     GpuMultidimArrayAtGpu< std::complex<float> > dull;
     myStructureAuxTR.RefExpFourier.ifftStream(myStructureAuxTR.RefExpRealSpace, myhandlePaddedTR, myStreamTR, false, dull);
 
     myStructureAuxRT.RefExpFourierPolar.ifftStream(myStructureAuxRT.RefExpRealSpacePolar, myhandlePaddedRT, myStreamRT, false, dull);
 
     XmippDim3 blockSize2(numTh, 1, 1), gridSize2;
     myStructureAuxTR.RefExpRealSpace.calculateGridSizeVectorized(blockSize2, gridSize2);
 
     bool power2yx, power2x;
     if (referenceAux.MFrealSpace.yxdim & (referenceAux.MFrealSpace.yxdim-1))
         power2yx = false;
     else
         power2yx = true;
     if (referenceAux.MFrealSpace.Xdim & (referenceAux.MFrealSpace.Xdim-1))
         power2x = false;
     else
         power2x = true;
     calculateNccKernel<<< CONVERT2DIM3(gridSize2), CONVERT2DIM3(blockSize2), 0, *streamTR >>>
             (myStructureAuxTR.RefExpRealSpace.d_data, referenceAux.MFrealSpace.d_data, experimentalAuxTR.MFrealSpace.d_data, referenceAux.MF2realSpace.d_data,
                     experimentalAuxTR.MF2realSpace.d_data, referenceAux.maskAutocorrelation.d_data, myStructureAuxTR.d_NCC.d_data, referenceAux.MFrealSpace.nzyxdim,
                     referenceAux.MFrealSpace.yxdim, referenceAux.MFrealSpace.Xdim, referenceAux.MFrealSpace.Ydim, referenceAux.maskCount, maxShift, power2yx, power2x);
 
 
     int fixPadding=0;
     if(referenceAux.XdimOrig%2==0 && referenceAux.Xdim%2==0)
         fixPadding=1;
     if(referenceAux.XdimOrig%2==0 && referenceAux.Xdim%2!=0)
         fixPadding=0;
     if(referenceAux.XdimOrig%2!=0 && referenceAux.Xdim%2==0)
         fixPadding=-1;
     if(referenceAux.XdimOrig%2!=0 && referenceAux.Xdim%2!=0)
         fixPadding=0;
 
     numTh = 1024;
     XmippDim3 blockSize4(numTh, 1, 1), gridSize4;
     myStructureAuxRT.RefExpRealSpacePolar.calculateGridSizeVectorized(blockSize4, gridSize4);
 
     double maskFFTPolar = (referenceAux.XdimPolar*referenceAux.YdimPolar);
     calculateNccRotationKernel<<< CONVERT2DIM3(gridSize4), CONVERT2DIM3(blockSize4), 0, *streamRT >>>
             (myStructureAuxRT.RefExpRealSpacePolar.d_data, (cufftComplex*)referenceAux.d_projPolarFFT.d_data, (cufftComplex*)experimentalAuxRT.d_projPolarFFT.d_data,
                     (cufftComplex*)referenceAux.d_projPolarSquaredFFT.d_data, (cufftComplex*)experimentalAuxRT.d_projPolarSquaredFFT.d_data,
                     maskFFTPolar, myStructureAuxRT.d_NCCPolar.d_data, referenceAux.d_projPolarFFT.yxdim, myStructureAuxRT.RefExpRealSpacePolar.nzyxdim,
                     myStructureAuxRT.RefExpRealSpacePolar.yxdim);
 
     //AJ sum along the radius
     numTh = 1024;
     int numBlk = (myStructureAuxRT.d_NCCPolar.Xdim*myStructureAuxRT.d_NCCPolar.Ndim)/numTh;
     if((myStructureAuxRT.d_NCCPolar.Xdim*myStructureAuxRT.d_NCCPolar.Ndim)%numTh!=0)
         numBlk++;
 
     sumRadiusKernel<<< numBlk, numTh, 0, *streamRT >>>(myStructureAuxRT.d_NCCPolar.d_data, myStructureAuxRT.d_NCCPolar1D.d_data, myStructureAuxRT.auxMax.d_data,
             myStructureAuxRT.auxZero.d_data, myStructureAuxRT.d_NCCPolar.Xdim*myStructureAuxRT.d_NCCPolar.Ndim, myStructureAuxRT.d_NCCPolar.Ydim,
             myStructureAuxRT.d_NCCPolar.Ndim);
 
     calculateMaxNew2DNew(myStructureAuxTR.d_NCC.yxdim, myStructureAuxTR.d_NCC.Ndim,
             myStructureAuxTR.d_NCC.d_data, myStructureAuxTR.d_out_max, myStructureAuxTR.d_pos_max, myStreamTR);
 
     calculateMaxNew2DNew(myStructureAuxRT.d_NCCPolar1D.Xdim, myStructureAuxRT.d_NCCPolar1D.Ndim, myStructureAuxRT.d_NCCPolar1D.d_data,
             myStructureAuxRT.d_out_polar_max, myStructureAuxRT.d_pos_polar_max, myStreamRT);
 
     numTh = 1024;
     numBlk = transMatTR.Ndim/numTh;
     if(transMatTR.Ndim%numTh > 0)
         numBlk++;
 
     bool _power2x;
         if (myStructureAuxTR.d_NCC.Xdim & (myStructureAuxTR.d_NCC.Xdim-1))
             _power2x = false;
         else
             _power2x = true;
     double maxShift2 = (2*maxShift)*(2*maxShift);
     buildTranslationMatrix<<<numBlk, numTh, 0, *streamTR>>> (myStructureAuxTR.d_pos_max.d_data, transMatTR.d_data, resultTR.d_data,
             myStructureAuxTR.d_out_max.d_data, myStructureAuxTR.d_NCC.d_data, myStructureAuxTR.d_NCC.Xdim, myStructureAuxTR.d_NCC.Ydim,
             myStructureAuxTR.d_NCC.Ndim, myStructureAuxTR.d_NCC.yxdim, fixPadding, maxShift2, _power2x);
 
     numBlk = transMatRT.Ndim/numTh;
     if(transMatRT.Ndim%numTh > 0)
         numBlk++;
 
     bool __power2x;
         if (myStructureAuxRT.d_NCCPolar1D.Xdim & (myStructureAuxRT.d_NCCPolar1D.Xdim-1))
             __power2x = false;
         else
             __power2x = true;
     buildRotationMatrix<<<numBlk, numTh, 0, *streamRT>>> (myStructureAuxRT.d_pos_polar_max.d_data, transMatRT.d_data,
             resultRT.d_data, myStructureAuxRT.maxGpu.d_data, myStructureAuxRT.auxMax.d_data, myStructureAuxRT.auxZero.d_data,
             myStructureAuxRT.d_NCCPolar1D.Xdim, myStructureAuxRT.d_NCCPolar1D.Ndim,
             myStructureAuxRT.d_NCCPolar1D.yxdim, 0, maxShift2, __power2x);
 
 
     resultTR.copyMatrix(transMatTR, myStreamTR);
 
     resultRT.copyMatrix(transMatRT, myStreamRT);
 
     if(saveMaxVector){
         gpuErrchk(cudaMemcpyAsync(max_vectorTR, myStructureAuxTR.d_out_max.d_data, myStructureAuxTR.d_NCC.Ndim*sizeof(float), cudaMemcpyDeviceToHost, *streamTR));
         gpuErrchk(cudaMemcpyAsync(max_vectorRT, myStructureAuxRT.maxGpu.d_data, myStructureAuxRT.maxGpu.Ndim*sizeof(float), cudaMemcpyDeviceToHost, *streamRT));
     }
 
 }

◆ padding_masking()

void padding_masking	(	GpuMultidimArrayAtGpu< float > &	d_orig_image,
		GpuMultidimArrayAtGpu< float > &	mask,
		GpuMultidimArrayAtGpu< float > &	padded_image_gpu,
		GpuMultidimArrayAtGpu< float > &	padded_image2_gpu,
		GpuMultidimArrayAtGpu< float > &	padded_mask_gpu,
		bool	experimental,
		myStreamHandle &	myStream
	)

Definition at line 942 of file cuda_gpu_correlation.cpp.

                                                                                                    {
 
     int numTh = 1024;
     int numBlk = d_orig_image.yxdim/numTh;
     if(d_orig_image.yxdim%numTh > 0)
         numBlk++;
 
     dim3 blockSize(numTh,1,1);
     dim3 gridSize(numBlk, d_orig_image.Ndim, 1);
 
     cudaStream_t *stream = (cudaStream_t*) myStream.ptr;
     gpuErrchk(cudaMemsetAsync(padded_image_gpu.d_data, 0, padded_image_gpu.nzyxdim*sizeof(float), *stream));
     gpuErrchk(cudaMemsetAsync(padded_image2_gpu.d_data, 0, padded_image2_gpu.nzyxdim*sizeof(float), *stream));
     if(padded_mask_gpu.d_data!=NULL)
         gpuErrchk(cudaMemsetAsync(padded_mask_gpu.d_data, 0, padded_mask_gpu.nzyxdim*sizeof(float), *stream));
 
     bool power2;
     if (d_orig_image.Xdim & (d_orig_image.Xdim-1))
         power2 = false;
     else
         power2 = true;
     maskingPaddingKernel<<< gridSize, blockSize, 0, *stream>>>(d_orig_image.d_data, mask.d_data,
             padded_image_gpu.d_data, padded_image2_gpu.d_data, padded_mask_gpu.d_data,
             d_orig_image.Xdim, d_orig_image.Ydim, d_orig_image.yxdim, d_orig_image.Ndim,
             padded_image_gpu.Xdim, padded_image_gpu.Ydim, padded_image_gpu.yxdim, experimental, power2);
 
 }

Classes