xmippDoc/html/cuda__gpu__geo__transformer_8cpp_source.html

 /***************************************************************************
  *
  * Authors:    David Strelak (davidstrelak@gmail.com)
  *
  * Unidad de  Bioinformatica of Centro Nacional de Biotecnologia , CSIC
  *
  * This program is free software; you can redistribute it and/or modify
  * it under the terms of the GNU General Public License as published by
  * the Free Software Foundation; either version 2 of the License, or
  * (at your option) any later version.
  *
  * This program is distributed in the hope that it will be useful,
  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  * GNU General Public License for more details.
  *
  * You should have received a copy of the GNU General Public License
  * along with this program; if not, write to the Free Software
  * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA
  * 02111-1307  USA
  *
  *  All comments concerning this program package may be sent to the
  *  e-mail address 'xmipp@cnb.csic.es'
  ***************************************************************************/

 #include "cuda_gpu_geo_transformer.h"
 #include "cuda_asserts.h"
 #include <cuda_runtime_api.h>
 #include "cuda_all.cpp"

 template<typename T>
 void GeoTransformer<T>::release() {
     cudaFree(d_in);
     cudaFree(d_out);
     cudaFree(d_trInv);
     cudaFree(d_coeffsX);
     cudaFree(d_coeffsY);
     setDefaultValues();
 }

 template<typename T>
 void GeoTransformer<T>::setDefaultValues() {
     isReadyForBspline = isReadyForMatrix = false;
     d_trInv = d_in = d_out = d_coeffsX = d_coeffsY = nullptr;
     inX = inY = inZ = splineX = splineY = splineN;
 }

 template<typename T>
 void GeoTransformer<T>::initForMatrix(size_t x, size_t y, size_t z) {
     release();

     inX = x;
     inY = y;
     inZ = z;
     size_t matSize = (0 == z) ? 9 : 16;
     gpuErrchk(cudaMalloc((void** ) &d_trInv, matSize * sizeof(T)));
     gpuErrchk(cudaMalloc((void** ) &d_in, x * y * z * sizeof(T)));
     gpuErrchk(cudaMalloc((void** ) &d_out, x * y * z * sizeof(T)));

     isReadyForMatrix = true;
 }

 template<typename T>
 void GeoTransformer<T>::initLazyForMatrix(size_t x, size_t y, size_t z) {
     if (!isReadyForMatrix) {
         initForMatrix(x, y, z);
     }
 }

 template <typename T>
 void GeoTransformer<T>::initForBSpline(size_t inX, size_t inY, size_t inN,
                                        size_t splineX, size_t splineY, size_t splineN, const GPU &gpu)
 {
     release();

     this->inX = inX;
     this->inY = inY;
     this->inZ = 1;
     this->inN = inN;
     this->splineX = splineX;
     this->splineY = splineY;
     this->splineN = splineN;
     // take into account end control points

     // padding for produceAndLoadCoeffs; Y dimension has to be a multiple of BLOCK_SIZE
     const int BLOCK_SIZE = iirConvolve2D_Cardinal_BSpline_3_MirrorOffBoundKernels::BLOCK_SIZE;
     const int Y_padded = (inY / BLOCK_SIZE) * BLOCK_SIZE + BLOCK_SIZE * (inY % BLOCK_SIZE != 0);

     size_t inOutSize = inX * inY;
     size_t inOutSize_padded = inX* Y_padded;
     size_t coeffsSize = splineX * splineY * splineN;
     gpuErrchk(cudaMalloc((void** ) &d_coeffsX, coeffsSize * sizeof(T)));
     gpuErrchk(cudaMalloc((void** ) &d_coeffsY, coeffsSize * sizeof(T)));
     gpuErrchk(cudaMalloc((void** ) &d_in, inOutSize_padded * sizeof(T)));
     gpuErrchk(cudaMalloc((void** ) &d_out, inOutSize * sizeof(T)));

     this->gpu = &gpu;

     isReadyForBspline = true;
 }

 template <typename T>
 void GeoTransformer<T>::initLazyForBSpline(size_t inX, size_t inY, size_t inZ,
                                            size_t splineX, size_t splineY, size_t splineN, const GPU &gpu)
 {
     if (!isReadyForBspline)
     {
         initForBSpline(inX, inY, inZ, splineX, splineY, splineN, gpu);
     }
 }

 template<typename T>
 void GeoTransformer<T>::test() {
     Matrix1D<T> shift(2);
     shift.vdata[0] = 0.45;
     shift.vdata[1] = 0.62;
     Matrix2D<T> transform;
     translation2DMatrix(shift, transform, true);
     test(transform);
 }

 template<typename T>
 void GeoTransformer<T>::test(const Matrix2D<T> &transform) {
     MultidimArray<T> resGpu, resCpu;
     MultidimArray<T> input(32, 32);
     for (int i = 0; i < input.ydim; ++i) {
         for (int j = 0; j < input.xdim; ++j) {
             input.data[i * input.xdim + j] = i * 10 + j;
         }
     }

     this->initForMatrix(input.xdim, input.ydim, input.zdim);
     this->applyGeometry(3, resGpu, input, transform, false, true);
     ::applyGeometry(3, resCpu, input, transform, false, true);

     bool failed = false;
     for (int i = 0; i < input.ydim; ++i) {
         for (int j = 0; j < input.xdim; ++j) {
             int index = i * input.xdim + j;
             T gpu = resGpu[index];
             T cpu = resCpu[index];
             if (std::abs(cpu - gpu) > 0.001) {
                 failed = true;
                 fprintf(stderr, "error[%d]: GPU %.4f CPU %.4f\n", index, gpu,
                         cpu);
             }
         }
     }

     fprintf(stderr, "test transform result: %s\n", failed ? "FAIL" : "OK");
     this->release();
 }

 template<typename T>
 void GeoTransformer<T>::applyBSplineTransformRef(
         int splineDegree,
         MultidimArray<T> &output, const MultidimArray<T> &input,
         const std::pair<Matrix1D<T>, Matrix1D<T>> &coeffs, size_t imageIdx, T outside) {
     checkRestrictions(3, output, input, coeffs, imageIdx);

     loadOutput(output, outside);
     produceAndLoadCoeffs(input);

     loadCoefficients(coeffs.first, coeffs.second);

     dim3 dimBlock(BLOCK_DIM_X, BLOCK_DIM_X);
     dim3 dimGrid(ceil(inX / (T) dimBlock.x), ceil(inY / (T) dimBlock.y));

     switch (splineDegree) {
     case 3:
         applyLocalShiftGeometryKernel<T, 3><<<dimGrid, dimBlock>>>(d_coeffsX, d_coeffsY,
                 d_out, (int)inX, (int)inY, (int)inN,
                 d_in, imageIdx, (int)splineX, (int)splineY, (int)splineN);
             gpuErrchk(cudaPeekAtLastError());
         break;
     default:
         throw std::logic_error("not implemented");
     }

     gpuErrchk(
             cudaMemcpy(output.data, d_out, output.zyxdim * sizeof(T),
                     cudaMemcpyDeviceToHost));

 }

 template<typename T>
 void GeoTransformer<T>::applyBSplineTransform(
         int splineDegree,
         MultidimArray<T> &output, const MultidimArray<T> &input,
         const std::pair<Matrix1D<T>, Matrix1D<T>> &coeffs, size_t imageIdx, T outside) {
     checkRestrictions(3, output, input, coeffs, imageIdx);
     auto stream = *(cudaStream_t*)gpu->stream();

     setOutputSize(output);
     if ( splineDegree > 1 ) {
         produceAndLoadCoeffs(input);
     }
     else
     {
         gpuErrchk(cudaMemcpyAsync(d_in, input.data, input.yxdim * sizeof(T), cudaMemcpyHostToDevice, stream));
     }

     loadCoefficients(coeffs.first, coeffs.second);

     dim3 dimBlock(16, 16);
     dim3 dimGrid(ceil(inX / (T) dimBlock.x), ceil((inY / (T) dimBlock.y) / (T) pixelsPerThread)); //more pixels

     // take into account end points
     T hX = (splineX == 3) ? inX : (inX / (T) ((splineX - 3)));
     T hY = (splineY == 3) ? inY : (inY / (T) ((splineY - 3)));
     T hT = (splineN == 3) ? inN : (inN / (T) ((splineN - 3)));
     T tPos = imageIdx / hT;

     switch (splineDegree) {
     case 1:
         applyLocalShiftGeometryKernelMorePixels<T, 1, pixelsPerThread><<<dimGrid, dimBlock, 0, stream>>>(d_coeffsX, d_coeffsY,
                                                                                               d_out, (int)inX, (int)inY, (int)inN,
                                                                                               d_in, imageIdx, (int)splineX, (int)splineY, (int)splineN,
                                                                                               hX, hY, tPos);
         gpuErrchk(cudaPeekAtLastError());
         break;
     case 3:
         applyLocalShiftGeometryKernelMorePixels<T, 3, pixelsPerThread><<<dimGrid, dimBlock, 0, stream>>>(d_coeffsX, d_coeffsY,
                                                                                               d_out, (int)inX, (int)inY, (int)inN,
                                                                                               d_in, imageIdx, (int)splineX, (int)splineY, (int)splineN,
                                                                                               hX, hY, tPos);
         gpuErrchk(cudaPeekAtLastError());
         break;
     default:
         REPORT_ERROR(ERR_NOT_IMPLEMENTED, formatString("applyBSplineTransform not implemented for spline degree %d.", splineDegree));
     }

     gpuErrchk(
         cudaMemcpyAsync(output.data, d_out, output.zyxdim * sizeof(T),
                    cudaMemcpyDeviceToHost, stream));
 }

 template<typename T>
 template<typename T_MAT>
 void GeoTransformer<T>::applyGeometry(int splineDegree,
         MultidimArray<T> &output, const MultidimArray<T> &input,
         const Matrix2D<T_MAT> &transform, bool isInv, bool wrap, T outside,
         const MultidimArray<T> *bCoeffsPtr) {
     checkRestrictions(splineDegree, output, input, transform);
     if (transform.isIdentity()) {
         typeCast(input, output);
         return;
     }

     loadTransform(transform, isInv);
     loadOutput(output, outside);

     if (splineDegree > 1) {
         if (NULL != bCoeffsPtr) {
             loadInput(*bCoeffsPtr);
         } else {
             produceAndLoadCoeffs(input);
         }
     } else {
         loadInput(input);
     }

     if (input.getDim() == 2) {
         if (wrap) {
             applyGeometry_2D_wrap(splineDegree);
         } else {
             throw std::logic_error("Not implemented yet");
         }
     } else {
         throw std::logic_error("Not implemented yet");
     }

     gpuErrchk(
             cudaMemcpy(output.data, d_out, output.zyxdim * sizeof(T),
                     cudaMemcpyDeviceToHost));
 }

 template<typename T>
 template<typename T_MAT>
 void GeoTransformer<T>::loadTransform(const Matrix2D<T_MAT> &transform,
         bool isInv) {
     Matrix2D<T_MAT> trInv = isInv ? transform : transform.inv();
     Matrix2D<T> tmp;
     typeCast(trInv, tmp);
     gpuErrchk(
             cudaMemcpy(d_trInv, tmp.mdata, tmp.mdim * sizeof(T),
                     cudaMemcpyHostToDevice));
 }

 template <typename T>
 void GeoTransformer<T>::loadCoefficients(const Matrix1D<T> &X,
                                          const Matrix1D<T> &Y)
 {
     gpuErrchk(
         cudaMemcpyAsync(d_coeffsX, X.vdata, X.vdim * sizeof(T),
                    cudaMemcpyHostToDevice, *(cudaStream_t*)gpu->stream()));
     gpuErrchk(
         cudaMemcpyAsync(d_coeffsY, Y.vdata, Y.vdim * sizeof(T),
                    cudaMemcpyHostToDevice, *(cudaStream_t*)gpu->stream()));
 }

 template <typename T>
 void GeoTransformer<T>::produceAndLoadCoeffs(
     const MultidimArray<T> &input)
 {
     gpuErrchk(
         cudaMemcpyAsync(d_in, input.data, input.yxdim * sizeof(T), cudaMemcpyHostToDevice, *(cudaStream_t*)gpu->stream()));

     iirConvolve2D_Cardinal_Bspline_3_MirrorOffBoundInplace(d_in, input.xdim, input.ydim, *(cudaStream_t*)gpu->stream());
 }


 template<typename T>
 void GeoTransformer<T>::applyGeometry_2D_wrap(int splineDegree) {
     T minxp = 0;
     T minyp = 0;
     T minxpp = minxp - XMIPP_EQUAL_ACCURACY;
     T minypp = minyp - XMIPP_EQUAL_ACCURACY;
     T maxxp = inX - 1;
     T maxyp = inY - 1;
     T maxxpp = maxxp + XMIPP_EQUAL_ACCURACY;
     T maxypp = maxyp + XMIPP_EQUAL_ACCURACY;

     dim3 dimBlock(BLOCK_DIM_X, BLOCK_DIM_X);
     dim3 dimGrid(ceil(inX / (T) dimBlock.x), ceil(inY / (T) dimBlock.y));

     switch (splineDegree) {
     case 3:
         applyGeometryKernel_2D_wrap<T, 3,true><<<dimGrid, dimBlock>>>(d_trInv,
             minxpp, maxxpp, minypp, maxypp,
             minxp, maxxp, minyp, maxyp,
             d_out, (int)inX, (int)inY, d_in, (int)inX, (int)inY);
         gpuErrchk(cudaPeekAtLastError());
         break;
     default:
         throw std::logic_error("not implemented");
     }
 }

 template<typename T>
 void GeoTransformer<T>::loadInput(const MultidimArray<T> &input) {
     gpuErrchk(
             cudaMemcpy(d_in, input.data, input.zyxdim * sizeof(T),
                     cudaMemcpyHostToDevice));
 }

 template<typename T>
 void GeoTransformer<T>::loadOutput(MultidimArray<T> &output, T outside) {
     setOutputSize(output);

     if (outside != (T) 0) {
         // Initialize output matrix with value=outside
         FOR_ALL_DIRECT_ELEMENTS_IN_MULTIDIMARRAY(output)
         {
             DIRECT_MULTIDIM_ELEM(output, n) = outside;
         }
         gpuErrchk(
                 cudaMemcpy(d_out, output.data, output.zyxdim * sizeof(T),
                         cudaMemcpyHostToDevice));
     } else {
         gpuErrchk(cudaMemset(d_out, 0, output.zyxdim * sizeof(T)));
     }
 }
 template<typename T>
 void GeoTransformer<T>::setOutputSize(MultidimArray<T> &output) {
     if (output.xdim == 0) {
         output.resizeNoCopy(inZ, inY, inX);
     }
 }

 template<typename T>
 template<typename T_MAT>
 void GeoTransformer<T>::checkRestrictions(int splineDegree,
         MultidimArray<T> &output, const MultidimArray<T> &input,
         const Matrix2D<T_MAT> &transform) {
     if (!isReadyForMatrix)
         throw std::logic_error("Transformer is not ready yet.");

     checkRestrictions(output, input);

     if ((input.getDim() == 2)
             && ((transform.Xdim() != 3) || (transform.Ydim() != 3)))
         throw std::invalid_argument("2D transformation matrix is not 3x3");
     if ((input.getDim() == 3)
             && ((transform.Xdim() != 4) || (transform.Ydim() != 4)))
         throw std::invalid_argument("3D transformation matrix is not 4x4");
 }


 template<typename T>
 void GeoTransformer<T>::checkRestrictions(int splineDegree,
         MultidimArray<T> &output, const MultidimArray<T> &input,
         const std::pair<Matrix1D<T>, Matrix1D<T>> &coeffs, size_t frameIdx) {
     if (!isReadyForBspline)
         throw std::logic_error("Transformer is not ready yet.");

     checkRestrictions(output, input);

     if (frameIdx > inN)
         throw std::invalid_argument("Frame index is out of bound");
     size_t coeffsElems = splineX * splineY * splineN;
     if ((coeffs.first.size() != coeffsElems) || (coeffs.second.size() != coeffsElems))
         throw std::invalid_argument("Number of coefficients does not fit. "
                 "To init function, pass N control points.");
 }

 template<typename T>
 void GeoTransformer<T>::checkRestrictions(const MultidimArray<T> &output,
                                         const MultidimArray<T> &input) {
     if (!input.xdim)
         throw std::invalid_argument("Input is empty");
     if ((inX != input.xdim) || (inY != input.ydim) || (inZ != input.zdim))
         throw std::logic_error(
                 "Transformer has been initialized for a different size of the input");
     if (&input == &output)
         throw std::invalid_argument(
                 "The input array cannot be the same as the output array");

     if (input.xdim < 64) {
         throw std::invalid_argument("Xdim should be at least 64");
     }

     if (input.ydim <= 1) {
         throw std::invalid_argument("Ydim should be at least 2");
     }
 }

 template<typename T>
 std::unique_ptr<T[]> GeoTransformer<T>::copy_out_d_in(size_t size) const {
         auto copy_in = std::unique_ptr<T[]>(new T[size]);

         cudaMemcpy(copy_in.get(), d_in , sizeof(T) * size, cudaMemcpyDeviceToHost);

         return copy_in;
     }

 template class GeoTransformer<float>;
 template class GeoTransformer<double>;
gpuErrchk
#define gpuErrchk(code)
Definition: cuda_asserts.h:31

Matrix2D::Xdim
size_t Xdim() const
Definition: matrix2d.h:575

Matrix2D::isIdentity
bool isIdentity() const
Definition: matrix2d.cpp:1323

MultidimArrayBase::getDim
int getDim() const
Definition: multidim_array_base.h:1000

ERR_NOT_IMPLEMENTED
Case or algorithm not implemented yet.
Definition: xmipp_error.h:177

translation2DMatrix
template void translation2DMatrix(const Matrix1D< float > &, Matrix2D< float > &, bool inverse)

MultidimArray
Definition: common_lines.h:35

REPORT_ERROR
#define REPORT_ERROR(nerr, ErrormMsg)
Definition: xmipp_error.h:211

GeoTransformer::produceAndLoadCoeffs
void produceAndLoadCoeffs(const MultidimArray< T > &input)
Definition: cuda_gpu_geo_transformer.cpp:303

GeoTransformer
Definition: cuda_gpu_geo_transformer.h:55

MultidimArray::resizeNoCopy
void resizeNoCopy(const MultidimArray< T1 > &v)
Definition: multidim_array.h:504

y
static double * y
Definition: numerical_recipes.cpp:8487

applyGeometry
void applyGeometry(int SplineDegree, MultidimArray< std::complex< double > > &V2, const MultidimArray< std::complex< double > > &V1, const Matrix2D< double > &A, bool inv, bool wrap, std::complex< double > outside, MultidimArray< double > *BcoeffsPtr)
Definition: transformations.cpp:668

GeoTransformer::initForMatrix
void initForMatrix(size_t x, size_t y, size_t z)
Definition: cuda_gpu_geo_transformer.cpp:49

Matrix2D::inv
void inv(Matrix2D< T > &result) const
Definition: matrix2d.cpp:663

abs
void abs(Image< double > &op)
Definition: image_operate.cpp:219

Matrix2D::mdata
T * mdata
Definition: matrix2d.h:395

MultidimArrayBase::ydim
size_t ydim
Definition: multidim_array_base.h:628

BLOCK_DIM_X
#define BLOCK_DIM_X
Definition: gpu_geo_transformer_defines.h:33

x
doublereal * x
Definition: numerical_recipes.cpp:2230

i
#define i
Definition: numerical_recipes.cpp:2493

MultidimArray::data
T * data
Definition: multidim_array.h:84

Matrix2D
Definition: mask.h:36

MultidimArrayBase::xdim
size_t xdim
Definition: multidim_array_base.h:631

MultidimArrayBase::zdim
size_t zdim
Definition: multidim_array_base.h:625

index
viol index
Definition: numerical_recipes.cpp:5197

GeoTransformer::initLazyForMatrix
void initLazyForMatrix(size_t x, size_t y=1, size_t z=1)
Definition: cuda_gpu_geo_transformer.cpp:64

cuda_asserts.h

MultidimArrayBase::yxdim
size_t yxdim
Definition: multidim_array_base.h:634

GeoTransformer::applyBSplineTransformRef
void applyBSplineTransformRef(int splineDegree, MultidimArray< T > &output, const MultidimArray< T > &input, const std::pair< Matrix1D< T >, Matrix1D< T >> &coeffs, size_t imageIdx, T outside=0)
Definition: cuda_gpu_geo_transformer.cpp:155

GeoTransformer::initLazyForBSpline
void initLazyForBSpline(size_t inX, size_t inY, size_t inN, size_t splineX, size_t splineY, size_t splineN, const GPU &gpu)
Definition: cuda_gpu_geo_transformer.cpp:103

XMIPP_EQUAL_ACCURACY
#define XMIPP_EQUAL_ACCURACY
Definition: xmipp_macros.h:119

GeoTransformer::release
void release()
Definition: cuda_gpu_geo_transformer.cpp:32

FOR_ALL_DIRECT_ELEMENTS_IN_MULTIDIMARRAY
#define FOR_ALL_DIRECT_ELEMENTS_IN_MULTIDIMARRAY(v)
Definition: multidim_array_base.h:176

z
double z
Definition: numerical_recipes.cpp:8490

DIRECT_MULTIDIM_ELEM
#define DIRECT_MULTIDIM_ELEM(v, n)
Definition: multidim_array_base.h:161

Matrix2D::Ydim
size_t Ydim() const
Definition: matrix2d.h:584

cuda_all.cpp

MultidimArrayBase::zyxdim
size_t zyxdim
Definition: multidim_array_base.h:637

GeoTransformer::test
void test()
Definition: cuda_gpu_geo_transformer.cpp:113

j
#define j
Definition: numerical_recipes.cpp:2493

GeoTransformer::copy_out_d_in
std::unique_ptr< T[]> copy_out_d_in(size_t size) const
Definition: cuda_gpu_geo_transformer.cpp:429

Matrix1D
Definition: ctf.h:38

typeCast
void typeCast(const Matrix1D< T1 > &v1, Matrix1D< T2 > &v2)
Definition: matrix1d.h:1227

Matrix2D::mdim
size_t mdim
Definition: matrix2d.h:416

formatString
String formatString(const char *format,...)
Definition: xmipp_strings.cpp:602

GeoTransformer::initForBSpline
void initForBSpline(size_t inX, size_t inY, size_t inN, size_t splineX, size_t splineY, size_t splineN, const GPU &gpu)
Definition: cuda_gpu_geo_transformer.cpp:71

GPU
Definition: gpu.h:36

fprintf
fprintf(glob_prnt.io, "\)

Matrix1D::vdata
T * vdata
The array itself.
Definition: matrix1d.h:258

GeoTransformer::applyBSplineTransform
void applyBSplineTransform(int splineDegree, MultidimArray< T > &output, const MultidimArray< T > &input, const std::pair< Matrix1D< T >, Matrix1D< T >> &coeffs, size_t imageIdx, T outside=0)
Definition: cuda_gpu_geo_transformer.cpp:187

GeoTransformer::applyGeometry
void applyGeometry(int splineDegree, MultidimArray< T > &output, const MultidimArray< T > &input, const Matrix2D< T_MAT > &transform, bool isInv, bool wrap, T outside=0, const MultidimArray< T > *bCoeffsPtr=NULL)
Definition: cuda_gpu_geo_transformer.cpp:240

cuda_gpu_geo_transformer.h

n
int * n
Definition: numerical_recipes.cpp:2229

Matrix1D::vdim
size_t vdim
Number of elements.
Definition: matrix1d.h:264