#include <cuda_single_extrema_finder.h>

Inheritance diagram for ExtremaFinder::CudaExtremaFinder< T >:

Collaboration diagram for ExtremaFinder::CudaExtremaFinder< T >:

Public Member Functions
	CudaExtremaFinder ()

virtual	~CudaExtremaFinder ()

	CudaExtremaFinder (CudaExtremaFinder &o)=delete

CudaExtremaFinder &	operator= (const CudaExtremaFinder &other)=delete

CudaExtremaFinder const &	operator= (CudaExtremaFinder &&o)=delete

	CudaExtremaFinder (CudaExtremaFinder &&o)

template<typename KERNEL >
void	findBasic (const T *__restrict__ h_data, const KERNEL &k)

template<typename C >
void	sFindUniversal (const C &comp, T startVal, const GPU &gpu, const Dimensions &dims, const T __restrict__ d_data, float __restrict__ d_positions, T *__restrict__ d_values)

Public Member Functions inherited from ExtremaFinder::AExtremaFinder< T >
	AExtremaFinder ()

virtual	~AExtremaFinder ()

void	init (const ExtremaFinderSettings &settings, bool reuse)

void	find (const T *data)

HW &	getHW () const

const ExtremaFinderSettings &	getSettings () const

const std::vector< T > &	getValues () const

const std::vector< float > &	getPositions () const

Static Public Member Functions
template<typename C >
static void	sFindUniversal (const C &comp, T startVal, const GPU &gpu, const Dimensions &dims, const T d_data, float d_positions, T *d_values)

static void	sFindMax (const GPU &gpu, const Dimensions &dims, const T d_data, float d_positions, T *d_values)

static void	sFindLowest (const GPU &gpu, const Dimensions &dims, const T d_data, float d_positions, T *d_values)

template<typename C >
static void	sFindUniversal2DAroundCenter (const C &comp, T startVal, const GPU &gpu, const Dimensions &dims, const T data, float d_positions, T *d_values, size_t maxDist)

static void	sFindMax2DAroundCenter (const GPU &gpu, const Dimensions &dims, const T d_data, float d_positions, T *d_values, size_t maxDist)

static void	sFindLowest2DAroundCenter (const GPU &gpu, const Dimensions &dims, const T d_data, float d_positions, T *d_values, size_t maxDist)

static void	sRefineLocation (const GPU &gpu, const Dimensions &dims, const float d_indices, float d_positions, const T *d_data)

static size_t	ceilPow2 (size_t x)

Additional Inherited Members
Protected Member Functions inherited from ExtremaFinder::AExtremaFinder< T >
std::vector< T > &	getValues ()

std::vector< float > &	getPositions ()

constexpr bool	isInitialized () const

Detailed Description

template<typename T>
class ExtremaFinder::CudaExtremaFinder< T >

Definition at line 42 of file cuda_single_extrema_finder.h.

Constructor & Destructor Documentation

◆ CudaExtremaFinder() [1/3]

template<typename T>

ExtremaFinder::CudaExtremaFinder< T >::CudaExtremaFinder ( )

inline

Definition at line 45 of file cuda_single_extrema_finder.h.

                         {
         setDefault();
     }

◆ ~CudaExtremaFinder()

template<typename T>

virtual ExtremaFinder::CudaExtremaFinder< T >::~CudaExtremaFinder ( )

inlinevirtual

Definition at line 49 of file cuda_single_extrema_finder.h.

                                  {
         release();
     }

◆ CudaExtremaFinder() [2/3]

template<typename T>

ExtremaFinder::CudaExtremaFinder< T >::CudaExtremaFinder ( CudaExtremaFinder< T > & o )

delete

◆ CudaExtremaFinder() [3/3]

template<typename T>

ExtremaFinder::CudaExtremaFinder< T >::CudaExtremaFinder ( CudaExtremaFinder< T > && o )

inline

Definition at line 56 of file cuda_single_extrema_finder.h.

                                              {
         m_loadStream = o.m_loadStream;
         m_workStream = o.m_workStream;
 
         // device memory
         m_d_values = o.m_d_values;
         m_d_positions = o.m_d_positions;
         m_d_batch = o.m_d_batch;
 
         // synch primitives
         m_mutex = o.m_mutex;
         m_cv = o.m_cv;
         m_isDataReady = o.m_isDataReady;
 
         // host memory
         m_h_batchResult = o.m_h_batchResult;
 
         // clean original
         o.setDefault();
     }

Member Function Documentation

◆ ceilPow2()

template<typename T >

size_t ExtremaFinder::CudaExtremaFinder< T >::ceilPow2 ( size_t x )

static

Definition at line 334 of file cuda_single_extrema_finder.cpp.

 {
     if (x <= 1) return 1;
     int power = 2;
     x--;
     while (x >>= 1) power <<= 1;
     return power;
 }

◆ findBasic()

template<typename T>

template<typename KERNEL >

void ExtremaFinder::CudaExtremaFinder< T >::findBasic	(	const T *__restrict__	h_data,
		const KERNEL &	k
	)

Definition at line 206 of file cuda_single_extrema_finder.cpp.

                                                                                    {
     bool isReady = this->isInitialized();
     if ( ! isReady) {
         REPORT_ERROR(ERR_LOGIC_ERROR, "Not ready to execute. Call init() first");
     }
     if ( ! GPU::isMemoryPinned(h_data)) {
         REPORT_ERROR(ERR_LOGIC_ERROR, "Input memory has to be pinned (page-locked)");
     }
     m_workStream->set();
     m_loadStream->set();
     // start loading data at the background
     m_isDataReady = false;
     auto loadingThread = std::thread(&CudaExtremaFinder<T>::loadThreadRoutine, this, h_data);
 
     auto s = this->getSettings();
     // process signals in batches
     for (size_t offset = 0; offset < s.dims.n(); offset += s.batch) {
         // how many signals to process
         size_t toProcess = std::min(s.batch, s.dims.n() - offset);
         auto batchDims = s.dims.copyForN(toProcess);
         {
             // block until data is loaded
             // mutex will be freed once leaving this block
             std::unique_lock<std::mutex> lk(*m_mutex);
             m_cv->wait(lk, [&]{return m_isDataReady;});
             // call finding kernel
             k(*m_workStream, batchDims, m_d_batch,
                    m_d_positions, m_d_values);
 
             // notify that buffer is processed (new will be loaded in background)
             m_workStream->synch();
             m_isDataReady = false;
             m_cv->notify_one();
         }
         downloadPositionsFromGPU(offset, toProcess);
         downloadValuesFromGPU(offset, toProcess);
     }
     loadingThread.join();
 }

◆ operator=() [1/2]

template<typename T>

CudaExtremaFinder& ExtremaFinder::CudaExtremaFinder< T >::operator= ( const CudaExtremaFinder< T > & other )

delete

◆ operator=() [2/2]

template<typename T>

CudaExtremaFinder const& ExtremaFinder::CudaExtremaFinder< T >::operator= ( CudaExtremaFinder< T > && o )

delete

◆ sFindLowest()

template<typename T>

void ExtremaFinder::CudaExtremaFinder< T >::sFindLowest	(	const GPU &	gpu,
		const Dimensions &	dims,
		const T *	d_data,
		float *	d_positions,
		T *	d_values
	)

static

Definition at line 355 of file cuda_single_extrema_finder.cpp.

                                    {
     return sFindUniversal([] __device__ (T l, T r) { return l < r; },
         std::numeric_limits<T>::max(),
         gpu, dims, d_data, d_positions, d_values);
 }

◆ sFindLowest2DAroundCenter()

template<typename T >

void ExtremaFinder::CudaExtremaFinder< T >::sFindLowest2DAroundCenter	(	const GPU &	gpu,
		const Dimensions &	dims,
		const T *	d_data,
		float *	d_positions,
		T *	d_values,
		size_t	maxDist
	)

static

Definition at line 454 of file cuda_single_extrema_finder.cpp.

                         {
     return sFindUniversal2DAroundCenter([] __device__ (T l, T r) { return l < r; },
             std::numeric_limits<T>::max(),
             gpu, dims, d_data, d_positions, d_values, maxDist);
 }

◆ sFindMax()

template<typename T>

void ExtremaFinder::CudaExtremaFinder< T >::sFindMax	(	const GPU &	gpu,
		const Dimensions &	dims,
		const T *	d_data,
		float *	d_positions,
		T *	d_values
	)

static

Definition at line 344 of file cuda_single_extrema_finder.cpp.

                                    {
     return sFindUniversal([] __device__ (T l, T r) { return l > r; },
         std::numeric_limits<T>::lowest(),
         gpu, dims, d_data, d_positions, d_values);
 }

◆ sFindMax2DAroundCenter()

template<typename T >

void ExtremaFinder::CudaExtremaFinder< T >::sFindMax2DAroundCenter	(	const GPU &	gpu,
		const Dimensions &	dims,
		const T *	d_data,
		float *	d_positions,
		T *	d_values,
		size_t	maxDist
	)

static

Definition at line 427 of file cuda_single_extrema_finder.cpp.

                         {
     return sFindUniversal2DAroundCenter([] __device__ (T l, T r) { return l > r; },
             std::numeric_limits<T>::lowest(),
             gpu, dims, d_data, d_positions, d_values, maxDist);
 }

◆ sFindUniversal() [1/2]

template<typename T>

template<typename C >

static void ExtremaFinder::CudaExtremaFinder< T >::sFindUniversal	(	const C &	comp,
		T	startVal,
		const GPU &	gpu,
		const Dimensions &	dims,
		const T *	d_data,
		float *	d_positions,
		T *	d_values
	)

static

◆ sFindUniversal() [2/2]

template<typename T>

template<typename C >

void ExtremaFinder::CudaExtremaFinder< T >::sFindUniversal	(	const C &	comp,
		T	startVal,
		const GPU &	gpu,
		const Dimensions &	dims,
		const T *__restrict__	d_data,
		float *__restrict__	d_positions,
		T *__restrict__	d_values
	)

Definition at line 367 of file cuda_single_extrema_finder.cpp.

                                    {
     // check input
     assert(dims.sizeSingle() > 0);
     assert(dims.n() > 0);
     assert(nullptr != d_data);
     assert((nullptr != d_positions) || (nullptr != d_values));
     assert(dims.size() <= std::numeric_limits<unsigned>::max()); // indexing overflow in the kernel
 
     // create threads / blocks
     size_t maxThreads = 512;
     size_t threads = (dims.sizeSingle() < maxThreads) ? ceilPow2(dims.sizeSingle()) : maxThreads;
     dim3 dimBlock(threads, 1, 1);
     dim3 dimGrid(dims.n(), 1, 1);
     auto stream = *(cudaStream_t*)gpu.stream();
 
     // for each thread, we need two variables in shared memory
     size_t smemSize = 2 * threads * sizeof(T);
     switch (threads) {
         case 512:
             return findUniversal<T, 512><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.sizeSingle());
         case 256:
             return findUniversal<T, 256><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.sizeSingle());
         case 128:
             return findUniversal<T, 128><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.sizeSingle());
         case 64:
             return findUniversal<T, 64><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.sizeSingle());
         case 32:
             return findUniversal<T, 32><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.sizeSingle());
         case 16:
             return findUniversal<T, 16><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.sizeSingle());
         case 8:
             return findUniversal<T, 8><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.sizeSingle());
         case 4:
             return findUniversal<T, 4><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.sizeSingle());
         case 2:
             return findUniversal<T, 2><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.sizeSingle());
         case 1:
             return findUniversal<T, 1><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.sizeSingle());
         default: REPORT_ERROR(ERR_NOT_IMPLEMENTED, "Unsupported number of threads");
     }
 }

◆ sFindUniversal2DAroundCenter()

template<typename T >

template<typename C >

void ExtremaFinder::CudaExtremaFinder< T >::sFindUniversal2DAroundCenter	(	const C &	comp,
		T	startVal,
		const GPU &	gpu,
		const Dimensions &	dims,
		const T *	data,
		float *	d_positions,
		T *	d_values,
		size_t	maxDist
	)

static

Definition at line 468 of file cuda_single_extrema_finder.cpp.

                         {
     // check input
     assert(dims.is2D());
     assert( ! dims.isPadded());
     assert(dims.sizeSingle() > 0);
     assert(dims.n() > 0);
     assert(nullptr != d_data);
     assert((nullptr != d_positions) || (nullptr != d_values));
     assert(0 < maxDist);
     int xHalf = dims.x() / 2;
     int yHalf = dims.y() / 2;
     assert((2 * xHalf) > maxDist);
     assert((2 * yHalf) > maxDist);
 
     // prepare threads / blocks
     size_t maxThreads = 512;
     size_t windowWidth = 2 * maxDist;
     // threads should process a single row of the signal
     size_t threads = (windowWidth < maxThreads) ? ceilPow2(windowWidth) : maxThreads;
     dim3 dimBlock(threads, 1, 1);
     dim3 dimGrid(dims.n(), 1, 1);
     auto stream = *(cudaStream_t*)gpu.stream();
 
     // for each thread, we need two variables in shared memory
     int smemSize = 2 * threads * sizeof(T);
     switch (threads) {
         case 512:
             return findUniversal2DNearCenter<T, 512><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.x(), dims.y(), maxDist);
         case 256:
             return findUniversal2DNearCenter<T, 256><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.x(), dims.y(), maxDist);
         case 128:
             return findUniversal2DNearCenter<T, 128><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.x(), dims.y(), maxDist);
         case 64:
             return findUniversal2DNearCenter<T, 64><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.x(), dims.y(), maxDist);
         case 32:
             return findUniversal2DNearCenter<T, 32><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.x(), dims.y(), maxDist);
         case 16:
             return findUniversal2DNearCenter<T, 16><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.x(), dims.y(), maxDist);
         case 8:
             return findUniversal2DNearCenter<T, 8><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.x(), dims.y(), maxDist);
         case 4:
             return findUniversal2DNearCenter<T, 4><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.x(), dims.y(), maxDist);
         case 2:
             return findUniversal2DNearCenter<T, 2><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.x(), dims.y(), maxDist);
         case 1:
             return findUniversal2DNearCenter<T, 1><<< dimGrid, dimBlock, smemSize, stream>>>(
                 comp, startVal, d_data, d_positions, d_values, dims.x(), dims.y(), maxDist);
         default: REPORT_ERROR(ERR_NOT_IMPLEMENTED, "Unsupported number of threads");
     }
 }

◆ sRefineLocation()

template<typename T >

void ExtremaFinder::CudaExtremaFinder< T >::sRefineLocation	(	const GPU &	gpu,
		const Dimensions &	dims,
		const float *	d_indices,
		float *	d_positions,
		const T *	d_data
	)

static

Definition at line 440 of file cuda_single_extrema_finder.cpp.

                           {
     assert(dims.n() > 0);
     dim3 dimBlock(std::min(dims.n(), 1024LU)); // 1024 is max threads per block, see https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#features-and-technical-specifications__technical-specifications-per-compute-capability
     dim3 dimGrid(dims.n() / 1024 + 1);
     auto stream = *(cudaStream_t*)gpu.stream();
     return refineLocation<T, 3><<< dimGrid, dimBlock, 0, stream>>>(d_indices, d_positions, d_data, dims);
 }

The documentation for this class was generated from the following files:

xmipp/libraries/reconstruction_cuda/cuda_single_extrema_finder.h
xmipp/libraries/reconstruction_cuda/cuda_single_extrema_finder.cpp

Public Member Functions

Static Public Member Functions

Additional Inherited Members

Detailed Description

template<typename T> class ExtremaFinder::CudaExtremaFinder< T >

Constructor & Destructor Documentation

◆ CudaExtremaFinder() [1/3]

◆ ~CudaExtremaFinder()

◆ CudaExtremaFinder() [2/3]

◆ CudaExtremaFinder() [3/3]

Member Function Documentation

◆ ceilPow2()

◆ findBasic()

◆ operator=() [1/2]

◆ operator=() [2/2]

◆ sFindLowest()

◆ sFindLowest2DAroundCenter()

◆ sFindMax()

◆ sFindMax2DAroundCenter()

◆ sFindUniversal() [1/2]

◆ sFindUniversal() [2/2]

◆ sFindUniversal2DAroundCenter()

◆ sRefineLocation()

template<typename T>
class ExtremaFinder::CudaExtremaFinder< T >