Merge branch 'new_volk_module' of git+ssh://github.com/gnss-sdr/gnss-sdr

into new_volk_module # Conflicts: # src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/kernels/volk_gnsssdr/volk_gnsssdr_16ic_x2_dot_prod_16ic.h
2025-10-27 21:47:39 +00:00 · 2016-01-19 00:01:26 +01:00
parent 1d18ff6c16 4ba75a3fbe
commit 090f6524db
5 changed files with 85 additions and 73 deletions
--- a/src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/kernels/volk_gnsssdr/volk_gnsssdr_16ic_x2_dot_prod_16ic.h
+++ b/src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/kernels/volk_gnsssdr/volk_gnsssdr_16ic_x2_dot_prod_16ic.h
@@ -40,7 +40,6 @@
 #include <volk_gnsssdr/volk_gnsssdr_common.h>
 #include <volk_gnsssdr/volk_gnsssdr_complex.h>
 #include <volk_gnsssdr/saturation_arithmetic.h>
 //#include <stdio.h>
 #ifdef LV_HAVE_GENERIC
@@ -56,11 +55,9 @@ static inline void volk_gnsssdr_16ic_x2_dot_prod_16ic_generic(lv_16sc_t* result,
    result[0] = lv_cmake((int16_t)0, (int16_t)0);
    for (unsigned int n = 0; n < num_points; n++)
        {
            //r*a.r - i*a.i, i*a.r + r*a.i
            lv_16sc_t tmp = in_a[n] * in_b[n];
            result[0] = lv_cmake(sat_adds16i(lv_creal(result[0]), lv_creal(tmp)), sat_adds16i(lv_cimag(result[0]), lv_cimag(tmp) ));
        }
    	//printf("generic result = %i,%i", lv_creal(result[0]),lv_cimag(result[0]));
 }
 #endif /*LV_HAVE_GENERIC*/
@@ -70,74 +67,73 @@ static inline void volk_gnsssdr_16ic_x2_dot_prod_16ic_generic(lv_16sc_t* result,
 #include <emmintrin.h>
 static inline void volk_gnsssdr_16ic_x2_dot_prod_16ic_a_sse2(lv_16sc_t* out, const lv_16sc_t* in_a, const lv_16sc_t* in_b, unsigned int num_points)
 {
 	  lv_16sc_t dotProduct = lv_cmake((int16_t)0, (int16_t)0);
-    lv_16sc_t dotProduct = lv_cmake((int16_t)0, (int16_t)0);
+	    const unsigned int sse_iters = num_points / 4;
-    const unsigned int sse_iters = num_points / 4;
+	    const lv_16sc_t* _in_a = in_a;
 	    const lv_16sc_t* _in_b = in_b;
 	    lv_16sc_t* _out = out;
-    const lv_16sc_t* _in_a = in_a;
+	    if (sse_iters > 0)
-    const lv_16sc_t* _in_b = in_b;
+	        {
-    lv_16sc_t* _out = out;
+	            __m128i a,b,c, c_sr, mask_imag, mask_real, real, imag, imag1,imag2, b_sl, a_sl, realcacc, imagcacc, result;
-    if (sse_iters > 0)
+	            realcacc = _mm_setzero_si128();
-        {
+	            imagcacc = _mm_setzero_si128();
            __m128i a,b,c, c_sr, mask_imag, mask_real, real, imag, imag1,imag2, b_sl, a_sl, realcacc, imagcacc, result;
-            realcacc = _mm_setzero_si128();
+	            mask_imag = _mm_set_epi8(255, 255, 0, 0, 255, 255, 0, 0, 255, 255, 0, 0, 255, 255, 0, 0);
-            imagcacc = _mm_setzero_si128();
+	            mask_real = _mm_set_epi8(0, 0, 255, 255, 0, 0, 255, 255, 0, 0, 255, 255, 0, 0, 255, 255);
-            mask_imag = _mm_set_epi8(255, 255, 0, 0, 255, 255, 0, 0, 255, 255, 0, 0, 255, 255, 0, 0);
+	            for(unsigned int number = 0; number < sse_iters; number++)
-            mask_real = _mm_set_epi8(0, 0, 255, 255, 0, 0, 255, 255, 0, 0, 255, 255, 0, 0, 255, 255);
+	                {
 	                    //std::complex<T> memory structure: real part -> reinterpret_cast<cv T*>(a)[2*i]
 	                    //imaginery part -> reinterpret_cast<cv T*>(a)[2*i + 1]
 	                    // a[127:0]=[a3.i,a3.r,a2.i,a2.r,a1.i,a1.r,a0.i,a0.r]
 	                    a = _mm_loadu_si128((__m128i*)_in_a); //load (2 byte imag, 2 byte real) x 4 into 128 bits reg
 	                    b = _mm_loadu_si128((__m128i*)_in_b);
 	                    c = _mm_mullo_epi16 (a, b); // a3.i*b3.i, a3.r*b3.r, ....
-            for(unsigned int number = 0; number < sse_iters; number++)
+	                    c_sr = _mm_srli_si128 (c, 2); // Shift a right by imm8 bytes while shifting in zeros, and store the results in dst.
-                {
+	                    real = _mm_subs_epi16 (c,c_sr);
                    //std::complex<T> memory structure: real part -> reinterpret_cast<cv T*>(a)[2*i]
                    //imaginery part -> reinterpret_cast<cv T*>(a)[2*i + 1]
                    // a[127:0]=[a3.i,a3.r,a2.i,a2.r,a1.i,a1.r,a0.i,a0.r]
                    a = _mm_loadu_si128((__m128i*)_in_a); //load (2 byte imag, 2 byte real) x 4 into 128 bits reg
                    b = _mm_loadu_si128((__m128i*)_in_b);
                    c = _mm_mullo_epi16 (a, b); // a3.i*b3.i, a3.r*b3.r, ....
-                    c_sr = _mm_srli_si128 (c, 2); // Shift a right by imm8 bytes while shifting in zeros, and store the results in dst.
+	                    b_sl = _mm_slli_si128(b, 2); // b3.r, b2.i ....
-                    real = _mm_subs_epi16 (c,c_sr);
+	                    a_sl = _mm_slli_si128(a, 2); // a3.r, a2.i ....
-                    b_sl = _mm_slli_si128(b, 2); // b3.r, b2.i ....
+	                    imag1 = _mm_mullo_epi16(a, b_sl); // a3.i*b3.r, ....
-                    a_sl = _mm_slli_si128(a, 2); // a3.r, a2.i ....
+	                    imag2 = _mm_mullo_epi16(b, a_sl); // b3.i*a3.r, ....
-                    imag1 = _mm_mullo_epi16(a, b_sl); // a3.i*b3.r, ....
+	                    imag = _mm_adds_epi16(imag1, imag2); //with saturation aritmetic!
                    imag2 = _mm_mullo_epi16(b, a_sl); // b3.i*a3.r, ....
-                    imag = _mm_adds_epi16(imag1, imag2); //with saturation aritmetic!
+	                    realcacc = _mm_adds_epi16 (realcacc, real);
 	                    imagcacc = _mm_adds_epi16 (imagcacc, imag);
-                    realcacc = _mm_adds_epi16 (realcacc, real);
+	                    _in_a += 4;
-                    imagcacc = _mm_adds_epi16 (imagcacc, imag);
+	                    _in_b += 4;
 	                }
-                    _in_a += 4;
+	            realcacc = _mm_and_si128 (realcacc, mask_real);
-                    _in_b += 4;
+	            imagcacc = _mm_and_si128 (imagcacc, mask_imag);
                }
-            realcacc = _mm_and_si128 (realcacc, mask_real);
+	            result = _mm_or_si128 (realcacc, imagcacc);
            imagcacc = _mm_and_si128 (imagcacc, mask_imag);
-            result = _mm_or_si128 (realcacc, imagcacc);
+	            __VOLK_ATTR_ALIGNED(16) lv_16sc_t dotProductVector[4];
-            __VOLK_ATTR_ALIGNED(16) lv_16sc_t dotProductVector[4];
+	            _mm_storeu_si128((__m128i*)dotProductVector,result); // Store the results back into the dot product vector
-            _mm_storeu_si128((__m128i*)dotProductVector,result); // Store the results back into the dot product vector
+	            for (int i = 0; i < 4; ++i)
 	                {
 	                    dotProduct = lv_cmake(sat_adds16i(lv_creal(dotProduct), lv_creal(dotProductVector[i])), sat_adds16i(lv_cimag(dotProduct), lv_cimag(dotProductVector[i])));
 	                }
 	        }
-            for (int i = 0; i < 4; ++i)
+	    for (unsigned int i = 0; i < (num_points % 4); ++i)
-                {
+	        {
-                    dotProduct = lv_cmake(sat_adds16i(lv_creal(dotProduct), lv_creal(dotProductVector[i])), sat_adds16i(lv_cimag(dotProduct), lv_cimag(dotProductVector[i])));
+	            lv_16sc_t tmp = (*_in_a++) * (*_in_b++);
-                }
+	            dotProduct = lv_cmake( sat_adds16i(lv_creal(dotProduct), lv_creal(tmp)), sat_adds16i(lv_cimag(dotProduct), lv_cimag(tmp)));
-        }
+	        }
-    for (unsigned int i = 0; i < (num_points % 4); ++i)
+	    *_out = dotProduct;
        {
            lv_16sc_t tmp = (*_in_a++) * (*_in_b++);
            dotProduct = lv_cmake( sat_adds16i(lv_creal(dotProduct), lv_creal(tmp)), sat_adds16i(lv_cimag(dotProduct), lv_cimag(tmp)));
        }
    *_out = dotProduct;
 }
 #endif /* LV_HAVE_SSE2 */
--- a/src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/kernels/volk_gnsssdr/volk_gnsssdr_32fc_convert_16ic.h
+++ b/src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/kernels/volk_gnsssdr/volk_gnsssdr_32fc_convert_16ic.h
@@ -110,7 +110,7 @@ static inline void volk_gnsssdr_32fc_convert_16ic_u_sse(lv_16sc_t* outputVector,
    float max_val = 32767;
    __m128 inputVal1, inputVal2;
-    __m128i intInputVal1, intInputVal2;
+    __m128i intInputVal1, intInputVal2; // is __m128i defined in xmmintrin.h?
    __m128 ret1, ret2;
    __m128 vmin_val = _mm_set_ps1(min_val);
    __m128 vmax_val = _mm_set_ps1(max_val);
--- a/src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/kernels/volk_gnsssdr/volk_gnsssdr_8i_max_s8i.h
+++ b/src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/kernels/volk_gnsssdr/volk_gnsssdr_8i_max_s8i.h
@@ -77,7 +77,7 @@ static inline void volk_gnsssdr_8i_max_s8i_u_sse4_1(char* target, const char* sr
                        }
                }
-            for(unsigned int i = 0; i<(num_points % 16); ++i)
+            for(unsigned int i = sse_iters * 16; i< num_points; ++i)
                {
                    if(src0[i] > max)
                        {
@@ -140,7 +140,7 @@ static inline void volk_gnsssdr_8i_max_s8i_u_sse2(char* target, const char* src0
                    inputPtr += 16;
                }
-            for(unsigned int i = 0; i<(num_points % 16); ++i)
+            for(unsigned int i = sse_iters * 16; i < num_points; ++i)
                {
                    if(src0[i] > max)
                        {
@@ -228,7 +228,7 @@ static inline void volk_gnsssdr_8i_max_s8i_a_sse4_1(char* target, const char* sr
                        }
                }
-            for(unsigned int i = 0; i<(num_points % 16); ++i)
+            for(unsigned int i = sse_iters * 16; i < num_points; ++i)
                {
                    if(src0[i] > max)
                        {
@@ -291,7 +291,7 @@ static inline void volk_gnsssdr_8i_max_s8i_a_sse2(char* target, const char* src0
                    inputPtr += 16;
                }
-            for(unsigned int i = 0; i<(num_points % 16); ++i)
+            for(unsigned int i = sse_iters * 16; i < num_points; ++i)
                {
                    if(src0[i] > max)
                        {
@@ -315,18 +315,15 @@ static inline void volk_gnsssdr_8i_max_s8i_a_generic(char* target, const char* s
 {
    if(num_points > 0)
        {
-            if(num_points > 0)
+            char max = src0[0];
            for(unsigned int i = 1; i < num_points; ++i)
                {
-                    char max = src0[0];
+                    if(src0[i] > max)
                    for(unsigned int i = 1; i < num_points; ++i)
                        {
-                            if(src0[i] > max)
+                            max = src0[i];
                                {
                                    max = src0[i];
                                }
                        }
                    target[0] = max;
                }
            target[0] = max;
        }
 }
--- a/src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/lib/qa_utils.cc
+++ b/src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/lib/qa_utils.cc
@@ -39,7 +39,7 @@
 #include <volk_gnsssdr/volk_gnsssdr_malloc.h>
 float uniform() {
-  return M_PI*2.0f * ((float) rand() / RAND_MAX - 0.5f);        // uniformly (-1, 1)
+    return 2.0f * ((float) rand() / RAND_MAX - 0.5f);     // uniformly (-1, 1)
 }
 template <class t>
@@ -72,13 +72,11 @@ void load_random_data(void *data, volk_gnsssdr_type_t type, unsigned int n)
                        else ((uint64_t *)data)[i] = (uint64_t) scaled_rand;
                        break;
                    case 4:
-
+                        if(type.is_signed) ((int32_t *)data)[i] = (int32_t) scaled_rand;
-							if(type.is_signed) ((int32_t *)data)[i] = (int32_t) scaled_rand;
+                        else ((uint32_t *)data)[i] = (uint32_t) scaled_rand;
 							else ((uint32_t *)data)[i] = (uint32_t) scaled_rand;
                        break;
                    case 2:
-                    	// 16 bits dot product saturates very fast even with moderate lenght vectors
+                        // 16 bits dot product saturates very fast even with moderate length vectors
                    	// we produce here only 4 bits input range
                        if(type.is_signed) ((int16_t *)data)[i] = (int16_t)((int16_t) scaled_rand % 16);
@@ -190,7 +188,7 @@ static void get_signatures_from_name(std::vector<volk_gnsssdr_type_t> &inputsig,
                try {
                        multiplier = boost::lexical_cast<int>(token.substr(1, token.size()-1)); //will throw if invalid ///////////
                } catch(...) {
-                        multiplier = 1; // This is our '..._xn' mulriple correlator. Assign a fixed number here for the test?
+                        multiplier = 1; // This is our '..._xn' multiple correlator. Assign a fixed number here for the test?
                }
                for(int i=1; i<multiplier; i++) {
                        if(side == SIDE_INPUT) inputsig.push_back(inputsig.back());
@@ -221,6 +219,10 @@ inline void run_cast_test2(volk_gnsssdr_fn_2arg func, std::vector<void *> &buffs
    while(iter--) func(buffs[0], buffs[1], vlen, arch.c_str());
 }
 //inline void run_cast_test2(volk_gnsssdr_fn_2arg_r func, std::vector<void *> &buffs, float rem_code_phase_chips, float code_phase_step_chips, unsigned int vlen, int code_length_chips, unsigned int iter, std::string arch) {
 //    while(iter--) func(buffs[0], buffs[1],  rem_code_phase_chips, code_phase_step_chips, vlen, code_length_chips, arch.c_str());
 //}
 inline void run_cast_test3(volk_gnsssdr_fn_3arg func, std::vector<void *> &buffs, unsigned int vlen, unsigned int iter, std::string arch) {
    while(iter--) func(buffs[0], buffs[1], buffs[2], vlen, arch.c_str());
 }
@@ -291,16 +293,25 @@ inline void run_cast_test1_s16ic(volk_gnsssdr_fn_1arg_s16ic func, std::vector<vo
    while(iter--) func(buffs[0], scalar, vlen, arch.c_str());
 }
 inline void run_cast_test2_s16ic(volk_gnsssdr_fn_2arg_s16ic func, std::vector<void *> &buffs, lv_16sc_t scalar, unsigned int vlen, unsigned int iter, std::string arch)
 {
    while(iter--) func(buffs[0], buffs[1], scalar, vlen, arch.c_str());
 }
 //inline void run_cast_test2_s16ic(volk_gnsssdr_fn_2arg_s16ic func, std::vector<void *> &buffs, float rem_code_phase_chips, float code_phase_step_chips, int code_length_chips, unsigned int vlen, unsigned int iter, std::string arch)
 //{
 //    while(iter--) func(buffs[0], buffs[1], rem_code_phase_chips,  code_phase_step_chips,  vlen, code_length_chips,  arch.c_str());
 //}
 inline void run_cast_test3_s16ic(volk_gnsssdr_fn_3arg_s16ic func, std::vector<void *> &buffs, lv_16sc_t scalar, unsigned int vlen, unsigned int iter, std::string arch)
 {
    while(iter--) func(buffs[0], buffs[1], buffs[2], scalar, vlen, arch.c_str());
 }
 // end new
 inline void run_cast_test8(volk_gnsssdr_fn_8arg func, std::vector<void *> &buffs, unsigned int vlen, unsigned int iter, std::string arch)
@@ -601,7 +612,14 @@ bool run_volk_gnsssdr_tests(volk_gnsssdr_func_desc_t desc,
        case 2:
            if(inputsc.size() == 0)
                {
-                    run_cast_test2((volk_gnsssdr_fn_2arg)(manual_func), test_data[i], vlen, iter, arch_list[i]);
+                   // if(name.find("resampler") != std::string::npos)
                   //     {
                   //         run_cast_test2((volk_gnsssdr_fn_2arg_r)(manual_func), test_data[i], 1, 1, vlen, 1000, iter, arch_list[i]);
                   //     }
                   // else
                    //    {
                            run_cast_test2((volk_gnsssdr_fn_2arg)(manual_func), test_data[i], vlen, iter, arch_list[i]);
                   //     }
                }
            else if(inputsc.size() == 1 && inputsc[0].is_float)
                {
--- a/src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/lib/qa_utils.h
+++ b/src/algorithms/libs/volk_gnsssdr_module/volk_gnsssdr/lib/qa_utils.h
@@ -151,6 +151,7 @@ bool run_volk_gnsssdr_tests(
 #define VOLK_PUPPET_PROFILE(func, puppet_master_func, test_params, results) run_volk_gnsssdr_tests(func##_get_func_desc(), (void (*)())func##_manual, std::string(#func), test_params, results, std::string(#puppet_master_func))
 typedef void (*volk_gnsssdr_fn_1arg)(void *, unsigned int, const char*); //one input, operate in place
 typedef void (*volk_gnsssdr_fn_2arg)(void *, void *, unsigned int, const char*);
 //typedef void (*volk_gnsssdr_fn_2arg_r)(void *, void *, float, float, unsigned int, float, const char*);
 typedef void (*volk_gnsssdr_fn_3arg)(void *, void *, void *, unsigned int, const char*);
 typedef void (*volk_gnsssdr_fn_4arg)(void *, void *, void *, void *, unsigned int, const char*);
 typedef void (*volk_gnsssdr_fn_1arg_s32f)(void *, float, unsigned int, const char*); //one input vector, one scalar float input