| 1 | // Copyright 2009-2021 Intel Corporation | 
| 2 | // SPDX-License-Identifier: Apache-2.0 | 
| 3 |  | 
| 4 | #pragma once | 
| 5 |  | 
| 6 | #define vboolf vboolf_impl | 
| 7 | #define vboold vboold_impl | 
| 8 | #define vint vint_impl | 
| 9 | #define vuint vuint_impl | 
| 10 | #define vllong vllong_impl | 
| 11 | #define vfloat vfloat_impl | 
| 12 | #define vdouble vdouble_impl | 
| 13 |  | 
| 14 | namespace embree | 
| 15 | { | 
| 16 |   /* 4-wide SSE bool type */ | 
| 17 |   template<> | 
| 18 |   struct vboolf<4> | 
| 19 |   { | 
| 20 |     ALIGNED_STRUCT_(16); | 
| 21 |      | 
| 22 |     typedef vboolf4 Bool; | 
| 23 |     typedef vint4   Int; | 
| 24 |     typedef vfloat4 Float; | 
| 25 |  | 
| 26 |     enum  { size = 4 };            // number of SIMD elements | 
| 27 |     union { __m128 v; int i[4]; }; // data | 
| 28 |  | 
| 29 |     //////////////////////////////////////////////////////////////////////////////// | 
| 30 |     /// Constructors, Assignment & Cast Operators | 
| 31 |     //////////////////////////////////////////////////////////////////////////////// | 
| 32 |      | 
| 33 |     __forceinline vboolf() {} | 
| 34 |     __forceinline vboolf(const vboolf4& other) { v = other.v; } | 
| 35 |     __forceinline vboolf4& operator =(const vboolf4& other) { v = other.v; return *this; } | 
| 36 |  | 
| 37 |     __forceinline vboolf(__m128 input) : v(input) {} | 
| 38 |     __forceinline operator const __m128&() const { return v; } | 
| 39 |     #if !defined(__EMSCRIPTEN__) | 
| 40 |     __forceinline operator const __m128i() const { return _mm_castps_si128(a: v); } | 
| 41 |     __forceinline operator const __m128d() const { return _mm_castps_pd(a: v); } | 
| 42 |     #endif | 
| 43 |  | 
| 44 |     __forceinline vboolf(bool a) | 
| 45 |       : v(mm_lookupmask_ps[(size_t(a) << 3) | (size_t(a) << 2) | (size_t(a) << 1) | size_t(a)]) {} | 
| 46 |     __forceinline vboolf(bool a, bool b) | 
| 47 |       : v(mm_lookupmask_ps[(size_t(b) << 3) | (size_t(a) << 2) | (size_t(b) << 1) | size_t(a)]) {} | 
| 48 |     __forceinline vboolf(bool a, bool b, bool c, bool d) | 
| 49 |       : v(mm_lookupmask_ps[(size_t(d) << 3) | (size_t(c) << 2) | (size_t(b) << 1) | size_t(a)]) {} | 
| 50 |     __forceinline vboolf(int mask) { assert(mask >= 0 && mask < 16); v = mm_lookupmask_ps[mask]; } | 
| 51 |     __forceinline vboolf(unsigned int mask) { assert(mask < 16); v = mm_lookupmask_ps[mask]; } | 
| 52 |  | 
| 53 |     /* return int32 mask */ | 
| 54 |     __forceinline __m128i mask32() const {  | 
| 55 |       return _mm_castps_si128(a: v); | 
| 56 |     } | 
| 57 |  | 
| 58 |     //////////////////////////////////////////////////////////////////////////////// | 
| 59 |     /// Constants | 
| 60 |     //////////////////////////////////////////////////////////////////////////////// | 
| 61 |  | 
| 62 |     __forceinline vboolf(FalseTy) : v(_mm_setzero_ps()) {} | 
| 63 |     __forceinline vboolf(TrueTy)  : v(_mm_castsi128_ps(a: _mm_cmpeq_epi32(a: _mm_setzero_si128(), b: _mm_setzero_si128()))) {} | 
| 64 |  | 
| 65 |     //////////////////////////////////////////////////////////////////////////////// | 
| 66 |     /// Array Access | 
| 67 |     //////////////////////////////////////////////////////////////////////////////// | 
| 68 |  | 
| 69 |     __forceinline bool operator [](size_t index) const { assert(index < 4); return (_mm_movemask_ps(a: v) >> index) & 1; } | 
| 70 |     __forceinline int& operator [](size_t index)       { assert(index < 4); return i[index]; } | 
| 71 |   }; | 
| 72 |  | 
| 73 |   //////////////////////////////////////////////////////////////////////////////// | 
| 74 |   /// Unary Operators | 
| 75 |   //////////////////////////////////////////////////////////////////////////////// | 
| 76 |    | 
| 77 |   __forceinline vboolf4 operator !(const vboolf4& a) { return _mm_xor_ps(a: a, b: vboolf4(embree::True)); } | 
| 78 |    | 
| 79 |   //////////////////////////////////////////////////////////////////////////////// | 
| 80 |   /// Binary Operators | 
| 81 |   //////////////////////////////////////////////////////////////////////////////// | 
| 82 |    | 
| 83 |   __forceinline vboolf4 operator &(const vboolf4& a, const vboolf4& b) { return _mm_and_ps(a: a, b: b); } | 
| 84 |   __forceinline vboolf4 operator |(const vboolf4& a, const vboolf4& b) { return _mm_or_ps (a: a, b: b); } | 
| 85 |   __forceinline vboolf4 operator ^(const vboolf4& a, const vboolf4& b) { return _mm_xor_ps(a: a, b: b); } | 
| 86 |  | 
| 87 |   __forceinline vboolf4 andn(const vboolf4& a, const vboolf4& b) { return _mm_andnot_ps(a: b, b: a); } | 
| 88 |    | 
| 89 |   //////////////////////////////////////////////////////////////////////////////// | 
| 90 |   /// Assignment Operators | 
| 91 |   //////////////////////////////////////////////////////////////////////////////// | 
| 92 |    | 
| 93 |   __forceinline vboolf4& operator &=(vboolf4& a, const vboolf4& b) { return a = a & b; } | 
| 94 |   __forceinline vboolf4& operator |=(vboolf4& a, const vboolf4& b) { return a = a | b; } | 
| 95 |   __forceinline vboolf4& operator ^=(vboolf4& a, const vboolf4& b) { return a = a ^ b; } | 
| 96 |    | 
| 97 |   //////////////////////////////////////////////////////////////////////////////// | 
| 98 |   /// Comparison Operators + Select | 
| 99 |   //////////////////////////////////////////////////////////////////////////////// | 
| 100 |    | 
| 101 |   __forceinline vboolf4 operator !=(const vboolf4& a, const vboolf4& b) { return _mm_xor_ps(a: a, b: b); } | 
| 102 |   __forceinline vboolf4 operator ==(const vboolf4& a, const vboolf4& b) { return _mm_castsi128_ps(a: _mm_cmpeq_epi32(a: a, b: b)); } | 
| 103 |    | 
| 104 |   __forceinline vboolf4 select(const vboolf4& m, const vboolf4& t, const vboolf4& f) { | 
| 105 | #if defined(__SSE4_1__) | 
| 106 |     return _mm_blendv_ps(f, t, m);  | 
| 107 | #else | 
| 108 |     return _mm_or_ps(a: _mm_and_ps(a: m, b: t), b: _mm_andnot_ps(a: m, b: f));  | 
| 109 | #endif | 
| 110 |   } | 
| 111 |  | 
| 112 |   //////////////////////////////////////////////////////////////////////////////// | 
| 113 |   /// Movement/Shifting/Shuffling Functions | 
| 114 |   //////////////////////////////////////////////////////////////////////////////// | 
| 115 |    | 
| 116 |   __forceinline vboolf4 unpacklo(const vboolf4& a, const vboolf4& b) { return _mm_unpacklo_ps(a: a, b: b); } | 
| 117 |   __forceinline vboolf4 unpackhi(const vboolf4& a, const vboolf4& b) { return _mm_unpackhi_ps(a: a, b: b); } | 
| 118 |  | 
| 119 |   template<int i0, int i1, int i2, int i3> | 
| 120 |   __forceinline vboolf4 shuffle(const vboolf4& v) { | 
| 121 |     return _mm_castsi128_ps(_mm_shuffle_epi32(v, _MM_SHUFFLE(i3, i2, i1, i0))); | 
| 122 |   } | 
| 123 |  | 
| 124 |   template<int i0, int i1, int i2, int i3> | 
| 125 |   __forceinline vboolf4 shuffle(const vboolf4& a, const vboolf4& b) { | 
| 126 |     return _mm_shuffle_ps(a, b, _MM_SHUFFLE(i3, i2, i1, i0)); | 
| 127 |   } | 
| 128 |  | 
| 129 |   template<int i0> | 
| 130 |   __forceinline vboolf4 shuffle(const vboolf4& v) { | 
| 131 |     return shuffle<i0,i0,i0,i0>(v); | 
| 132 |   } | 
| 133 |  | 
| 134 | #if defined(__SSE3__) | 
| 135 |   template<> __forceinline vboolf4 shuffle<0, 0, 2, 2>(const vboolf4& v) { return _mm_moveldup_ps(v); } | 
| 136 |   template<> __forceinline vboolf4 shuffle<1, 1, 3, 3>(const vboolf4& v) { return _mm_movehdup_ps(v); } | 
| 137 |   template<> __forceinline vboolf4 shuffle<0, 1, 0, 1>(const vboolf4& v) { return _mm_castpd_ps(_mm_movedup_pd(v)); } | 
| 138 | #endif | 
| 139 |  | 
| 140 | #if defined(__SSE4_1__) | 
| 141 |   template<int dst, int src, int clr> __forceinline vboolf4 insert(const vboolf4& a, const vboolf4& b) { return _mm_insert_ps(a, b, (dst << 4) | (src << 6) | clr); } | 
| 142 |   template<int dst, int src> __forceinline vboolf4 insert(const vboolf4& a, const vboolf4& b) { return insert<dst, src, 0>(a, b); } | 
| 143 |   template<int dst> __forceinline vboolf4 insert(const vboolf4& a, const bool b) { return insert<dst, 0>(a, vboolf4(b)); } | 
| 144 | #endif | 
| 145 |    | 
| 146 |   //////////////////////////////////////////////////////////////////////////////// | 
| 147 |   /// Reduction Operations | 
| 148 |   //////////////////////////////////////////////////////////////////////////////// | 
| 149 |      | 
| 150 |   __forceinline bool reduce_and(const vboolf4& a) { return _mm_movemask_ps(a: a) == 0xf; } | 
| 151 |   __forceinline bool reduce_or (const vboolf4& a) { return _mm_movemask_ps(a: a) != 0x0; } | 
| 152 |  | 
| 153 |   __forceinline bool all (const vboolf4& b) { return _mm_movemask_ps(a: b) == 0xf; } | 
| 154 |   __forceinline bool any (const vboolf4& b) { return _mm_movemask_ps(a: b) != 0x0; } | 
| 155 |   __forceinline bool none(const vboolf4& b) { return _mm_movemask_ps(a: b) == 0x0; } | 
| 156 |  | 
| 157 |   __forceinline bool all (const vboolf4& valid, const vboolf4& b) { return all(b: (!valid) | b); } | 
| 158 |   __forceinline bool any (const vboolf4& valid, const vboolf4& b) { return any(b: valid & b); } | 
| 159 |   __forceinline bool none(const vboolf4& valid, const vboolf4& b) { return none(b: valid & b); } | 
| 160 |    | 
| 161 |   __forceinline size_t movemask(const vboolf4& a) { return _mm_movemask_ps(a: a); } | 
| 162 | #if defined(__SSE4_2__) | 
| 163 |   __forceinline size_t popcnt(const vboolf4& a) { return popcnt((size_t)_mm_movemask_ps(a)); } | 
| 164 | #else | 
| 165 |   __forceinline size_t popcnt(const vboolf4& a) { return bool(a[0])+bool(a[1])+bool(a[2])+bool(a[3]); } | 
| 166 | #endif | 
| 167 |  | 
| 168 |   //////////////////////////////////////////////////////////////////////////////// | 
| 169 |   /// Get/Set Functions | 
| 170 |   //////////////////////////////////////////////////////////////////////////////// | 
| 171 |  | 
| 172 |   __forceinline bool get(const vboolf4& a, size_t index) { return a[index]; } | 
| 173 |   __forceinline void set(vboolf4& a, size_t index)       { a[index] = -1; } | 
| 174 |   __forceinline void clear(vboolf4& a, size_t index)     { a[index] =  0; } | 
| 175 |  | 
| 176 |   //////////////////////////////////////////////////////////////////////////////// | 
| 177 |   /// Output Operators | 
| 178 |   //////////////////////////////////////////////////////////////////////////////// | 
| 179 |    | 
| 180 |   __forceinline embree_ostream operator <<(embree_ostream cout, const vboolf4& a) { | 
| 181 |     return cout << "<"  << a[0] << ", "  << a[1] << ", "  << a[2] << ", "  << a[3] << ">" ; | 
| 182 |   } | 
| 183 | } | 
| 184 |  | 
| 185 | #undef vboolf | 
| 186 | #undef vboold | 
| 187 | #undef vint | 
| 188 | #undef vuint | 
| 189 | #undef vllong | 
| 190 | #undef vfloat | 
| 191 | #undef vdouble | 
| 192 |  |