gcc/config/i386/avxintrin.h

   1 /* Copyright (C) 2008-2015 Free Software Foundation, Inc.
   2
   3    This file is part of GCC.
   4
   5    GCC is free software; you can redistribute it and/or modify
   6    it under the terms of the GNU General Public License as published by
   7    the Free Software Foundation; either version 3, or (at your option)
   8    any later version.
   9
  10    GCC is distributed in the hope that it will be useful,
  11    but WITHOUT ANY WARRANTY; without even the implied warranty of
  12    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  13    GNU General Public License for more details.
  14
  15    Under Section 7 of GPL version 3, you are granted additional
  16    permissions described in the GCC Runtime Library Exception, version
  17    3.1, as published by the Free Software Foundation.
  18
  19    You should have received a copy of the GNU General Public License and
  20    a copy of the GCC Runtime Library Exception along with this program;
  21    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
  22    <http://www.gnu.org/licenses/>.  */
  23
  24 /* Implemented from the specification included in the Intel C++ Compiler
  25    User Guide and Reference, version 11.0.  */
  26
  27 #ifndef _IMMINTRIN_H_INCLUDED
  28 # error "Never use <avxintrin.h> directly; include <immintrin.h> instead."
  29 #endif
  30
  31 #ifndef _AVXINTRIN_H_INCLUDED
  32 #define _AVXINTRIN_H_INCLUDED
  33
  34 #ifndef __AVX__
  35 #pragma GCC push_options
  36 #pragma GCC target("avx")
  37 #define __DISABLE_AVX__
  38 #endif /* __AVX__ */
  39
  40 /* Internal data types for implementing the intrinsics.  */
  41 typedef double __v4df __attribute__ ((__vector_size__ (32)));
  42 typedef float __v8sf __attribute__ ((__vector_size__ (32)));
  43 typedef long long __v4di __attribute__ ((__vector_size__ (32)));
  44 typedef unsigned long long __v4du __attribute__ ((__vector_size__ (32)));
  45 typedef int __v8si __attribute__ ((__vector_size__ (32)));
  46 typedef unsigned int __v8su __attribute__ ((__vector_size__ (32)));
  47 typedef short __v16hi __attribute__ ((__vector_size__ (32)));
  48 typedef unsigned short __v16hu __attribute__ ((__vector_size__ (32)));
  49 typedef char __v32qi __attribute__ ((__vector_size__ (32)));
  50 typedef unsigned char __v32qu __attribute__ ((__vector_size__ (32)));
  51
  52 /* The Intel API is flexible enough that we must allow aliasing with other
  53    vector types, and their scalar components.  */
  54 typedef float __m256 __attribute__ ((__vector_size__ (32),
  55                                      __may_alias__));
  56 typedef long long __m256i __attribute__ ((__vector_size__ (32),
  57                                           __may_alias__));
  58 typedef double __m256d __attribute__ ((__vector_size__ (32),
  59                                        __may_alias__));
  60
  61 /* Compare predicates for scalar and packed compare intrinsics.  */
  62
  63 /* Equal (ordered, non-signaling)  */
  64 #define _CMP_EQ_OQ      0x00
  65 /* Less-than (ordered, signaling)  */
  66 #define _CMP_LT_OS      0x01
  67 /* Less-than-or-equal (ordered, signaling)  */
  68 #define _CMP_LE_OS      0x02
  69 /* Unordered (non-signaling)  */
  70 #define _CMP_UNORD_Q    0x03
  71 /* Not-equal (unordered, non-signaling)  */
  72 #define _CMP_NEQ_UQ     0x04
  73 /* Not-less-than (unordered, signaling)  */
  74 #define _CMP_NLT_US     0x05
  75 /* Not-less-than-or-equal (unordered, signaling)  */
  76 #define _CMP_NLE_US     0x06
  77 /* Ordered (nonsignaling)   */
  78 #define _CMP_ORD_Q      0x07
  79 /* Equal (unordered, non-signaling)  */
  80 #define _CMP_EQ_UQ      0x08
  81 /* Not-greater-than-or-equal (unordered, signaling)  */
  82 #define _CMP_NGE_US     0x09
  83 /* Not-greater-than (unordered, signaling)  */
  84 #define _CMP_NGT_US     0x0a
  85 /* False (ordered, non-signaling)  */
  86 #define _CMP_FALSE_OQ   0x0b
  87 /* Not-equal (ordered, non-signaling)  */
  88 #define _CMP_NEQ_OQ     0x0c
  89 /* Greater-than-or-equal (ordered, signaling)  */
  90 #define _CMP_GE_OS      0x0d
  91 /* Greater-than (ordered, signaling)  */
  92 #define _CMP_GT_OS      0x0e
  93 /* True (unordered, non-signaling)  */
  94 #define _CMP_TRUE_UQ    0x0f
  95 /* Equal (ordered, signaling)  */
  96 #define _CMP_EQ_OS      0x10
  97 /* Less-than (ordered, non-signaling)  */
  98 #define _CMP_LT_OQ      0x11
  99 /* Less-than-or-equal (ordered, non-signaling)  */
 100 #define _CMP_LE_OQ      0x12
 101 /* Unordered (signaling)  */
 102 #define _CMP_UNORD_S    0x13
 103 /* Not-equal (unordered, signaling)  */
 104 #define _CMP_NEQ_US     0x14
 105 /* Not-less-than (unordered, non-signaling)  */
 106 #define _CMP_NLT_UQ     0x15
 107 /* Not-less-than-or-equal (unordered, non-signaling)  */
 108 #define _CMP_NLE_UQ     0x16
 109 /* Ordered (signaling)  */
 110 #define _CMP_ORD_S      0x17
 111 /* Equal (unordered, signaling)  */
 112 #define _CMP_EQ_US      0x18
 113 /* Not-greater-than-or-equal (unordered, non-signaling)  */
 114 #define _CMP_NGE_UQ     0x19
 115 /* Not-greater-than (unordered, non-signaling)  */
 116 #define _CMP_NGT_UQ     0x1a
 117 /* False (ordered, signaling)  */
 118 #define _CMP_FALSE_OS   0x1b
 119 /* Not-equal (ordered, signaling)  */
 120 #define _CMP_NEQ_OS     0x1c
 121 /* Greater-than-or-equal (ordered, non-signaling)  */
 122 #define _CMP_GE_OQ      0x1d
 123 /* Greater-than (ordered, non-signaling)  */
 124 #define _CMP_GT_OQ      0x1e
 125 /* True (unordered, signaling)  */
 126 #define _CMP_TRUE_US    0x1f
 127
 128 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 129 _mm256_add_pd (__m256d __A, __m256d __B)
 130 {
 131   return (__m256d) ((__v4df)__A + (__v4df)__B);
 132 }
 133
 134 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 135 _mm256_add_ps (__m256 __A, __m256 __B)
 136 {
 137   return (__m256) ((__v8sf)__A + (__v8sf)__B);
 138 }
 139
 140 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 141 _mm256_addsub_pd (__m256d __A, __m256d __B)
 142 {
 143   return (__m256d) __builtin_ia32_addsubpd256 ((__v4df)__A, (__v4df)__B);
 144 }
 145
 146 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 147 _mm256_addsub_ps (__m256 __A, __m256 __B)
 148 {
 149   return (__m256) __builtin_ia32_addsubps256 ((__v8sf)__A, (__v8sf)__B);
 150 }
 151
 152
 153 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 154 _mm256_and_pd (__m256d __A, __m256d __B)
 155 {
 156   return (__m256d) __builtin_ia32_andpd256 ((__v4df)__A, (__v4df)__B);
 157 }
 158
 159 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 160 _mm256_and_ps (__m256 __A, __m256 __B)
 161 {
 162   return (__m256) __builtin_ia32_andps256 ((__v8sf)__A, (__v8sf)__B);
 163 }
 164
 165 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 166 _mm256_andnot_pd (__m256d __A, __m256d __B)
 167 {
 168   return (__m256d) __builtin_ia32_andnpd256 ((__v4df)__A, (__v4df)__B);
 169 }
 170
 171 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 172 _mm256_andnot_ps (__m256 __A, __m256 __B)
 173 {
 174   return (__m256) __builtin_ia32_andnps256 ((__v8sf)__A, (__v8sf)__B);
 175 }
 176
 177 /* Double/single precision floating point blend instructions - select
 178    data from 2 sources using constant/variable mask.  */
 179
 180 #ifdef __OPTIMIZE__
 181 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 182 _mm256_blend_pd (__m256d __X, __m256d __Y, const int __M)
 183 {
 184   return (__m256d) __builtin_ia32_blendpd256 ((__v4df)__X,
 185                                               (__v4df)__Y,
 186                                               __M);
 187 }
 188
 189 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 190 _mm256_blend_ps (__m256 __X, __m256 __Y, const int __M)
 191 {
 192   return (__m256) __builtin_ia32_blendps256 ((__v8sf)__X,
 193                                              (__v8sf)__Y,
 194                                              __M);
 195 }
 196 #else
 197 #define _mm256_blend_pd(X, Y, M)                                        \
 198   ((__m256d) __builtin_ia32_blendpd256 ((__v4df)(__m256d)(X),           \
 199                                         (__v4df)(__m256d)(Y), (int)(M)))
 200
 201 #define _mm256_blend_ps(X, Y, M)                                        \
 202   ((__m256) __builtin_ia32_blendps256 ((__v8sf)(__m256)(X),             \
 203                                        (__v8sf)(__m256)(Y), (int)(M)))
 204 #endif
 205
 206 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 207 _mm256_blendv_pd (__m256d __X, __m256d __Y, __m256d __M)
 208 {
 209   return (__m256d) __builtin_ia32_blendvpd256 ((__v4df)__X,
 210                                                (__v4df)__Y,
 211                                                (__v4df)__M);
 212 }
 213
 214 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 215 _mm256_blendv_ps (__m256 __X, __m256 __Y, __m256 __M)
 216 {
 217   return (__m256) __builtin_ia32_blendvps256 ((__v8sf)__X,
 218                                               (__v8sf)__Y,
 219                                               (__v8sf)__M);
 220 }
 221
 222 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 223 _mm256_div_pd (__m256d __A, __m256d __B)
 224 {
 225   return (__m256d) ((__v4df)__A / (__v4df)__B);
 226 }
 227
 228 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 229 _mm256_div_ps (__m256 __A, __m256 __B)
 230 {
 231   return (__m256) ((__v8sf)__A / (__v8sf)__B);
 232 }
 233
 234 /* Dot product instructions with mask-defined summing and zeroing parts
 235    of result.  */
 236
 237 #ifdef __OPTIMIZE__
 238 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 239 _mm256_dp_ps (__m256 __X, __m256 __Y, const int __M)
 240 {
 241   return (__m256) __builtin_ia32_dpps256 ((__v8sf)__X,
 242                                           (__v8sf)__Y,
 243                                           __M);
 244 }
 245 #else
 246 #define _mm256_dp_ps(X, Y, M)                                           \
 247   ((__m256) __builtin_ia32_dpps256 ((__v8sf)(__m256)(X),                \
 248                                     (__v8sf)(__m256)(Y), (int)(M)))
 249 #endif
 250
 251 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 252 _mm256_hadd_pd (__m256d __X, __m256d __Y)
 253 {
 254   return (__m256d) __builtin_ia32_haddpd256 ((__v4df)__X, (__v4df)__Y);
 255 }
 256
 257 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 258 _mm256_hadd_ps (__m256 __X, __m256 __Y)
 259 {
 260   return (__m256) __builtin_ia32_haddps256 ((__v8sf)__X, (__v8sf)__Y);
 261 }
 262
 263 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 264 _mm256_hsub_pd (__m256d __X, __m256d __Y)
 265 {
 266   return (__m256d) __builtin_ia32_hsubpd256 ((__v4df)__X, (__v4df)__Y);
 267 }
 268
 269 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 270 _mm256_hsub_ps (__m256 __X, __m256 __Y)
 271 {
 272   return (__m256) __builtin_ia32_hsubps256 ((__v8sf)__X, (__v8sf)__Y);
 273 }
 274
 275 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 276 _mm256_max_pd (__m256d __A, __m256d __B)
 277 {
 278   return (__m256d) __builtin_ia32_maxpd256 ((__v4df)__A, (__v4df)__B);
 279 }
 280
 281 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 282 _mm256_max_ps (__m256 __A, __m256 __B)
 283 {
 284   return (__m256) __builtin_ia32_maxps256 ((__v8sf)__A, (__v8sf)__B);
 285 }
 286
 287 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 288 _mm256_min_pd (__m256d __A, __m256d __B)
 289 {
 290   return (__m256d) __builtin_ia32_minpd256 ((__v4df)__A, (__v4df)__B);
 291 }
 292
 293 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 294 _mm256_min_ps (__m256 __A, __m256 __B)
 295 {
 296   return (__m256) __builtin_ia32_minps256 ((__v8sf)__A, (__v8sf)__B);
 297 }
 298
 299 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 300 _mm256_mul_pd (__m256d __A, __m256d __B)
 301 {
 302   return (__m256d) ((__v4df)__A * (__v4df)__B);
 303 }
 304
 305 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 306 _mm256_mul_ps (__m256 __A, __m256 __B)
 307 {
 308   return (__m256) ((__v8sf)__A * (__v8sf)__B);
 309 }
 310
 311 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 312 _mm256_or_pd (__m256d __A, __m256d __B)
 313 {
 314   return (__m256d) __builtin_ia32_orpd256 ((__v4df)__A, (__v4df)__B);
 315 }
 316
 317 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 318 _mm256_or_ps (__m256 __A, __m256 __B)
 319 {
 320   return (__m256) __builtin_ia32_orps256 ((__v8sf)__A, (__v8sf)__B);
 321 }
 322
 323 #ifdef __OPTIMIZE__
 324 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 325 _mm256_shuffle_pd (__m256d __A, __m256d __B, const int __mask)
 326 {
 327   return (__m256d) __builtin_ia32_shufpd256 ((__v4df)__A, (__v4df)__B,
 328                                              __mask);
 329 }
 330
 331 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 332 _mm256_shuffle_ps (__m256 __A, __m256 __B, const int __mask)
 333 {
 334   return (__m256) __builtin_ia32_shufps256 ((__v8sf)__A, (__v8sf)__B,
 335                                             __mask);
 336 }
 337 #else
 338 #define _mm256_shuffle_pd(A, B, N)                                      \
 339   ((__m256d)__builtin_ia32_shufpd256 ((__v4df)(__m256d)(A),             \
 340                                       (__v4df)(__m256d)(B), (int)(N)))
 341
 342 #define _mm256_shuffle_ps(A, B, N)                                      \
 343   ((__m256) __builtin_ia32_shufps256 ((__v8sf)(__m256)(A),              \
 344                                       (__v8sf)(__m256)(B), (int)(N)))
 345 #endif
 346
 347 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 348 _mm256_sub_pd (__m256d __A, __m256d __B)
 349 {
 350   return (__m256d) ((__v4df)__A - (__v4df)__B);
 351 }
 352
 353 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 354 _mm256_sub_ps (__m256 __A, __m256 __B)
 355 {
 356   return (__m256) ((__v8sf)__A - (__v8sf)__B);
 357 }
 358
 359 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 360 _mm256_xor_pd (__m256d __A, __m256d __B)
 361 {
 362   return (__m256d) __builtin_ia32_xorpd256 ((__v4df)__A, (__v4df)__B);
 363 }
 364
 365 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 366 _mm256_xor_ps (__m256 __A, __m256 __B)
 367 {
 368   return (__m256) __builtin_ia32_xorps256 ((__v8sf)__A, (__v8sf)__B);
 369 }
 370
 371 #ifdef __OPTIMIZE__
 372 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 373 _mm_cmp_pd (__m128d __X, __m128d __Y, const int __P)
 374 {
 375   return (__m128d) __builtin_ia32_cmppd ((__v2df)__X, (__v2df)__Y, __P);
 376 }
 377
 378 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 379 _mm_cmp_ps (__m128 __X, __m128 __Y, const int __P)
 380 {
 381   return (__m128) __builtin_ia32_cmpps ((__v4sf)__X, (__v4sf)__Y, __P);
 382 }
 383
 384 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 385 _mm256_cmp_pd (__m256d __X, __m256d __Y, const int __P)
 386 {
 387   return (__m256d) __builtin_ia32_cmppd256 ((__v4df)__X, (__v4df)__Y,
 388                                             __P);
 389 }
 390
 391 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 392 _mm256_cmp_ps (__m256 __X, __m256 __Y, const int __P)
 393 {
 394   return (__m256) __builtin_ia32_cmpps256 ((__v8sf)__X, (__v8sf)__Y,
 395                                            __P);
 396 }
 397
 398 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 399 _mm_cmp_sd (__m128d __X, __m128d __Y, const int __P)
 400 {
 401   return (__m128d) __builtin_ia32_cmpsd ((__v2df)__X, (__v2df)__Y, __P);
 402 }
 403
 404 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 405 _mm_cmp_ss (__m128 __X, __m128 __Y, const int __P)
 406 {
 407   return (__m128) __builtin_ia32_cmpss ((__v4sf)__X, (__v4sf)__Y, __P);
 408 }
 409 #else
 410 #define _mm_cmp_pd(X, Y, P)                                             \
 411   ((__m128d) __builtin_ia32_cmppd ((__v2df)(__m128d)(X),                \
 412                                    (__v2df)(__m128d)(Y), (int)(P)))
 413
 414 #define _mm_cmp_ps(X, Y, P)                                             \
 415   ((__m128) __builtin_ia32_cmpps ((__v4sf)(__m128)(X),                  \
 416                                   (__v4sf)(__m128)(Y), (int)(P)))
 417
 418 #define _mm256_cmp_pd(X, Y, P)                                          \
 419   ((__m256d) __builtin_ia32_cmppd256 ((__v4df)(__m256d)(X),             \
 420                                       (__v4df)(__m256d)(Y), (int)(P)))
 421
 422 #define _mm256_cmp_ps(X, Y, P)                                          \
 423   ((__m256) __builtin_ia32_cmpps256 ((__v8sf)(__m256)(X),               \
 424                                      (__v8sf)(__m256)(Y), (int)(P)))
 425
 426 #define _mm_cmp_sd(X, Y, P)                                             \
 427   ((__m128d) __builtin_ia32_cmpsd ((__v2df)(__m128d)(X),                \
 428                                    (__v2df)(__m128d)(Y), (int)(P)))
 429
 430 #define _mm_cmp_ss(X, Y, P)                                             \
 431   ((__m128) __builtin_ia32_cmpss ((__v4sf)(__m128)(X),                  \
 432                                   (__v4sf)(__m128)(Y), (int)(P)))
 433 #endif
 434
 435 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 436 _mm256_cvtepi32_pd (__m128i __A)
 437 {
 438   return (__m256d)__builtin_ia32_cvtdq2pd256 ((__v4si) __A);
 439 }
 440
 441 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 442 _mm256_cvtepi32_ps (__m256i __A)
 443 {
 444   return (__m256)__builtin_ia32_cvtdq2ps256 ((__v8si) __A);
 445 }
 446
 447 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 448 _mm256_cvtpd_ps (__m256d __A)
 449 {
 450   return (__m128)__builtin_ia32_cvtpd2ps256 ((__v4df) __A);
 451 }
 452
 453 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 454 _mm256_cvtps_epi32 (__m256 __A)
 455 {
 456   return (__m256i)__builtin_ia32_cvtps2dq256 ((__v8sf) __A);
 457 }
 458
 459 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 460 _mm256_cvtps_pd (__m128 __A)
 461 {
 462   return (__m256d)__builtin_ia32_cvtps2pd256 ((__v4sf) __A);
 463 }
 464
 465 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 466 _mm256_cvttpd_epi32 (__m256d __A)
 467 {
 468   return (__m128i)__builtin_ia32_cvttpd2dq256 ((__v4df) __A);
 469 }
 470
 471 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 472 _mm256_cvtpd_epi32 (__m256d __A)
 473 {
 474   return (__m128i)__builtin_ia32_cvtpd2dq256 ((__v4df) __A);
 475 }
 476
 477 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 478 _mm256_cvttps_epi32 (__m256 __A)
 479 {
 480   return (__m256i)__builtin_ia32_cvttps2dq256 ((__v8sf) __A);
 481 }
 482
 483 #ifdef __OPTIMIZE__
 484 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 485 _mm256_extractf128_pd (__m256d __X, const int __N)
 486 {
 487   return (__m128d) __builtin_ia32_vextractf128_pd256 ((__v4df)__X, __N);
 488 }
 489
 490 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 491 _mm256_extractf128_ps (__m256 __X, const int __N)
 492 {
 493   return (__m128) __builtin_ia32_vextractf128_ps256 ((__v8sf)__X, __N);
 494 }
 495
 496 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 497 _mm256_extractf128_si256 (__m256i __X, const int __N)
 498 {
 499   return (__m128i) __builtin_ia32_vextractf128_si256 ((__v8si)__X, __N);
 500 }
 501
 502 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 503 _mm256_extract_epi32 (__m256i __X, int const __N)
 504 {
 505   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 2);
 506   return _mm_extract_epi32 (__Y, __N % 4);
 507 }
 508
 509 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 510 _mm256_extract_epi16 (__m256i __X, int const __N)
 511 {
 512   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 3);
 513   return _mm_extract_epi16 (__Y, __N % 8);
 514 }
 515
 516 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 517 _mm256_extract_epi8 (__m256i __X, int const __N)
 518 {
 519   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 4);
 520   return _mm_extract_epi8 (__Y, __N % 16);
 521 }
 522
 523 #ifdef __x86_64__
 524 extern __inline long long  __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 525 _mm256_extract_epi64 (__m256i __X, const int __N)
 526 {
 527   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 1);
 528   return _mm_extract_epi64 (__Y, __N % 2);
 529 }
 530 #endif
 531 #else
 532 #define _mm256_extractf128_pd(X, N)                                     \
 533   ((__m128d) __builtin_ia32_vextractf128_pd256 ((__v4df)(__m256d)(X),   \
 534                                                 (int)(N)))
 535
 536 #define _mm256_extractf128_ps(X, N)                                     \
 537   ((__m128) __builtin_ia32_vextractf128_ps256 ((__v8sf)(__m256)(X),     \
 538                                                (int)(N)))
 539
 540 #define _mm256_extractf128_si256(X, N)                                  \
 541   ((__m128i) __builtin_ia32_vextractf128_si256 ((__v8si)(__m256i)(X),   \
 542                                                 (int)(N)))
 543
 544 #define _mm256_extract_epi32(X, N)                                      \
 545   (__extension__                                                        \
 546    ({                                                                   \
 547       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 2);           \
 548       _mm_extract_epi32 (__Y, (N) % 4);                                 \
 549     }))
 550
 551 #define _mm256_extract_epi16(X, N)                                      \
 552   (__extension__                                                        \
 553    ({                                                                   \
 554       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 3);           \
 555       _mm_extract_epi16 (__Y, (N) % 8);                                 \
 556     }))
 557
 558 #define _mm256_extract_epi8(X, N)                                       \
 559   (__extension__                                                        \
 560    ({                                                                   \
 561       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 4);           \
 562       _mm_extract_epi8 (__Y, (N) % 16);                                 \
 563     }))
 564
 565 #ifdef __x86_64__
 566 #define _mm256_extract_epi64(X, N)                                      \
 567   (__extension__                                                        \
 568    ({                                                                   \
 569       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 1);           \
 570       _mm_extract_epi64 (__Y, (N) % 2);                                 \
 571     }))
 572 #endif
 573 #endif
 574
 575 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 576 _mm256_zeroall (void)
 577 {
 578   __builtin_ia32_vzeroall ();
 579 }
 580
 581 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 582 _mm256_zeroupper (void)
 583 {
 584   __builtin_ia32_vzeroupper ();
 585 }
 586
 587 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 588 _mm_permutevar_pd (__m128d __A, __m128i __C)
 589 {
 590   return (__m128d) __builtin_ia32_vpermilvarpd ((__v2df)__A,
 591                                                 (__v2di)__C);
 592 }
 593
 594 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 595 _mm256_permutevar_pd (__m256d __A, __m256i __C)
 596 {
 597   return (__m256d) __builtin_ia32_vpermilvarpd256 ((__v4df)__A,
 598                                                    (__v4di)__C);
 599 }
 600
 601 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 602 _mm_permutevar_ps (__m128 __A, __m128i __C)
 603 {
 604   return (__m128) __builtin_ia32_vpermilvarps ((__v4sf)__A,
 605                                                (__v4si)__C);
 606 }
 607
 608 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 609 _mm256_permutevar_ps (__m256 __A, __m256i __C)
 610 {
 611   return (__m256) __builtin_ia32_vpermilvarps256 ((__v8sf)__A,
 612                                                   (__v8si)__C);
 613 }
 614
 615 #ifdef __OPTIMIZE__
 616 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 617 _mm_permute_pd (__m128d __X, const int __C)
 618 {
 619   return (__m128d) __builtin_ia32_vpermilpd ((__v2df)__X, __C);
 620 }
 621
 622 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 623 _mm256_permute_pd (__m256d __X, const int __C)
 624 {
 625   return (__m256d) __builtin_ia32_vpermilpd256 ((__v4df)__X, __C);
 626 }
 627
 628 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 629 _mm_permute_ps (__m128 __X, const int __C)
 630 {
 631   return (__m128) __builtin_ia32_vpermilps ((__v4sf)__X, __C);
 632 }
 633
 634 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 635 _mm256_permute_ps (__m256 __X, const int __C)
 636 {
 637   return (__m256) __builtin_ia32_vpermilps256 ((__v8sf)__X, __C);
 638 }
 639 #else
 640 #define _mm_permute_pd(X, C)                                            \
 641   ((__m128d) __builtin_ia32_vpermilpd ((__v2df)(__m128d)(X), (int)(C)))
 642
 643 #define _mm256_permute_pd(X, C)                                         \
 644   ((__m256d) __builtin_ia32_vpermilpd256 ((__v4df)(__m256d)(X), (int)(C)))
 645
 646 #define _mm_permute_ps(X, C)                                            \
 647   ((__m128) __builtin_ia32_vpermilps ((__v4sf)(__m128)(X), (int)(C)))
 648
 649 #define _mm256_permute_ps(X, C)                                         \
 650   ((__m256) __builtin_ia32_vpermilps256 ((__v8sf)(__m256)(X), (int)(C)))
 651 #endif
 652
 653 #ifdef __OPTIMIZE__
 654 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 655 _mm256_permute2f128_pd (__m256d __X, __m256d __Y, const int __C)
 656 {
 657   return (__m256d) __builtin_ia32_vperm2f128_pd256 ((__v4df)__X,
 658                                                     (__v4df)__Y,
 659                                                     __C);
 660 }
 661
 662 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 663 _mm256_permute2f128_ps (__m256 __X, __m256 __Y, const int __C)
 664 {
 665   return (__m256) __builtin_ia32_vperm2f128_ps256 ((__v8sf)__X,
 666                                                    (__v8sf)__Y,
 667                                                    __C);
 668 }
 669
 670 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 671 _mm256_permute2f128_si256 (__m256i __X, __m256i __Y, const int __C)
 672 {
 673   return (__m256i) __builtin_ia32_vperm2f128_si256 ((__v8si)__X,
 674                                                     (__v8si)__Y,
 675                                                     __C);
 676 }
 677 #else
 678 #define _mm256_permute2f128_pd(X, Y, C)                                 \
 679   ((__m256d) __builtin_ia32_vperm2f128_pd256 ((__v4df)(__m256d)(X),     \
 680                                               (__v4df)(__m256d)(Y),     \
 681                                               (int)(C)))
 682
 683 #define _mm256_permute2f128_ps(X, Y, C)                                 \
 684   ((__m256) __builtin_ia32_vperm2f128_ps256 ((__v8sf)(__m256)(X),       \
 685                                              (__v8sf)(__m256)(Y),       \
 686                                              (int)(C)))
 687
 688 #define _mm256_permute2f128_si256(X, Y, C)                              \
 689   ((__m256i) __builtin_ia32_vperm2f128_si256 ((__v8si)(__m256i)(X),     \
 690                                               (__v8si)(__m256i)(Y),     \
 691                                               (int)(C)))
 692 #endif
 693
 694 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 695 _mm_broadcast_ss (float const *__X)
 696 {
 697   return (__m128) __builtin_ia32_vbroadcastss (__X);
 698 }
 699
 700 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 701 _mm256_broadcast_sd (double const *__X)
 702 {
 703   return (__m256d) __builtin_ia32_vbroadcastsd256 (__X);
 704 }
 705
 706 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 707 _mm256_broadcast_ss (float const *__X)
 708 {
 709   return (__m256) __builtin_ia32_vbroadcastss256 (__X);
 710 }
 711
 712 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 713 _mm256_broadcast_pd (__m128d const *__X)
 714 {
 715   return (__m256d) __builtin_ia32_vbroadcastf128_pd256 (__X);
 716 }
 717
 718 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 719 _mm256_broadcast_ps (__m128 const *__X)
 720 {
 721   return (__m256) __builtin_ia32_vbroadcastf128_ps256 (__X);
 722 }
 723
 724 #ifdef __OPTIMIZE__
 725 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 726 _mm256_insertf128_pd (__m256d __X, __m128d __Y, const int __O)
 727 {
 728   return (__m256d) __builtin_ia32_vinsertf128_pd256 ((__v4df)__X,
 729                                                      (__v2df)__Y,
 730                                                      __O);
 731 }
 732
 733 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 734 _mm256_insertf128_ps (__m256 __X, __m128 __Y, const int __O)
 735 {
 736   return (__m256) __builtin_ia32_vinsertf128_ps256 ((__v8sf)__X,
 737                                                     (__v4sf)__Y,
 738                                                     __O);
 739 }
 740
 741 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 742 _mm256_insertf128_si256 (__m256i __X, __m128i __Y, const int __O)
 743 {
 744   return (__m256i) __builtin_ia32_vinsertf128_si256 ((__v8si)__X,
 745                                                      (__v4si)__Y,
 746                                                      __O);
 747 }
 748
 749 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 750 _mm256_insert_epi32 (__m256i __X, int __D, int const __N)
 751 {
 752   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 2);
 753   __Y = _mm_insert_epi32 (__Y, __D, __N % 4);
 754   return _mm256_insertf128_si256 (__X, __Y, __N >> 2);
 755 }
 756
 757 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 758 _mm256_insert_epi16 (__m256i __X, int __D, int const __N)
 759 {
 760   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 3);
 761   __Y = _mm_insert_epi16 (__Y, __D, __N % 8);
 762   return _mm256_insertf128_si256 (__X, __Y, __N >> 3);
 763 }
 764
 765 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 766 _mm256_insert_epi8 (__m256i __X, int __D, int const __N)
 767 {
 768   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 4);
 769   __Y = _mm_insert_epi8 (__Y, __D, __N % 16);
 770   return _mm256_insertf128_si256 (__X, __Y, __N >> 4);
 771 }
 772
 773 #ifdef __x86_64__
 774 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 775 _mm256_insert_epi64 (__m256i __X, long long __D, int const __N)
 776 {
 777   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 1);
 778   __Y = _mm_insert_epi64 (__Y, __D, __N % 2);
 779   return _mm256_insertf128_si256 (__X, __Y, __N >> 1);
 780 }
 781 #endif
 782 #else
 783 #define _mm256_insertf128_pd(X, Y, O)                                   \
 784   ((__m256d) __builtin_ia32_vinsertf128_pd256 ((__v4df)(__m256d)(X),    \
 785                                                (__v2df)(__m128d)(Y),    \
 786                                                (int)(O)))
 787
 788 #define _mm256_insertf128_ps(X, Y, O)                                   \
 789   ((__m256) __builtin_ia32_vinsertf128_ps256 ((__v8sf)(__m256)(X),      \
 790                                               (__v4sf)(__m128)(Y),      \
 791                                               (int)(O)))
 792
 793 #define _mm256_insertf128_si256(X, Y, O)                                \
 794   ((__m256i) __builtin_ia32_vinsertf128_si256 ((__v8si)(__m256i)(X),    \
 795                                                (__v4si)(__m128i)(Y),    \
 796                                                (int)(O)))
 797
 798 #define _mm256_insert_epi32(X, D, N)                                    \
 799   (__extension__                                                        \
 800    ({                                                                   \
 801       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 2);           \
 802       __Y = _mm_insert_epi32 (__Y, (D), (N) % 4);                       \
 803       _mm256_insertf128_si256 ((X), __Y, (N) >> 2);                     \
 804     }))
 805
 806 #define _mm256_insert_epi16(X, D, N)                                    \
 807   (__extension__                                                        \
 808    ({                                                                   \
 809       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 3);           \
 810       __Y = _mm_insert_epi16 (__Y, (D), (N) % 8);                       \
 811       _mm256_insertf128_si256 ((X), __Y, (N) >> 3);                     \
 812     }))
 813
 814 #define _mm256_insert_epi8(X, D, N)                                     \
 815   (__extension__                                                        \
 816    ({                                                                   \
 817       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 4);           \
 818       __Y = _mm_insert_epi8 (__Y, (D), (N) % 16);                       \
 819       _mm256_insertf128_si256 ((X), __Y, (N) >> 4);                     \
 820     }))
 821
 822 #ifdef __x86_64__
 823 #define _mm256_insert_epi64(X, D, N)                                    \
 824   (__extension__                                                        \
 825    ({                                                                   \
 826       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 1);           \
 827       __Y = _mm_insert_epi64 (__Y, (D), (N) % 2);                       \
 828       _mm256_insertf128_si256 ((X), __Y, (N) >> 1);                     \
 829     }))
 830 #endif
 831 #endif
 832
 833 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 834 _mm256_load_pd (double const *__P)
 835 {
 836   return *(__m256d *)__P;
 837 }
 838
 839 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 840 _mm256_store_pd (double *__P, __m256d __A)
 841 {
 842   *(__m256d *)__P = __A;
 843 }
 844
 845 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 846 _mm256_load_ps (float const *__P)
 847 {
 848   return *(__m256 *)__P;
 849 }
 850
 851 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 852 _mm256_store_ps (float *__P, __m256 __A)
 853 {
 854   *(__m256 *)__P = __A;
 855 }
 856
 857 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 858 _mm256_loadu_pd (double const *__P)
 859 {
 860   return (__m256d) __builtin_ia32_loadupd256 (__P);
 861 }
 862
 863 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 864 _mm256_storeu_pd (double *__P, __m256d __A)
 865 {
 866   __builtin_ia32_storeupd256 (__P, (__v4df)__A);
 867 }
 868
 869 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 870 _mm256_loadu_ps (float const *__P)
 871 {
 872   return (__m256) __builtin_ia32_loadups256 (__P);
 873 }
 874
 875 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 876 _mm256_storeu_ps (float *__P, __m256 __A)
 877 {
 878   __builtin_ia32_storeups256 (__P, (__v8sf)__A);
 879 }
 880
 881 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 882 _mm256_load_si256 (__m256i const *__P)
 883 {
 884   return *__P;
 885 }
 886
 887 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 888 _mm256_store_si256 (__m256i *__P, __m256i __A)
 889 {
 890   *__P = __A;
 891 }
 892
 893 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 894 _mm256_loadu_si256 (__m256i const *__P)
 895 {
 896   return (__m256i) __builtin_ia32_loaddqu256 ((char const *)__P);
 897 }
 898
 899 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 900 _mm256_storeu_si256 (__m256i *__P, __m256i __A)
 901 {
 902   __builtin_ia32_storedqu256 ((char *)__P, (__v32qi)__A);
 903 }
 904
 905 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 906 _mm_maskload_pd (double const *__P, __m128i __M)
 907 {
 908   return (__m128d) __builtin_ia32_maskloadpd ((const __v2df *)__P,
 909                                               (__v2di)__M);
 910 }
 911
 912 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 913 _mm_maskstore_pd (double *__P, __m128i __M, __m128d __A)
 914 {
 915   __builtin_ia32_maskstorepd ((__v2df *)__P, (__v2di)__M, (__v2df)__A);
 916 }
 917
 918 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 919 _mm256_maskload_pd (double const *__P, __m256i __M)
 920 {
 921   return (__m256d) __builtin_ia32_maskloadpd256 ((const __v4df *)__P,
 922                                                  (__v4di)__M);
 923 }
 924
 925 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 926 _mm256_maskstore_pd (double *__P, __m256i __M, __m256d __A)
 927 {
 928   __builtin_ia32_maskstorepd256 ((__v4df *)__P, (__v4di)__M, (__v4df)__A);
 929 }
 930
 931 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 932 _mm_maskload_ps (float const *__P, __m128i __M)
 933 {
 934   return (__m128) __builtin_ia32_maskloadps ((const __v4sf *)__P,
 935                                              (__v4si)__M);
 936 }
 937
 938 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 939 _mm_maskstore_ps (float *__P, __m128i __M, __m128 __A)
 940 {
 941   __builtin_ia32_maskstoreps ((__v4sf *)__P, (__v4si)__M, (__v4sf)__A);
 942 }
 943
 944 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 945 _mm256_maskload_ps (float const *__P, __m256i __M)
 946 {
 947   return (__m256) __builtin_ia32_maskloadps256 ((const __v8sf *)__P,
 948                                                 (__v8si)__M);
 949 }
 950
 951 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 952 _mm256_maskstore_ps (float *__P, __m256i __M, __m256 __A)
 953 {
 954   __builtin_ia32_maskstoreps256 ((__v8sf *)__P, (__v8si)__M, (__v8sf)__A);
 955 }
 956
 957 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 958 _mm256_movehdup_ps (__m256 __X)
 959 {
 960   return (__m256) __builtin_ia32_movshdup256 ((__v8sf)__X);
 961 }
 962
 963 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 964 _mm256_moveldup_ps (__m256 __X)
 965 {
 966   return (__m256) __builtin_ia32_movsldup256 ((__v8sf)__X);
 967 }
 968
 969 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 970 _mm256_movedup_pd (__m256d __X)
 971 {
 972   return (__m256d) __builtin_ia32_movddup256 ((__v4df)__X);
 973 }
 974
 975 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 976 _mm256_lddqu_si256 (__m256i const *__P)
 977 {
 978   return (__m256i) __builtin_ia32_lddqu256 ((char const *)__P);
 979 }
 980
 981 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 982 _mm256_stream_si256 (__m256i *__A, __m256i __B)
 983 {
 984   __builtin_ia32_movntdq256 ((__v4di *)__A, (__v4di)__B);
 985 }
 986
 987 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 988 _mm256_stream_pd (double *__A, __m256d __B)
 989 {
 990   __builtin_ia32_movntpd256 (__A, (__v4df)__B);
 991 }
 992
 993 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 994 _mm256_stream_ps (float *__P, __m256 __A)
 995 {
 996   __builtin_ia32_movntps256 (__P, (__v8sf)__A);
 997 }
 998
 999 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1000 _mm256_rcp_ps (__m256 __A)
1001 {
1002   return (__m256) __builtin_ia32_rcpps256 ((__v8sf)__A);
1003 }
1004
1005 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1006 _mm256_rsqrt_ps (__m256 __A)
1007 {
1008   return (__m256) __builtin_ia32_rsqrtps256 ((__v8sf)__A);
1009 }
1010
1011 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1012 _mm256_sqrt_pd (__m256d __A)
1013 {
1014   return (__m256d) __builtin_ia32_sqrtpd256 ((__v4df)__A);
1015 }
1016
1017 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1018 _mm256_sqrt_ps (__m256 __A)
1019 {
1020   return (__m256) __builtin_ia32_sqrtps256 ((__v8sf)__A);
1021 }
1022
1023 #ifdef __OPTIMIZE__
1024 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1025 _mm256_round_pd (__m256d __V, const int __M)
1026 {
1027   return (__m256d) __builtin_ia32_roundpd256 ((__v4df)__V, __M);
1028 }
1029
1030 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1031 _mm256_round_ps (__m256 __V, const int __M)
1032 {
1033   return (__m256) __builtin_ia32_roundps256 ((__v8sf)__V, __M);
1034 }
1035 #else
1036 #define _mm256_round_pd(V, M) \
1037   ((__m256d) __builtin_ia32_roundpd256 ((__v4df)(__m256d)(V), (int)(M)))
1038
1039 #define _mm256_round_ps(V, M) \
1040   ((__m256) __builtin_ia32_roundps256 ((__v8sf)(__m256)(V), (int)(M)))
1041 #endif
1042
1043 #define _mm256_ceil_pd(V)       _mm256_round_pd ((V), _MM_FROUND_CEIL)
1044 #define _mm256_floor_pd(V)      _mm256_round_pd ((V), _MM_FROUND_FLOOR)
1045 #define _mm256_ceil_ps(V)       _mm256_round_ps ((V), _MM_FROUND_CEIL)
1046 #define _mm256_floor_ps(V)      _mm256_round_ps ((V), _MM_FROUND_FLOOR)
1047
1048 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1049 _mm256_unpackhi_pd (__m256d __A, __m256d __B)
1050 {
1051   return (__m256d) __builtin_ia32_unpckhpd256 ((__v4df)__A, (__v4df)__B);
1052 }
1053
1054 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1055 _mm256_unpacklo_pd (__m256d __A, __m256d __B)
1056 {
1057   return (__m256d) __builtin_ia32_unpcklpd256 ((__v4df)__A, (__v4df)__B);
1058 }
1059
1060 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1061 _mm256_unpackhi_ps (__m256 __A, __m256 __B)
1062 {
1063   return (__m256) __builtin_ia32_unpckhps256 ((__v8sf)__A, (__v8sf)__B);
1064 }
1065
1066 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1067 _mm256_unpacklo_ps (__m256 __A, __m256 __B)
1068 {
1069   return (__m256) __builtin_ia32_unpcklps256 ((__v8sf)__A, (__v8sf)__B);
1070 }
1071
1072 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1073 _mm_testz_pd (__m128d __M, __m128d __V)
1074 {
1075   return __builtin_ia32_vtestzpd ((__v2df)__M, (__v2df)__V);
1076 }
1077
1078 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1079 _mm_testc_pd (__m128d __M, __m128d __V)
1080 {
1081   return __builtin_ia32_vtestcpd ((__v2df)__M, (__v2df)__V);
1082 }
1083
1084 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1085 _mm_testnzc_pd (__m128d __M, __m128d __V)
1086 {
1087   return __builtin_ia32_vtestnzcpd ((__v2df)__M, (__v2df)__V);
1088 }
1089
1090 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1091 _mm_testz_ps (__m128 __M, __m128 __V)
1092 {
1093   return __builtin_ia32_vtestzps ((__v4sf)__M, (__v4sf)__V);
1094 }
1095
1096 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1097 _mm_testc_ps (__m128 __M, __m128 __V)
1098 {
1099   return __builtin_ia32_vtestcps ((__v4sf)__M, (__v4sf)__V);
1100 }
1101
1102 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1103 _mm_testnzc_ps (__m128 __M, __m128 __V)
1104 {
1105   return __builtin_ia32_vtestnzcps ((__v4sf)__M, (__v4sf)__V);
1106 }
1107
1108 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1109 _mm256_testz_pd (__m256d __M, __m256d __V)
1110 {
1111   return __builtin_ia32_vtestzpd256 ((__v4df)__M, (__v4df)__V);
1112 }
1113
1114 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1115 _mm256_testc_pd (__m256d __M, __m256d __V)
1116 {
1117   return __builtin_ia32_vtestcpd256 ((__v4df)__M, (__v4df)__V);
1118 }
1119
1120 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1121 _mm256_testnzc_pd (__m256d __M, __m256d __V)
1122 {
1123   return __builtin_ia32_vtestnzcpd256 ((__v4df)__M, (__v4df)__V);
1124 }
1125
1126 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1127 _mm256_testz_ps (__m256 __M, __m256 __V)
1128 {
1129   return __builtin_ia32_vtestzps256 ((__v8sf)__M, (__v8sf)__V);
1130 }
1131
1132 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1133 _mm256_testc_ps (__m256 __M, __m256 __V)
1134 {
1135   return __builtin_ia32_vtestcps256 ((__v8sf)__M, (__v8sf)__V);
1136 }
1137
1138 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1139 _mm256_testnzc_ps (__m256 __M, __m256 __V)
1140 {
1141   return __builtin_ia32_vtestnzcps256 ((__v8sf)__M, (__v8sf)__V);
1142 }
1143
1144 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1145 _mm256_testz_si256 (__m256i __M, __m256i __V)
1146 {
1147   return __builtin_ia32_ptestz256 ((__v4di)__M, (__v4di)__V);
1148 }
1149
1150 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1151 _mm256_testc_si256 (__m256i __M, __m256i __V)
1152 {
1153   return __builtin_ia32_ptestc256 ((__v4di)__M, (__v4di)__V);
1154 }
1155
1156 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1157 _mm256_testnzc_si256 (__m256i __M, __m256i __V)
1158 {
1159   return __builtin_ia32_ptestnzc256 ((__v4di)__M, (__v4di)__V);
1160 }
1161
1162 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1163 _mm256_movemask_pd (__m256d __A)
1164 {
1165   return __builtin_ia32_movmskpd256 ((__v4df)__A);
1166 }
1167
1168 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1169 _mm256_movemask_ps (__m256 __A)
1170 {
1171   return __builtin_ia32_movmskps256 ((__v8sf)__A);
1172 }
1173
1174 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1175 _mm256_undefined_pd (void)
1176 {
1177   __m256d __Y = __Y;
1178   return __Y;
1179 }
1180
1181 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1182 _mm256_undefined_ps (void)
1183 {
1184   __m256 __Y = __Y;
1185   return __Y;
1186 }
1187
1188 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1189 _mm256_undefined_si256 (void)
1190 {
1191   __m256i __Y = __Y;
1192   return __Y;
1193 }
1194
1195 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1196 _mm256_setzero_pd (void)
1197 {
1198   return __extension__ (__m256d){ 0.0, 0.0, 0.0, 0.0 };
1199 }
1200
1201 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1202 _mm256_setzero_ps (void)
1203 {
1204   return __extension__ (__m256){ 0.0, 0.0, 0.0, 0.0,
1205                                  0.0, 0.0, 0.0, 0.0 };
1206 }
1207
1208 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1209 _mm256_setzero_si256 (void)
1210 {
1211   return __extension__ (__m256i)(__v4di){ 0, 0, 0, 0 };
1212 }
1213
1214 /* Create the vector [A B C D].  */
1215 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1216 _mm256_set_pd (double __A, double __B, double __C, double __D)
1217 {
1218   return __extension__ (__m256d){ __D, __C, __B, __A };
1219 }
1220
1221 /* Create the vector [A B C D E F G H].  */
1222 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1223 _mm256_set_ps (float __A, float __B, float __C, float __D,
1224                float __E, float __F, float __G, float __H)
1225 {
1226   return __extension__ (__m256){ __H, __G, __F, __E,
1227                                  __D, __C, __B, __A };
1228 }
1229
1230 /* Create the vector [A B C D E F G H].  */
1231 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1232 _mm256_set_epi32 (int __A, int __B, int __C, int __D,
1233                   int __E, int __F, int __G, int __H)
1234 {
1235   return __extension__ (__m256i)(__v8si){ __H, __G, __F, __E,
1236                                           __D, __C, __B, __A };
1237 }
1238
1239 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1240 _mm256_set_epi16 (short __q15, short __q14, short __q13, short __q12,
1241                   short __q11, short __q10, short __q09, short __q08,
1242                   short __q07, short __q06, short __q05, short __q04,
1243                   short __q03, short __q02, short __q01, short __q00)
1244 {
1245   return __extension__ (__m256i)(__v16hi){
1246     __q00, __q01, __q02, __q03, __q04, __q05, __q06, __q07,
1247     __q08, __q09, __q10, __q11, __q12, __q13, __q14, __q15
1248   };
1249 }
1250
1251 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1252 _mm256_set_epi8  (char __q31, char __q30, char __q29, char __q28,
1253                   char __q27, char __q26, char __q25, char __q24,
1254                   char __q23, char __q22, char __q21, char __q20,
1255                   char __q19, char __q18, char __q17, char __q16,
1256                   char __q15, char __q14, char __q13, char __q12,
1257                   char __q11, char __q10, char __q09, char __q08,
1258                   char __q07, char __q06, char __q05, char __q04,
1259                   char __q03, char __q02, char __q01, char __q00)
1260 {
1261   return __extension__ (__m256i)(__v32qi){
1262     __q00, __q01, __q02, __q03, __q04, __q05, __q06, __q07,
1263     __q08, __q09, __q10, __q11, __q12, __q13, __q14, __q15,
1264     __q16, __q17, __q18, __q19, __q20, __q21, __q22, __q23,
1265     __q24, __q25, __q26, __q27, __q28, __q29, __q30, __q31
1266   };
1267 }
1268
1269 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1270 _mm256_set_epi64x (long long __A, long long __B, long long __C,
1271                    long long __D)
1272 {
1273   return __extension__ (__m256i)(__v4di){ __D, __C, __B, __A };
1274 }
1275
1276 /* Create a vector with all elements equal to A.  */
1277 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1278 _mm256_set1_pd (double __A)
1279 {
1280   return __extension__ (__m256d){ __A, __A, __A, __A };
1281 }
1282
1283 /* Create a vector with all elements equal to A.  */
1284 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1285 _mm256_set1_ps (float __A)
1286 {
1287   return __extension__ (__m256){ __A, __A, __A, __A,
1288                                  __A, __A, __A, __A };
1289 }
1290
1291 /* Create a vector with all elements equal to A.  */
1292 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1293 _mm256_set1_epi32 (int __A)
1294 {
1295   return __extension__ (__m256i)(__v8si){ __A, __A, __A, __A,
1296                                           __A, __A, __A, __A };
1297 }
1298
1299 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1300 _mm256_set1_epi16 (short __A)
1301 {
1302   return _mm256_set_epi16 (__A, __A, __A, __A, __A, __A, __A, __A,
1303                            __A, __A, __A, __A, __A, __A, __A, __A);
1304 }
1305
1306 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1307 _mm256_set1_epi8 (char __A)
1308 {
1309   return _mm256_set_epi8 (__A, __A, __A, __A, __A, __A, __A, __A,
1310                           __A, __A, __A, __A, __A, __A, __A, __A,
1311                           __A, __A, __A, __A, __A, __A, __A, __A,
1312                           __A, __A, __A, __A, __A, __A, __A, __A);
1313 }
1314
1315 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1316 _mm256_set1_epi64x (long long __A)
1317 {
1318   return __extension__ (__m256i)(__v4di){ __A, __A, __A, __A };
1319 }
1320
1321 /* Create vectors of elements in the reversed order from the
1322    _mm256_set_XXX functions.  */
1323
1324 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1325 _mm256_setr_pd (double __A, double __B, double __C, double __D)
1326 {
1327   return _mm256_set_pd (__D, __C, __B, __A);
1328 }
1329
1330 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1331 _mm256_setr_ps (float __A, float __B, float __C, float __D,
1332                 float __E, float __F, float __G, float __H)
1333 {
1334   return _mm256_set_ps (__H, __G, __F, __E, __D, __C, __B, __A);
1335 }
1336
1337 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1338 _mm256_setr_epi32 (int __A, int __B, int __C, int __D,
1339                    int __E, int __F, int __G, int __H)
1340 {
1341   return _mm256_set_epi32 (__H, __G, __F, __E, __D, __C, __B, __A);
1342 }
1343
1344 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1345 _mm256_setr_epi16 (short __q15, short __q14, short __q13, short __q12,
1346                    short __q11, short __q10, short __q09, short __q08,
1347                    short __q07, short __q06, short __q05, short __q04,
1348                    short __q03, short __q02, short __q01, short __q00)
1349 {
1350   return _mm256_set_epi16 (__q00, __q01, __q02, __q03,
1351                            __q04, __q05, __q06, __q07,
1352                            __q08, __q09, __q10, __q11,
1353                            __q12, __q13, __q14, __q15);
1354 }
1355
1356 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1357 _mm256_setr_epi8  (char __q31, char __q30, char __q29, char __q28,
1358                    char __q27, char __q26, char __q25, char __q24,
1359                    char __q23, char __q22, char __q21, char __q20,
1360                    char __q19, char __q18, char __q17, char __q16,
1361                    char __q15, char __q14, char __q13, char __q12,
1362                    char __q11, char __q10, char __q09, char __q08,
1363                    char __q07, char __q06, char __q05, char __q04,
1364                    char __q03, char __q02, char __q01, char __q00)
1365 {
1366   return _mm256_set_epi8 (__q00, __q01, __q02, __q03,
1367                           __q04, __q05, __q06, __q07,
1368                           __q08, __q09, __q10, __q11,
1369                           __q12, __q13, __q14, __q15,
1370                           __q16, __q17, __q18, __q19,
1371                           __q20, __q21, __q22, __q23,
1372                           __q24, __q25, __q26, __q27,
1373                           __q28, __q29, __q30, __q31);
1374 }
1375
1376 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1377 _mm256_setr_epi64x (long long __A, long long __B, long long __C,
1378                     long long __D)
1379 {
1380   return _mm256_set_epi64x (__D, __C, __B, __A);
1381 }
1382
1383 /* Casts between various SP, DP, INT vector types.  Note that these do no
1384    conversion of values, they just change the type.  */
1385 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1386 _mm256_castpd_ps (__m256d __A)
1387 {
1388   return (__m256) __A;
1389 }
1390
1391 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1392 _mm256_castpd_si256 (__m256d __A)
1393 {
1394   return (__m256i) __A;
1395 }
1396
1397 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1398 _mm256_castps_pd (__m256 __A)
1399 {
1400   return (__m256d) __A;
1401 }
1402
1403 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1404 _mm256_castps_si256(__m256 __A)
1405 {
1406   return (__m256i) __A;
1407 }
1408
1409 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1410 _mm256_castsi256_ps (__m256i __A)
1411 {
1412   return (__m256) __A;
1413 }
1414
1415 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1416 _mm256_castsi256_pd (__m256i __A)
1417 {
1418   return (__m256d) __A;
1419 }
1420
1421 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1422 _mm256_castpd256_pd128 (__m256d __A)
1423 {
1424   return (__m128d) __builtin_ia32_pd_pd256 ((__v4df)__A);
1425 }
1426
1427 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1428 _mm256_castps256_ps128 (__m256 __A)
1429 {
1430   return (__m128) __builtin_ia32_ps_ps256 ((__v8sf)__A);
1431 }
1432
1433 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1434 _mm256_castsi256_si128 (__m256i __A)
1435 {
1436   return (__m128i) __builtin_ia32_si_si256 ((__v8si)__A);
1437 }
1438
1439 /* When cast is done from a 128 to 256-bit type, the low 128 bits of
1440    the 256-bit result contain source parameter value and the upper 128
1441    bits of the result are undefined.  Those intrinsics shouldn't
1442    generate any extra moves.  */
1443
1444 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1445 _mm256_castpd128_pd256 (__m128d __A)
1446 {
1447   return (__m256d) __builtin_ia32_pd256_pd ((__v2df)__A);
1448 }
1449
1450 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1451 _mm256_castps128_ps256 (__m128 __A)
1452 {
1453   return (__m256) __builtin_ia32_ps256_ps ((__v4sf)__A);
1454 }
1455
1456 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1457 _mm256_castsi128_si256 (__m128i __A)
1458 {
1459   return (__m256i) __builtin_ia32_si256_si ((__v4si)__A);
1460 }
1461
1462 #ifdef __DISABLE_AVX__
1463 #undef __DISABLE_AVX__
1464 #pragma GCC pop_options
1465 #endif /* __DISABLE_AVX__ */
1466
1467 #endif /* _AVXINTRIN_H_INCLUDED */