gcc/config/i386/avxintrin.h

   1 /* Copyright (C) 2008-2016 Free Software Foundation, Inc.
   2
   3    This file is part of GCC.
   4
   5    GCC is free software; you can redistribute it and/or modify
   6    it under the terms of the GNU General Public License as published by
   7    the Free Software Foundation; either version 3, or (at your option)
   8    any later version.
   9
  10    GCC is distributed in the hope that it will be useful,
  11    but WITHOUT ANY WARRANTY; without even the implied warranty of
  12    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  13    GNU General Public License for more details.
  14
  15    Under Section 7 of GPL version 3, you are granted additional
  16    permissions described in the GCC Runtime Library Exception, version
  17    3.1, as published by the Free Software Foundation.
  18
  19    You should have received a copy of the GNU General Public License and
  20    a copy of the GCC Runtime Library Exception along with this program;
  21    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
  22    <http://www.gnu.org/licenses/>.  */
  23
  24 /* Implemented from the specification included in the Intel C++ Compiler
  25    User Guide and Reference, version 11.0.  */
  26
  27 #ifndef _IMMINTRIN_H_INCLUDED
  28 # error "Never use <avxintrin.h> directly; include <immintrin.h> instead."
  29 #endif
  30
  31 #ifndef _AVXINTRIN_H_INCLUDED
  32 #define _AVXINTRIN_H_INCLUDED
  33
  34 #ifndef __AVX__
  35 #pragma GCC push_options
  36 #pragma GCC target("avx")
  37 #define __DISABLE_AVX__
  38 #endif /* __AVX__ */
  39
  40 /* Internal data types for implementing the intrinsics.  */
  41 typedef double __v4df __attribute__ ((__vector_size__ (32)));
  42 typedef float __v8sf __attribute__ ((__vector_size__ (32)));
  43 typedef long long __v4di __attribute__ ((__vector_size__ (32)));
  44 typedef unsigned long long __v4du __attribute__ ((__vector_size__ (32)));
  45 typedef int __v8si __attribute__ ((__vector_size__ (32)));
  46 typedef unsigned int __v8su __attribute__ ((__vector_size__ (32)));
  47 typedef short __v16hi __attribute__ ((__vector_size__ (32)));
  48 typedef unsigned short __v16hu __attribute__ ((__vector_size__ (32)));
  49 typedef char __v32qi __attribute__ ((__vector_size__ (32)));
  50 typedef unsigned char __v32qu __attribute__ ((__vector_size__ (32)));
  51
  52 /* The Intel API is flexible enough that we must allow aliasing with other
  53    vector types, and their scalar components.  */
  54 typedef float __m256 __attribute__ ((__vector_size__ (32),
  55                                      __may_alias__));
  56 typedef long long __m256i __attribute__ ((__vector_size__ (32),
  57                                           __may_alias__));
  58 typedef double __m256d __attribute__ ((__vector_size__ (32),
  59                                        __may_alias__));
  60
  61 /* Unaligned version of the same types.  */
  62 typedef float __m256_u __attribute__ ((__vector_size__ (32),
  63                                        __may_alias__,
  64                                        __aligned__ (1)));
  65 typedef long long __m256i_u __attribute__ ((__vector_size__ (32),
  66                                             __may_alias__,
  67                                             __aligned__ (1)));
  68 typedef double __m256d_u __attribute__ ((__vector_size__ (32),
  69                                          __may_alias__,
  70                                          __aligned__ (1)));
  71
  72 /* Compare predicates for scalar and packed compare intrinsics.  */
  73
  74 /* Equal (ordered, non-signaling)  */
  75 #define _CMP_EQ_OQ      0x00
  76 /* Less-than (ordered, signaling)  */
  77 #define _CMP_LT_OS      0x01
  78 /* Less-than-or-equal (ordered, signaling)  */
  79 #define _CMP_LE_OS      0x02
  80 /* Unordered (non-signaling)  */
  81 #define _CMP_UNORD_Q    0x03
  82 /* Not-equal (unordered, non-signaling)  */
  83 #define _CMP_NEQ_UQ     0x04
  84 /* Not-less-than (unordered, signaling)  */
  85 #define _CMP_NLT_US     0x05
  86 /* Not-less-than-or-equal (unordered, signaling)  */
  87 #define _CMP_NLE_US     0x06
  88 /* Ordered (nonsignaling)   */
  89 #define _CMP_ORD_Q      0x07
  90 /* Equal (unordered, non-signaling)  */
  91 #define _CMP_EQ_UQ      0x08
  92 /* Not-greater-than-or-equal (unordered, signaling)  */
  93 #define _CMP_NGE_US     0x09
  94 /* Not-greater-than (unordered, signaling)  */
  95 #define _CMP_NGT_US     0x0a
  96 /* False (ordered, non-signaling)  */
  97 #define _CMP_FALSE_OQ   0x0b
  98 /* Not-equal (ordered, non-signaling)  */
  99 #define _CMP_NEQ_OQ     0x0c
 100 /* Greater-than-or-equal (ordered, signaling)  */
 101 #define _CMP_GE_OS      0x0d
 102 /* Greater-than (ordered, signaling)  */
 103 #define _CMP_GT_OS      0x0e
 104 /* True (unordered, non-signaling)  */
 105 #define _CMP_TRUE_UQ    0x0f
 106 /* Equal (ordered, signaling)  */
 107 #define _CMP_EQ_OS      0x10
 108 /* Less-than (ordered, non-signaling)  */
 109 #define _CMP_LT_OQ      0x11
 110 /* Less-than-or-equal (ordered, non-signaling)  */
 111 #define _CMP_LE_OQ      0x12
 112 /* Unordered (signaling)  */
 113 #define _CMP_UNORD_S    0x13
 114 /* Not-equal (unordered, signaling)  */
 115 #define _CMP_NEQ_US     0x14
 116 /* Not-less-than (unordered, non-signaling)  */
 117 #define _CMP_NLT_UQ     0x15
 118 /* Not-less-than-or-equal (unordered, non-signaling)  */
 119 #define _CMP_NLE_UQ     0x16
 120 /* Ordered (signaling)  */
 121 #define _CMP_ORD_S      0x17
 122 /* Equal (unordered, signaling)  */
 123 #define _CMP_EQ_US      0x18
 124 /* Not-greater-than-or-equal (unordered, non-signaling)  */
 125 #define _CMP_NGE_UQ     0x19
 126 /* Not-greater-than (unordered, non-signaling)  */
 127 #define _CMP_NGT_UQ     0x1a
 128 /* False (ordered, signaling)  */
 129 #define _CMP_FALSE_OS   0x1b
 130 /* Not-equal (ordered, signaling)  */
 131 #define _CMP_NEQ_OS     0x1c
 132 /* Greater-than-or-equal (ordered, non-signaling)  */
 133 #define _CMP_GE_OQ      0x1d
 134 /* Greater-than (ordered, non-signaling)  */
 135 #define _CMP_GT_OQ      0x1e
 136 /* True (unordered, signaling)  */
 137 #define _CMP_TRUE_US    0x1f
 138
 139 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 140 _mm256_add_pd (__m256d __A, __m256d __B)
 141 {
 142   return (__m256d) ((__v4df)__A + (__v4df)__B);
 143 }
 144
 145 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 146 _mm256_add_ps (__m256 __A, __m256 __B)
 147 {
 148   return (__m256) ((__v8sf)__A + (__v8sf)__B);
 149 }
 150
 151 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 152 _mm256_addsub_pd (__m256d __A, __m256d __B)
 153 {
 154   return (__m256d) __builtin_ia32_addsubpd256 ((__v4df)__A, (__v4df)__B);
 155 }
 156
 157 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 158 _mm256_addsub_ps (__m256 __A, __m256 __B)
 159 {
 160   return (__m256) __builtin_ia32_addsubps256 ((__v8sf)__A, (__v8sf)__B);
 161 }
 162
 163
 164 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 165 _mm256_and_pd (__m256d __A, __m256d __B)
 166 {
 167   return (__m256d) __builtin_ia32_andpd256 ((__v4df)__A, (__v4df)__B);
 168 }
 169
 170 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 171 _mm256_and_ps (__m256 __A, __m256 __B)
 172 {
 173   return (__m256) __builtin_ia32_andps256 ((__v8sf)__A, (__v8sf)__B);
 174 }
 175
 176 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 177 _mm256_andnot_pd (__m256d __A, __m256d __B)
 178 {
 179   return (__m256d) __builtin_ia32_andnpd256 ((__v4df)__A, (__v4df)__B);
 180 }
 181
 182 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 183 _mm256_andnot_ps (__m256 __A, __m256 __B)
 184 {
 185   return (__m256) __builtin_ia32_andnps256 ((__v8sf)__A, (__v8sf)__B);
 186 }
 187
 188 /* Double/single precision floating point blend instructions - select
 189    data from 2 sources using constant/variable mask.  */
 190
 191 #ifdef __OPTIMIZE__
 192 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 193 _mm256_blend_pd (__m256d __X, __m256d __Y, const int __M)
 194 {
 195   return (__m256d) __builtin_ia32_blendpd256 ((__v4df)__X,
 196                                               (__v4df)__Y,
 197                                               __M);
 198 }
 199
 200 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 201 _mm256_blend_ps (__m256 __X, __m256 __Y, const int __M)
 202 {
 203   return (__m256) __builtin_ia32_blendps256 ((__v8sf)__X,
 204                                              (__v8sf)__Y,
 205                                              __M);
 206 }
 207 #else
 208 #define _mm256_blend_pd(X, Y, M)                                        \
 209   ((__m256d) __builtin_ia32_blendpd256 ((__v4df)(__m256d)(X),           \
 210                                         (__v4df)(__m256d)(Y), (int)(M)))
 211
 212 #define _mm256_blend_ps(X, Y, M)                                        \
 213   ((__m256) __builtin_ia32_blendps256 ((__v8sf)(__m256)(X),             \
 214                                        (__v8sf)(__m256)(Y), (int)(M)))
 215 #endif
 216
 217 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 218 _mm256_blendv_pd (__m256d __X, __m256d __Y, __m256d __M)
 219 {
 220   return (__m256d) __builtin_ia32_blendvpd256 ((__v4df)__X,
 221                                                (__v4df)__Y,
 222                                                (__v4df)__M);
 223 }
 224
 225 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 226 _mm256_blendv_ps (__m256 __X, __m256 __Y, __m256 __M)
 227 {
 228   return (__m256) __builtin_ia32_blendvps256 ((__v8sf)__X,
 229                                               (__v8sf)__Y,
 230                                               (__v8sf)__M);
 231 }
 232
 233 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 234 _mm256_div_pd (__m256d __A, __m256d __B)
 235 {
 236   return (__m256d) ((__v4df)__A / (__v4df)__B);
 237 }
 238
 239 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 240 _mm256_div_ps (__m256 __A, __m256 __B)
 241 {
 242   return (__m256) ((__v8sf)__A / (__v8sf)__B);
 243 }
 244
 245 /* Dot product instructions with mask-defined summing and zeroing parts
 246    of result.  */
 247
 248 #ifdef __OPTIMIZE__
 249 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 250 _mm256_dp_ps (__m256 __X, __m256 __Y, const int __M)
 251 {
 252   return (__m256) __builtin_ia32_dpps256 ((__v8sf)__X,
 253                                           (__v8sf)__Y,
 254                                           __M);
 255 }
 256 #else
 257 #define _mm256_dp_ps(X, Y, M)                                           \
 258   ((__m256) __builtin_ia32_dpps256 ((__v8sf)(__m256)(X),                \
 259                                     (__v8sf)(__m256)(Y), (int)(M)))
 260 #endif
 261
 262 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 263 _mm256_hadd_pd (__m256d __X, __m256d __Y)
 264 {
 265   return (__m256d) __builtin_ia32_haddpd256 ((__v4df)__X, (__v4df)__Y);
 266 }
 267
 268 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 269 _mm256_hadd_ps (__m256 __X, __m256 __Y)
 270 {
 271   return (__m256) __builtin_ia32_haddps256 ((__v8sf)__X, (__v8sf)__Y);
 272 }
 273
 274 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 275 _mm256_hsub_pd (__m256d __X, __m256d __Y)
 276 {
 277   return (__m256d) __builtin_ia32_hsubpd256 ((__v4df)__X, (__v4df)__Y);
 278 }
 279
 280 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 281 _mm256_hsub_ps (__m256 __X, __m256 __Y)
 282 {
 283   return (__m256) __builtin_ia32_hsubps256 ((__v8sf)__X, (__v8sf)__Y);
 284 }
 285
 286 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 287 _mm256_max_pd (__m256d __A, __m256d __B)
 288 {
 289   return (__m256d) __builtin_ia32_maxpd256 ((__v4df)__A, (__v4df)__B);
 290 }
 291
 292 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 293 _mm256_max_ps (__m256 __A, __m256 __B)
 294 {
 295   return (__m256) __builtin_ia32_maxps256 ((__v8sf)__A, (__v8sf)__B);
 296 }
 297
 298 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 299 _mm256_min_pd (__m256d __A, __m256d __B)
 300 {
 301   return (__m256d) __builtin_ia32_minpd256 ((__v4df)__A, (__v4df)__B);
 302 }
 303
 304 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 305 _mm256_min_ps (__m256 __A, __m256 __B)
 306 {
 307   return (__m256) __builtin_ia32_minps256 ((__v8sf)__A, (__v8sf)__B);
 308 }
 309
 310 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 311 _mm256_mul_pd (__m256d __A, __m256d __B)
 312 {
 313   return (__m256d) ((__v4df)__A * (__v4df)__B);
 314 }
 315
 316 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 317 _mm256_mul_ps (__m256 __A, __m256 __B)
 318 {
 319   return (__m256) ((__v8sf)__A * (__v8sf)__B);
 320 }
 321
 322 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 323 _mm256_or_pd (__m256d __A, __m256d __B)
 324 {
 325   return (__m256d) __builtin_ia32_orpd256 ((__v4df)__A, (__v4df)__B);
 326 }
 327
 328 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 329 _mm256_or_ps (__m256 __A, __m256 __B)
 330 {
 331   return (__m256) __builtin_ia32_orps256 ((__v8sf)__A, (__v8sf)__B);
 332 }
 333
 334 #ifdef __OPTIMIZE__
 335 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 336 _mm256_shuffle_pd (__m256d __A, __m256d __B, const int __mask)
 337 {
 338   return (__m256d) __builtin_ia32_shufpd256 ((__v4df)__A, (__v4df)__B,
 339                                              __mask);
 340 }
 341
 342 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 343 _mm256_shuffle_ps (__m256 __A, __m256 __B, const int __mask)
 344 {
 345   return (__m256) __builtin_ia32_shufps256 ((__v8sf)__A, (__v8sf)__B,
 346                                             __mask);
 347 }
 348 #else
 349 #define _mm256_shuffle_pd(A, B, N)                                      \
 350   ((__m256d)__builtin_ia32_shufpd256 ((__v4df)(__m256d)(A),             \
 351                                       (__v4df)(__m256d)(B), (int)(N)))
 352
 353 #define _mm256_shuffle_ps(A, B, N)                                      \
 354   ((__m256) __builtin_ia32_shufps256 ((__v8sf)(__m256)(A),              \
 355                                       (__v8sf)(__m256)(B), (int)(N)))
 356 #endif
 357
 358 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 359 _mm256_sub_pd (__m256d __A, __m256d __B)
 360 {
 361   return (__m256d) ((__v4df)__A - (__v4df)__B);
 362 }
 363
 364 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 365 _mm256_sub_ps (__m256 __A, __m256 __B)
 366 {
 367   return (__m256) ((__v8sf)__A - (__v8sf)__B);
 368 }
 369
 370 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 371 _mm256_xor_pd (__m256d __A, __m256d __B)
 372 {
 373   return (__m256d) __builtin_ia32_xorpd256 ((__v4df)__A, (__v4df)__B);
 374 }
 375
 376 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 377 _mm256_xor_ps (__m256 __A, __m256 __B)
 378 {
 379   return (__m256) __builtin_ia32_xorps256 ((__v8sf)__A, (__v8sf)__B);
 380 }
 381
 382 #ifdef __OPTIMIZE__
 383 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 384 _mm_cmp_pd (__m128d __X, __m128d __Y, const int __P)
 385 {
 386   return (__m128d) __builtin_ia32_cmppd ((__v2df)__X, (__v2df)__Y, __P);
 387 }
 388
 389 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 390 _mm_cmp_ps (__m128 __X, __m128 __Y, const int __P)
 391 {
 392   return (__m128) __builtin_ia32_cmpps ((__v4sf)__X, (__v4sf)__Y, __P);
 393 }
 394
 395 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 396 _mm256_cmp_pd (__m256d __X, __m256d __Y, const int __P)
 397 {
 398   return (__m256d) __builtin_ia32_cmppd256 ((__v4df)__X, (__v4df)__Y,
 399                                             __P);
 400 }
 401
 402 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 403 _mm256_cmp_ps (__m256 __X, __m256 __Y, const int __P)
 404 {
 405   return (__m256) __builtin_ia32_cmpps256 ((__v8sf)__X, (__v8sf)__Y,
 406                                            __P);
 407 }
 408
 409 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 410 _mm_cmp_sd (__m128d __X, __m128d __Y, const int __P)
 411 {
 412   return (__m128d) __builtin_ia32_cmpsd ((__v2df)__X, (__v2df)__Y, __P);
 413 }
 414
 415 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 416 _mm_cmp_ss (__m128 __X, __m128 __Y, const int __P)
 417 {
 418   return (__m128) __builtin_ia32_cmpss ((__v4sf)__X, (__v4sf)__Y, __P);
 419 }
 420 #else
 421 #define _mm_cmp_pd(X, Y, P)                                             \
 422   ((__m128d) __builtin_ia32_cmppd ((__v2df)(__m128d)(X),                \
 423                                    (__v2df)(__m128d)(Y), (int)(P)))
 424
 425 #define _mm_cmp_ps(X, Y, P)                                             \
 426   ((__m128) __builtin_ia32_cmpps ((__v4sf)(__m128)(X),                  \
 427                                   (__v4sf)(__m128)(Y), (int)(P)))
 428
 429 #define _mm256_cmp_pd(X, Y, P)                                          \
 430   ((__m256d) __builtin_ia32_cmppd256 ((__v4df)(__m256d)(X),             \
 431                                       (__v4df)(__m256d)(Y), (int)(P)))
 432
 433 #define _mm256_cmp_ps(X, Y, P)                                          \
 434   ((__m256) __builtin_ia32_cmpps256 ((__v8sf)(__m256)(X),               \
 435                                      (__v8sf)(__m256)(Y), (int)(P)))
 436
 437 #define _mm_cmp_sd(X, Y, P)                                             \
 438   ((__m128d) __builtin_ia32_cmpsd ((__v2df)(__m128d)(X),                \
 439                                    (__v2df)(__m128d)(Y), (int)(P)))
 440
 441 #define _mm_cmp_ss(X, Y, P)                                             \
 442   ((__m128) __builtin_ia32_cmpss ((__v4sf)(__m128)(X),                  \
 443                                   (__v4sf)(__m128)(Y), (int)(P)))
 444 #endif
 445
 446 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 447 _mm256_cvtepi32_pd (__m128i __A)
 448 {
 449   return (__m256d)__builtin_ia32_cvtdq2pd256 ((__v4si) __A);
 450 }
 451
 452 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 453 _mm256_cvtepi32_ps (__m256i __A)
 454 {
 455   return (__m256)__builtin_ia32_cvtdq2ps256 ((__v8si) __A);
 456 }
 457
 458 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 459 _mm256_cvtpd_ps (__m256d __A)
 460 {
 461   return (__m128)__builtin_ia32_cvtpd2ps256 ((__v4df) __A);
 462 }
 463
 464 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 465 _mm256_cvtps_epi32 (__m256 __A)
 466 {
 467   return (__m256i)__builtin_ia32_cvtps2dq256 ((__v8sf) __A);
 468 }
 469
 470 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 471 _mm256_cvtps_pd (__m128 __A)
 472 {
 473   return (__m256d)__builtin_ia32_cvtps2pd256 ((__v4sf) __A);
 474 }
 475
 476 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 477 _mm256_cvttpd_epi32 (__m256d __A)
 478 {
 479   return (__m128i)__builtin_ia32_cvttpd2dq256 ((__v4df) __A);
 480 }
 481
 482 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 483 _mm256_cvtpd_epi32 (__m256d __A)
 484 {
 485   return (__m128i)__builtin_ia32_cvtpd2dq256 ((__v4df) __A);
 486 }
 487
 488 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 489 _mm256_cvttps_epi32 (__m256 __A)
 490 {
 491   return (__m256i)__builtin_ia32_cvttps2dq256 ((__v8sf) __A);
 492 }
 493
 494 #ifdef __OPTIMIZE__
 495 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 496 _mm256_extractf128_pd (__m256d __X, const int __N)
 497 {
 498   return (__m128d) __builtin_ia32_vextractf128_pd256 ((__v4df)__X, __N);
 499 }
 500
 501 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 502 _mm256_extractf128_ps (__m256 __X, const int __N)
 503 {
 504   return (__m128) __builtin_ia32_vextractf128_ps256 ((__v8sf)__X, __N);
 505 }
 506
 507 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 508 _mm256_extractf128_si256 (__m256i __X, const int __N)
 509 {
 510   return (__m128i) __builtin_ia32_vextractf128_si256 ((__v8si)__X, __N);
 511 }
 512
 513 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 514 _mm256_extract_epi32 (__m256i __X, int const __N)
 515 {
 516   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 2);
 517   return _mm_extract_epi32 (__Y, __N % 4);
 518 }
 519
 520 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 521 _mm256_extract_epi16 (__m256i __X, int const __N)
 522 {
 523   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 3);
 524   return _mm_extract_epi16 (__Y, __N % 8);
 525 }
 526
 527 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 528 _mm256_extract_epi8 (__m256i __X, int const __N)
 529 {
 530   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 4);
 531   return _mm_extract_epi8 (__Y, __N % 16);
 532 }
 533
 534 #ifdef __x86_64__
 535 extern __inline long long  __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 536 _mm256_extract_epi64 (__m256i __X, const int __N)
 537 {
 538   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 1);
 539   return _mm_extract_epi64 (__Y, __N % 2);
 540 }
 541 #endif
 542 #else
 543 #define _mm256_extractf128_pd(X, N)                                     \
 544   ((__m128d) __builtin_ia32_vextractf128_pd256 ((__v4df)(__m256d)(X),   \
 545                                                 (int)(N)))
 546
 547 #define _mm256_extractf128_ps(X, N)                                     \
 548   ((__m128) __builtin_ia32_vextractf128_ps256 ((__v8sf)(__m256)(X),     \
 549                                                (int)(N)))
 550
 551 #define _mm256_extractf128_si256(X, N)                                  \
 552   ((__m128i) __builtin_ia32_vextractf128_si256 ((__v8si)(__m256i)(X),   \
 553                                                 (int)(N)))
 554
 555 #define _mm256_extract_epi32(X, N)                                      \
 556   (__extension__                                                        \
 557    ({                                                                   \
 558       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 2);           \
 559       _mm_extract_epi32 (__Y, (N) % 4);                                 \
 560     }))
 561
 562 #define _mm256_extract_epi16(X, N)                                      \
 563   (__extension__                                                        \
 564    ({                                                                   \
 565       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 3);           \
 566       _mm_extract_epi16 (__Y, (N) % 8);                                 \
 567     }))
 568
 569 #define _mm256_extract_epi8(X, N)                                       \
 570   (__extension__                                                        \
 571    ({                                                                   \
 572       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 4);           \
 573       _mm_extract_epi8 (__Y, (N) % 16);                                 \
 574     }))
 575
 576 #ifdef __x86_64__
 577 #define _mm256_extract_epi64(X, N)                                      \
 578   (__extension__                                                        \
 579    ({                                                                   \
 580       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 1);           \
 581       _mm_extract_epi64 (__Y, (N) % 2);                                 \
 582     }))
 583 #endif
 584 #endif
 585
 586 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 587 _mm256_zeroall (void)
 588 {
 589   __builtin_ia32_vzeroall ();
 590 }
 591
 592 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 593 _mm256_zeroupper (void)
 594 {
 595   __builtin_ia32_vzeroupper ();
 596 }
 597
 598 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 599 _mm_permutevar_pd (__m128d __A, __m128i __C)
 600 {
 601   return (__m128d) __builtin_ia32_vpermilvarpd ((__v2df)__A,
 602                                                 (__v2di)__C);
 603 }
 604
 605 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 606 _mm256_permutevar_pd (__m256d __A, __m256i __C)
 607 {
 608   return (__m256d) __builtin_ia32_vpermilvarpd256 ((__v4df)__A,
 609                                                    (__v4di)__C);
 610 }
 611
 612 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 613 _mm_permutevar_ps (__m128 __A, __m128i __C)
 614 {
 615   return (__m128) __builtin_ia32_vpermilvarps ((__v4sf)__A,
 616                                                (__v4si)__C);
 617 }
 618
 619 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 620 _mm256_permutevar_ps (__m256 __A, __m256i __C)
 621 {
 622   return (__m256) __builtin_ia32_vpermilvarps256 ((__v8sf)__A,
 623                                                   (__v8si)__C);
 624 }
 625
 626 #ifdef __OPTIMIZE__
 627 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 628 _mm_permute_pd (__m128d __X, const int __C)
 629 {
 630   return (__m128d) __builtin_ia32_vpermilpd ((__v2df)__X, __C);
 631 }
 632
 633 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 634 _mm256_permute_pd (__m256d __X, const int __C)
 635 {
 636   return (__m256d) __builtin_ia32_vpermilpd256 ((__v4df)__X, __C);
 637 }
 638
 639 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 640 _mm_permute_ps (__m128 __X, const int __C)
 641 {
 642   return (__m128) __builtin_ia32_vpermilps ((__v4sf)__X, __C);
 643 }
 644
 645 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 646 _mm256_permute_ps (__m256 __X, const int __C)
 647 {
 648   return (__m256) __builtin_ia32_vpermilps256 ((__v8sf)__X, __C);
 649 }
 650 #else
 651 #define _mm_permute_pd(X, C)                                            \
 652   ((__m128d) __builtin_ia32_vpermilpd ((__v2df)(__m128d)(X), (int)(C)))
 653
 654 #define _mm256_permute_pd(X, C)                                         \
 655   ((__m256d) __builtin_ia32_vpermilpd256 ((__v4df)(__m256d)(X), (int)(C)))
 656
 657 #define _mm_permute_ps(X, C)                                            \
 658   ((__m128) __builtin_ia32_vpermilps ((__v4sf)(__m128)(X), (int)(C)))
 659
 660 #define _mm256_permute_ps(X, C)                                         \
 661   ((__m256) __builtin_ia32_vpermilps256 ((__v8sf)(__m256)(X), (int)(C)))
 662 #endif
 663
 664 #ifdef __OPTIMIZE__
 665 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 666 _mm256_permute2f128_pd (__m256d __X, __m256d __Y, const int __C)
 667 {
 668   return (__m256d) __builtin_ia32_vperm2f128_pd256 ((__v4df)__X,
 669                                                     (__v4df)__Y,
 670                                                     __C);
 671 }
 672
 673 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 674 _mm256_permute2f128_ps (__m256 __X, __m256 __Y, const int __C)
 675 {
 676   return (__m256) __builtin_ia32_vperm2f128_ps256 ((__v8sf)__X,
 677                                                    (__v8sf)__Y,
 678                                                    __C);
 679 }
 680
 681 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 682 _mm256_permute2f128_si256 (__m256i __X, __m256i __Y, const int __C)
 683 {
 684   return (__m256i) __builtin_ia32_vperm2f128_si256 ((__v8si)__X,
 685                                                     (__v8si)__Y,
 686                                                     __C);
 687 }
 688 #else
 689 #define _mm256_permute2f128_pd(X, Y, C)                                 \
 690   ((__m256d) __builtin_ia32_vperm2f128_pd256 ((__v4df)(__m256d)(X),     \
 691                                               (__v4df)(__m256d)(Y),     \
 692                                               (int)(C)))
 693
 694 #define _mm256_permute2f128_ps(X, Y, C)                                 \
 695   ((__m256) __builtin_ia32_vperm2f128_ps256 ((__v8sf)(__m256)(X),       \
 696                                              (__v8sf)(__m256)(Y),       \
 697                                              (int)(C)))
 698
 699 #define _mm256_permute2f128_si256(X, Y, C)                              \
 700   ((__m256i) __builtin_ia32_vperm2f128_si256 ((__v8si)(__m256i)(X),     \
 701                                               (__v8si)(__m256i)(Y),     \
 702                                               (int)(C)))
 703 #endif
 704
 705 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 706 _mm_broadcast_ss (float const *__X)
 707 {
 708   return (__m128) __builtin_ia32_vbroadcastss (__X);
 709 }
 710
 711 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 712 _mm256_broadcast_sd (double const *__X)
 713 {
 714   return (__m256d) __builtin_ia32_vbroadcastsd256 (__X);
 715 }
 716
 717 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 718 _mm256_broadcast_ss (float const *__X)
 719 {
 720   return (__m256) __builtin_ia32_vbroadcastss256 (__X);
 721 }
 722
 723 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 724 _mm256_broadcast_pd (__m128d const *__X)
 725 {
 726   return (__m256d) __builtin_ia32_vbroadcastf128_pd256 (__X);
 727 }
 728
 729 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 730 _mm256_broadcast_ps (__m128 const *__X)
 731 {
 732   return (__m256) __builtin_ia32_vbroadcastf128_ps256 (__X);
 733 }
 734
 735 #ifdef __OPTIMIZE__
 736 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 737 _mm256_insertf128_pd (__m256d __X, __m128d __Y, const int __O)
 738 {
 739   return (__m256d) __builtin_ia32_vinsertf128_pd256 ((__v4df)__X,
 740                                                      (__v2df)__Y,
 741                                                      __O);
 742 }
 743
 744 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 745 _mm256_insertf128_ps (__m256 __X, __m128 __Y, const int __O)
 746 {
 747   return (__m256) __builtin_ia32_vinsertf128_ps256 ((__v8sf)__X,
 748                                                     (__v4sf)__Y,
 749                                                     __O);
 750 }
 751
 752 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 753 _mm256_insertf128_si256 (__m256i __X, __m128i __Y, const int __O)
 754 {
 755   return (__m256i) __builtin_ia32_vinsertf128_si256 ((__v8si)__X,
 756                                                      (__v4si)__Y,
 757                                                      __O);
 758 }
 759
 760 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 761 _mm256_insert_epi32 (__m256i __X, int __D, int const __N)
 762 {
 763   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 2);
 764   __Y = _mm_insert_epi32 (__Y, __D, __N % 4);
 765   return _mm256_insertf128_si256 (__X, __Y, __N >> 2);
 766 }
 767
 768 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 769 _mm256_insert_epi16 (__m256i __X, int __D, int const __N)
 770 {
 771   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 3);
 772   __Y = _mm_insert_epi16 (__Y, __D, __N % 8);
 773   return _mm256_insertf128_si256 (__X, __Y, __N >> 3);
 774 }
 775
 776 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 777 _mm256_insert_epi8 (__m256i __X, int __D, int const __N)
 778 {
 779   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 4);
 780   __Y = _mm_insert_epi8 (__Y, __D, __N % 16);
 781   return _mm256_insertf128_si256 (__X, __Y, __N >> 4);
 782 }
 783
 784 #ifdef __x86_64__
 785 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 786 _mm256_insert_epi64 (__m256i __X, long long __D, int const __N)
 787 {
 788   __m128i __Y = _mm256_extractf128_si256 (__X, __N >> 1);
 789   __Y = _mm_insert_epi64 (__Y, __D, __N % 2);
 790   return _mm256_insertf128_si256 (__X, __Y, __N >> 1);
 791 }
 792 #endif
 793 #else
 794 #define _mm256_insertf128_pd(X, Y, O)                                   \
 795   ((__m256d) __builtin_ia32_vinsertf128_pd256 ((__v4df)(__m256d)(X),    \
 796                                                (__v2df)(__m128d)(Y),    \
 797                                                (int)(O)))
 798
 799 #define _mm256_insertf128_ps(X, Y, O)                                   \
 800   ((__m256) __builtin_ia32_vinsertf128_ps256 ((__v8sf)(__m256)(X),      \
 801                                               (__v4sf)(__m128)(Y),      \
 802                                               (int)(O)))
 803
 804 #define _mm256_insertf128_si256(X, Y, O)                                \
 805   ((__m256i) __builtin_ia32_vinsertf128_si256 ((__v8si)(__m256i)(X),    \
 806                                                (__v4si)(__m128i)(Y),    \
 807                                                (int)(O)))
 808
 809 #define _mm256_insert_epi32(X, D, N)                                    \
 810   (__extension__                                                        \
 811    ({                                                                   \
 812       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 2);           \
 813       __Y = _mm_insert_epi32 (__Y, (D), (N) % 4);                       \
 814       _mm256_insertf128_si256 ((X), __Y, (N) >> 2);                     \
 815     }))
 816
 817 #define _mm256_insert_epi16(X, D, N)                                    \
 818   (__extension__                                                        \
 819    ({                                                                   \
 820       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 3);           \
 821       __Y = _mm_insert_epi16 (__Y, (D), (N) % 8);                       \
 822       _mm256_insertf128_si256 ((X), __Y, (N) >> 3);                     \
 823     }))
 824
 825 #define _mm256_insert_epi8(X, D, N)                                     \
 826   (__extension__                                                        \
 827    ({                                                                   \
 828       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 4);           \
 829       __Y = _mm_insert_epi8 (__Y, (D), (N) % 16);                       \
 830       _mm256_insertf128_si256 ((X), __Y, (N) >> 4);                     \
 831     }))
 832
 833 #ifdef __x86_64__
 834 #define _mm256_insert_epi64(X, D, N)                                    \
 835   (__extension__                                                        \
 836    ({                                                                   \
 837       __m128i __Y = _mm256_extractf128_si256 ((X), (N) >> 1);           \
 838       __Y = _mm_insert_epi64 (__Y, (D), (N) % 2);                       \
 839       _mm256_insertf128_si256 ((X), __Y, (N) >> 1);                     \
 840     }))
 841 #endif
 842 #endif
 843
 844 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 845 _mm256_load_pd (double const *__P)
 846 {
 847   return *(__m256d *)__P;
 848 }
 849
 850 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 851 _mm256_store_pd (double *__P, __m256d __A)
 852 {
 853   *(__m256d *)__P = __A;
 854 }
 855
 856 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 857 _mm256_load_ps (float const *__P)
 858 {
 859   return *(__m256 *)__P;
 860 }
 861
 862 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 863 _mm256_store_ps (float *__P, __m256 __A)
 864 {
 865   *(__m256 *)__P = __A;
 866 }
 867
 868 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 869 _mm256_loadu_pd (double const *__P)
 870 {
 871   return *(__m256d_u *)__P;
 872 }
 873
 874 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 875 _mm256_storeu_pd (double *__P, __m256d __A)
 876 {
 877   *(__m256d_u *)__P = __A;
 878 }
 879
 880 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 881 _mm256_loadu_ps (float const *__P)
 882 {
 883   return *(__m256_u *)__P;
 884 }
 885
 886 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 887 _mm256_storeu_ps (float *__P, __m256 __A)
 888 {
 889   *(__m256_u *)__P = __A;
 890 }
 891
 892 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 893 _mm256_load_si256 (__m256i const *__P)
 894 {
 895   return *__P;
 896 }
 897
 898 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 899 _mm256_store_si256 (__m256i *__P, __m256i __A)
 900 {
 901   *__P = __A;
 902 }
 903
 904 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 905 _mm256_loadu_si256 (__m256i_u const *__P)
 906 {
 907   return *__P;
 908 }
 909
 910 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 911 _mm256_storeu_si256 (__m256i_u *__P, __m256i __A)
 912 {
 913   *__P = __A;
 914 }
 915
 916 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 917 _mm_maskload_pd (double const *__P, __m128i __M)
 918 {
 919   return (__m128d) __builtin_ia32_maskloadpd ((const __v2df *)__P,
 920                                               (__v2di)__M);
 921 }
 922
 923 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 924 _mm_maskstore_pd (double *__P, __m128i __M, __m128d __A)
 925 {
 926   __builtin_ia32_maskstorepd ((__v2df *)__P, (__v2di)__M, (__v2df)__A);
 927 }
 928
 929 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 930 _mm256_maskload_pd (double const *__P, __m256i __M)
 931 {
 932   return (__m256d) __builtin_ia32_maskloadpd256 ((const __v4df *)__P,
 933                                                  (__v4di)__M);
 934 }
 935
 936 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 937 _mm256_maskstore_pd (double *__P, __m256i __M, __m256d __A)
 938 {
 939   __builtin_ia32_maskstorepd256 ((__v4df *)__P, (__v4di)__M, (__v4df)__A);
 940 }
 941
 942 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 943 _mm_maskload_ps (float const *__P, __m128i __M)
 944 {
 945   return (__m128) __builtin_ia32_maskloadps ((const __v4sf *)__P,
 946                                              (__v4si)__M);
 947 }
 948
 949 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 950 _mm_maskstore_ps (float *__P, __m128i __M, __m128 __A)
 951 {
 952   __builtin_ia32_maskstoreps ((__v4sf *)__P, (__v4si)__M, (__v4sf)__A);
 953 }
 954
 955 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 956 _mm256_maskload_ps (float const *__P, __m256i __M)
 957 {
 958   return (__m256) __builtin_ia32_maskloadps256 ((const __v8sf *)__P,
 959                                                 (__v8si)__M);
 960 }
 961
 962 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 963 _mm256_maskstore_ps (float *__P, __m256i __M, __m256 __A)
 964 {
 965   __builtin_ia32_maskstoreps256 ((__v8sf *)__P, (__v8si)__M, (__v8sf)__A);
 966 }
 967
 968 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 969 _mm256_movehdup_ps (__m256 __X)
 970 {
 971   return (__m256) __builtin_ia32_movshdup256 ((__v8sf)__X);
 972 }
 973
 974 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 975 _mm256_moveldup_ps (__m256 __X)
 976 {
 977   return (__m256) __builtin_ia32_movsldup256 ((__v8sf)__X);
 978 }
 979
 980 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 981 _mm256_movedup_pd (__m256d __X)
 982 {
 983   return (__m256d) __builtin_ia32_movddup256 ((__v4df)__X);
 984 }
 985
 986 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 987 _mm256_lddqu_si256 (__m256i const *__P)
 988 {
 989   return (__m256i) __builtin_ia32_lddqu256 ((char const *)__P);
 990 }
 991
 992 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 993 _mm256_stream_si256 (__m256i *__A, __m256i __B)
 994 {
 995   __builtin_ia32_movntdq256 ((__v4di *)__A, (__v4di)__B);
 996 }
 997
 998 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
 999 _mm256_stream_pd (double *__A, __m256d __B)
1000 {
1001   __builtin_ia32_movntpd256 (__A, (__v4df)__B);
1002 }
1003
1004 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1005 _mm256_stream_ps (float *__P, __m256 __A)
1006 {
1007   __builtin_ia32_movntps256 (__P, (__v8sf)__A);
1008 }
1009
1010 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1011 _mm256_rcp_ps (__m256 __A)
1012 {
1013   return (__m256) __builtin_ia32_rcpps256 ((__v8sf)__A);
1014 }
1015
1016 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1017 _mm256_rsqrt_ps (__m256 __A)
1018 {
1019   return (__m256) __builtin_ia32_rsqrtps256 ((__v8sf)__A);
1020 }
1021
1022 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1023 _mm256_sqrt_pd (__m256d __A)
1024 {
1025   return (__m256d) __builtin_ia32_sqrtpd256 ((__v4df)__A);
1026 }
1027
1028 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1029 _mm256_sqrt_ps (__m256 __A)
1030 {
1031   return (__m256) __builtin_ia32_sqrtps256 ((__v8sf)__A);
1032 }
1033
1034 #ifdef __OPTIMIZE__
1035 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1036 _mm256_round_pd (__m256d __V, const int __M)
1037 {
1038   return (__m256d) __builtin_ia32_roundpd256 ((__v4df)__V, __M);
1039 }
1040
1041 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1042 _mm256_round_ps (__m256 __V, const int __M)
1043 {
1044   return (__m256) __builtin_ia32_roundps256 ((__v8sf)__V, __M);
1045 }
1046 #else
1047 #define _mm256_round_pd(V, M) \
1048   ((__m256d) __builtin_ia32_roundpd256 ((__v4df)(__m256d)(V), (int)(M)))
1049
1050 #define _mm256_round_ps(V, M) \
1051   ((__m256) __builtin_ia32_roundps256 ((__v8sf)(__m256)(V), (int)(M)))
1052 #endif
1053
1054 #define _mm256_ceil_pd(V)       _mm256_round_pd ((V), _MM_FROUND_CEIL)
1055 #define _mm256_floor_pd(V)      _mm256_round_pd ((V), _MM_FROUND_FLOOR)
1056 #define _mm256_ceil_ps(V)       _mm256_round_ps ((V), _MM_FROUND_CEIL)
1057 #define _mm256_floor_ps(V)      _mm256_round_ps ((V), _MM_FROUND_FLOOR)
1058
1059 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1060 _mm256_unpackhi_pd (__m256d __A, __m256d __B)
1061 {
1062   return (__m256d) __builtin_ia32_unpckhpd256 ((__v4df)__A, (__v4df)__B);
1063 }
1064
1065 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1066 _mm256_unpacklo_pd (__m256d __A, __m256d __B)
1067 {
1068   return (__m256d) __builtin_ia32_unpcklpd256 ((__v4df)__A, (__v4df)__B);
1069 }
1070
1071 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1072 _mm256_unpackhi_ps (__m256 __A, __m256 __B)
1073 {
1074   return (__m256) __builtin_ia32_unpckhps256 ((__v8sf)__A, (__v8sf)__B);
1075 }
1076
1077 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1078 _mm256_unpacklo_ps (__m256 __A, __m256 __B)
1079 {
1080   return (__m256) __builtin_ia32_unpcklps256 ((__v8sf)__A, (__v8sf)__B);
1081 }
1082
1083 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1084 _mm_testz_pd (__m128d __M, __m128d __V)
1085 {
1086   return __builtin_ia32_vtestzpd ((__v2df)__M, (__v2df)__V);
1087 }
1088
1089 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1090 _mm_testc_pd (__m128d __M, __m128d __V)
1091 {
1092   return __builtin_ia32_vtestcpd ((__v2df)__M, (__v2df)__V);
1093 }
1094
1095 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1096 _mm_testnzc_pd (__m128d __M, __m128d __V)
1097 {
1098   return __builtin_ia32_vtestnzcpd ((__v2df)__M, (__v2df)__V);
1099 }
1100
1101 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1102 _mm_testz_ps (__m128 __M, __m128 __V)
1103 {
1104   return __builtin_ia32_vtestzps ((__v4sf)__M, (__v4sf)__V);
1105 }
1106
1107 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1108 _mm_testc_ps (__m128 __M, __m128 __V)
1109 {
1110   return __builtin_ia32_vtestcps ((__v4sf)__M, (__v4sf)__V);
1111 }
1112
1113 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1114 _mm_testnzc_ps (__m128 __M, __m128 __V)
1115 {
1116   return __builtin_ia32_vtestnzcps ((__v4sf)__M, (__v4sf)__V);
1117 }
1118
1119 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1120 _mm256_testz_pd (__m256d __M, __m256d __V)
1121 {
1122   return __builtin_ia32_vtestzpd256 ((__v4df)__M, (__v4df)__V);
1123 }
1124
1125 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1126 _mm256_testc_pd (__m256d __M, __m256d __V)
1127 {
1128   return __builtin_ia32_vtestcpd256 ((__v4df)__M, (__v4df)__V);
1129 }
1130
1131 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1132 _mm256_testnzc_pd (__m256d __M, __m256d __V)
1133 {
1134   return __builtin_ia32_vtestnzcpd256 ((__v4df)__M, (__v4df)__V);
1135 }
1136
1137 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1138 _mm256_testz_ps (__m256 __M, __m256 __V)
1139 {
1140   return __builtin_ia32_vtestzps256 ((__v8sf)__M, (__v8sf)__V);
1141 }
1142
1143 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1144 _mm256_testc_ps (__m256 __M, __m256 __V)
1145 {
1146   return __builtin_ia32_vtestcps256 ((__v8sf)__M, (__v8sf)__V);
1147 }
1148
1149 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1150 _mm256_testnzc_ps (__m256 __M, __m256 __V)
1151 {
1152   return __builtin_ia32_vtestnzcps256 ((__v8sf)__M, (__v8sf)__V);
1153 }
1154
1155 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1156 _mm256_testz_si256 (__m256i __M, __m256i __V)
1157 {
1158   return __builtin_ia32_ptestz256 ((__v4di)__M, (__v4di)__V);
1159 }
1160
1161 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1162 _mm256_testc_si256 (__m256i __M, __m256i __V)
1163 {
1164   return __builtin_ia32_ptestc256 ((__v4di)__M, (__v4di)__V);
1165 }
1166
1167 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1168 _mm256_testnzc_si256 (__m256i __M, __m256i __V)
1169 {
1170   return __builtin_ia32_ptestnzc256 ((__v4di)__M, (__v4di)__V);
1171 }
1172
1173 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1174 _mm256_movemask_pd (__m256d __A)
1175 {
1176   return __builtin_ia32_movmskpd256 ((__v4df)__A);
1177 }
1178
1179 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1180 _mm256_movemask_ps (__m256 __A)
1181 {
1182   return __builtin_ia32_movmskps256 ((__v8sf)__A);
1183 }
1184
1185 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1186 _mm256_undefined_pd (void)
1187 {
1188   __m256d __Y = __Y;
1189   return __Y;
1190 }
1191
1192 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1193 _mm256_undefined_ps (void)
1194 {
1195   __m256 __Y = __Y;
1196   return __Y;
1197 }
1198
1199 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1200 _mm256_undefined_si256 (void)
1201 {
1202   __m256i __Y = __Y;
1203   return __Y;
1204 }
1205
1206 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1207 _mm256_setzero_pd (void)
1208 {
1209   return __extension__ (__m256d){ 0.0, 0.0, 0.0, 0.0 };
1210 }
1211
1212 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1213 _mm256_setzero_ps (void)
1214 {
1215   return __extension__ (__m256){ 0.0, 0.0, 0.0, 0.0,
1216                                  0.0, 0.0, 0.0, 0.0 };
1217 }
1218
1219 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1220 _mm256_setzero_si256 (void)
1221 {
1222   return __extension__ (__m256i)(__v4di){ 0, 0, 0, 0 };
1223 }
1224
1225 /* Create the vector [A B C D].  */
1226 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1227 _mm256_set_pd (double __A, double __B, double __C, double __D)
1228 {
1229   return __extension__ (__m256d){ __D, __C, __B, __A };
1230 }
1231
1232 /* Create the vector [A B C D E F G H].  */
1233 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1234 _mm256_set_ps (float __A, float __B, float __C, float __D,
1235                float __E, float __F, float __G, float __H)
1236 {
1237   return __extension__ (__m256){ __H, __G, __F, __E,
1238                                  __D, __C, __B, __A };
1239 }
1240
1241 /* Create the vector [A B C D E F G H].  */
1242 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1243 _mm256_set_epi32 (int __A, int __B, int __C, int __D,
1244                   int __E, int __F, int __G, int __H)
1245 {
1246   return __extension__ (__m256i)(__v8si){ __H, __G, __F, __E,
1247                                           __D, __C, __B, __A };
1248 }
1249
1250 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1251 _mm256_set_epi16 (short __q15, short __q14, short __q13, short __q12,
1252                   short __q11, short __q10, short __q09, short __q08,
1253                   short __q07, short __q06, short __q05, short __q04,
1254                   short __q03, short __q02, short __q01, short __q00)
1255 {
1256   return __extension__ (__m256i)(__v16hi){
1257     __q00, __q01, __q02, __q03, __q04, __q05, __q06, __q07,
1258     __q08, __q09, __q10, __q11, __q12, __q13, __q14, __q15
1259   };
1260 }
1261
1262 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1263 _mm256_set_epi8  (char __q31, char __q30, char __q29, char __q28,
1264                   char __q27, char __q26, char __q25, char __q24,
1265                   char __q23, char __q22, char __q21, char __q20,
1266                   char __q19, char __q18, char __q17, char __q16,
1267                   char __q15, char __q14, char __q13, char __q12,
1268                   char __q11, char __q10, char __q09, char __q08,
1269                   char __q07, char __q06, char __q05, char __q04,
1270                   char __q03, char __q02, char __q01, char __q00)
1271 {
1272   return __extension__ (__m256i)(__v32qi){
1273     __q00, __q01, __q02, __q03, __q04, __q05, __q06, __q07,
1274     __q08, __q09, __q10, __q11, __q12, __q13, __q14, __q15,
1275     __q16, __q17, __q18, __q19, __q20, __q21, __q22, __q23,
1276     __q24, __q25, __q26, __q27, __q28, __q29, __q30, __q31
1277   };
1278 }
1279
1280 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1281 _mm256_set_epi64x (long long __A, long long __B, long long __C,
1282                    long long __D)
1283 {
1284   return __extension__ (__m256i)(__v4di){ __D, __C, __B, __A };
1285 }
1286
1287 /* Create a vector with all elements equal to A.  */
1288 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1289 _mm256_set1_pd (double __A)
1290 {
1291   return __extension__ (__m256d){ __A, __A, __A, __A };
1292 }
1293
1294 /* Create a vector with all elements equal to A.  */
1295 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1296 _mm256_set1_ps (float __A)
1297 {
1298   return __extension__ (__m256){ __A, __A, __A, __A,
1299                                  __A, __A, __A, __A };
1300 }
1301
1302 /* Create a vector with all elements equal to A.  */
1303 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1304 _mm256_set1_epi32 (int __A)
1305 {
1306   return __extension__ (__m256i)(__v8si){ __A, __A, __A, __A,
1307                                           __A, __A, __A, __A };
1308 }
1309
1310 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1311 _mm256_set1_epi16 (short __A)
1312 {
1313   return _mm256_set_epi16 (__A, __A, __A, __A, __A, __A, __A, __A,
1314                            __A, __A, __A, __A, __A, __A, __A, __A);
1315 }
1316
1317 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1318 _mm256_set1_epi8 (char __A)
1319 {
1320   return _mm256_set_epi8 (__A, __A, __A, __A, __A, __A, __A, __A,
1321                           __A, __A, __A, __A, __A, __A, __A, __A,
1322                           __A, __A, __A, __A, __A, __A, __A, __A,
1323                           __A, __A, __A, __A, __A, __A, __A, __A);
1324 }
1325
1326 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1327 _mm256_set1_epi64x (long long __A)
1328 {
1329   return __extension__ (__m256i)(__v4di){ __A, __A, __A, __A };
1330 }
1331
1332 /* Create vectors of elements in the reversed order from the
1333    _mm256_set_XXX functions.  */
1334
1335 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1336 _mm256_setr_pd (double __A, double __B, double __C, double __D)
1337 {
1338   return _mm256_set_pd (__D, __C, __B, __A);
1339 }
1340
1341 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1342 _mm256_setr_ps (float __A, float __B, float __C, float __D,
1343                 float __E, float __F, float __G, float __H)
1344 {
1345   return _mm256_set_ps (__H, __G, __F, __E, __D, __C, __B, __A);
1346 }
1347
1348 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1349 _mm256_setr_epi32 (int __A, int __B, int __C, int __D,
1350                    int __E, int __F, int __G, int __H)
1351 {
1352   return _mm256_set_epi32 (__H, __G, __F, __E, __D, __C, __B, __A);
1353 }
1354
1355 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1356 _mm256_setr_epi16 (short __q15, short __q14, short __q13, short __q12,
1357                    short __q11, short __q10, short __q09, short __q08,
1358                    short __q07, short __q06, short __q05, short __q04,
1359                    short __q03, short __q02, short __q01, short __q00)
1360 {
1361   return _mm256_set_epi16 (__q00, __q01, __q02, __q03,
1362                            __q04, __q05, __q06, __q07,
1363                            __q08, __q09, __q10, __q11,
1364                            __q12, __q13, __q14, __q15);
1365 }
1366
1367 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1368 _mm256_setr_epi8  (char __q31, char __q30, char __q29, char __q28,
1369                    char __q27, char __q26, char __q25, char __q24,
1370                    char __q23, char __q22, char __q21, char __q20,
1371                    char __q19, char __q18, char __q17, char __q16,
1372                    char __q15, char __q14, char __q13, char __q12,
1373                    char __q11, char __q10, char __q09, char __q08,
1374                    char __q07, char __q06, char __q05, char __q04,
1375                    char __q03, char __q02, char __q01, char __q00)
1376 {
1377   return _mm256_set_epi8 (__q00, __q01, __q02, __q03,
1378                           __q04, __q05, __q06, __q07,
1379                           __q08, __q09, __q10, __q11,
1380                           __q12, __q13, __q14, __q15,
1381                           __q16, __q17, __q18, __q19,
1382                           __q20, __q21, __q22, __q23,
1383                           __q24, __q25, __q26, __q27,
1384                           __q28, __q29, __q30, __q31);
1385 }
1386
1387 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1388 _mm256_setr_epi64x (long long __A, long long __B, long long __C,
1389                     long long __D)
1390 {
1391   return _mm256_set_epi64x (__D, __C, __B, __A);
1392 }
1393
1394 /* Casts between various SP, DP, INT vector types.  Note that these do no
1395    conversion of values, they just change the type.  */
1396 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1397 _mm256_castpd_ps (__m256d __A)
1398 {
1399   return (__m256) __A;
1400 }
1401
1402 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1403 _mm256_castpd_si256 (__m256d __A)
1404 {
1405   return (__m256i) __A;
1406 }
1407
1408 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1409 _mm256_castps_pd (__m256 __A)
1410 {
1411   return (__m256d) __A;
1412 }
1413
1414 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1415 _mm256_castps_si256(__m256 __A)
1416 {
1417   return (__m256i) __A;
1418 }
1419
1420 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1421 _mm256_castsi256_ps (__m256i __A)
1422 {
1423   return (__m256) __A;
1424 }
1425
1426 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1427 _mm256_castsi256_pd (__m256i __A)
1428 {
1429   return (__m256d) __A;
1430 }
1431
1432 extern __inline __m128d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1433 _mm256_castpd256_pd128 (__m256d __A)
1434 {
1435   return (__m128d) __builtin_ia32_pd_pd256 ((__v4df)__A);
1436 }
1437
1438 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1439 _mm256_castps256_ps128 (__m256 __A)
1440 {
1441   return (__m128) __builtin_ia32_ps_ps256 ((__v8sf)__A);
1442 }
1443
1444 extern __inline __m128i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1445 _mm256_castsi256_si128 (__m256i __A)
1446 {
1447   return (__m128i) __builtin_ia32_si_si256 ((__v8si)__A);
1448 }
1449
1450 /* When cast is done from a 128 to 256-bit type, the low 128 bits of
1451    the 256-bit result contain source parameter value and the upper 128
1452    bits of the result are undefined.  Those intrinsics shouldn't
1453    generate any extra moves.  */
1454
1455 extern __inline __m256d __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1456 _mm256_castpd128_pd256 (__m128d __A)
1457 {
1458   return (__m256d) __builtin_ia32_pd256_pd ((__v2df)__A);
1459 }
1460
1461 extern __inline __m256 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1462 _mm256_castps128_ps256 (__m128 __A)
1463 {
1464   return (__m256) __builtin_ia32_ps256_ps ((__v4sf)__A);
1465 }
1466
1467 extern __inline __m256i __attribute__((__gnu_inline__, __always_inline__, __artificial__))
1468 _mm256_castsi128_si256 (__m128i __A)
1469 {
1470   return (__m256i) __builtin_ia32_si256_si ((__v4si)__A);
1471 }
1472
1473 #ifdef __DISABLE_AVX__
1474 #undef __DISABLE_AVX__
1475 #pragma GCC pop_options
1476 #endif /* __DISABLE_AVX__ */
1477
1478 #endif /* _AVXINTRIN_H_INCLUDED */