test/CodeGen/AMDGPU/sminmax.v2i16.ll

   1 ; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s | FileCheck -enable-var-scope -check-prefixes=GFX9,GCN %s
   2 ; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s | FileCheck -enable-var-scope -check-prefixes=VI,CIVI,GCN %s
   3 ; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s | FileCheck -enable-var-scope -check-prefixes=CI,CIVI,GCN %s
   4
   5 ; GCN-LABEL: {{^}}s_abs_v2i16:
   6 ; GFX9: s_load_dword [[VAL:s[0-9]+]]
   7 ; GFX9: v_pk_sub_i16 [[SUB:v[0-9]+]], 0, [[VAL]]
   8 ; GFX9: v_pk_max_i16 [[MAX:v[0-9]+]], [[VAL]], [[SUB]]
   9 ; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[MAX]], 2
  10
  11 ; VI: s_lshr_b32 s{{[0-9]+}}, s{{[0-9]+}}, 16
  12 ; VI: s_sub_i32
  13 ; VI: s_sub_i32
  14 ; VI: s_max_i32
  15 ; VI: s_max_i32
  16 ; SI: s_add_i32
  17 ; SI: s_add_i32
  18 ; SI: s_and_b32
  19 ; SI: s_or_b32
  20
  21 ; CI: v_sub_i32_e32
  22 ; CI-DAG: v_sub_i32_e32
  23 ; CI: v_bfe_i32
  24 ; CI-DAG: v_bfe_i32
  25 ; CI-DAG: v_add_i32_e32
  26 ; CI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16
  27 ; CI: v_add_i32_e32
  28 ; CI: v_and_b32_e32 v{{[0-9]+}}, 0xffff,
  29 ; CI: v_or_b32_e32
  30 define amdgpu_kernel void @s_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %val) #0 {
  31   %neg = sub <2 x i16> zeroinitializer, %val
  32   %cond = icmp sgt <2 x i16> %val, %neg
  33   %res = select <2 x i1> %cond, <2 x i16> %val, <2 x i16> %neg
  34   %res2 = add <2 x i16> %res, <i16 2, i16 2>
  35   store <2 x i16> %res2, <2 x i16> addrspace(1)* %out, align 4
  36   ret void
  37 }
  38
  39 ; GCN-LABEL: {{^}}v_abs_v2i16:
  40 ; GFX9: global_load_dword [[VAL:v[0-9]+]]
  41 ; GFX9: v_pk_sub_i16 [[SUB:v[0-9]+]], 0, [[VAL]]
  42 ; GFX9: v_pk_max_i16 [[MAX:v[0-9]+]], [[VAL]], [[SUB]]
  43 ; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[MAX]], 2
  44
  45 ; VI: v_mov_b32_e32 [[TWO:v[0-9]+]], 2
  46 ; VI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16,
  47 ; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}
  48 ; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}
  49 ; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
  50 ; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
  51 ; VI: v_add_u16_e32 v{{[0-9]+}}, 2, v{{[0-9]+}}
  52 ; VI: v_add_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[TWO]]  dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
  53 ; VI-NOT: v_and_b32
  54 ; VI: v_or_b32_e32
  55 define amdgpu_kernel void @v_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %src) #0 {
  56   %tid = call i32 @llvm.amdgcn.workitem.id.x()
  57   %gep.in = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %src, i32 %tid
  58   %gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
  59   %val = load <2 x i16>, <2 x i16> addrspace(1)* %gep.in, align 4
  60   %neg = sub <2 x i16> zeroinitializer, %val
  61   %cond = icmp sgt <2 x i16> %val, %neg
  62   %res = select <2 x i1> %cond, <2 x i16> %val, <2 x i16> %neg
  63   %res2 = add <2 x i16> %res, <i16 2, i16 2>
  64   store <2 x i16> %res2, <2 x i16> addrspace(1)* %gep.out, align 4
  65   ret void
  66 }
  67
  68 ; GCN-LABEL: {{^}}s_abs_v2i16_2:
  69 ; GFX9: s_load_dword [[VAL:s[0-9]+]]
  70 ; GFX9: v_pk_sub_i16 [[SUB:v[0-9]+]], 0, [[VAL]]
  71 ; GFX9: v_pk_max_i16 [[MAX:v[0-9]+]], [[VAL]], [[SUB]]
  72 ; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[MAX]], 2
  73 define amdgpu_kernel void @s_abs_v2i16_2(<2 x i16> addrspace(1)* %out, <2 x i16> %val) #0 {
  74   %z0 = insertelement <2 x i16> undef, i16 0, i16 0
  75   %z1 = insertelement <2 x i16> %z0, i16 0, i16 1
  76   %t0 = insertelement <2 x i16> undef, i16 2, i16 0
  77   %t1 = insertelement <2 x i16> %t0, i16 2, i16 1
  78   %neg = sub <2 x i16> %z1, %val
  79   %cond = icmp sgt <2 x i16> %val, %neg
  80   %res = select <2 x i1> %cond, <2 x i16> %val, <2 x i16> %neg
  81   %res2 = add <2 x i16> %res, %t1
  82   store <2 x i16> %res2, <2 x i16> addrspace(1)* %out, align 4
  83   ret void
  84 }
  85
  86 ; GCN-LABEL: {{^}}v_abs_v2i16_2:
  87 ; GFX9: buffer_load_dword [[VAL:v[0-9]+]]
  88 ; GFX9: v_pk_sub_i16 [[SUB:v[0-9]+]], 0, [[VAL]]
  89 ; GFX9: v_pk_max_i16 [[MAX:v[0-9]+]], [[VAL]], [[SUB]]
  90 ; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[MAX]], 2
  91 define amdgpu_kernel void @v_abs_v2i16_2(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %src) #0 {
  92   %z0 = insertelement <2 x i16> undef, i16 0, i16 0
  93   %z1 = insertelement <2 x i16> %z0, i16 0, i16 1
  94   %t0 = insertelement <2 x i16> undef, i16 2, i16 0
  95   %t1 = insertelement <2 x i16> %t0, i16 2, i16 1
  96   %val = load <2 x i16>, <2 x i16> addrspace(1)* %src, align 4
  97   %neg = sub <2 x i16> %z1, %val
  98   %cond = icmp sgt <2 x i16> %val, %neg
  99   %res = select <2 x i1> %cond, <2 x i16> %val, <2 x i16> %neg
 100   %res2 = add <2 x i16> %res, %t1
 101   store <2 x i16> %res2, <2 x i16> addrspace(1)* %out, align 4
 102   ret void
 103 }
 104
 105 ; GCN-LABEL: {{^}}s_abs_v4i16:
 106 ; GFX9: s_load_dword [[VAL0:s[0-9]+]]
 107 ; GFX9: s_load_dword [[VAL1:s[0-9]+]]
 108 ; GFX9-DAG: v_pk_sub_i16 [[SUB0:v[0-9]+]], 0, [[VAL0]]
 109 ; GFX9-DAG: v_pk_max_i16 [[MAX0:v[0-9]+]], [[VAL0]], [[SUB0]]
 110 ; GFX9-DAG: v_pk_add_u16 [[ADD0:v[0-9]+]], [[MAX0]], 2
 111
 112 ; GFX9-DAG: v_pk_sub_i16 [[SUB1:v[0-9]+]], 0, [[VAL1]]
 113 ; GFX9-DAG: v_pk_max_i16 [[MAX1:v[0-9]+]], [[VAL1]], [[SUB1]]
 114 ; GFX9-DAG: v_pk_add_u16 [[ADD1:v[0-9]+]], [[MAX1]], 2
 115 define amdgpu_kernel void @s_abs_v4i16(<4 x i16> addrspace(1)* %out, <4 x i16> %val) #0 {
 116   %z0 = insertelement <4 x i16> undef, i16 0, i16 0
 117   %z1 = insertelement <4 x i16> %z0, i16 0, i16 1
 118   %z2 = insertelement <4 x i16> %z1, i16 0, i16 2
 119   %z3 = insertelement <4 x i16> %z2, i16 0, i16 3
 120   %t0 = insertelement <4 x i16> undef, i16 2, i16 0
 121   %t1 = insertelement <4 x i16> %t0, i16 2, i16 1
 122   %t2 = insertelement <4 x i16> %t1, i16 2, i16 2
 123   %t3 = insertelement <4 x i16> %t2, i16 2, i16 3
 124   %neg = sub <4 x i16> %z3, %val
 125   %cond = icmp sgt <4 x i16> %val, %neg
 126   %res = select <4 x i1> %cond, <4 x i16> %val, <4 x i16> %neg
 127   %res2 = add <4 x i16> %res, %t3
 128   store <4 x i16> %res2, <4 x i16> addrspace(1)* %out, align 4
 129   ret void
 130 }
 131
 132 ; GCN-LABEL: {{^}}v_abs_v4i16:
 133 ; GFX9: buffer_load_dwordx2 v{{\[}}[[VAL0:[0-9]+]]:[[VAL1:[0-9]+]]{{\]}}
 134
 135 ; GFX9-DAG: v_pk_sub_i16 [[SUB0:v[0-9]+]], 0, v[[VAL0]]
 136 ; GFX9-DAG: v_pk_max_i16 [[MAX0:v[0-9]+]], v[[VAL0]], [[SUB0]]
 137 ; GFX9-DAG: v_pk_add_u16 [[ADD0:v[0-9]+]], [[MAX0]], 2
 138
 139 ; GFX9-DAG: v_pk_sub_i16 [[SUB1:v[0-9]+]], 0, v[[VAL1]]
 140 ; GFX9-DAG: v_pk_max_i16 [[MAX1:v[0-9]+]], v[[VAL1]], [[SUB1]]
 141 ; GFX9-DAG: v_pk_add_u16 [[ADD1:v[0-9]+]], [[MAX1]], 2
 142 define amdgpu_kernel void @v_abs_v4i16(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %src) #0 {
 143   %z0 = insertelement <4 x i16> undef, i16 0, i16 0
 144   %z1 = insertelement <4 x i16> %z0, i16 0, i16 1
 145   %z2 = insertelement <4 x i16> %z1, i16 0, i16 2
 146   %z3 = insertelement <4 x i16> %z2, i16 0, i16 3
 147   %t0 = insertelement <4 x i16> undef, i16 2, i16 0
 148   %t1 = insertelement <4 x i16> %t0, i16 2, i16 1
 149   %t2 = insertelement <4 x i16> %t1, i16 2, i16 2
 150   %t3 = insertelement <4 x i16> %t2, i16 2, i16 3
 151   %val = load <4 x i16>, <4 x i16> addrspace(1)* %src, align 4
 152   %neg = sub <4 x i16> %z3, %val
 153   %cond = icmp sgt <4 x i16> %val, %neg
 154   %res = select <4 x i1> %cond, <4 x i16> %val, <4 x i16> %neg
 155   %res2 = add <4 x i16> %res, %t3
 156   store <4 x i16> %res2, <4 x i16> addrspace(1)* %out, align 4
 157   ret void
 158 }
 159
 160 ; GCN-LABEL: {{^}}s_min_max_v2i16:
 161 define amdgpu_kernel void @s_min_max_v2i16(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> %val0, <2 x i16> %val1) #0 {
 162   %cond0 = icmp sgt <2 x i16> %val0, %val1
 163   %sel0 = select <2 x i1> %cond0, <2 x i16> %val0, <2 x i16> %val1
 164   %sel1 = select <2 x i1> %cond0, <2 x i16> %val1, <2 x i16> %val0
 165
 166   store volatile <2 x i16> %sel0, <2 x i16> addrspace(1)* %out0, align 4
 167   store volatile <2 x i16> %sel1, <2 x i16> addrspace(1)* %out1, align 4
 168   ret void
 169 }
 170
 171 ; GCN-LABEL: {{^}}v_min_max_v2i16:
 172 define amdgpu_kernel void @v_min_max_v2i16(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> addrspace(1)* %ptr0, <2 x i16> addrspace(1)* %ptr1) #0 {
 173   %val0 = load volatile <2 x i16>, <2 x i16> addrspace(1)* %ptr0
 174   %val1 = load volatile <2 x i16>, <2 x i16> addrspace(1)* %ptr1
 175
 176   %cond0 = icmp sgt <2 x i16> %val0, %val1
 177   %sel0 = select <2 x i1> %cond0, <2 x i16> %val0, <2 x i16> %val1
 178   %sel1 = select <2 x i1> %cond0, <2 x i16> %val1, <2 x i16> %val0
 179
 180   store volatile <2 x i16> %sel0, <2 x i16> addrspace(1)* %out0, align 4
 181   store volatile <2 x i16> %sel1, <2 x i16> addrspace(1)* %out1, align 4
 182   ret void
 183 }
 184
 185 ; GCN-LABEL: {{^}}s_min_max_v4i32:
 186 define amdgpu_kernel void @s_min_max_v4i32(<4 x i16> addrspace(1)* %out0, <4 x i16> addrspace(1)* %out1, <4 x i16> %val0, <4 x i16> %val1) #0 {
 187   %cond0 = icmp sgt <4 x i16> %val0, %val1
 188   %sel0 = select <4 x i1> %cond0, <4 x i16> %val0, <4 x i16> %val1
 189   %sel1 = select <4 x i1> %cond0, <4 x i16> %val1, <4 x i16> %val0
 190
 191   store volatile <4 x i16> %sel0, <4 x i16> addrspace(1)* %out0, align 4
 192   store volatile <4 x i16> %sel1, <4 x i16> addrspace(1)* %out1, align 4
 193   ret void
 194 }
 195
 196 ; GCN-LABEL: {{^}}v_min_max_v2i16_user:
 197 define amdgpu_kernel void @v_min_max_v2i16_user(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> addrspace(1)* %ptr0, <2 x i16> addrspace(1)* %ptr1) #0 {
 198   %val0 = load volatile <2 x i16>, <2 x i16> addrspace(1)* %ptr0
 199   %val1 = load volatile <2 x i16>, <2 x i16> addrspace(1)* %ptr1
 200
 201   %cond0 = icmp sgt <2 x i16> %val0, %val1
 202   %sel0 = select <2 x i1> %cond0, <2 x i16> %val0, <2 x i16> %val1
 203   %sel1 = select <2 x i1> %cond0, <2 x i16> %val1, <2 x i16> %val0
 204
 205   store volatile <2 x i16> %sel0, <2 x i16> addrspace(1)* %out0, align 4
 206   store volatile <2 x i16> %sel1, <2 x i16> addrspace(1)* %out1, align 4
 207   store volatile <2 x i1> %cond0, <2 x i1> addrspace(1)* undef
 208   ret void
 209 }
 210
 211 ; GCN-LABEL: {{^}}u_min_max_v2i16:
 212 ; GFX9: v_pk_max_u16 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}
 213 ; GFX9: v_pk_min_u16 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}
 214 define amdgpu_kernel void @u_min_max_v2i16(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> %val0, <2 x i16> %val1) nounwind {
 215   %cond0 = icmp ugt <2 x i16> %val0, %val1
 216   %sel0 = select <2 x i1> %cond0, <2 x i16> %val0, <2 x i16> %val1
 217   %sel1 = select <2 x i1> %cond0, <2 x i16> %val1, <2 x i16> %val0
 218
 219   store volatile <2 x i16> %sel0, <2 x i16> addrspace(1)* %out0, align 4
 220   store volatile <2 x i16> %sel1, <2 x i16> addrspace(1)* %out1, align 4
 221   ret void
 222 }
 223
 224 declare i32 @llvm.amdgcn.workitem.id.x() #1
 225
 226 attributes #0 = { nounwind }
 227 attributes #1 = { nounwind readnone }