OSDN Git Service

add ffmpeg
[android-x86/external-stagefright-plugins.git] / ffmpeg / libavcodec / arm / vp3dsp_neon.S
1 /*
2  * Copyright (c) 2009 David Conrad
3  *
4  * This file is part of FFmpeg.
5  *
6  * FFmpeg is free software; you can redistribute it and/or
7  * modify it under the terms of the GNU Lesser General Public
8  * License as published by the Free Software Foundation; either
9  * version 2.1 of the License, or (at your option) any later version.
10  *
11  * FFmpeg is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14  * Lesser General Public License for more details.
15  *
16  * You should have received a copy of the GNU Lesser General Public
17  * License along with FFmpeg; if not, write to the Free Software
18  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
19  */
20
21 #include "asm.S"
22
23 const   vp3_idct_constants, align=4
24 .short 64277, 60547, 54491, 46341, 36410, 25080, 12785
25 endconst
26
27 #define xC1S7 d0[0]
28 #define xC2S6 d0[1]
29 #define xC3S5 d0[2]
30 #define xC4S4 d0[3]
31 #define xC5S3 d1[0]
32 #define xC6S2 d1[1]
33 #define xC7S1 d1[2]
34
35 .macro vp3_loop_filter
36     vsubl.u8        q3,  d18, d17
37     vsubl.u8        q2,  d16, d19
38     vadd.i16        q1,  q3,  q3
39     vadd.i16        q2,  q2,  q3
40     vadd.i16        q0,  q1,  q2
41     vrshr.s16       q0,  q0,  #3
42     vmovl.u8        q9,  d18
43     vdup.u16        q15, r2
44
45     vabs.s16        q1,  q0
46     vshr.s16        q0,  q0,  #15
47     vqsub.u16       q2,  q15, q1
48     vqsub.u16       q3,  q2,  q1
49     vsub.i16        q1,  q2,  q3
50     veor            q1,  q1,  q0
51     vsub.i16        q0,  q1,  q0
52
53     vaddw.u8        q2,  q0,  d17
54     vsub.i16        q3,  q9,  q0
55     vqmovun.s16     d0,  q2
56     vqmovun.s16     d1,  q3
57 .endm
58
59 function ff_vp3_v_loop_filter_neon, export=1
60     sub             ip,  r0,  r1
61     sub             r0,  r0,  r1,  lsl #1
62     vld1.64         {d16}, [r0,:64], r1
63     vld1.64         {d17}, [r0,:64], r1
64     vld1.64         {d18}, [r0,:64], r1
65     vld1.64         {d19}, [r0,:64], r1
66     ldrb            r2,    [r2, #129*4]
67
68     vp3_loop_filter
69
70     vst1.64         {d0},  [ip,:64], r1
71     vst1.64         {d1},  [ip,:64], r1
72     bx              lr
73 endfunc
74
75 function ff_vp3_h_loop_filter_neon, export=1
76     sub             ip,  r0,  #1
77     sub             r0,  r0,  #2
78     vld1.32         {d16[]},  [r0], r1
79     vld1.32         {d17[]},  [r0], r1
80     vld1.32         {d18[]},  [r0], r1
81     vld1.32         {d19[]},  [r0], r1
82     vld1.32         {d16[1]}, [r0], r1
83     vld1.32         {d17[1]}, [r0], r1
84     vld1.32         {d18[1]}, [r0], r1
85     vld1.32         {d19[1]}, [r0], r1
86     ldrb            r2,  [r2, #129*4]
87
88     vtrn.8          d16, d17
89     vtrn.8          d18, d19
90     vtrn.16         d16, d18
91     vtrn.16         d17, d19
92
93     vp3_loop_filter
94
95     vtrn.8          d0,  d1
96
97     vst1.16         {d0[0]}, [ip], r1
98     vst1.16         {d1[0]}, [ip], r1
99     vst1.16         {d0[1]}, [ip], r1
100     vst1.16         {d1[1]}, [ip], r1
101     vst1.16         {d0[2]}, [ip], r1
102     vst1.16         {d1[2]}, [ip], r1
103     vst1.16         {d0[3]}, [ip], r1
104     vst1.16         {d1[3]}, [ip], r1
105     bx              lr
106 endfunc
107
108
109 function vp3_idct_start_neon
110     vpush           {d8-d15}
111     movrel          r3,  vp3_idct_constants
112     vld1.64         {d0-d1},   [r3,:128]
113     vld1.64         {d16-d19}, [r2,:128]!
114     vld1.64         {d20-d23}, [r2,:128]!
115     vld1.64         {d24-d27}, [r2,:128]!
116     vadd.s16        q1,  q8,  q12
117     vsub.s16        q8,  q8,  q12
118     vld1.64         {d28-d31}, [r2,:128]!
119 endfunc
120
121 function vp3_idct_core_neon
122     vmull.s16       q2,  d18, xC1S7     // (ip[1] * C1) << 16
123     vmull.s16       q3,  d19, xC1S7
124     vmull.s16       q4,  d2,  xC4S4     // ((ip[0] + ip[4]) * C4) << 16
125     vmull.s16       q5,  d3,  xC4S4
126     vmull.s16       q6,  d16, xC4S4     // ((ip[0] - ip[4]) * C4) << 16
127     vmull.s16       q7,  d17, xC4S4
128     vshrn.s32       d4,  q2,  #16
129     vshrn.s32       d5,  q3,  #16
130     vshrn.s32       d6,  q4,  #16
131     vshrn.s32       d7,  q5,  #16
132     vshrn.s32       d8,  q6,  #16
133     vshrn.s32       d9,  q7,  #16
134     vadd.s16        q12, q1,  q3        // E = (ip[0] + ip[4]) * C4
135     vadd.s16        q8,  q8,  q4        // F = (ip[0] - ip[4]) * C4
136     vadd.s16        q1,  q2,  q9        // ip[1] * C1
137
138     vmull.s16       q2,  d30, xC1S7     // (ip[7] * C1) << 16
139     vmull.s16       q3,  d31, xC1S7
140     vmull.s16       q4,  d30, xC7S1     // (ip[7] * C7) << 16
141     vmull.s16       q5,  d31, xC7S1
142     vmull.s16       q6,  d18, xC7S1     // (ip[1] * C7) << 16
143     vmull.s16       q7,  d19, xC7S1
144     vshrn.s32       d4,  q2,  #16
145     vshrn.s32       d5,  q3,  #16
146     vshrn.s32       d6,  q4,  #16       // ip[7] * C7
147     vshrn.s32       d7,  q5,  #16
148     vshrn.s32       d8,  q6,  #16       // ip[1] * C7
149     vshrn.s32       d9,  q7,  #16
150     vadd.s16        q2,  q2,  q15       // ip[7] * C1
151     vadd.s16        q9,  q1,  q3        // A = ip[1] * C1 + ip[7] * C7
152     vsub.s16        q15, q4,  q2        // B = ip[1] * C7 - ip[7] * C1
153
154     vmull.s16       q2,  d22, xC5S3     // (ip[3] * C5) << 16
155     vmull.s16       q3,  d23, xC5S3
156     vmull.s16       q4,  d22, xC3S5     // (ip[3] * C3) << 16
157     vmull.s16       q5,  d23, xC3S5
158     vmull.s16       q6,  d26, xC5S3     // (ip[5] * C5) << 16
159     vmull.s16       q7,  d27, xC5S3
160     vshrn.s32       d4,  q2,  #16
161     vshrn.s32       d5,  q3,  #16
162     vshrn.s32       d6,  q4,  #16
163     vshrn.s32       d7,  q5,  #16
164     vshrn.s32       d8,  q6,  #16
165     vshrn.s32       d9,  q7,  #16
166     vadd.s16        q3,  q3,  q11       // ip[3] * C3
167     vadd.s16        q4,  q4,  q13       // ip[5] * C5
168     vadd.s16        q1,  q2,  q11       // ip[3] * C5
169     vadd.s16        q11, q3,  q4        // C = ip[3] * C3 + ip[5] * C5
170
171     vmull.s16       q2,  d26, xC3S5     // (ip[5] * C3) << 16
172     vmull.s16       q3,  d27, xC3S5
173     vmull.s16       q4,  d20, xC2S6     // (ip[2] * C2) << 16
174     vmull.s16       q5,  d21, xC2S6
175     vmull.s16       q6,  d28, xC6S2     // (ip[6] * C6) << 16
176     vmull.s16       q7,  d29, xC6S2
177     vshrn.s32       d4,  q2,  #16
178     vshrn.s32       d5,  q3,  #16
179     vshrn.s32       d6,  q4,  #16
180     vshrn.s32       d7,  q5,  #16
181     vshrn.s32       d8,  q6,  #16       // ip[6] * C6
182     vshrn.s32       d9,  q7,  #16
183     vadd.s16        q2,  q2,  q13       // ip[5] * C3
184     vadd.s16        q3,  q3,  q10       // ip[2] * C2
185     vsub.s16        q13, q2,  q1        // D = ip[5] * C3 - ip[3] * C5
186     vsub.s16        q1,  q9,  q11       // (A - C)
187     vadd.s16        q11, q9,  q11       // Cd = A + C
188     vsub.s16        q9,  q15, q13       // (B - D)
189     vadd.s16        q13, q15, q13       // Dd = B + D
190     vadd.s16        q15, q3,  q4        // G = ip[2] * C2 + ip[6] * C6
191
192     vmull.s16       q2,  d2,  xC4S4     // ((A - C) * C4) << 16
193     vmull.s16       q3,  d3,  xC4S4
194     vmull.s16       q4,  d28, xC2S6     // (ip[6] * C2) << 16
195     vmull.s16       q5,  d29, xC2S6
196     vmull.s16       q6,  d20, xC6S2     // (ip[2] * C6) << 16
197     vmull.s16       q7,  d21, xC6S2
198     vshrn.s32       d4,  q2,  #16
199     vshrn.s32       d5,  q3,  #16
200     vshrn.s32       d6,  q4,  #16
201     vshrn.s32       d7,  q5,  #16
202     vshrn.s32       d8,  q6,  #16       // ip[2] * C6
203     vmull.s16       q5,  d18, xC4S4     // ((B - D) * C4) << 16
204     vmull.s16       q6,  d19, xC4S4
205     vshrn.s32       d9,  q7,  #16
206     vadd.s16        q3,  q3,  q14       // ip[6] * C2
207     vadd.s16        q10, q1,  q2        // Ad = (A - C) * C4
208     vsub.s16        q14, q4,  q3        // H = ip[2] * C6 - ip[6] * C2
209     bx              lr
210 endfunc
211
212 .macro VP3_IDCT_END type
213 function vp3_idct_end_\type\()_neon
214 .ifc \type, col
215     vdup.16         q0,  r3
216     vadd.s16        q12, q12, q0
217     vadd.s16        q8,  q8,  q0
218 .endif
219
220     vshrn.s32       d2,  q5,  #16
221     vshrn.s32       d3,  q6,  #16
222     vadd.s16        q2,  q12, q15       // Gd  = E + G
223     vadd.s16        q9,  q1,  q9        // (B - D) * C4
224     vsub.s16        q12, q12, q15       // Ed  = E - G
225     vsub.s16        q3,  q8,  q10       // Fd  = F - Ad
226     vadd.s16        q10, q8,  q10       // Add = F + Ad
227     vadd.s16        q4,  q9,  q14       // Hd  = Bd + H
228     vsub.s16        q14, q9,  q14       // Bdd = Bd - H
229     vadd.s16        q8,  q2,  q11       // [0] = Gd + Cd
230     vsub.s16        q15, q2,  q11       // [7] = Gd - Cd
231     vadd.s16        q9,  q10, q4        // [1] = Add + Hd
232     vsub.s16        q10, q10, q4        // [2] = Add - Hd
233     vadd.s16        q11, q12, q13       // [3] = Ed + Dd
234     vsub.s16        q12, q12, q13       // [4] = Ed - Dd
235 .ifc \type, row
236     vtrn.16         q8,  q9
237 .endif
238     vadd.s16        q13, q3,  q14       // [5] = Fd + Bdd
239     vsub.s16        q14, q3,  q14       // [6] = Fd - Bdd
240
241 .ifc \type, row
242     // 8x8 transpose
243     vtrn.16         q10, q11
244     vtrn.16         q12, q13
245     vtrn.16         q14, q15
246     vtrn.32         q8,  q10
247     vtrn.32         q9,  q11
248     vtrn.32         q12, q14
249     vtrn.32         q13, q15
250     vswp            d17, d24
251     vswp            d19, d26
252     vadd.s16        q1,  q8,  q12
253     vswp            d21, d28
254     vsub.s16        q8,  q8,  q12
255     vswp            d23, d30
256 .endif
257     bx              lr
258 endfunc
259 .endm
260
261 VP3_IDCT_END row
262 VP3_IDCT_END col
263
264 function ff_vp3_idct_neon, export=1
265     mov             ip,  lr
266     mov             r2,  r0
267     bl              vp3_idct_start_neon
268     bl              vp3_idct_end_row_neon
269     mov             r3,  #8
270     bl              vp3_idct_core_neon
271     bl              vp3_idct_end_col_neon
272     mov             lr,  ip
273     vpop            {d8-d15}
274
275     vshr.s16        q8,  q8,  #4
276     vshr.s16        q9,  q9,  #4
277     vshr.s16        q10, q10, #4
278     vshr.s16        q11, q11, #4
279     vshr.s16        q12, q12, #4
280     vst1.64         {d16-d19}, [r0,:128]!
281     vshr.s16        q13, q13, #4
282     vshr.s16        q14, q14, #4
283     vst1.64         {d20-d23}, [r0,:128]!
284     vshr.s16        q15, q15, #4
285     vst1.64         {d24-d27}, [r0,:128]!
286     vst1.64         {d28-d31}, [r0,:128]!
287     bx              lr
288 endfunc
289
290 function ff_vp3_idct_put_neon, export=1
291     mov             ip,  lr
292     bl              vp3_idct_start_neon
293     bl              vp3_idct_end_row_neon
294     mov             r3,  #8
295     add             r3,  r3,  #2048         // convert signed pixel to unsigned
296     bl              vp3_idct_core_neon
297     bl              vp3_idct_end_col_neon
298     mov             lr,  ip
299     vpop            {d8-d15}
300
301     vqshrun.s16     d0,  q8,  #4
302     vqshrun.s16     d1,  q9,  #4
303     vqshrun.s16     d2,  q10, #4
304     vqshrun.s16     d3,  q11, #4
305     vst1.64         {d0}, [r0,:64], r1
306     vqshrun.s16     d4,  q12, #4
307     vst1.64         {d1}, [r0,:64], r1
308     vqshrun.s16     d5,  q13, #4
309     vst1.64         {d2}, [r0,:64], r1
310     vqshrun.s16     d6,  q14, #4
311     vst1.64         {d3}, [r0,:64], r1
312     vqshrun.s16     d7,  q15, #4
313     vst1.64         {d4}, [r0,:64], r1
314     vst1.64         {d5}, [r0,:64], r1
315     vst1.64         {d6}, [r0,:64], r1
316     vst1.64         {d7}, [r0,:64], r1
317     bx              lr
318 endfunc
319
320 function ff_vp3_idct_add_neon, export=1
321     mov             ip,  lr
322     bl              vp3_idct_start_neon
323     bl              vp3_idct_end_row_neon
324     mov             r3,  #8
325     bl              vp3_idct_core_neon
326     bl              vp3_idct_end_col_neon
327     mov             lr,  ip
328     vpop            {d8-d15}
329     mov             r2,  r0
330
331     vld1.64         {d0}, [r0,:64], r1
332     vshr.s16        q8,  q8,  #4
333     vld1.64         {d1}, [r0,:64], r1
334     vshr.s16        q9,  q9,  #4
335     vld1.64         {d2}, [r0,:64], r1
336     vaddw.u8        q8,  q8,  d0
337     vld1.64         {d3}, [r0,:64], r1
338     vaddw.u8        q9,  q9,  d1
339     vld1.64         {d4}, [r0,:64], r1
340     vshr.s16        q10, q10, #4
341     vld1.64         {d5}, [r0,:64], r1
342     vshr.s16        q11, q11, #4
343     vld1.64         {d6}, [r0,:64], r1
344     vqmovun.s16     d0,  q8
345     vld1.64         {d7}, [r0,:64], r1
346     vqmovun.s16     d1,  q9
347     vaddw.u8        q10, q10, d2
348     vaddw.u8        q11, q11, d3
349     vshr.s16        q12, q12, #4
350     vshr.s16        q13, q13, #4
351     vqmovun.s16     d2,  q10
352     vqmovun.s16     d3,  q11
353     vaddw.u8        q12, q12, d4
354     vaddw.u8        q13, q13, d5
355     vshr.s16        q14, q14, #4
356     vshr.s16        q15, q15, #4
357     vst1.64         {d0}, [r2,:64], r1
358     vqmovun.s16     d4,  q12
359     vst1.64         {d1}, [r2,:64], r1
360     vqmovun.s16     d5,  q13
361     vst1.64         {d2}, [r2,:64], r1
362     vaddw.u8        q14, q14, d6
363     vst1.64         {d3}, [r2,:64], r1
364     vaddw.u8        q15, q15, d7
365     vst1.64         {d4}, [r2,:64], r1
366     vqmovun.s16     d6,  q14
367     vst1.64         {d5}, [r2,:64], r1
368     vqmovun.s16     d7,  q15
369     vst1.64         {d6}, [r2,:64], r1
370     vst1.64         {d7}, [r2,:64], r1
371     bx              lr
372 endfunc
373
374 function ff_vp3_idct_dc_add_neon, export=1
375     ldrsh           r2,  [r2]
376     mov             r3,  r0
377     add             r2,  r2,  #15
378     vdup.16         q15, r2
379     vshr.s16        q15, q15, #5
380
381     vld1.8          {d0}, [r0,:64], r1
382     vld1.8          {d1}, [r0,:64], r1
383     vld1.8          {d2}, [r0,:64], r1
384     vaddw.u8        q8,  q15, d0
385     vld1.8          {d3}, [r0,:64], r1
386     vaddw.u8        q9,  q15, d1
387     vld1.8          {d4}, [r0,:64], r1
388     vaddw.u8        q10, q15, d2
389     vld1.8          {d5}, [r0,:64], r1
390     vaddw.u8        q11, q15, d3
391     vld1.8          {d6}, [r0,:64], r1
392     vaddw.u8        q12, q15, d4
393     vld1.8          {d7}, [r0,:64], r1
394     vaddw.u8        q13, q15, d5
395     vqmovun.s16     d0,  q8
396     vaddw.u8        q14, q15, d6
397     vqmovun.s16     d1,  q9
398     vaddw.u8        q15, q15, d7
399     vqmovun.s16     d2,  q10
400     vst1.8          {d0}, [r3,:64], r1
401     vqmovun.s16     d3,  q11
402     vst1.8          {d1}, [r3,:64], r1
403     vqmovun.s16     d4,  q12
404     vst1.8          {d2}, [r3,:64], r1
405     vqmovun.s16     d5,  q13
406     vst1.8          {d3}, [r3,:64], r1
407     vqmovun.s16     d6,  q14
408     vst1.8          {d4}, [r3,:64], r1
409     vqmovun.s16     d7,  q15
410     vst1.8          {d5}, [r3,:64], r1
411     vst1.8          {d6}, [r3,:64], r1
412     vst1.8          {d7}, [r3,:64], r1
413     bx              lr
414 endfunc