OSDN Git Service

4x4 SSE compare function
[coroid/libav_saccubus.git] / libavcodec / motion_est.c
1 /*
2  * Motion estimation 
3  * Copyright (c) 2000,2001 Fabrice Bellard.
4  * Copyright (c) 2002-2004 Michael Niedermayer
5  * 
6  *
7  * This library is free software; you can redistribute it and/or
8  * modify it under the terms of the GNU Lesser General Public
9  * License as published by the Free Software Foundation; either
10  * version 2 of the License, or (at your option) any later version.
11  *
12  * This library is distributed in the hope that it will be useful,
13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15  * Lesser General Public License for more details.
16  *
17  * You should have received a copy of the GNU Lesser General Public
18  * License along with this library; if not, write to the Free Software
19  * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
20  *
21  * new Motion Estimation (X1/EPZS) by Michael Niedermayer <michaelni@gmx.at>
22  */
23  
24 /**
25  * @file motion_est.c
26  * Motion estimation.
27  */
28  
29 #include <stdlib.h>
30 #include <stdio.h>
31 #include <limits.h>
32 #include "avcodec.h"
33 #include "dsputil.h"
34 #include "mpegvideo.h"
35
36 #undef NDEBUG
37 #include <assert.h>
38
39 #define SQ(a) ((a)*(a))
40
41 #define P_LEFT P[1]
42 #define P_TOP P[2]
43 #define P_TOPRIGHT P[3]
44 #define P_MEDIAN P[4]
45 #define P_MV1 P[9]
46
47 static inline int sad_hpel_motion_search(MpegEncContext * s,
48                                   int *mx_ptr, int *my_ptr, int dmin,
49                                   int src_index, int ref_index,
50                                   int size, int h);
51
52 static inline int update_map_generation(MotionEstContext *c)
53 {
54     c->map_generation+= 1<<(ME_MAP_MV_BITS*2);
55     if(c->map_generation==0){
56         c->map_generation= 1<<(ME_MAP_MV_BITS*2);
57         memset(c->map, 0, sizeof(uint32_t)*ME_MAP_SIZE);
58     }
59     return c->map_generation;
60 }
61
62 /* shape adaptive search stuff */
63 typedef struct Minima{
64     int height;
65     int x, y;
66     int checked;
67 }Minima;
68
69 static int minima_cmp(const void *a, const void *b){
70     const Minima *da = (const Minima *) a;
71     const Minima *db = (const Minima *) b;
72     
73     return da->height - db->height;
74 }
75
76 #define FLAG_QPEL   1 //must be 1
77 #define FLAG_CHROMA 2
78 #define FLAG_DIRECT 4
79
80 static inline void init_ref(MotionEstContext *c, uint8_t *src[3], uint8_t *ref[3], uint8_t *ref2[3], int x, int y, int ref_index){
81     const int offset[3]= {
82           y*c->  stride + x,
83         ((y*c->uvstride + x)>>1),
84         ((y*c->uvstride + x)>>1),
85     };
86     int i;
87     for(i=0; i<3; i++){
88         c->src[0][i]= src [i] + offset[i];
89         c->ref[0][i]= ref [i] + offset[i];
90     }
91     if(ref_index){
92         for(i=0; i<3; i++){
93             c->ref[ref_index][i]= ref2[i] + offset[i];
94         }
95     }
96 }
97
98 static int get_flags(MotionEstContext *c, int direct, int chroma){
99     return   ((c->avctx->flags&CODEC_FLAG_QPEL) ? FLAG_QPEL : 0)
100            + (direct ? FLAG_DIRECT : 0) 
101            + (chroma ? FLAG_CHROMA : 0);
102 }
103
104 static always_inline int cmp(MpegEncContext *s, const int x, const int y, const int subx, const int suby,
105                       const int size, const int h, int ref_index, int src_index,
106                       me_cmp_func cmp_func, me_cmp_func chroma_cmp_func, const int flags){
107     MotionEstContext * const c= &s->me;
108     const int stride= c->stride;
109     const int uvstride= c->uvstride;
110     const int qpel= flags&FLAG_QPEL;
111     const int chroma= flags&FLAG_CHROMA;
112     const int dxy= subx + (suby<<(1+qpel)); //FIXME log2_subpel?
113     const int hx= subx + (x<<(1+qpel));
114     const int hy= suby + (y<<(1+qpel));
115     uint8_t * const * const ref= c->ref[ref_index];
116     uint8_t * const * const src= c->src[src_index];
117     int d;
118     //FIXME check chroma 4mv, (no crashes ...)
119     if(flags&FLAG_DIRECT){
120         if(x >= c->xmin && hx <= c->xmax<<(qpel+1) && y >= c->ymin && hy <= c->ymax<<(qpel+1)){
121             const int time_pp= s->pp_time;
122             const int time_pb= s->pb_time;
123             const int mask= 2*qpel+1;
124             if(s->mv_type==MV_TYPE_8X8){
125                 int i;
126                 for(i=0; i<4; i++){
127                     int fx = c->direct_basis_mv[i][0] + hx;
128                     int fy = c->direct_basis_mv[i][1] + hy;
129                     int bx = hx ? fx - c->co_located_mv[i][0] : c->co_located_mv[i][0]*(time_pb - time_pp)/time_pp + ((i &1)<<(qpel+4));
130                     int by = hy ? fy - c->co_located_mv[i][1] : c->co_located_mv[i][1]*(time_pb - time_pp)/time_pp + ((i>>1)<<(qpel+4));
131                     int fxy= (fx&mask) + ((fy&mask)<<(qpel+1));
132                     int bxy= (bx&mask) + ((by&mask)<<(qpel+1));
133         
134                     uint8_t *dst= c->temp + 8*(i&1) + 8*stride*(i>>1);
135                     if(qpel){
136                         c->qpel_put[1][fxy](dst, ref[0] + (fx>>2) + (fy>>2)*stride, stride);
137                         c->qpel_avg[1][bxy](dst, ref[8] + (bx>>2) + (by>>2)*stride, stride);
138                     }else{
139                         c->hpel_put[1][fxy](dst, ref[0] + (fx>>1) + (fy>>1)*stride, stride, 8);
140                         c->hpel_avg[1][bxy](dst, ref[8] + (bx>>1) + (by>>1)*stride, stride, 8);
141                     }
142                 }
143             }else{
144                 int fx = c->direct_basis_mv[0][0] + hx;
145                 int fy = c->direct_basis_mv[0][1] + hy;
146                 int bx = hx ? fx - c->co_located_mv[0][0] : (c->co_located_mv[0][0]*(time_pb - time_pp)/time_pp);
147                 int by = hy ? fy - c->co_located_mv[0][1] : (c->co_located_mv[0][1]*(time_pb - time_pp)/time_pp);
148                 int fxy= (fx&mask) + ((fy&mask)<<(qpel+1));
149                 int bxy= (bx&mask) + ((by&mask)<<(qpel+1));
150                 
151                 if(qpel){
152                     c->qpel_put[1][fxy](c->temp               , ref[0] + (fx>>2) + (fy>>2)*stride               , stride);
153                     c->qpel_put[1][fxy](c->temp + 8           , ref[0] + (fx>>2) + (fy>>2)*stride + 8           , stride);
154                     c->qpel_put[1][fxy](c->temp     + 8*stride, ref[0] + (fx>>2) + (fy>>2)*stride     + 8*stride, stride);
155                     c->qpel_put[1][fxy](c->temp + 8 + 8*stride, ref[0] + (fx>>2) + (fy>>2)*stride + 8 + 8*stride, stride);
156                     c->qpel_avg[1][bxy](c->temp               , ref[8] + (bx>>2) + (by>>2)*stride               , stride);
157                     c->qpel_avg[1][bxy](c->temp + 8           , ref[8] + (bx>>2) + (by>>2)*stride + 8           , stride);
158                     c->qpel_avg[1][bxy](c->temp     + 8*stride, ref[8] + (bx>>2) + (by>>2)*stride     + 8*stride, stride);
159                     c->qpel_avg[1][bxy](c->temp + 8 + 8*stride, ref[8] + (bx>>2) + (by>>2)*stride + 8 + 8*stride, stride);
160                 }else{            
161                     assert((fx>>1) + 16*s->mb_x >= -16);
162                     assert((fy>>1) + 16*s->mb_y >= -16);
163                     assert((fx>>1) + 16*s->mb_x <= s->width);
164                     assert((fy>>1) + 16*s->mb_y <= s->height);
165                     assert((bx>>1) + 16*s->mb_x >= -16);
166                     assert((by>>1) + 16*s->mb_y >= -16);
167                     assert((bx>>1) + 16*s->mb_x <= s->width);
168                     assert((by>>1) + 16*s->mb_y <= s->height);
169
170                     c->hpel_put[0][fxy](c->temp, ref[0] + (fx>>1) + (fy>>1)*stride, stride, 16);
171                     c->hpel_avg[0][bxy](c->temp, ref[8] + (bx>>1) + (by>>1)*stride, stride, 16);
172                 }
173             }
174             d = cmp_func(s, c->temp, src[0], stride, 16);
175         }else
176             d= 256*256*256*32;
177     }else{
178         int uvdxy;
179         if(dxy){
180             if(qpel){
181                 c->qpel_put[size][dxy](c->temp, ref[0] + x + y*stride, stride); //FIXME prototype (add h)
182                 if(chroma){
183                     int cx= hx/2;
184                     int cy= hy/2;
185                     cx= (cx>>1)|(cx&1);
186                     cy= (cy>>1)|(cy&1);
187                     uvdxy= (cx&1) + 2*(cy&1);
188                     //FIXME x/y wrong, but mpeg4 qpel is sick anyway, we should drop as much of it as possible in favor for h264
189                 }
190             }else{
191                 c->hpel_put[size][dxy](c->temp, ref[0] + x + y*stride, stride, h);
192                 if(chroma)
193                     uvdxy= dxy | (x&1) | (2*(y&1));
194             }
195             d = cmp_func(s, c->temp, src[0], stride, h); 
196         }else{
197             d = cmp_func(s, src[0], ref[0] + x + y*stride, stride, h); 
198             if(chroma)
199                 uvdxy= (x&1) + 2*(y&1);
200         }
201         if(chroma){
202             uint8_t * const uvtemp= c->temp + 16*stride;
203             c->hpel_put[size+1][uvdxy](uvtemp  , ref[1] + (x>>1) + (y>>1)*uvstride, uvstride, h>>1);
204             c->hpel_put[size+1][uvdxy](uvtemp+8, ref[2] + (x>>1) + (y>>1)*uvstride, uvstride, h>>1);
205             d += chroma_cmp_func(s, uvtemp  , src[1], uvstride, h>>1); 
206             d += chroma_cmp_func(s, uvtemp+8, src[2], uvstride, h>>1); 
207         }
208     }
209 #if 0
210     if(full_pel){
211         const int index= (((y)<<ME_MAP_SHIFT) + (x))&(ME_MAP_SIZE-1);
212         score_map[index]= d;
213     }
214
215     d += (c->mv_penalty[hx - c->pred_x] + c->mv_penalty[hy - c->pred_y])*c->penalty_factor;
216 #endif
217     return d;
218 }
219
220 #include "motion_est_template.c"
221
222 static int zero_cmp(void *s, uint8_t *a, uint8_t *b, int stride, int h){
223     return 0;
224 }
225
226 static void zero_hpel(uint8_t *a, const uint8_t *b, int stride, int h){
227 }
228
229 void ff_init_me(MpegEncContext *s){
230     MotionEstContext * const c= &s->me;
231     c->avctx= s->avctx;
232
233     ff_set_cmp(&s->dsp, s->dsp.me_pre_cmp, c->avctx->me_pre_cmp);
234     ff_set_cmp(&s->dsp, s->dsp.me_cmp, c->avctx->me_cmp);
235     ff_set_cmp(&s->dsp, s->dsp.me_sub_cmp, c->avctx->me_sub_cmp);
236     ff_set_cmp(&s->dsp, s->dsp.mb_cmp, c->avctx->mb_cmp);
237     
238     c->flags    = get_flags(c, 0, c->avctx->me_cmp    &FF_CMP_CHROMA);
239     c->sub_flags= get_flags(c, 0, c->avctx->me_sub_cmp&FF_CMP_CHROMA);
240     c->mb_flags = get_flags(c, 0, c->avctx->mb_cmp    &FF_CMP_CHROMA);
241
242 /*FIXME s->no_rounding b_type*/
243     if(s->flags&CODEC_FLAG_QPEL){
244         c->sub_motion_search= qpel_motion_search;
245         c->qpel_avg= s->dsp.avg_qpel_pixels_tab;
246         if(s->no_rounding) c->qpel_put= s->dsp.put_no_rnd_qpel_pixels_tab;
247         else               c->qpel_put= s->dsp.put_qpel_pixels_tab;
248     }else{
249         if(c->avctx->me_sub_cmp&FF_CMP_CHROMA)
250             c->sub_motion_search= hpel_motion_search;
251         else if(   c->avctx->me_sub_cmp == FF_CMP_SAD 
252                 && c->avctx->    me_cmp == FF_CMP_SAD 
253                 && c->avctx->    mb_cmp == FF_CMP_SAD)
254             c->sub_motion_search= sad_hpel_motion_search; // 2050 vs. 2450 cycles
255         else
256             c->sub_motion_search= hpel_motion_search;
257     }
258     c->hpel_avg= s->dsp.avg_pixels_tab;
259     if(s->no_rounding) c->hpel_put= s->dsp.put_no_rnd_pixels_tab;
260     else               c->hpel_put= s->dsp.put_pixels_tab;
261
262     if(s->linesize){
263         c->stride  = s->linesize; 
264         c->uvstride= s->uvlinesize;
265     }else{
266         c->stride  = 16*s->mb_width + 32;
267         c->uvstride=  8*s->mb_width + 16;
268     }
269
270     // 8x8 fullpel search would need a 4x4 chroma compare, which we dont have yet, and even if we had the motion estimation code doesnt expect it
271     if((c->avctx->me_cmp&FF_CMP_CHROMA) && !s->dsp.me_cmp[2]){
272         s->dsp.me_cmp[2]= zero_cmp;
273     }
274     if((c->avctx->me_sub_cmp&FF_CMP_CHROMA) && !s->dsp.me_sub_cmp[2]){
275         s->dsp.me_sub_cmp[2]= zero_cmp;
276     }
277     c->hpel_put[2][0]= c->hpel_put[2][1]=
278     c->hpel_put[2][2]= c->hpel_put[2][3]= zero_hpel;
279
280     c->temp= c->scratchpad;
281 }
282       
283 #if 0
284 static int pix_dev(uint8_t * pix, int line_size, int mean)
285 {
286     int s, i, j;
287
288     s = 0;
289     for (i = 0; i < 16; i++) {
290         for (j = 0; j < 16; j += 8) {
291             s += ABS(pix[0]-mean);
292             s += ABS(pix[1]-mean);
293             s += ABS(pix[2]-mean);
294             s += ABS(pix[3]-mean);
295             s += ABS(pix[4]-mean);
296             s += ABS(pix[5]-mean);
297             s += ABS(pix[6]-mean);
298             s += ABS(pix[7]-mean);
299             pix += 8;
300         }
301         pix += line_size - 16;
302     }
303     return s;
304 }
305 #endif
306
307 static inline void no_motion_search(MpegEncContext * s,
308                                     int *mx_ptr, int *my_ptr)
309 {
310     *mx_ptr = 16 * s->mb_x;
311     *my_ptr = 16 * s->mb_y;
312 }
313
314 static int full_motion_search(MpegEncContext * s,
315                               int *mx_ptr, int *my_ptr, int range,
316                               int xmin, int ymin, int xmax, int ymax, uint8_t *ref_picture)
317 {
318     int x1, y1, x2, y2, xx, yy, x, y;
319     int mx, my, dmin, d;
320     uint8_t *pix;
321
322     xx = 16 * s->mb_x;
323     yy = 16 * s->mb_y;
324     x1 = xx - range + 1;        /* we loose one pixel to avoid boundary pb with half pixel pred */
325     if (x1 < xmin)
326         x1 = xmin;
327     x2 = xx + range - 1;
328     if (x2 > xmax)
329         x2 = xmax;
330     y1 = yy - range + 1;
331     if (y1 < ymin)
332         y1 = ymin;
333     y2 = yy + range - 1;
334     if (y2 > ymax)
335         y2 = ymax;
336     pix = s->new_picture.data[0] + (yy * s->linesize) + xx;
337     dmin = 0x7fffffff;
338     mx = 0;
339     my = 0;
340     for (y = y1; y <= y2; y++) {
341         for (x = x1; x <= x2; x++) {
342             d = s->dsp.pix_abs[0][0](NULL, pix, ref_picture + (y * s->linesize) + x,
343                              s->linesize, 16);
344             if (d < dmin ||
345                 (d == dmin &&
346                  (abs(x - xx) + abs(y - yy)) <
347                  (abs(mx - xx) + abs(my - yy)))) {
348                 dmin = d;
349                 mx = x;
350                 my = y;
351             }
352         }
353     }
354
355     *mx_ptr = mx;
356     *my_ptr = my;
357
358 #if 0
359     if (*mx_ptr < -(2 * range) || *mx_ptr >= (2 * range) ||
360         *my_ptr < -(2 * range) || *my_ptr >= (2 * range)) {
361         fprintf(stderr, "error %d %d\n", *mx_ptr, *my_ptr);
362     }
363 #endif
364     return dmin;
365 }
366
367
368 static int log_motion_search(MpegEncContext * s,
369                              int *mx_ptr, int *my_ptr, int range,
370                              int xmin, int ymin, int xmax, int ymax, uint8_t *ref_picture)
371 {
372     int x1, y1, x2, y2, xx, yy, x, y;
373     int mx, my, dmin, d;
374     uint8_t *pix;
375
376     xx = s->mb_x << 4;
377     yy = s->mb_y << 4;
378
379     /* Left limit */
380     x1 = xx - range;
381     if (x1 < xmin)
382         x1 = xmin;
383
384     /* Right limit */
385     x2 = xx + range;
386     if (x2 > xmax)
387         x2 = xmax;
388
389     /* Upper limit */
390     y1 = yy - range;
391     if (y1 < ymin)
392         y1 = ymin;
393
394     /* Lower limit */
395     y2 = yy + range;
396     if (y2 > ymax)
397         y2 = ymax;
398
399     pix = s->new_picture.data[0] + (yy * s->linesize) + xx;
400     dmin = 0x7fffffff;
401     mx = 0;
402     my = 0;
403
404     do {
405         for (y = y1; y <= y2; y += range) {
406             for (x = x1; x <= x2; x += range) {
407                 d = s->dsp.pix_abs[0][0](NULL, pix, ref_picture + (y * s->linesize) + x, s->linesize, 16);
408                 if (d < dmin || (d == dmin && (abs(x - xx) + abs(y - yy)) < (abs(mx - xx) + abs(my - yy)))) {
409                     dmin = d;
410                     mx = x;
411                     my = y;
412                 }
413             }
414         }
415
416         range = range >> 1;
417
418         x1 = mx - range;
419         if (x1 < xmin)
420             x1 = xmin;
421
422         x2 = mx + range;
423         if (x2 > xmax)
424             x2 = xmax;
425
426         y1 = my - range;
427         if (y1 < ymin)
428             y1 = ymin;
429
430         y2 = my + range;
431         if (y2 > ymax)
432             y2 = ymax;
433
434     } while (range >= 1);
435
436 #ifdef DEBUG
437     fprintf(stderr, "log       - MX: %d\tMY: %d\n", mx, my);
438 #endif
439     *mx_ptr = mx;
440     *my_ptr = my;
441     return dmin;
442 }
443
444 static int phods_motion_search(MpegEncContext * s,
445                                int *mx_ptr, int *my_ptr, int range,
446                                int xmin, int ymin, int xmax, int ymax, uint8_t *ref_picture)
447 {
448     int x1, y1, x2, y2, xx, yy, x, y, lastx, d;
449     int mx, my, dminx, dminy;
450     uint8_t *pix;
451
452     xx = s->mb_x << 4;
453     yy = s->mb_y << 4;
454
455     /* Left limit */
456     x1 = xx - range;
457     if (x1 < xmin)
458         x1 = xmin;
459
460     /* Right limit */
461     x2 = xx + range;
462     if (x2 > xmax)
463         x2 = xmax;
464
465     /* Upper limit */
466     y1 = yy - range;
467     if (y1 < ymin)
468         y1 = ymin;
469
470     /* Lower limit */
471     y2 = yy + range;
472     if (y2 > ymax)
473         y2 = ymax;
474
475     pix = s->new_picture.data[0] + (yy * s->linesize) + xx;
476     mx = 0;
477     my = 0;
478
479     x = xx;
480     y = yy;
481     do {
482         dminx = 0x7fffffff;
483         dminy = 0x7fffffff;
484
485         lastx = x;
486         for (x = x1; x <= x2; x += range) {
487             d = s->dsp.pix_abs[0][0](NULL, pix, ref_picture + (y * s->linesize) + x, s->linesize, 16);
488             if (d < dminx || (d == dminx && (abs(x - xx) + abs(y - yy)) < (abs(mx - xx) + abs(my - yy)))) {
489                 dminx = d;
490                 mx = x;
491             }
492         }
493
494         x = lastx;
495         for (y = y1; y <= y2; y += range) {
496             d = s->dsp.pix_abs[0][0](NULL, pix, ref_picture + (y * s->linesize) + x, s->linesize, 16);
497             if (d < dminy || (d == dminy && (abs(x - xx) + abs(y - yy)) < (abs(mx - xx) + abs(my - yy)))) {
498                 dminy = d;
499                 my = y;
500             }
501         }
502
503         range = range >> 1;
504
505         x = mx;
506         y = my;
507         x1 = mx - range;
508         if (x1 < xmin)
509             x1 = xmin;
510
511         x2 = mx + range;
512         if (x2 > xmax)
513             x2 = xmax;
514
515         y1 = my - range;
516         if (y1 < ymin)
517             y1 = ymin;
518
519         y2 = my + range;
520         if (y2 > ymax)
521             y2 = ymax;
522
523     } while (range >= 1);
524
525 #ifdef DEBUG
526     fprintf(stderr, "phods     - MX: %d\tMY: %d\n", mx, my);
527 #endif
528
529     /* half pixel search */
530     *mx_ptr = mx;
531     *my_ptr = my;
532     return dminy;
533 }
534
535
536 #define Z_THRESHOLD 256
537
538 #define CHECK_SAD_HALF_MV(suffix, x, y) \
539 {\
540     d= s->dsp.pix_abs[size][(x?1:0)+(y?2:0)](NULL, pix, ptr+((x)>>1), stride, h);\
541     d += (mv_penalty[pen_x + x] + mv_penalty[pen_y + y])*penalty_factor;\
542     COPY3_IF_LT(dminh, d, dx, x, dy, y)\
543 }
544
545 static inline int sad_hpel_motion_search(MpegEncContext * s,
546                                   int *mx_ptr, int *my_ptr, int dmin,
547                                   int src_index, int ref_index,
548                                   int size, int h)
549 {
550     MotionEstContext * const c= &s->me;
551     const int penalty_factor= c->sub_penalty_factor;
552     int mx, my, dminh;
553     uint8_t *pix, *ptr;
554     int stride= c->stride;
555     const int flags= c->sub_flags;
556     LOAD_COMMON
557     
558     assert(flags == 0);
559
560     if(c->skip){
561 //    printf("S");
562         *mx_ptr = 0;
563         *my_ptr = 0;
564         return dmin;
565     }
566 //    printf("N");
567         
568     pix = c->src[src_index][0];
569
570     mx = *mx_ptr;
571     my = *my_ptr;
572     ptr = c->ref[ref_index][0] + (my * stride) + mx;
573     
574     dminh = dmin;
575
576     if (mx > xmin && mx < xmax && 
577         my > ymin && my < ymax) {
578         int dx=0, dy=0;
579         int d, pen_x, pen_y; 
580         const int index= (my<<ME_MAP_SHIFT) + mx;
581         const int t= score_map[(index-(1<<ME_MAP_SHIFT))&(ME_MAP_SIZE-1)];
582         const int l= score_map[(index- 1               )&(ME_MAP_SIZE-1)];
583         const int r= score_map[(index+ 1               )&(ME_MAP_SIZE-1)];
584         const int b= score_map[(index+(1<<ME_MAP_SHIFT))&(ME_MAP_SIZE-1)];
585         mx<<=1;
586         my<<=1;
587
588         
589         pen_x= pred_x + mx;
590         pen_y= pred_y + my;
591
592         ptr-= stride;
593         if(t<=b){
594             CHECK_SAD_HALF_MV(y2 , 0, -1)
595             if(l<=r){
596                 CHECK_SAD_HALF_MV(xy2, -1, -1)
597                 if(t+r<=b+l){
598                     CHECK_SAD_HALF_MV(xy2, +1, -1)
599                     ptr+= stride;
600                 }else{
601                     ptr+= stride;
602                     CHECK_SAD_HALF_MV(xy2, -1, +1)
603                 }
604                 CHECK_SAD_HALF_MV(x2 , -1,  0)
605             }else{
606                 CHECK_SAD_HALF_MV(xy2, +1, -1)
607                 if(t+l<=b+r){
608                     CHECK_SAD_HALF_MV(xy2, -1, -1)
609                     ptr+= stride;
610                 }else{
611                     ptr+= stride;
612                     CHECK_SAD_HALF_MV(xy2, +1, +1)
613                 }
614                 CHECK_SAD_HALF_MV(x2 , +1,  0)
615             }
616         }else{
617             if(l<=r){
618                 if(t+l<=b+r){
619                     CHECK_SAD_HALF_MV(xy2, -1, -1)
620                     ptr+= stride;
621                 }else{
622                     ptr+= stride;
623                     CHECK_SAD_HALF_MV(xy2, +1, +1)
624                 }
625                 CHECK_SAD_HALF_MV(x2 , -1,  0)
626                 CHECK_SAD_HALF_MV(xy2, -1, +1)
627             }else{
628                 if(t+r<=b+l){
629                     CHECK_SAD_HALF_MV(xy2, +1, -1)
630                     ptr+= stride;
631                 }else{
632                     ptr+= stride;
633                     CHECK_SAD_HALF_MV(xy2, -1, +1)
634                 }
635                 CHECK_SAD_HALF_MV(x2 , +1,  0)
636                 CHECK_SAD_HALF_MV(xy2, +1, +1)
637             }
638             CHECK_SAD_HALF_MV(y2 ,  0, +1)
639         }
640         mx+=dx;
641         my+=dy;
642
643     }else{
644         mx<<=1;
645         my<<=1;
646     }
647
648     *mx_ptr = mx;
649     *my_ptr = my;
650     return dminh;
651 }
652
653 static inline void set_p_mv_tables(MpegEncContext * s, int mx, int my, int mv4)
654 {
655     const int xy= s->mb_x + s->mb_y*s->mb_stride;
656     
657     s->p_mv_table[xy][0] = mx;
658     s->p_mv_table[xy][1] = my;
659
660     /* has allready been set to the 4 MV if 4MV is done */
661     if(mv4){
662         int mot_xy= s->block_index[0];
663
664         s->current_picture.motion_val[0][mot_xy  ][0]= mx;
665         s->current_picture.motion_val[0][mot_xy  ][1]= my;
666         s->current_picture.motion_val[0][mot_xy+1][0]= mx;
667         s->current_picture.motion_val[0][mot_xy+1][1]= my;
668
669         mot_xy += s->b8_stride;
670         s->current_picture.motion_val[0][mot_xy  ][0]= mx;
671         s->current_picture.motion_val[0][mot_xy  ][1]= my;
672         s->current_picture.motion_val[0][mot_xy+1][0]= mx;
673         s->current_picture.motion_val[0][mot_xy+1][1]= my;
674     }
675 }
676
677 /**
678  * get fullpel ME search limits.
679  */
680 static inline void get_limits(MpegEncContext *s, int x, int y)
681 {
682     MotionEstContext * const c= &s->me;
683 /*
684     if(c->avctx->me_range) c->range= c->avctx->me_range >> 1;
685     else                   c->range= 16;
686 */
687     if (s->unrestricted_mv) {
688         c->xmin = - x - 16;
689         c->ymin = - y - 16;
690         c->xmax = - x + s->mb_width *16;
691         c->ymax = - y + s->mb_height*16;
692     } else {
693         c->xmin = - x;
694         c->ymin = - y;
695         c->xmax = - x + s->mb_width *16 - 16;
696         c->ymax = - y + s->mb_height*16 - 16;
697     }
698 }
699
700 static inline void init_mv4_ref(MotionEstContext *c){
701     const int stride= c->stride;
702
703     c->ref[1][0] = c->ref[0][0] + 8;
704     c->ref[2][0] = c->ref[0][0] + 8*stride;
705     c->ref[3][0] = c->ref[2][0] + 8;
706     c->src[1][0] = c->src[0][0] + 8;
707     c->src[2][0] = c->src[0][0] + 8*stride;
708     c->src[3][0] = c->src[2][0] + 8;
709 }
710
711 static inline int h263_mv4_search(MpegEncContext *s, int mx, int my, int shift)
712 {
713     MotionEstContext * const c= &s->me;
714     const int size= 1;
715     const int h=8;
716     int block;
717     int P[10][2];
718     int dmin_sum=0, mx4_sum=0, my4_sum=0;
719     int same=1;
720     const int stride= c->stride;
721     const int uvstride= c->uvstride;
722     uint8_t *mv_penalty= c->current_mv_penalty;
723
724     init_mv4_ref(c);
725     
726     for(block=0; block<4; block++){
727         int mx4, my4;
728         int pred_x4, pred_y4;
729         int dmin4;
730         static const int off[4]= {2, 1, 1, -1};
731         const int mot_stride = s->b8_stride;
732         const int mot_xy = s->block_index[block];
733
734         P_LEFT[0] = s->current_picture.motion_val[0][mot_xy - 1][0];
735         P_LEFT[1] = s->current_picture.motion_val[0][mot_xy - 1][1];
736
737         if(P_LEFT[0]       > (c->xmax<<shift)) P_LEFT[0]       = (c->xmax<<shift);
738
739         /* special case for first line */
740         if (s->first_slice_line && block<2) {
741             c->pred_x= pred_x4= P_LEFT[0];
742             c->pred_y= pred_y4= P_LEFT[1];
743         } else {
744             P_TOP[0]      = s->current_picture.motion_val[0][mot_xy - mot_stride             ][0];
745             P_TOP[1]      = s->current_picture.motion_val[0][mot_xy - mot_stride             ][1];
746             P_TOPRIGHT[0] = s->current_picture.motion_val[0][mot_xy - mot_stride + off[block]][0];
747             P_TOPRIGHT[1] = s->current_picture.motion_val[0][mot_xy - mot_stride + off[block]][1];
748             if(P_TOP[1]      > (c->ymax<<shift)) P_TOP[1]     = (c->ymax<<shift);
749             if(P_TOPRIGHT[0] < (c->xmin<<shift)) P_TOPRIGHT[0]= (c->xmin<<shift);
750             if(P_TOPRIGHT[0] > (c->xmax<<shift)) P_TOPRIGHT[0]= (c->xmax<<shift);
751             if(P_TOPRIGHT[1] > (c->ymax<<shift)) P_TOPRIGHT[1]= (c->ymax<<shift);
752     
753             P_MEDIAN[0]= mid_pred(P_LEFT[0], P_TOP[0], P_TOPRIGHT[0]);
754             P_MEDIAN[1]= mid_pred(P_LEFT[1], P_TOP[1], P_TOPRIGHT[1]);
755
756             c->pred_x= pred_x4 = P_MEDIAN[0];
757             c->pred_y= pred_y4 = P_MEDIAN[1];
758         }
759         P_MV1[0]= mx;
760         P_MV1[1]= my;
761
762         dmin4 = epzs_motion_search4(s, &mx4, &my4, P, block, block, s->p_mv_table, (1<<16)>>shift);
763
764         dmin4= c->sub_motion_search(s, &mx4, &my4, dmin4, block, block, size, h);
765         
766         if(s->dsp.me_sub_cmp[0] != s->dsp.mb_cmp[0]){
767             int dxy;
768             const int offset= ((block&1) + (block>>1)*stride)*8;
769             uint8_t *dest_y = c->scratchpad + offset;
770             if(s->quarter_sample){
771                 uint8_t *ref= c->ref[block][0] + (mx4>>2) + (my4>>2)*stride;
772                 dxy = ((my4 & 3) << 2) | (mx4 & 3);
773
774                 if(s->no_rounding)
775                     s->dsp.put_no_rnd_qpel_pixels_tab[1][dxy](dest_y   , ref    , stride);
776                 else
777                     s->dsp.put_qpel_pixels_tab       [1][dxy](dest_y   , ref    , stride);
778             }else{
779                 uint8_t *ref= c->ref[block][0] + (mx4>>1) + (my4>>1)*stride;
780                 dxy = ((my4 & 1) << 1) | (mx4 & 1);
781
782                 if(s->no_rounding)
783                     s->dsp.put_no_rnd_pixels_tab[1][dxy](dest_y    , ref    , stride, h);
784                 else
785                     s->dsp.put_pixels_tab       [1][dxy](dest_y    , ref    , stride, h);
786             }
787             dmin_sum+= (mv_penalty[mx4-pred_x4] + mv_penalty[my4-pred_y4])*c->mb_penalty_factor;
788         }else
789             dmin_sum+= dmin4;
790
791         if(s->quarter_sample){
792             mx4_sum+= mx4/2;
793             my4_sum+= my4/2;
794         }else{
795             mx4_sum+= mx4;
796             my4_sum+= my4;
797         }
798             
799         s->current_picture.motion_val[0][ s->block_index[block] ][0]= mx4;
800         s->current_picture.motion_val[0][ s->block_index[block] ][1]= my4;
801
802         if(mx4 != mx || my4 != my) same=0;
803     }
804     
805     if(same)
806         return INT_MAX;
807     
808     if(s->dsp.me_sub_cmp[0] != s->dsp.mb_cmp[0]){
809         dmin_sum += s->dsp.mb_cmp[0](s, s->new_picture.data[0] + s->mb_x*16 + s->mb_y*16*stride, c->scratchpad, stride, 16);
810     }
811     
812     if(c->avctx->mb_cmp&FF_CMP_CHROMA){
813         int dxy;
814         int mx, my;
815         int offset;
816
817         mx= ff_h263_round_chroma(mx4_sum);
818         my= ff_h263_round_chroma(my4_sum);
819         dxy = ((my & 1) << 1) | (mx & 1);
820         
821         offset= (s->mb_x*8 + (mx>>1)) + (s->mb_y*8 + (my>>1))*s->uvlinesize;
822        
823         if(s->no_rounding){
824             s->dsp.put_no_rnd_pixels_tab[1][dxy](c->scratchpad    , s->last_picture.data[1] + offset, s->uvlinesize, 8);
825             s->dsp.put_no_rnd_pixels_tab[1][dxy](c->scratchpad+8  , s->last_picture.data[2] + offset, s->uvlinesize, 8);
826         }else{
827             s->dsp.put_pixels_tab       [1][dxy](c->scratchpad    , s->last_picture.data[1] + offset, s->uvlinesize, 8);
828             s->dsp.put_pixels_tab       [1][dxy](c->scratchpad+8  , s->last_picture.data[2] + offset, s->uvlinesize, 8);
829         }
830
831         dmin_sum += s->dsp.mb_cmp[1](s, s->new_picture.data[1] + s->mb_x*8 + s->mb_y*8*s->uvlinesize, c->scratchpad  , s->uvlinesize, 8);
832         dmin_sum += s->dsp.mb_cmp[1](s, s->new_picture.data[2] + s->mb_x*8 + s->mb_y*8*s->uvlinesize, c->scratchpad+8, s->uvlinesize, 8);
833     }
834     
835     c->pred_x= mx;
836     c->pred_y= my;
837
838     switch(c->avctx->mb_cmp&0xFF){
839     /*case FF_CMP_SSE:
840         return dmin_sum+ 32*s->qscale*s->qscale;*/
841     case FF_CMP_RD:
842         return dmin_sum;
843     default:
844         return dmin_sum+ 11*c->mb_penalty_factor;
845     }
846 }
847
848 static inline void init_interlaced_ref(MpegEncContext *s, int ref_index){
849     MotionEstContext * const c= &s->me;
850
851     c->ref[1+ref_index][0] = c->ref[0+ref_index][0] + s->linesize;
852     c->src[1][0] = c->src[0][0] + s->linesize;
853     if(c->flags & FLAG_CHROMA){
854         c->ref[1+ref_index][1] = c->ref[0+ref_index][1] + s->uvlinesize;
855         c->ref[1+ref_index][2] = c->ref[0+ref_index][2] + s->uvlinesize;
856         c->src[1][1] = c->src[0][1] + s->uvlinesize;
857         c->src[1][2] = c->src[0][2] + s->uvlinesize;
858     }
859 }
860
861 static int interlaced_search(MpegEncContext *s, int ref_index, 
862                              int16_t (*mv_tables[2][2])[2], uint8_t *field_select_tables[2], int mx, int my, int user_field_select)
863 {
864     MotionEstContext * const c= &s->me;
865     const int size=0;
866     const int h=8;
867     int block;
868     int P[10][2];
869     uint8_t * const mv_penalty= c->current_mv_penalty;
870     int same=1;
871     const int stride= 2*s->linesize;
872     const int uvstride= 2*s->uvlinesize;
873     int dmin_sum= 0;
874     const int mot_stride= s->mb_stride;
875     const int xy= s->mb_x + s->mb_y*mot_stride;
876     
877     c->ymin>>=1;
878     c->ymax>>=1;
879     c->stride<<=1;
880     c->uvstride<<=1;
881     init_interlaced_ref(s, ref_index);
882     
883     for(block=0; block<2; block++){
884         int field_select;
885         int best_dmin= INT_MAX;
886         int best_field= -1;
887
888         for(field_select=0; field_select<2; field_select++){
889             int dmin, mx_i, my_i;
890             int16_t (*mv_table)[2]= mv_tables[block][field_select];
891             
892             if(user_field_select){
893                 if(field_select_tables[block][xy] != field_select)
894                     continue;
895             }
896             
897             P_LEFT[0] = mv_table[xy - 1][0];
898             P_LEFT[1] = mv_table[xy - 1][1];
899             if(P_LEFT[0]       > (c->xmax<<1)) P_LEFT[0]       = (c->xmax<<1);
900             
901             c->pred_x= P_LEFT[0];
902             c->pred_y= P_LEFT[1];
903             
904             if(!s->first_slice_line){
905                 P_TOP[0]      = mv_table[xy - mot_stride][0];
906                 P_TOP[1]      = mv_table[xy - mot_stride][1];
907                 P_TOPRIGHT[0] = mv_table[xy - mot_stride + 1][0];
908                 P_TOPRIGHT[1] = mv_table[xy - mot_stride + 1][1];
909                 if(P_TOP[1]      > (c->ymax<<1)) P_TOP[1]     = (c->ymax<<1);
910                 if(P_TOPRIGHT[0] < (c->xmin<<1)) P_TOPRIGHT[0]= (c->xmin<<1);
911                 if(P_TOPRIGHT[0] > (c->xmax<<1)) P_TOPRIGHT[0]= (c->xmax<<1);
912                 if(P_TOPRIGHT[1] > (c->ymax<<1)) P_TOPRIGHT[1]= (c->ymax<<1);
913     
914                 P_MEDIAN[0]= mid_pred(P_LEFT[0], P_TOP[0], P_TOPRIGHT[0]);
915                 P_MEDIAN[1]= mid_pred(P_LEFT[1], P_TOP[1], P_TOPRIGHT[1]);
916             }
917             P_MV1[0]= mx; //FIXME not correct if block != field_select
918             P_MV1[1]= my / 2;
919             
920             dmin = epzs_motion_search2(s, &mx_i, &my_i, P, block, field_select+ref_index, mv_table, (1<<16)>>1);
921
922             dmin= c->sub_motion_search(s, &mx_i, &my_i, dmin, block, field_select+ref_index, size, h);
923             
924             mv_table[xy][0]= mx_i;
925             mv_table[xy][1]= my_i;
926             
927             if(s->dsp.me_sub_cmp[0] != s->dsp.mb_cmp[0]){
928                 int dxy;
929
930                 //FIXME chroma ME
931                 uint8_t *ref= c->ref[field_select+ref_index][0] + (mx_i>>1) + (my_i>>1)*stride;
932                 dxy = ((my_i & 1) << 1) | (mx_i & 1);
933
934                 if(s->no_rounding){
935                     s->dsp.put_no_rnd_pixels_tab[size][dxy](c->scratchpad, ref    , stride, h);
936                 }else{
937                     s->dsp.put_pixels_tab       [size][dxy](c->scratchpad, ref    , stride, h);
938                 }
939                 dmin= s->dsp.mb_cmp[size](s, c->src[block][0], c->scratchpad, stride, h);
940                 dmin+= (mv_penalty[mx_i-c->pred_x] + mv_penalty[my_i-c->pred_y] + 1)*c->mb_penalty_factor;
941             }else
942                 dmin+= c->mb_penalty_factor; //field_select bits
943                 
944             dmin += field_select != block; //slightly prefer same field
945             
946             if(dmin < best_dmin){
947                 best_dmin= dmin;
948                 best_field= field_select;
949             }
950         }
951         {
952             int16_t (*mv_table)[2]= mv_tables[block][best_field];
953
954             if(mv_table[xy][0] != mx) same=0; //FIXME check if these checks work and are any good at all
955             if(mv_table[xy][1]&1) same=0;
956             if(mv_table[xy][1]*2 != my) same=0; 
957             if(best_field != block) same=0;
958         }
959
960         field_select_tables[block][xy]= best_field;
961         dmin_sum += best_dmin;
962     }
963     
964     c->ymin<<=1;
965     c->ymax<<=1;
966     c->stride>>=1;
967     c->uvstride>>=1;
968
969     if(same)
970         return INT_MAX;
971     
972     switch(c->avctx->mb_cmp&0xFF){
973     /*case FF_CMP_SSE:
974         return dmin_sum+ 32*s->qscale*s->qscale;*/
975     case FF_CMP_RD:
976         return dmin_sum;
977     default:
978         return dmin_sum+ 11*c->mb_penalty_factor;
979     }
980 }
981
982 static void clip_input_mv(MpegEncContext * s, int16_t *mv, int interlaced){
983     int ymax= s->me.ymax>>interlaced;
984     int ymin= s->me.ymin>>interlaced;
985     
986     if(mv[0] < s->me.xmin) mv[0] = s->me.xmin;
987     if(mv[0] > s->me.xmax) mv[0] = s->me.xmax;
988     if(mv[1] <       ymin) mv[1] =       ymin;
989     if(mv[1] >       ymax) mv[1] =       ymax;
990 }
991
992 static inline int check_input_motion(MpegEncContext * s, int mb_x, int mb_y, int p_type){
993     MotionEstContext * const c= &s->me;
994     Picture *p= s->current_picture_ptr;
995     int mb_xy= mb_x + mb_y*s->mb_stride;
996     int xy= 2*mb_x + 2*mb_y*s->b8_stride;
997     int mb_type= s->current_picture.mb_type[mb_xy];
998     int flags= c->flags;
999     int shift= (flags&FLAG_QPEL) + 1;
1000     int mask= (1<<shift)-1;
1001     int x, y, i;
1002     int d=0;
1003     me_cmp_func cmpf= s->dsp.sse[0];
1004     me_cmp_func chroma_cmpf= s->dsp.sse[1];
1005     
1006     if(p_type && USES_LIST(mb_type, 1)){
1007         av_log(c->avctx, AV_LOG_ERROR, "backward motion vector in P frame\n");
1008         return INT_MAX;
1009     }
1010     assert(IS_INTRA(mb_type) || USES_LIST(mb_type,0) || USES_LIST(mb_type,1));
1011     
1012     for(i=0; i<4; i++){
1013         int xy= s->block_index[i];
1014         clip_input_mv(s, p->motion_val[0][xy], !!IS_INTERLACED(mb_type));
1015         clip_input_mv(s, p->motion_val[1][xy], !!IS_INTERLACED(mb_type));
1016     }
1017
1018     if(IS_INTERLACED(mb_type)){
1019         int xy2= xy  + s->b8_stride;
1020         s->mb_type[mb_xy]=CANDIDATE_MB_TYPE_INTRA;
1021         c->stride<<=1;
1022         c->uvstride<<=1;
1023         
1024         if(!(s->flags & CODEC_FLAG_INTERLACED_ME)){
1025             av_log(c->avctx, AV_LOG_ERROR, "Interlaced macroblock selected but interlaced motion estimation disabled\n");
1026             return INT_MAX;
1027         }
1028
1029         if(USES_LIST(mb_type, 0)){
1030             int field_select0= p->ref_index[0][xy ];
1031             int field_select1= p->ref_index[0][xy2];
1032             assert(field_select0==0 ||field_select0==1);
1033             assert(field_select1==0 ||field_select1==1);
1034             init_interlaced_ref(s, 0);
1035
1036             if(p_type){
1037                 s->p_field_select_table[0][mb_xy]= field_select0;
1038                 s->p_field_select_table[1][mb_xy]= field_select1;
1039                 *(uint32_t*)s->p_field_mv_table[0][field_select0][mb_xy]= *(uint32_t*)p->motion_val[0][xy ];
1040                 *(uint32_t*)s->p_field_mv_table[1][field_select1][mb_xy]= *(uint32_t*)p->motion_val[0][xy2];
1041                 s->mb_type[mb_xy]=CANDIDATE_MB_TYPE_INTER_I;
1042             }else{
1043                 s->b_field_select_table[0][0][mb_xy]= field_select0;
1044                 s->b_field_select_table[0][1][mb_xy]= field_select1;
1045                 *(uint32_t*)s->b_field_mv_table[0][0][field_select0][mb_xy]= *(uint32_t*)p->motion_val[0][xy ];
1046                 *(uint32_t*)s->b_field_mv_table[0][1][field_select1][mb_xy]= *(uint32_t*)p->motion_val[0][xy2];
1047                 s->mb_type[mb_xy]= CANDIDATE_MB_TYPE_FORWARD_I;
1048             }
1049
1050             x= p->motion_val[0][xy ][0]; 
1051             y= p->motion_val[0][xy ][1];
1052             d = cmp(s, x>>shift, y>>shift, x&mask, y&mask, 0, 8, field_select0, 0, cmpf, chroma_cmpf, flags);
1053             x= p->motion_val[0][xy2][0]; 
1054             y= p->motion_val[0][xy2][1];
1055             d+= cmp(s, x>>shift, y>>shift, x&mask, y&mask, 0, 8, field_select1, 1, cmpf, chroma_cmpf, flags);
1056         }
1057         if(USES_LIST(mb_type, 1)){
1058             int field_select0= p->ref_index[1][xy ];
1059             int field_select1= p->ref_index[1][xy2];
1060             assert(field_select0==0 ||field_select0==1);
1061             assert(field_select1==0 ||field_select1==1);
1062             init_interlaced_ref(s, 2);
1063
1064             s->b_field_select_table[1][0][mb_xy]= field_select0;
1065             s->b_field_select_table[1][1][mb_xy]= field_select1;
1066             *(uint32_t*)s->b_field_mv_table[1][0][field_select0][mb_xy]= *(uint32_t*)p->motion_val[1][xy ];
1067             *(uint32_t*)s->b_field_mv_table[1][1][field_select1][mb_xy]= *(uint32_t*)p->motion_val[1][xy2];
1068             if(USES_LIST(mb_type, 0)){
1069                 s->mb_type[mb_xy]= CANDIDATE_MB_TYPE_BIDIR_I;
1070             }else{
1071                 s->mb_type[mb_xy]= CANDIDATE_MB_TYPE_BACKWARD_I;
1072             }
1073
1074             x= p->motion_val[1][xy ][0]; 
1075             y= p->motion_val[1][xy ][1];
1076             d = cmp(s, x>>shift, y>>shift, x&mask, y&mask, 0, 8, field_select0+2, 0, cmpf, chroma_cmpf, flags);
1077             x= p->motion_val[1][xy2][0]; 
1078             y= p->motion_val[1][xy2][1];
1079             d+= cmp(s, x>>shift, y>>shift, x&mask, y&mask, 0, 8, field_select1+2, 1, cmpf, chroma_cmpf, flags);
1080             //FIXME bidir scores
1081         }
1082         c->stride>>=1;
1083         c->uvstride>>=1;
1084     }else if(IS_8X8(mb_type)){
1085         if(!(s->flags & CODEC_FLAG_4MV)){
1086             av_log(c->avctx, AV_LOG_ERROR, "4MV macroblock selected but 4MV encoding disabled\n");
1087             return INT_MAX;
1088         }
1089         cmpf= s->dsp.sse[1];
1090         chroma_cmpf= s->dsp.sse[1];
1091         init_mv4_ref(c);
1092         for(i=0; i<4; i++){
1093             xy= s->block_index[i];
1094             x= p->motion_val[0][xy][0]; 
1095             y= p->motion_val[0][xy][1];
1096             d+= cmp(s, x>>shift, y>>shift, x&mask, y&mask, 1, 8, i, i, cmpf, chroma_cmpf, flags);
1097         }
1098         s->mb_type[mb_xy]=CANDIDATE_MB_TYPE_INTER4V;
1099     }else{
1100         if(USES_LIST(mb_type, 0)){
1101             if(p_type){
1102                 *(uint32_t*)s->p_mv_table[mb_xy]= *(uint32_t*)p->motion_val[0][xy];
1103                 s->mb_type[mb_xy]=CANDIDATE_MB_TYPE_INTER;
1104             }else if(USES_LIST(mb_type, 1)){
1105                 *(uint32_t*)s->b_bidir_forw_mv_table[mb_xy]= *(uint32_t*)p->motion_val[0][xy];
1106                 *(uint32_t*)s->b_bidir_back_mv_table[mb_xy]= *(uint32_t*)p->motion_val[1][xy];
1107                 s->mb_type[mb_xy]=CANDIDATE_MB_TYPE_BIDIR;
1108             }else{
1109                 *(uint32_t*)s->b_forw_mv_table[mb_xy]= *(uint32_t*)p->motion_val[0][xy];
1110                 s->mb_type[mb_xy]=CANDIDATE_MB_TYPE_FORWARD;
1111             }
1112             x= p->motion_val[0][xy][0]; 
1113             y= p->motion_val[0][xy][1];
1114             d = cmp(s, x>>shift, y>>shift, x&mask, y&mask, 0, 16, 0, 0, cmpf, chroma_cmpf, flags);
1115         }else if(USES_LIST(mb_type, 1)){
1116             *(uint32_t*)s->b_back_mv_table[mb_xy]= *(uint32_t*)p->motion_val[1][xy];
1117             s->mb_type[mb_xy]=CANDIDATE_MB_TYPE_BACKWARD;
1118            
1119             x= p->motion_val[1][xy][0]; 
1120             y= p->motion_val[1][xy][1];
1121             d = cmp(s, x>>shift, y>>shift, x&mask, y&mask, 0, 16, 2, 0, cmpf, chroma_cmpf, flags);
1122         }else
1123             s->mb_type[mb_xy]=CANDIDATE_MB_TYPE_INTRA;
1124     }
1125     return d;
1126 }
1127
1128 void ff_estimate_p_frame_motion(MpegEncContext * s,
1129                                 int mb_x, int mb_y)
1130 {
1131     MotionEstContext * const c= &s->me;
1132     uint8_t *pix, *ppix;
1133     int sum, varc, vard, mx, my, dmin;
1134     int P[10][2];
1135     const int shift= 1+s->quarter_sample;
1136     int mb_type=0;
1137     Picture * const pic= &s->current_picture;
1138     
1139     init_ref(c, s->new_picture.data, s->last_picture.data, NULL, 16*mb_x, 16*mb_y, 0);
1140
1141     assert(s->quarter_sample==0 || s->quarter_sample==1);
1142     assert(s->linesize == c->stride);
1143     assert(s->uvlinesize == c->uvstride);
1144
1145     c->penalty_factor    = get_penalty_factor(s->lambda, s->lambda2, c->avctx->me_cmp);
1146     c->sub_penalty_factor= get_penalty_factor(s->lambda, s->lambda2, c->avctx->me_sub_cmp);
1147     c->mb_penalty_factor = get_penalty_factor(s->lambda, s->lambda2, c->avctx->mb_cmp);
1148     c->current_mv_penalty= c->mv_penalty[s->f_code] + MAX_MV;
1149
1150     get_limits(s, 16*mb_x, 16*mb_y);
1151     c->skip=0;
1152
1153     /* intra / predictive decision */
1154     pix = c->src[0][0];
1155     sum = s->dsp.pix_sum(pix, s->linesize);
1156     varc = (s->dsp.pix_norm1(pix, s->linesize) - (((unsigned)(sum*sum))>>8) + 500 + 128)>>8;
1157
1158     pic->mb_mean[s->mb_stride * mb_y + mb_x] = (sum+128)>>8;
1159     pic->mb_var [s->mb_stride * mb_y + mb_x] = varc;
1160     c->mb_var_sum_temp += varc;
1161
1162     if(c->avctx->me_threshold){
1163         vard= (check_input_motion(s, mb_x, mb_y, 1)+128)>>8;
1164         
1165         if(vard<c->avctx->me_threshold){
1166             pic->mc_mb_var[s->mb_stride * mb_y + mb_x] = vard;
1167             c->mc_mb_var_sum_temp += vard;
1168             if (vard <= 64 || vard < varc) { //FIXME
1169                 c->scene_change_score+= ff_sqrt(vard) - ff_sqrt(varc);
1170             }else{
1171                 c->scene_change_score+= s->qscale;
1172             }
1173             return;
1174         }
1175         if(vard<c->avctx->mb_threshold)
1176             mb_type= s->mb_type[mb_x + mb_y*s->mb_stride];
1177     }
1178
1179     switch(s->me_method) {
1180     case ME_ZERO:
1181     default:
1182         no_motion_search(s, &mx, &my);
1183         mx-= mb_x*16;
1184         my-= mb_y*16;
1185         dmin = 0;
1186         break;
1187 #if 0
1188     case ME_FULL:
1189         dmin = full_motion_search(s, &mx, &my, range, ref_picture);
1190         mx-= mb_x*16;
1191         my-= mb_y*16;
1192         break;
1193     case ME_LOG:
1194         dmin = log_motion_search(s, &mx, &my, range / 2, ref_picture);
1195         mx-= mb_x*16;
1196         my-= mb_y*16;
1197         break;
1198     case ME_PHODS:
1199         dmin = phods_motion_search(s, &mx, &my, range / 2, ref_picture);
1200         mx-= mb_x*16;
1201         my-= mb_y*16;
1202         break;
1203 #endif
1204     case ME_X1:
1205     case ME_EPZS:
1206        {
1207             const int mot_stride = s->b8_stride;
1208             const int mot_xy = s->block_index[0];
1209
1210             P_LEFT[0]       = s->current_picture.motion_val[0][mot_xy - 1][0];
1211             P_LEFT[1]       = s->current_picture.motion_val[0][mot_xy - 1][1];
1212
1213             if(P_LEFT[0]       > (c->xmax<<shift)) P_LEFT[0]       = (c->xmax<<shift);
1214
1215             if(!s->first_slice_line) {
1216                 P_TOP[0]      = s->current_picture.motion_val[0][mot_xy - mot_stride    ][0];
1217                 P_TOP[1]      = s->current_picture.motion_val[0][mot_xy - mot_stride    ][1];
1218                 P_TOPRIGHT[0] = s->current_picture.motion_val[0][mot_xy - mot_stride + 2][0];
1219                 P_TOPRIGHT[1] = s->current_picture.motion_val[0][mot_xy - mot_stride + 2][1];
1220                 if(P_TOP[1]      > (c->ymax<<shift)) P_TOP[1]     = (c->ymax<<shift);
1221                 if(P_TOPRIGHT[0] < (c->xmin<<shift)) P_TOPRIGHT[0]= (c->xmin<<shift);
1222                 if(P_TOPRIGHT[1] > (c->ymax<<shift)) P_TOPRIGHT[1]= (c->ymax<<shift);
1223         
1224                 P_MEDIAN[0]= mid_pred(P_LEFT[0], P_TOP[0], P_TOPRIGHT[0]);
1225                 P_MEDIAN[1]= mid_pred(P_LEFT[1], P_TOP[1], P_TOPRIGHT[1]);
1226
1227                 if(s->out_format == FMT_H263){
1228                     c->pred_x = P_MEDIAN[0];
1229                     c->pred_y = P_MEDIAN[1];
1230                 }else { /* mpeg1 at least */
1231                     c->pred_x= P_LEFT[0];
1232                     c->pred_y= P_LEFT[1];
1233                 }
1234             }else{
1235                 c->pred_x= P_LEFT[0];
1236                 c->pred_y= P_LEFT[1];
1237             }
1238
1239         }
1240         dmin = ff_epzs_motion_search(s, &mx, &my, P, 0, 0, s->p_mv_table, (1<<16)>>shift, 0, 16);       
1241
1242         break;
1243     }
1244
1245     /* At this point (mx,my) are full-pell and the relative displacement */
1246     ppix = c->ref[0][0] + (my * s->linesize) + mx;
1247         
1248     vard = (s->dsp.sse[0](NULL, pix, ppix, s->linesize, 16)+128)>>8;
1249
1250     pic->mc_mb_var[s->mb_stride * mb_y + mb_x] = vard;
1251 //    pic->mb_cmp_score[s->mb_stride * mb_y + mb_x] = dmin; 
1252     c->mc_mb_var_sum_temp += vard;
1253     
1254 #if 0
1255     printf("varc=%4d avg_var=%4d (sum=%4d) vard=%4d mx=%2d my=%2d\n",
1256            varc, s->avg_mb_var, sum, vard, mx - xx, my - yy);
1257 #endif
1258     if(mb_type){
1259         if (vard <= 64 || vard < varc)
1260             c->scene_change_score+= ff_sqrt(vard) - ff_sqrt(varc);
1261         else
1262             c->scene_change_score+= s->qscale;
1263
1264         if(mb_type == CANDIDATE_MB_TYPE_INTER){
1265             c->sub_motion_search(s, &mx, &my, dmin, 0, 0, 0, 16);
1266             set_p_mv_tables(s, mx, my, 1);
1267         }else{
1268             mx <<=shift;
1269             my <<=shift;
1270         }
1271         if(mb_type == CANDIDATE_MB_TYPE_INTER4V){
1272             h263_mv4_search(s, mx, my, shift);
1273
1274             set_p_mv_tables(s, mx, my, 0);
1275         }
1276         if(mb_type == CANDIDATE_MB_TYPE_INTER_I){
1277             interlaced_search(s, 0, s->p_field_mv_table, s->p_field_select_table, mx, my, 1);
1278         }
1279     }else if(c->avctx->mb_decision > FF_MB_DECISION_SIMPLE){
1280         if (vard <= 64 || vard < varc)
1281             c->scene_change_score+= ff_sqrt(vard) - ff_sqrt(varc);
1282         else
1283             c->scene_change_score+= s->qscale;
1284
1285         if (vard*2 + 200 > varc)
1286             mb_type|= CANDIDATE_MB_TYPE_INTRA;
1287         if (varc*2 + 200 > vard){
1288             mb_type|= CANDIDATE_MB_TYPE_INTER;
1289             c->sub_motion_search(s, &mx, &my, dmin, 0, 0, 0, 16);
1290             if(s->flags&CODEC_FLAG_MV0)
1291                 if(mx || my)
1292                     mb_type |= CANDIDATE_MB_TYPE_SKIPED; //FIXME check difference
1293         }else{
1294             mx <<=shift;
1295             my <<=shift;
1296         }
1297         if((s->flags&CODEC_FLAG_4MV)
1298            && !c->skip && varc>50 && vard>10){
1299             if(h263_mv4_search(s, mx, my, shift) < INT_MAX)
1300                 mb_type|=CANDIDATE_MB_TYPE_INTER4V;
1301
1302             set_p_mv_tables(s, mx, my, 0);
1303         }else
1304             set_p_mv_tables(s, mx, my, 1);
1305         if((s->flags&CODEC_FLAG_INTERLACED_ME)
1306            && !c->skip){ //FIXME varc/d checks
1307             if(interlaced_search(s, 0, s->p_field_mv_table, s->p_field_select_table, mx, my, 0) < INT_MAX)
1308                 mb_type |= CANDIDATE_MB_TYPE_INTER_I;
1309         }
1310     }else{
1311         int intra_score, i;
1312         mb_type= CANDIDATE_MB_TYPE_INTER;
1313
1314         dmin= c->sub_motion_search(s, &mx, &my, dmin, 0, 0, 0, 16);
1315         if(c->avctx->me_sub_cmp != c->avctx->mb_cmp && !c->skip)
1316             dmin= get_mb_score(s, mx, my, 0, 0);
1317
1318         if((s->flags&CODEC_FLAG_4MV)
1319            && !c->skip && varc>50 && vard>10){
1320             int dmin4= h263_mv4_search(s, mx, my, shift);
1321             if(dmin4 < dmin){
1322                 mb_type= CANDIDATE_MB_TYPE_INTER4V;
1323                 dmin=dmin4;
1324             }
1325         }
1326         if((s->flags&CODEC_FLAG_INTERLACED_ME)
1327            && !c->skip){ //FIXME varc/d checks
1328             int dmin_i= interlaced_search(s, 0, s->p_field_mv_table, s->p_field_select_table, mx, my, 0);
1329             if(dmin_i < dmin){
1330                 mb_type = CANDIDATE_MB_TYPE_INTER_I;
1331                 dmin= dmin_i;
1332             }
1333         }
1334                 
1335 //        pic->mb_cmp_score[s->mb_stride * mb_y + mb_x] = dmin; 
1336         set_p_mv_tables(s, mx, my, mb_type!=CANDIDATE_MB_TYPE_INTER4V);
1337
1338         /* get intra luma score */
1339         if((c->avctx->mb_cmp&0xFF)==FF_CMP_SSE){
1340             intra_score= (varc<<8) - 500; //FIXME dont scale it down so we dont have to fix it
1341         }else{
1342             int mean= (sum+128)>>8;
1343             mean*= 0x01010101;
1344             
1345             for(i=0; i<16; i++){
1346                 *(uint32_t*)(&c->scratchpad[i*s->linesize+ 0]) = mean;
1347                 *(uint32_t*)(&c->scratchpad[i*s->linesize+ 4]) = mean;
1348                 *(uint32_t*)(&c->scratchpad[i*s->linesize+ 8]) = mean;
1349                 *(uint32_t*)(&c->scratchpad[i*s->linesize+12]) = mean;
1350             }
1351
1352             intra_score= s->dsp.mb_cmp[0](s, c->scratchpad, pix, s->linesize, 16);
1353         }
1354 #if 0 //FIXME
1355         /* get chroma score */
1356         if(c->avctx->mb_cmp&FF_CMP_CHROMA){
1357             for(i=1; i<3; i++){
1358                 uint8_t *dest_c;
1359                 int mean;
1360                 
1361                 if(s->out_format == FMT_H263){
1362                     mean= (s->dc_val[i][mb_x + mb_y*s->b8_stride] + 4)>>3; //FIXME not exact but simple ;)
1363                 }else{
1364                     mean= (s->last_dc[i] + 4)>>3;
1365                 }
1366                 dest_c = s->new_picture.data[i] + (mb_y * 8  * (s->uvlinesize)) + mb_x * 8;
1367                 
1368                 mean*= 0x01010101;
1369                 for(i=0; i<8; i++){
1370                     *(uint32_t*)(&c->scratchpad[i*s->uvlinesize+ 0]) = mean;
1371                     *(uint32_t*)(&c->scratchpad[i*s->uvlinesize+ 4]) = mean;
1372                 }
1373                 
1374                 intra_score+= s->dsp.mb_cmp[1](s, c->scratchpad, dest_c, s->uvlinesize);
1375             }                
1376         }
1377 #endif
1378         intra_score += c->mb_penalty_factor*16;
1379         
1380         if(intra_score < dmin){
1381             mb_type= CANDIDATE_MB_TYPE_INTRA;
1382             s->current_picture.mb_type[mb_y*s->mb_stride + mb_x]= CANDIDATE_MB_TYPE_INTRA; //FIXME cleanup
1383         }else
1384             s->current_picture.mb_type[mb_y*s->mb_stride + mb_x]= 0;
1385         
1386         if (vard <= 64 || vard < varc) { //FIXME
1387             c->scene_change_score+= ff_sqrt(vard) - ff_sqrt(varc);
1388         }else{
1389             c->scene_change_score+= s->qscale;
1390         }
1391     }
1392
1393     s->mb_type[mb_y*s->mb_stride + mb_x]= mb_type;
1394 }
1395
1396 int ff_pre_estimate_p_frame_motion(MpegEncContext * s,
1397                                     int mb_x, int mb_y)
1398 {
1399     MotionEstContext * const c= &s->me;
1400     int mx, my, dmin;
1401     int P[10][2];
1402     const int shift= 1+s->quarter_sample;
1403     const int xy= mb_x + mb_y*s->mb_stride;
1404     init_ref(c, s->new_picture.data, s->last_picture.data, NULL, 16*mb_x, 16*mb_y, 0);
1405     
1406     assert(s->quarter_sample==0 || s->quarter_sample==1);
1407
1408     c->pre_penalty_factor    = get_penalty_factor(s->lambda, s->lambda2, c->avctx->me_pre_cmp);
1409     c->current_mv_penalty= c->mv_penalty[s->f_code] + MAX_MV;
1410
1411     get_limits(s, 16*mb_x, 16*mb_y);
1412     c->skip=0;
1413
1414     P_LEFT[0]       = s->p_mv_table[xy + 1][0];
1415     P_LEFT[1]       = s->p_mv_table[xy + 1][1];
1416
1417     if(P_LEFT[0]       < (c->xmin<<shift)) P_LEFT[0]       = (c->xmin<<shift);
1418
1419     /* special case for first line */
1420     if (s->first_slice_line) {
1421         c->pred_x= P_LEFT[0];
1422         c->pred_y= P_LEFT[1];
1423         P_TOP[0]= P_TOPRIGHT[0]= P_MEDIAN[0]=
1424         P_TOP[1]= P_TOPRIGHT[1]= P_MEDIAN[1]= 0; //FIXME 
1425     } else {
1426         P_TOP[0]      = s->p_mv_table[xy + s->mb_stride    ][0];
1427         P_TOP[1]      = s->p_mv_table[xy + s->mb_stride    ][1];
1428         P_TOPRIGHT[0] = s->p_mv_table[xy + s->mb_stride - 1][0];
1429         P_TOPRIGHT[1] = s->p_mv_table[xy + s->mb_stride - 1][1];
1430         if(P_TOP[1]      < (c->ymin<<shift)) P_TOP[1]     = (c->ymin<<shift);
1431         if(P_TOPRIGHT[0] > (c->xmax<<shift)) P_TOPRIGHT[0]= (c->xmax<<shift);
1432         if(P_TOPRIGHT[1] < (c->ymin<<shift)) P_TOPRIGHT[1]= (c->ymin<<shift);
1433     
1434         P_MEDIAN[0]= mid_pred(P_LEFT[0], P_TOP[0], P_TOPRIGHT[0]);
1435         P_MEDIAN[1]= mid_pred(P_LEFT[1], P_TOP[1], P_TOPRIGHT[1]);
1436
1437         c->pred_x = P_MEDIAN[0];
1438         c->pred_y = P_MEDIAN[1];
1439     }
1440
1441     dmin = ff_epzs_motion_search(s, &mx, &my, P, 0, 0, s->p_mv_table, (1<<16)>>shift, 0, 16);       
1442
1443     s->p_mv_table[xy][0] = mx<<shift;
1444     s->p_mv_table[xy][1] = my<<shift;
1445     
1446     return dmin;
1447 }
1448
1449 static int ff_estimate_motion_b(MpegEncContext * s,
1450                        int mb_x, int mb_y, int16_t (*mv_table)[2], int ref_index, int f_code)
1451 {
1452     MotionEstContext * const c= &s->me;
1453     int mx, my, dmin;
1454     int P[10][2];
1455     const int shift= 1+s->quarter_sample;
1456     const int mot_stride = s->mb_stride;
1457     const int mot_xy = mb_y*mot_stride + mb_x;
1458     uint8_t * const mv_penalty= c->mv_penalty[f_code] + MAX_MV;
1459     int mv_scale;
1460         
1461     c->penalty_factor    = get_penalty_factor(s->lambda, s->lambda2, c->avctx->me_cmp);
1462     c->sub_penalty_factor= get_penalty_factor(s->lambda, s->lambda2, c->avctx->me_sub_cmp);
1463     c->mb_penalty_factor = get_penalty_factor(s->lambda, s->lambda2, c->avctx->mb_cmp);
1464     c->current_mv_penalty= mv_penalty;
1465
1466     get_limits(s, 16*mb_x, 16*mb_y);
1467
1468     switch(s->me_method) {
1469     case ME_ZERO:
1470     default:
1471         no_motion_search(s, &mx, &my);
1472         dmin = 0;
1473         mx-= mb_x*16;
1474         my-= mb_y*16;
1475         break;
1476 #if 0
1477     case ME_FULL:
1478         dmin = full_motion_search(s, &mx, &my, range, ref_picture);
1479         mx-= mb_x*16;
1480         my-= mb_y*16;
1481         break;
1482     case ME_LOG:
1483         dmin = log_motion_search(s, &mx, &my, range / 2, ref_picture);
1484         mx-= mb_x*16;
1485         my-= mb_y*16;
1486         break;
1487     case ME_PHODS:
1488         dmin = phods_motion_search(s, &mx, &my, range / 2, ref_picture);
1489         mx-= mb_x*16;
1490         my-= mb_y*16;
1491         break;
1492 #endif
1493     case ME_X1:
1494     case ME_EPZS:
1495        {
1496             P_LEFT[0]        = mv_table[mot_xy - 1][0];
1497             P_LEFT[1]        = mv_table[mot_xy - 1][1];
1498
1499             if(P_LEFT[0]       > (c->xmax<<shift)) P_LEFT[0]       = (c->xmax<<shift);
1500
1501             /* special case for first line */
1502             if (!s->first_slice_line) {
1503                 P_TOP[0] = mv_table[mot_xy - mot_stride             ][0];
1504                 P_TOP[1] = mv_table[mot_xy - mot_stride             ][1];
1505                 P_TOPRIGHT[0] = mv_table[mot_xy - mot_stride + 1         ][0];
1506                 P_TOPRIGHT[1] = mv_table[mot_xy - mot_stride + 1         ][1];
1507                 if(P_TOP[1] > (c->ymax<<shift)) P_TOP[1]= (c->ymax<<shift);
1508                 if(P_TOPRIGHT[0] < (c->xmin<<shift)) P_TOPRIGHT[0]= (c->xmin<<shift);
1509                 if(P_TOPRIGHT[1] > (c->ymax<<shift)) P_TOPRIGHT[1]= (c->ymax<<shift);
1510         
1511                 P_MEDIAN[0]= mid_pred(P_LEFT[0], P_TOP[0], P_TOPRIGHT[0]);
1512                 P_MEDIAN[1]= mid_pred(P_LEFT[1], P_TOP[1], P_TOPRIGHT[1]);
1513             }
1514             c->pred_x= P_LEFT[0];
1515             c->pred_y= P_LEFT[1];
1516         }
1517         
1518         if(mv_table == s->b_forw_mv_table){
1519             mv_scale= (s->pb_time<<16) / (s->pp_time<<shift);
1520         }else{
1521             mv_scale= ((s->pb_time - s->pp_time)<<16) / (s->pp_time<<shift);
1522         }
1523         
1524         dmin = ff_epzs_motion_search(s, &mx, &my, P, 0, ref_index, s->p_mv_table, mv_scale, 0, 16);
1525  
1526         break;
1527     }
1528     
1529     dmin= c->sub_motion_search(s, &mx, &my, dmin, 0, ref_index, 0, 16);
1530                                    
1531     if(c->avctx->me_sub_cmp != c->avctx->mb_cmp && !c->skip)
1532         dmin= get_mb_score(s, mx, my, 0, ref_index);
1533
1534 //printf("%d %d %d %d//", s->mb_x, s->mb_y, mx, my);
1535 //    s->mb_type[mb_y*s->mb_width + mb_x]= mb_type;
1536     mv_table[mot_xy][0]= mx;
1537     mv_table[mot_xy][1]= my;
1538
1539     return dmin;
1540 }
1541
1542 static inline int check_bidir_mv(MpegEncContext * s,
1543                    int motion_fx, int motion_fy,
1544                    int motion_bx, int motion_by,
1545                    int pred_fx, int pred_fy,
1546                    int pred_bx, int pred_by,
1547                    int size, int h)
1548 {
1549     //FIXME optimize?
1550     //FIXME better f_code prediction (max mv & distance)
1551     //FIXME pointers
1552     MotionEstContext * const c= &s->me;
1553     uint8_t * const mv_penalty= c->mv_penalty[s->f_code] + MAX_MV; // f_code of the prev frame
1554     int stride= c->stride;
1555     int uvstride= c->uvstride;
1556     uint8_t *dest_y = c->scratchpad;
1557     uint8_t *ptr;
1558     int dxy;
1559     int src_x, src_y;
1560     int fbmin;
1561     uint8_t **src_data= c->src[0];
1562     uint8_t **ref_data= c->ref[0];
1563     uint8_t **ref2_data= c->ref[2];
1564
1565     if(s->quarter_sample){
1566         dxy = ((motion_fy & 3) << 2) | (motion_fx & 3);
1567         src_x = motion_fx >> 2;
1568         src_y = motion_fy >> 2;
1569
1570         ptr = ref_data[0] + (src_y * stride) + src_x;
1571         s->dsp.put_qpel_pixels_tab[0][dxy](dest_y    , ptr    , stride);
1572
1573         dxy = ((motion_by & 3) << 2) | (motion_bx & 3);
1574         src_x = motion_bx >> 2;
1575         src_y = motion_by >> 2;
1576     
1577         ptr = ref2_data[0] + (src_y * stride) + src_x;
1578         s->dsp.avg_qpel_pixels_tab[size][dxy](dest_y    , ptr    , stride);
1579     }else{
1580         dxy = ((motion_fy & 1) << 1) | (motion_fx & 1);
1581         src_x = motion_fx >> 1;
1582         src_y = motion_fy >> 1;
1583
1584         ptr = ref_data[0] + (src_y * stride) + src_x;
1585         s->dsp.put_pixels_tab[size][dxy](dest_y    , ptr    , stride, h);
1586
1587         dxy = ((motion_by & 1) << 1) | (motion_bx & 1);
1588         src_x = motion_bx >> 1;
1589         src_y = motion_by >> 1;
1590     
1591         ptr = ref2_data[0] + (src_y * stride) + src_x;
1592         s->dsp.avg_pixels_tab[size][dxy](dest_y    , ptr    , stride, h);
1593     }
1594
1595     fbmin = (mv_penalty[motion_fx-pred_fx] + mv_penalty[motion_fy-pred_fy])*c->mb_penalty_factor
1596            +(mv_penalty[motion_bx-pred_bx] + mv_penalty[motion_by-pred_by])*c->mb_penalty_factor
1597            + s->dsp.mb_cmp[size](s, src_data[0], dest_y, stride, h); //FIXME new_pic
1598            
1599     if(c->avctx->mb_cmp&FF_CMP_CHROMA){
1600     }
1601     //FIXME CHROMA !!!
1602            
1603     return fbmin;
1604 }
1605
1606 /* refine the bidir vectors in hq mode and return the score in both lq & hq mode*/
1607 static inline int bidir_refine(MpegEncContext * s, int mb_x, int mb_y)
1608 {
1609     const int mot_stride = s->mb_stride;
1610     const int xy = mb_y *mot_stride + mb_x;
1611     int fbmin;
1612     int pred_fx= s->b_bidir_forw_mv_table[xy-1][0];
1613     int pred_fy= s->b_bidir_forw_mv_table[xy-1][1];
1614     int pred_bx= s->b_bidir_back_mv_table[xy-1][0];
1615     int pred_by= s->b_bidir_back_mv_table[xy-1][1];
1616     int motion_fx= s->b_bidir_forw_mv_table[xy][0]= s->b_forw_mv_table[xy][0];
1617     int motion_fy= s->b_bidir_forw_mv_table[xy][1]= s->b_forw_mv_table[xy][1];
1618     int motion_bx= s->b_bidir_back_mv_table[xy][0]= s->b_back_mv_table[xy][0];
1619     int motion_by= s->b_bidir_back_mv_table[xy][1]= s->b_back_mv_table[xy][1];
1620
1621     //FIXME do refinement and add flag
1622     
1623     fbmin= check_bidir_mv(s, motion_fx, motion_fy,
1624                           motion_bx, motion_by,
1625                           pred_fx, pred_fy,
1626                           pred_bx, pred_by,
1627                           0, 16);
1628
1629    return fbmin;
1630 }
1631
1632 static inline int direct_search(MpegEncContext * s, int mb_x, int mb_y)
1633 {
1634     MotionEstContext * const c= &s->me;
1635     int P[10][2];
1636     const int mot_stride = s->mb_stride;
1637     const int mot_xy = mb_y*mot_stride + mb_x;
1638     const int shift= 1+s->quarter_sample;
1639     int dmin, i;
1640     const int time_pp= s->pp_time;
1641     const int time_pb= s->pb_time;
1642     int mx, my, xmin, xmax, ymin, ymax;
1643     int16_t (*mv_table)[2]= s->b_direct_mv_table;
1644     
1645     c->current_mv_penalty= c->mv_penalty[1] + MAX_MV;
1646     ymin= xmin=(-32)>>shift;
1647     ymax= xmax=   31>>shift;
1648
1649     if(IS_8X8(s->next_picture.mb_type[mot_xy])){
1650         s->mv_type= MV_TYPE_8X8;
1651     }else{
1652         s->mv_type= MV_TYPE_16X16;
1653     }
1654
1655     for(i=0; i<4; i++){
1656         int index= s->block_index[i];
1657         int min, max;
1658     
1659         c->co_located_mv[i][0]= s->next_picture.motion_val[0][index][0];
1660         c->co_located_mv[i][1]= s->next_picture.motion_val[0][index][1];
1661         c->direct_basis_mv[i][0]= c->co_located_mv[i][0]*time_pb/time_pp + ((i& 1)<<(shift+3));
1662         c->direct_basis_mv[i][1]= c->co_located_mv[i][1]*time_pb/time_pp + ((i>>1)<<(shift+3));
1663 //        c->direct_basis_mv[1][i][0]= c->co_located_mv[i][0]*(time_pb - time_pp)/time_pp + ((i &1)<<(shift+3);
1664 //        c->direct_basis_mv[1][i][1]= c->co_located_mv[i][1]*(time_pb - time_pp)/time_pp + ((i>>1)<<(shift+3);
1665
1666         max= FFMAX(c->direct_basis_mv[i][0], c->direct_basis_mv[i][0] - c->co_located_mv[i][0])>>shift;
1667         min= FFMIN(c->direct_basis_mv[i][0], c->direct_basis_mv[i][0] - c->co_located_mv[i][0])>>shift;
1668         max+= 16*mb_x + 1; // +-1 is for the simpler rounding
1669         min+= 16*mb_x - 1;
1670         xmax= FFMIN(xmax, s->width - max);
1671         xmin= FFMAX(xmin, - 16     - min);
1672
1673         max= FFMAX(c->direct_basis_mv[i][1], c->direct_basis_mv[i][1] - c->co_located_mv[i][1])>>shift;
1674         min= FFMIN(c->direct_basis_mv[i][1], c->direct_basis_mv[i][1] - c->co_located_mv[i][1])>>shift;
1675         max+= 16*mb_y + 1; // +-1 is for the simpler rounding
1676         min+= 16*mb_y - 1;
1677         ymax= FFMIN(ymax, s->height - max);
1678         ymin= FFMAX(ymin, - 16      - min);
1679         
1680         if(s->mv_type == MV_TYPE_16X16) break;
1681     }
1682     
1683     assert(xmax <= 15 && ymax <= 15 && xmin >= -16 && ymin >= -16);
1684     
1685     if(xmax < 0 || xmin >0 || ymax < 0 || ymin > 0){
1686         s->b_direct_mv_table[mot_xy][0]= 0;
1687         s->b_direct_mv_table[mot_xy][1]= 0;
1688
1689         return 256*256*256*64;
1690     }
1691     
1692     c->xmin= xmin;
1693     c->ymin= ymin;
1694     c->xmax= xmax;
1695     c->ymax= ymax;
1696     c->flags     |= FLAG_DIRECT;
1697     c->sub_flags |= FLAG_DIRECT;
1698     c->pred_x=0;
1699     c->pred_y=0;
1700
1701     P_LEFT[0]        = clip(mv_table[mot_xy - 1][0], xmin<<shift, xmax<<shift);
1702     P_LEFT[1]        = clip(mv_table[mot_xy - 1][1], ymin<<shift, ymax<<shift);
1703
1704     /* special case for first line */
1705     if (!s->first_slice_line) { //FIXME maybe allow this over thread boundary as its cliped
1706         P_TOP[0]      = clip(mv_table[mot_xy - mot_stride             ][0], xmin<<shift, xmax<<shift);
1707         P_TOP[1]      = clip(mv_table[mot_xy - mot_stride             ][1], ymin<<shift, ymax<<shift);
1708         P_TOPRIGHT[0] = clip(mv_table[mot_xy - mot_stride + 1         ][0], xmin<<shift, xmax<<shift);
1709         P_TOPRIGHT[1] = clip(mv_table[mot_xy - mot_stride + 1         ][1], ymin<<shift, ymax<<shift);
1710     
1711         P_MEDIAN[0]= mid_pred(P_LEFT[0], P_TOP[0], P_TOPRIGHT[0]);
1712         P_MEDIAN[1]= mid_pred(P_LEFT[1], P_TOP[1], P_TOPRIGHT[1]);
1713     }
1714  
1715     dmin = ff_epzs_motion_search(s, &mx, &my, P, 0, 0, mv_table, 1<<(16-shift), 0, 16);
1716     if(c->sub_flags&FLAG_QPEL) 
1717         dmin = qpel_motion_search(s, &mx, &my, dmin, 0, 0, 0, 16);
1718     else
1719         dmin = hpel_motion_search(s, &mx, &my, dmin, 0, 0, 0, 16);
1720     
1721     if(c->avctx->me_sub_cmp != c->avctx->mb_cmp && !c->skip)
1722         dmin= get_mb_score(s, mx, my, 0, 0);
1723     
1724     get_limits(s, 16*mb_x, 16*mb_y); //restore c->?min/max, maybe not needed
1725
1726     s->b_direct_mv_table[mot_xy][0]= mx;
1727     s->b_direct_mv_table[mot_xy][1]= my;
1728     c->flags     &= ~FLAG_DIRECT;
1729     c->sub_flags &= ~FLAG_DIRECT;
1730
1731     return dmin;
1732 }
1733
1734 void ff_estimate_b_frame_motion(MpegEncContext * s,
1735                              int mb_x, int mb_y)
1736 {
1737     MotionEstContext * const c= &s->me;
1738     const int penalty_factor= c->mb_penalty_factor;
1739     int fmin, bmin, dmin, fbmin, bimin, fimin;
1740     int type=0;
1741     const int xy = mb_y*s->mb_stride + mb_x;
1742     init_ref(c, s->new_picture.data, s->last_picture.data, s->next_picture.data, 16*mb_x, 16*mb_y, 2);
1743
1744     get_limits(s, 16*mb_x, 16*mb_y);
1745     
1746     c->skip=0;
1747     if(c->avctx->me_threshold){
1748         int vard= (check_input_motion(s, mb_x, mb_y, 0)+128)>>8;
1749         
1750         if(vard<c->avctx->me_threshold){
1751 //            pix = c->src[0][0];
1752 //            sum = s->dsp.pix_sum(pix, s->linesize);
1753 //            varc = (s->dsp.pix_norm1(pix, s->linesize) - (((unsigned)(sum*sum))>>8) + 500 + 128)>>8;
1754         
1755 //            pic->mb_var   [s->mb_stride * mb_y + mb_x] = varc;
1756              s->current_picture.mc_mb_var[s->mb_stride * mb_y + mb_x] = vard;
1757 /*            pic->mb_mean  [s->mb_stride * mb_y + mb_x] = (sum+128)>>8;
1758             c->mb_var_sum_temp    += varc;*/
1759             c->mc_mb_var_sum_temp += vard;
1760 /*            if (vard <= 64 || vard < varc) {
1761                 c->scene_change_score+= ff_sqrt(vard) - ff_sqrt(varc);
1762             }else{
1763                 c->scene_change_score+= s->qscale;
1764             }*/
1765             return;
1766         }
1767         if(vard<c->avctx->mb_threshold){
1768             type= s->mb_type[mb_y*s->mb_stride + mb_x];
1769             if(type == CANDIDATE_MB_TYPE_DIRECT){
1770                 direct_search(s, mb_x, mb_y);
1771             }
1772             if(type == CANDIDATE_MB_TYPE_FORWARD || type == CANDIDATE_MB_TYPE_BIDIR){
1773                 c->skip=0;
1774                 ff_estimate_motion_b(s, mb_x, mb_y, s->b_forw_mv_table, 0, s->f_code);
1775             }
1776             if(type == CANDIDATE_MB_TYPE_BACKWARD || type == CANDIDATE_MB_TYPE_BIDIR){
1777                 c->skip=0;
1778                 ff_estimate_motion_b(s, mb_x, mb_y, s->b_back_mv_table, 2, s->b_code);
1779             }
1780             if(type == CANDIDATE_MB_TYPE_FORWARD_I || type == CANDIDATE_MB_TYPE_BIDIR_I){
1781                 c->skip=0;
1782                 c->current_mv_penalty= c->mv_penalty[s->f_code] + MAX_MV;
1783                 interlaced_search(s, 0,
1784                                         s->b_field_mv_table[0], s->b_field_select_table[0],
1785                                         s->b_forw_mv_table[xy][0], s->b_forw_mv_table[xy][1], 1);
1786             }
1787             if(type == CANDIDATE_MB_TYPE_BACKWARD_I || type == CANDIDATE_MB_TYPE_BIDIR_I){
1788                 c->skip=0;
1789                 c->current_mv_penalty= c->mv_penalty[s->b_code] + MAX_MV;
1790                 interlaced_search(s, 2,
1791                                         s->b_field_mv_table[1], s->b_field_select_table[1],
1792                                         s->b_back_mv_table[xy][0], s->b_back_mv_table[xy][1], 1);
1793             }
1794             return;
1795         }
1796     }
1797
1798     if (s->codec_id == CODEC_ID_MPEG4)
1799         dmin= direct_search(s, mb_x, mb_y);
1800     else
1801         dmin= INT_MAX;
1802 //FIXME penalty stuff for non mpeg4
1803     c->skip=0;
1804     fmin= ff_estimate_motion_b(s, mb_x, mb_y, s->b_forw_mv_table, 0, s->f_code) + 3*penalty_factor;
1805     
1806     c->skip=0;
1807     bmin= ff_estimate_motion_b(s, mb_x, mb_y, s->b_back_mv_table, 2, s->b_code) + 2*penalty_factor;
1808 //printf(" %d %d ", s->b_forw_mv_table[xy][0], s->b_forw_mv_table[xy][1]);
1809
1810     c->skip=0;
1811     fbmin= bidir_refine(s, mb_x, mb_y) + penalty_factor;
1812 //printf("%d %d %d %d\n", dmin, fmin, bmin, fbmin);
1813     
1814     if(s->flags & CODEC_FLAG_INTERLACED_ME){
1815 //FIXME mb type penalty
1816         c->skip=0;
1817         c->current_mv_penalty= c->mv_penalty[s->f_code] + MAX_MV;
1818         fimin= interlaced_search(s, 0,
1819                                  s->b_field_mv_table[0], s->b_field_select_table[0],
1820                                  s->b_forw_mv_table[xy][0], s->b_forw_mv_table[xy][1], 0);
1821         c->current_mv_penalty= c->mv_penalty[s->b_code] + MAX_MV;
1822         bimin= interlaced_search(s, 2,
1823                                  s->b_field_mv_table[1], s->b_field_select_table[1],
1824                                  s->b_back_mv_table[xy][0], s->b_back_mv_table[xy][1], 0);
1825     }else
1826         fimin= bimin= INT_MAX;
1827
1828     {
1829         int score= fmin;
1830         type = CANDIDATE_MB_TYPE_FORWARD;
1831         
1832         if (dmin <= score){
1833             score = dmin;
1834             type = CANDIDATE_MB_TYPE_DIRECT;
1835         }
1836         if(bmin<score){
1837             score=bmin;
1838             type= CANDIDATE_MB_TYPE_BACKWARD; 
1839         }
1840         if(fbmin<score){
1841             score=fbmin;
1842             type= CANDIDATE_MB_TYPE_BIDIR;
1843         }
1844         if(fimin<score){
1845             score=fimin;
1846             type= CANDIDATE_MB_TYPE_FORWARD_I;
1847         }
1848         if(bimin<score){
1849             score=bimin;
1850             type= CANDIDATE_MB_TYPE_BACKWARD_I;
1851         }
1852         
1853         score= ((unsigned)(score*score + 128*256))>>16;
1854         c->mc_mb_var_sum_temp += score;
1855         s->current_picture.mc_mb_var[mb_y*s->mb_stride + mb_x] = score; //FIXME use SSE
1856     }
1857
1858     if(c->avctx->mb_decision > FF_MB_DECISION_SIMPLE){
1859         type= CANDIDATE_MB_TYPE_FORWARD | CANDIDATE_MB_TYPE_BACKWARD | CANDIDATE_MB_TYPE_BIDIR | CANDIDATE_MB_TYPE_DIRECT;
1860         if(fimin < INT_MAX)
1861             type |= CANDIDATE_MB_TYPE_FORWARD_I;
1862         if(bimin < INT_MAX)
1863             type |= CANDIDATE_MB_TYPE_BACKWARD_I;
1864         if(fimin < INT_MAX && bimin < INT_MAX){
1865             type |= CANDIDATE_MB_TYPE_BIDIR_I;
1866         }
1867          //FIXME something smarter
1868         if(dmin>256*256*16) type&= ~CANDIDATE_MB_TYPE_DIRECT; //dont try direct mode if its invalid for this MB
1869 #if 0        
1870         if(s->out_format == FMT_MPEG1)
1871             type |= CANDIDATE_MB_TYPE_INTRA;
1872 #endif
1873     }
1874
1875     s->mb_type[mb_y*s->mb_stride + mb_x]= type;
1876 }
1877
1878 /* find best f_code for ME which do unlimited searches */
1879 int ff_get_best_fcode(MpegEncContext * s, int16_t (*mv_table)[2], int type)
1880 {
1881     if(s->me_method>=ME_EPZS){
1882         int score[8];
1883         int i, y;
1884         uint8_t * fcode_tab= s->fcode_tab;
1885         int best_fcode=-1;
1886         int best_score=-10000000;
1887
1888         for(i=0; i<8; i++) score[i]= s->mb_num*(8-i);
1889
1890         for(y=0; y<s->mb_height; y++){
1891             int x;
1892             int xy= y*s->mb_stride;
1893             for(x=0; x<s->mb_width; x++){
1894                 if(s->mb_type[xy] & type){
1895                     int fcode= FFMAX(fcode_tab[mv_table[xy][0] + MAX_MV],
1896                                      fcode_tab[mv_table[xy][1] + MAX_MV]);
1897                     int j;
1898                     
1899                     for(j=0; j<fcode && j<8; j++){
1900                         if(s->pict_type==B_TYPE || s->current_picture.mc_mb_var[xy] < s->current_picture.mb_var[xy])
1901                             score[j]-= 170;
1902                     }
1903                 }
1904                 xy++;
1905             }
1906         }
1907         
1908         for(i=1; i<8; i++){
1909             if(score[i] > best_score){
1910                 best_score= score[i];
1911                 best_fcode= i;
1912             }
1913 //            printf("%d %d\n", i, score[i]);
1914         }
1915
1916 //    printf("fcode: %d type: %d\n", i, s->pict_type);
1917         return best_fcode;
1918 /*        for(i=0; i<=MAX_FCODE; i++){
1919             printf("%d ", mv_num[i]);
1920         }
1921         printf("\n");*/
1922     }else{
1923         return 1;
1924     }
1925 }
1926
1927 void ff_fix_long_p_mvs(MpegEncContext * s)
1928 {
1929     MotionEstContext * const c= &s->me;
1930     const int f_code= s->f_code;
1931     int y, range;
1932     assert(s->pict_type==P_TYPE);
1933
1934     range = (((s->out_format == FMT_MPEG1) ? 8 : 16) << f_code);
1935     
1936     if(s->msmpeg4_version) range= 16;
1937     
1938     if(c->avctx->me_range && range > c->avctx->me_range) range= c->avctx->me_range;
1939     
1940 //printf("%d no:%d %d//\n", clip, noclip, f_code);
1941     if(s->flags&CODEC_FLAG_4MV){
1942         const int wrap= s->b8_stride;
1943
1944         /* clip / convert to intra 8x8 type MVs */
1945         for(y=0; y<s->mb_height; y++){
1946             int xy= y*2*wrap;
1947             int i= y*s->mb_stride;
1948             int x;
1949
1950             for(x=0; x<s->mb_width; x++){
1951                 if(s->mb_type[i]&CANDIDATE_MB_TYPE_INTER4V){
1952                     int block;
1953                     for(block=0; block<4; block++){
1954                         int off= (block& 1) + (block>>1)*wrap;
1955                         int mx= s->current_picture.motion_val[0][ xy + off ][0];
1956                         int my= s->current_picture.motion_val[0][ xy + off ][1];
1957
1958                         if(   mx >=range || mx <-range
1959                            || my >=range || my <-range){
1960                             s->mb_type[i] &= ~CANDIDATE_MB_TYPE_INTER4V;
1961                             s->mb_type[i] |= CANDIDATE_MB_TYPE_INTRA;
1962                             s->current_picture.mb_type[i]= CANDIDATE_MB_TYPE_INTRA;
1963                         }
1964                     }
1965                 }
1966                 xy+=2;
1967                 i++;
1968             }
1969         }
1970     }
1971 }
1972
1973 /**
1974  *
1975  * @param truncate 1 for truncation, 0 for using intra
1976  */
1977 void ff_fix_long_mvs(MpegEncContext * s, uint8_t *field_select_table, int field_select, 
1978                      int16_t (*mv_table)[2], int f_code, int type, int truncate)
1979 {
1980     MotionEstContext * const c= &s->me;
1981     int y, h_range, v_range;
1982
1983     // RAL: 8 in MPEG-1, 16 in MPEG-4
1984     int range = (((s->out_format == FMT_MPEG1) ? 8 : 16) << f_code);
1985
1986     if(s->msmpeg4_version) range= 16;
1987     if(c->avctx->me_range && range > c->avctx->me_range) range= c->avctx->me_range;
1988
1989     h_range= range;
1990     v_range= field_select_table ? range>>1 : range;
1991
1992     /* clip / convert to intra 16x16 type MVs */
1993     for(y=0; y<s->mb_height; y++){
1994         int x;
1995         int xy= y*s->mb_stride;
1996         for(x=0; x<s->mb_width; x++){
1997             if (s->mb_type[xy] & type){    // RAL: "type" test added...
1998                 if(field_select_table==NULL || field_select_table[xy] == field_select){
1999                     if(   mv_table[xy][0] >=h_range || mv_table[xy][0] <-h_range
2000                        || mv_table[xy][1] >=v_range || mv_table[xy][1] <-v_range){
2001
2002                         if(truncate){
2003                             if     (mv_table[xy][0] > h_range-1) mv_table[xy][0]=  h_range-1;
2004                             else if(mv_table[xy][0] < -h_range ) mv_table[xy][0]= -h_range;
2005                             if     (mv_table[xy][1] > v_range-1) mv_table[xy][1]=  v_range-1;
2006                             else if(mv_table[xy][1] < -v_range ) mv_table[xy][1]= -v_range;
2007                         }else{
2008                             s->mb_type[xy] &= ~type;
2009                             s->mb_type[xy] |= CANDIDATE_MB_TYPE_INTRA;
2010                             mv_table[xy][0]=
2011                             mv_table[xy][1]= 0;
2012                         }
2013                     }
2014                 }
2015             }
2016             xy++;
2017         }
2018     }
2019 }