Ya he cambiado a avconv
, así que me disculpo si la respuesta puede ser un poco diferente en el clásico ffmpeg, pero creo que no debería haber mucha diferencia.
Puede tener un recorte en movimiento si puede crear algún tipo de fórmula entre el número de cuadro y la posición del recorte; pero no hay herramientas analíticas disponibles para hacer eso. Esto significa que si el hablante se mueve de una manera predecible, teóricamente podría hacerlo sin una aplicación externa.
Supongamos, por ejemplo, que el altavoz se mueve de arriba a la izquierda a abajo a la derecha en la imagen. Podrías hacer algo en la línea de:
avconv -i input.ogv -vf 'crop=200:100:n:n' -c:v libtheora output.ogv
Aquí me estoy moviendo 1 píxel por cuadro, lo cual es muy poco probable como alguien se movería.
Tenga en cuenta que la interfaz de filtro de avconv proporciona muchas funciones matemáticas (y estoy seguro de que ffmpeg es similar).
Imaginemos que desea mover 1 píxel por fotograma, pero solo de 200 a 350 fotogramas. Entonces puedes hacer
min(max(n,200)-200, 150)
Para los cuadros <200, max(n,200)
generaríamos 200, luego quitamos 200 para ponerlo en 0, y luego min
devolveremos la primera parte hasta 350 cuadros, donde ese resultado sería más de 150 y la constante comenzará a ser devuelta.
Aunque escribir tal fórmula a mano sería bastante tedioso, tal vez también sea útil en algunos casos.
Dicho todo esto, si tuviera la opción de tener acceso al software que es capaz de trabajar en imágenes cuadro por cuadro, seguiría esa ruta.