Conceptos Básicos de Vídeo

Al intentar comprender cómo se almacena y se muestra el vídeo debemos retroceder en el tiempo y fijarnos en una tecnología muy obsoleta: la televisión por tubo de rayos catódicos. Sin dar un curso de Física, un tubo de un televisor es un gran trozo de metal que no tiene aire dentro. Dentro de este tenemos un cátodo que emite electrones cuando se calienta (por eso la imagen tarda un rato en aparecer cuando se enciende la TV, el cátodo debe calentarse primero hasta la temperatura apropiada para emitir electrones). Hay también un fuerte campo electromagnético que acelera los electrones hacia la parte frontal del tubo, y que posiciona el haz de electrones (son muchos electrones los que se lanzan hacia la parte frontal del tubo). La parte frontal del tubo está cubierta de fósforo y cuando los electrones la golpean, emite luz hacia el otro lado (el lado en el que estarás tú). Debajo puedes ver un esquema de un CRT (Cathodic Ray Tube, Tubo de rayos catódicos).

En un principio las televisiones eran sólo en blanco y negro, con lo que era suficiente con un sólo haz de electrones. Ahora, para poder ver una película debes escribir esta por toda la pantalla, así que el haz de electrones debe barrer la pantalla. La frecuencia de barrido se conoce normalmente como tasa de refresco (refresh rate). La tasa de refresco se escogió de acuerdo con los ciclos de los sistemas eléctricos que se usaban: Norteamérica y parte de Japón usan 60 Hz, Europa, Oriente Medio y partes de Asia usan 50 Hz. Esto dio lugar a dos sistemas de TV que compiten entre sí:

NTSC: National Television Standard Committee. También conocido como "Never the same color" (nunca el mismo color) porque no hay dos imágenes NTSC que se vean igual. El sistema NTSC tiene 525 líneas horizontales de las cuales apenas 487 se ven en la pantalla y tiene una tasa de refresco de 60 Hz entrelazada (veremos esto más adelante).

PAL: Phase Alternating Line. El sistema PAL tiene 625 líneas horizontales, de las cuales apenas 540 se ven en la pantalla y tiene una tasa de refresco de 50 Hz entrelazada.

Ahora, en la época en la que aparecieron en el mercado las primeras TVs, la tecnología que permitía escribir 525 líneas 60 veces por segundo, o 625 líneas 50 veces por segundo tenía un precio prohibitivo que no era adecuado para el mercado de masas. Reducir la tasa de refresco habría requerido circuitos más complicados y no era una opción tampoco - además, la mente humana tiene un límite inferior para lo que acepta como movimiento continuo. Pero los ingenieros de TV tuvieron una idea: ¿Qué pasaría si escribiésemos únicamente una de cada dos líneas en cada barrido, y escribiésemos la otra mitad durante el siguiente barrido? De este modo sólo necesitaríamos 25/30 imágenes por segundo (lo que implica menos ancho de banda, lo que implica más cadenas de TV en la misma banda de frecuencia), y el ojo humano seguiría aceptando esto como movimiento continuo. A esta idea de dividir la imagen en dos partes se la llamó entrelazado (interlacing), ya a las imágenes divididas, campos (fields). Visto de modo gráfico, un campo es básicamente una imagen con una línea negra de cada dos (o blanca, lo que prefiráis). Pero aquí tenéis una imagen para que podáis imaginar mejor lo que está pasando:

Durante el primer barrido, el camposuperior se escribe en la pantalla. Como podéis ver, se escriben las líneas 1, 3, 5, etc.y después de escribir cada línea, el haz de electrones se mueve a la izquierda antes de escribir la siguiente línea.

Como podéis ver a la izquierda, ahora la imagen muestra un efecto de "peinado", parece que lo estáis viendo a través de un peine. Cuando la gente habla de artefacto de entrelazado (interlacing artifacts) o dicen que su imagen está entrelazada, se suelen referir a esto.

 

 

Una vez que se han escrito todas las líneas impares, el haz de electrones regresa a la esquina superior izquierda de la pantalla y comienza a escribir las pares. Como el fósforo tarda un momento en dejar de emitir luz y dado que el cerebro humano es demasiado lento, en vez de dos campos distintos, lo que vemos es una combinación de los dos - en otras palabras, la imagen original.

Cuando finalmente llegó la TV en color, la tecnología de entrelazado siguió siendo la misma, pero se necesitaba un tubo de rayos catódicos más sofisticado. En vez de emitir un único haz de electrones, se emiten 3 haces de electrones, con los colores rojo, verde y azul. Cuando colocas puntos de distintos colores lo suficientemente cerca unos de otros, el ojo humano no verá puntos individuales, sino un solo punto y unirá los colores para crear un nuevo color. Debajo podéis ver un esquema de un CRT en color.

Las TVs usan un sistema de color aditivo para mostrar toda clase de colores. Para más información sobre las mezclas de colores aditivas, por favor, referíos a EPICentre Digital Imaging Basics.

En el mundo del NTSC el cambio al color requirió un cambio más: la tasa derefresco debía disminuirse ligeramente, de 60 Hz a 59.97 Hz (quedando en 29.97 imágenes por segundo) para ajustarsea los colores - por este motivo tenemos estas tasas de refresco tan extrañas en el mundo del NTSC en la actualidad.

Ahora, antes de que procedamos a ver cómo filmaron las películas de Hollywood, echemos un vistazo a los monitores de los PCs. El CRT tradicional de un PC es distinto de las pantallas de TV. Cuando los PCs aparecieron en el mercado, se pudo finalmente escribir una imagen entera en un barrido - esto también se llama escaneado progresivo (escaneado porque el haz de electrones "escanea" cada línea de izquierda a derecha). Los primeros monitores de PC aún utilizaban modos entrelazados, pero el mayor contraste y el brillo de los fondos nos daba tal dolor de cabeza que ahora tenemos la suerte de que la mayoría de las pantallas ya no emplean este modo. Hoy en día todas las pantallas de PC escriben una imagen así:

Recientemente ha habido pantallas de TV que trabajan en modo de escaneo progresivo. Estos modelos, sin embargo, son muy raros, y requieren una señal distinta, ya que el modo tradicional de conectar los vídeos, reproductores de DVD o cámaras a la TV no trabaja con imágenes progresivas. Las pantallas de LCD y de plasma sólo pueden escribir imágenes progresivas - cuando reciben una imagen entrelazada necesitan trucos técnicos para mostrar una imagen razonable. A estas técnicas se las llama normalmente desentrelazado (deinterlacing).

Unas palabras más sobre TVs antes de que procedamos: Como quizá recordéis, las TVs antiguas tenían tubos que no eran en absoluto planos. Cuanto más nos alejamos del centro del tubo (el punto en el cual el haz de electrones iría directamente a la capa de fósforo sin desviarse), más complicado es escribir una imagen geométricamente correcta y precisa. Incluso en la actualidad no veréis el tubo entero, las últimas pulgadas se esconden tras la carcasa de la TV. Esa es la razón por la que ambos formatos de TVtienen más líneas de las que podemos ver, el resto de las líneas está y siempre estará escondido. Pero estas líneas se usan: los canales de TV transmiten páginas de texto en estas líneas, pueden contener señales que estropean el amplificador (gain controller) automático de tu aparato de vídeo (el sistema de protección anti-copia analógico Macrovision), etc.

Antes de comenzar con el desentrelazado hay unas cuantas cosas que deberíais saber acerca de cómo se graban las películas.
La mayoría de las películas destinadas al cine se graban en un material similar al que usamos en la fotografía tradicional. En un segundo, se hace una escena con 24 imágenes. Así que, en teoría, podrías rodar una película con tu cámara de fotos, sólo que tendríasque cambiar de rollo cada segundo o segundo y medio (y normalmente las cámaras de fotos no pueden hacer 24 fotos en un segundo;). Cuando vemos estas películas en el cine vemos 24 imágenes (o frames) por segundo. Pero cuando compramos estas películas en cinta de vídeo VHS, o en DVD para verlas en nuestras cutres pantallas de TV tenemos un problema. Las pantallas PAL necesitan 25 imágenes por segundo y cada imagen debe dividirse en 2 campos. Pero dado que 25 no es mucho mayor que 24, lo que solemos hacer en los países en los que usa PAL es tomar la película original a 24 fps (frames por segundo) y acelerarla a 25 fps. Esto implica que las voces y la música tienen un tono más agudo y que la película es un poco más corta, pero a no ser que compares una con otra, apenas se nota.

Ahora vamos con el NTSC. Aquí necesitamos 29.97fps. No se puede acelerar la película, ya que la diferencia de velocidad sería demasiado grande para que la gente no la notase. Así que lo que se hace es que tras dividir los frames en campos, se repiten ciertos campos para obtener una mayor tasa de refresco. Básicamente, 4 frames se convierten en 10 campos, como se muestra abajo:

Entonces, como podéis ver en la imagen, en contra de lo que podáis pensar, un mayor framerate no implica movimiento más fluido - al contrario, NTSC es un poco más desigual, ya que algunos campos se muestran dos veces (el primer campo del frame 2, y el segundo campo del frame 4).

En la TV esto no da mucho problema, ya que la mala calidad evita que nos demos cuenta de que algo no va muy bien. Pero las cosas cambian cuando entramos en el mundo progresivo.

Para mostrar las cosas de modo progresivo el dispositivo que muestra la imagen o la reproduce debe conseguir de algún modo que la imagen entrelazada vuelva a ser progresiva. La manera más fácil de obtener esto es combinar los campos.

De los 10 campos, se juntan los dos primeros para reconstruir el frame 1, y después el tercer y cuarto campos para reconstruir el frame 2. Pero entonces si juntas los campos quinto y sexto no obtienes ni el frame 2 ni el 3. Esto no es tan grave si no ha habido cambios del frame 2 al 3, pero si la cámara se mueve podrás ver algunas líneas entrelazadas en la imagen. Y puede ser aún peor. Imaginad que hay un corte entre los dos frames y que el frame 3 muestra una escena completamente distinta a la del frame 2. Si combinas un campo de una escena con un campo de otra escena lo que obtienes es un desastre. Así que, combinando simplemente los campos no sólo obtendríamos 2 frames de cada 5 estropeados con gran probabilidad, también tendríamos una imagen a 29.97fps en vez de a la tasa original de la película. Ahora bien, si sabemos cómo funciona este proceso, podemos deshacerlo simplemente descartando los frames duplicados. Este proceso se conoce como IVTC - InVerse TeleCine (el proceso de insertar campos duplicados se llama Telecine). Hay dos buenos artículos que explican telecine e IVTC con más detalle: Video and Audio synching problems por Robshot, que explica la creación del contenido obtenido con telecine en más detalle, y Force Film, IVTC, and Deinterlacing - what is DVD2AVI trying to tell you and what can you do about it por hakko504, manono y jiggimi. También está mi guía sobre Decomb, probablemente la utilidad de IVTC más popular.

Ahora que hemos dejado IVTC atrás echemos un vistazo más detallado al desentrelazado (deinterlacing). Primero dejadme que presente el problema de nuevo:

En un principio tenemos dos campo de una escena de vídeo entrelazada:

Como podéis ver - no hay artefactos de entrelazado visibles. Ahora el frame correspondiente:

A pesar de la baja calidad del JPEG, podéis ver que hay las mismas líneas de entrelazado visibles, en especial en la ropa y los brazos del chico.



Y este es un ejemplo aún peor, en el que tenemos un campo de una escena y el segundo campo de otra escena:


Y el frame correspondiente:

Como podéis ver, no es algo que queramos experimentar. Lo que es interesante también es el tamaño de estas imágenes. La de la izquierda es más de 3 veces mayor que el resto, y tiene aún peor aspecto.

Esto explica también porqué almacenar imágenes entrelazadas en modo progresivo no es buena idea. Las líneas ocupan un montón de espacio.

Los descodificadores de VCD y de MPEG-4 normales (excepto XviD) trabajan sólo con contenido progresivo. Así que almacenar algo entrelazado, como se muestra a la izquierda, usando esta técnica de compresión no es muy eficiente, y sería preferible que buscásemos modos de convertir el material entrelazado en progresivo que fuesen más eficientes que combinar simplemente 2 campos en un frame.

El perfil avanzado de MPEG-2 y de MPEG-4 tienen un modo de entrelazado especial. En este modo todas las líneas de un campo se toman juntas (dejando fuera los blancos) y se comprimen; de este modo se ahorran un montón de bits que de otro modo se gastarían en almacenar las líneas que faltan.

Una última nota sobre estos pantallazos: Ya que esto se tomó de un DVD entrelazado y se almacenó en modo entrelazado, hubo que estrechar los pantallazos de los campos a su tamaño original (recordad que en modo entrelazado codificamos sólo las líneas reales, y dejamos las líneas en blanco) - en realidad los campos serían la mitad de alto que los frames.


Ahora que hemos establecido virtualmente nuestro problema echemos un vistazo a las posibles soluciones. Como se ha visto, tomar los dos primeros campos y combinarlos en un frame no siempre es posible. Esto es cierto en especial al tratar con contenido que se ha editado cuando ya estaba en modo entrelazado (este es también el problema número uno cuando se hace el IVTC, en especial el contenido Anime se corta tras hacer el telecine de las partes de la película, lo que da como resultado problemas de IVTC casi irresolubles).

Un modo simple y rápido de librarnos del problema de entrelazado sería tomar el contenido basado en campos, redimensionar los campos al tamaño del frame (recordad que un campo tiene la mitad de la resolución vertical del frame) y pasar los segundos campos. Este método se usa, por ejemplo, cuando seleccionas Separate Fields (Campo Separados) en GordianKnot. Pero como un campo tiene sólo la mitad de la resolución de un frame nos dejamos la mitad de la resolución vertical en el proceso.

Ahora veamos diferentes técnicas de desentrelazado (deinterlacing):

Weave: Toma dos campos consecutivos y los pone en un frame. Esto reduce el framerate a la mitad pero no soluciona los problemas que hemos visto arriba, el frame que tiene campos de dos escenas superpuestos queda igual.

Después tenemos el blending: Aquí tomamos dos frames consecutivos, los redimensionamos al tamaño del frame, y ponemos uno sobre otro. Si no tenemos movimiento esto tiene un aspecto perfecto pero en cuanto hay movimiento comienza a parecer poco natural y poco claro y puede dejar un "rastro fantasmal".

Bob: En bob aumentas cada campo hasta el tamaño del frame y lo muestras dos veces. Ya que el primer campo y el segundo no comienzan exactamente en la misma posición (recordad que empezamos en la línea 1 para el campo 1 y en la línea 2 para el campo 2) la imagen se mueve ligeramente arriba y abajo, lo que se puede ver como un ligero temblor en las escenas en las que no hay movimiento

Hay algunos métodos más, como area based deinterlacing (desentrelazado basado en áreas), motion blur (desenfoque de movimiento) y adaptive deinterlacing (desentrelazado adaptativo). Cada uno tiene sus ventajas e inconvenientes. 100fps.com tiene una bonita comparación de todos los métodos, que incluye buenas muestras que ilustran los efectos de cada filtro y tiene una buena matriz de comparación de características. El sitio también sirve de guía para crear verdadero material progresivo a 50fps a partir de fuentes entrelazadas. Si el sitio tiene demasiado que leer para ti (dudo que ningún lector de Doom9 pueda decir eso, pero puede ser) Gunnar Thalin's area based deinterlacer y DeinterlacePALInterpolation que se basa en el filtro de Thalin son soluciones bastante buenas cuando necesitas salidas a 25fps. También está el desentrelazado de campo de Decomb, que resulta ser bastante efectivo.

De todos modos, antes de hacer el desentrelazado, intenta intercambiar el orden de los campos antes (swapping). DVD2AVI posee una función para esto (Video - Field Operations - Swap Field order) y también AviSynth (SwapFields). En bastantes ocasiones eso puede solucionar vuestros problemas de entrelazado, especialmente cuando parece que la película principal está entrelazada.

Palabras finales: Esto no es de ningún modo una descripción técnica completa y la escribí intentando recordar todas las clases de física y de compresión de vídeo que di en el instituto y en la facultad. Espero que mi memoria no haya fallado miserablemente.

>> VOLVER

Ultima Actualización: 6 de Julio del 2003.


Spanish translation by: marogni | Content by Doom9.net - The definitive DVD backup resource