Aquí está el secreto de la tecnología de conversión ascendente de IA 8K

Aquí está el secreto de la tecnología de conversión ascendente de IA 8K

La estrategia de ventas de Samsung para ventas de TV en 2020 es simple: 8,000 o menos. Si bien sus ventas de televisores 4K con presupuesto QLED están infrautilizadas por televisores 4K de bajo presupuesto, Samsung planea mover el mercado nuevamente, a un formato que tiene (hasta ahora) muy pocos competidores, pero También muy poco contenido nativo.

Sin embargo, como vimos en nuestra prueba de comparación 4K vs. 8K a principios de este año, en realidad no necesita una filmación de video con una resolución de 780 × 4320 (8K) para disparar lleno de estos millones de píxeles: los televisores Samsung 8K utilizan la conversión ascendente para convertir cualquier imagen. tipo de video (SD a 4K y todo lo demás) en resolución de 8K.

Por supuesto, el aumento en los niveles no es nuevo. Durante años, los televisores 4K e incluso HD han encontrado formas de extender el contenido en baja resolución para adaptarse a la mayor proporción de píxeles / pulgada de los televisores modernos. Pero como los televisores 8K tienen que ocupar cuatro píxeles de 4K, los métodos convencionales de conversión ascendente simplemente no funcionan, por razones que discutiremos más adelante.

Ahora, después de visitar los laboratorios de control de calidad de Samsung en Nueva Jersey y conversar con sus ingenieros, tenemos una mejor idea de cómo Samsung utiliza la inteligencia artificial y el aprendizaje automático para que se vea así. es posible ampliar 8K, y cómo sus técnicas de inteligencia artificial se comparan con las de los primeros esfuerzos de los fabricantes.

¿Por qué la mejora convencional se veía tan terrible?

Antes de 1998, las transmisiones de televisión tenían una resolución de 720x480 y las películas grabadas en mayor calidad se comprimían para ajustarse a ese formato. Eso es 345,600 píxeles de contenido, que solo ocuparía una pequeña ventana en los televisores modernos con relaciones PPI (píxeles por pulgada) más altas. Este contenido SD? Debe expandirse para cubrir más de 2 millones de píxeles en alta definición, más de 8 millones para 4K o más de 33 millones para 8K.

La línea de base para escalar es mantener la proporción correcta de píxeles mediante una simple multiplicación. Para convertir el formato HD a 4K, el procesador del televisor debe explotar un píxel HD para ocupar cuatro píxeles de espacio en la pantalla de mayor resolución. O 16 píxeles al convertir HD-8K.

(Изображение предоставлено Sony)

Sin ningún procesamiento de imagen, la imagen terminó, citando a Tolkien, "de alguna manera estirada, como mantequilla raspada en demasiado pan". Cada pieza de datos se vuelve anormalmente cuadrada, sin gradiente natural entre detalles y colores. Esto provoca un gran bloqueo o ruido alrededor de los objetos en la pantalla.

Probablemente también verá algo llamado "ruido de mosquito". Para comprimir un video para que funcione con su ancho de banda de Internet limitado, las emisoras y los sitios web deben completar el flujo de defectos de color intencionales o "artefactos de compresión". Los píxeles deliberadamente defectuosos pululan alrededor de las áreas de la pantalla donde se encuentran contrastes agudos, como el puente marrón frente al cielo azul en la imagen de arriba.

Las matemáticas detrás del movimiento de lujo

Ante estos problemas, los programadores de televisión han enseñado a sus televisores a analizar digitalmente y procesar imágenes en tiempo real para completar o reparar píxeles faltantes o dañados. Y lograron esto mediante el uso de funciones matemáticas, que puede decirle a sus seres queridos la próxima vez que digan que demasiados televisores le pudren el cerebro.

Específicamente, los ingenieros le enseñaron al procesador de televisión a interpolar el valor de color de cada píxel faltante, en función de los píxeles circundantes. Para hacer esto, tuvo que definir su núcleo: la función que asigna una prioridad de color a los vecinos de un píxel, de acuerdo con su proximidad.

El núcleo más básico utilizado en televisores es el núcleo más cercano, que simplemente calcula qué píxel está más cerca de un píxel vacío y pega los mismos datos de color en el píxel vacío. Este método hace que la imagen tome un patrón de zig-zag en bloques, o un alias, con un borde débil. Imagine una letra negra "A" en una pantalla blanca; un píxel faltante a las afueras de la letra puede rellenarse en negro, mientras que un píxel en el borde de la letra puede aparecer en blanco. El resultado será una gota gris alrededor de la letra o una escalera irregular de blanco y negro que sube y baja.

Este gráfico ilustra el proceso de calcular un píxel vacío (el punto verde "P") basado en la interpolación bilineal. & Nbsp;

Este gráfico muestra el proceso de cálculo de un píxel vacío (el punto "P" verde) basado en la interpolación bilineal.

(Изображение предоставлено: общественное достояние)

La interpolación bilineal requiere más potencia informática, pero es más eficiente. En este método, el píxel en blanco se compara con los dos vecinos más cercanos para formar un gradiente lineal entre ellos, mejorando así la nitidez de la imagen. Esto produce efectos visuales más suaves pero puede ser inconsistente. Por lo tanto, otros televisores usan interpolación bicúbica, que dispara en los 16 píxeles más cercanos en todas las direcciones. Aunque este método permite obtener un color lo más preciso posible, también genera una imagen mucho más difusa, los contornos adquieren un efecto de halo molesto.

Probablemente ya pueda adivinar el problema: estos televisores llenan los píxeles sobre la base de fórmulas matemáticas que estadísticamente tienen más probabilidades de producir imágenes precisas, pero no tienen forma de interpretar su apariencia temática de acuerdo con lo que realmente es se muestra en la pantalla.

Por lo tanto, después de explicar cómo estos algoritmos no tuvieron éxito sistemáticamente, el equipo de Samsung explicó cómo su inteligencia artificial supera estas desventajas.

El secreto de Samsung: aprendizaje automático, reconocimiento de objetos y filtros

(Изображение предоставлено Samsung)

El arma secreta de Samsung es una técnica llamada super resolución de aprendizaje automático (MLSR). Este sistema impulsado por IA toma una transmisión de video de menor resolución y la redimensiona para ajustarse a la resolución de una pantalla más grande con una relación PPI más alta. Es la contraparte antigua del científico de la computación que se acerca y "mejora" una imagen borrosa simplemente presionando una tecla, excepto que se hace automáticamente y casi al instante.

Los representantes de Samsung explicaron cómo analizaron una gran cantidad de contenido de video de diferentes fuentes (fuentes de YouTube de alta calidad y baja calidad, DVD y Blu-Rays, películas y eventos deportivos) y crearon dos bases de datos. imágenes, una para las capturas de pantalla pobres y otra para las capturas de pantalla de alta calidad.

Luego tuvo que entrenar a su IA para llevar a cabo un proceso llamado "degradación inversa" por el sector de IA. Primero, toma imágenes de alta resolución y las degrada a resoluciones más bajas, siguiendo los datos visuales perdidos. Luego, debe revertir el proceso y entrenar a su IA para completar los datos faltantes de las imágenes de baja resolución para que reflejen las imágenes de alta resolución.

El equipo de Samsung llama a este proceso una "fórmula". Sus procesadores 8K contienen un banco de fórmulas con una base de datos de fórmulas para diferentes objetos, como una manzana o la letra "A". Cuando el procesador reconoce una manzana borrosa en la mano de un actor, restaura los bordes de la manzana, repara los artefactos de compresión y garantiza que los píxeles en blanco tomen el tono rojo correcto según el color. aparición de manzanas y no en algoritmos estadísticos vagos. . Además, junto con la restauración de objetos específicos, la inteligencia artificial ajustará su flujo de acuerdo con lo que está viendo.

Según Samsung, hay docenas de diferentes "filtros" que cambian el nivel de creación de detalles, reducción de ruido y restauración de bordes para un flujo determinado, dependiendo de si está viendo un deporte, un género de película o un tipo de película. cinematografía.

Изображение 1 из 5

(Crédito de la imagen: Michael Hicks)

Escalando en acción

El televisor de la izquierda es un televisor Samsung 4K sin sobremuestrear la IA; El televisor de la derecha es un 8K. A la izquierda, puedes ver bloques verdes y malas transiciones de secciones claras a secciones oscuras alrededor del actor.

Изображение 2 из 5

(Crédito de la imagen: Michael Hicks)

Información de stock en una pantalla 4K.

Изображение 3 из 5

(Crédito de la imagen: Michael Hicks)

Compare esta pantalla con la anterior. Los encabezados más grandes son legibles en ambos, pero solo esta pantalla de 8K hace que el texto sea más legible. En parte debido a un mejor brillo, pero también debido a una mejor restauración del borde.

Изображение 4 из 5

(Crédito de la imagen: Michael Hicks)

Otra pantalla de texto restaurada a 8K

Изображение 5 из 5

(Crédito de la imagen: Michael Hicks)

En comparación con la pantalla anterior, cualquier texto que no sea el tema de un título es mucho más difícil de leer aquí.

Según los ingenieros de Samsung, la restauración de los contornos presentados en la presentación de diapositivas anterior, una cantidad increíble de texto para restaurar en tiempo real, ni siquiera es la tarea más difícil para la inteligencia artificial. En cambio, replicar las texturas apropiadas de un objeto en tiempo real sigue siendo un desafío difícil. Deben asegurarse de que el procesador aumenta la apariencia de los objetos sin que estos se vuelvan antinaturales.

Lo que el procesador no hará (según Samsung) es clasificar erróneamente un objeto. "No convertirá una manzana en un tomate", nos aseguró un ingeniero, pero sin dar detalles. Lo más probable es que el procesador esté entrenado para evitar cambios radicales si no reconoce qué es un objeto.

No verá inteligencia artificial que altere la intención del cineasta, como ha dicho el equipo de Samsung. Entonces, si un director usa el efecto bokeh, el fondo borroso permanecerá borroso, mientras que el primer plano estará compuesto con una nitidez de hasta 8K.

También declararon que no analizaron específicamente los feeds más populares para su categorización de objetos, sino que se centraron más en la cantidad general y la diversidad del contenido. Por lo tanto, no se sabe si tienen una fórmula de "dragón" o "hombre lobo" para sus frenéticos relojes Game of Thrones.

& nbsp; La última gama de televisores QLED & nbsp;

La última gama de televisores QLED

(Crédito de la imagen: Michael Hicks)

Los nuevos televisores Samsung 8K (y 4K) vienen con el último banco de fórmulas instalado, y luego se agregan nuevos datos de objetos a través de actualizaciones de firmware que debe aprobar. Samsung dice que continuará analizando nuevos flujos visuales para expandir su biblioteca de objetos, pero lo está haciendo localmente en los servidores de Samsung. no analiza datos de televisores personales.

¿Cuántas fórmulas de objetos de Samsung ha acumulado de su análisis de flujo sin fin? Uno de sus ingenieros dio una cantidad instantánea que parecía increíble, sugiriendo que el procesador generalmente reconocería una gran cantidad de objetos en la pantalla. Pero un funcionario de relaciones públicas intervino y nos pidió que no imprimiéramos el número, diciendo que preferirían que los consumidores se centren en la calidad del funcionamiento del Samsung MLSR en lugar de los números arbitrarios.

Mejora de la IA: ¿la nueva normalidad?

Samsung no es el único fabricante de televisores que actualmente utiliza inteligencia artificial y restauración de imágenes para sus televisores.

La página de publicidad 4K de Sony presenta detalles inquietantes sobre sus soluciones de procesamiento de imágenes AI. Sus nuevos televisores 4K contienen procesadores con una "doble base de datos" de "decenas de miles" de referencias de imágenes "que mejoran dinámicamente los píxeles en tiempo real".

(Изображение предоставлено Sony)

Antes de CES 2019, LG también anunció que su nuevo chip de televisión a9 Gen 2 incluiría el procesamiento de imágenes y el aprendizaje automático para mejorar la reducción de ruido y el brillo, incluso mediante el análisis de la fuente y El tipo de soporte y la adaptación de su algoritmo en consecuencia.

Sin embargo, más allá de los elementos de la inteligencia artificial, parece que estos procesadores de televisión aún dependen un poco de algoritmos automatizados. En nuestra entrevista anterior con Gavin McCarron, jefe de marketing técnico y planificación de productos en Sony Europa, sobre el procesamiento de imágenes de IA en televisores Sony, dijo lo siguiente:

"Cuando pasas de Full HD a 4K, hay muchas conjeturas, y lo que estamos tratando de hacer para eliminar tantas conjeturas como sea posible. (Nuestro procesador) no solo mira el aislamiento de píxeles, mira los píxeles a su alrededor y en cada diagonal, y también busca píxeles en varios cuadros, para dar consistencia a la calidad de la imagen ".

Es muy probable que Sony, así como LG y Samsung, estén utilizando una forma de algoritmo bilateral o bicúbico como sistema de conversión ascendente. Luego, analizan el contenido cercano a 4K y determinan qué píxeles deben aumentarse con el procesamiento de imágenes y cuáles deben eliminarse como ruido.

En este sentido, la mayoría de los fabricantes de televisores están relativamente cerca unos de otros en la carrera por la inteligencia artificial de primer nivel. La excepción es Samsung, que utiliza las mismas técnicas pero llena cuatro veces la cantidad de píxeles faltantes para que quepa en una pantalla de 8K. Tendremos que esperar para ver si los esfuerzos de inteligencia artificial de otros fabricantes también les permitirán ingresar al mercado de 8K.