La utilización de los contenidos de imágenes o vídeos para dirigir los anuncios por internet podría mejorar el número de clics.
Los anuncios de internet ayudan a subsidiar los contenidos y servicios gratuitos, y han hecho de Google en el gigante que es hoy. Sin embargo, el software utilizado para adaptarlos a los intereses del usuario sólo logran hacerlo mediante el análisis de las palabras contenidas en una página web.
Qiang Yang, desde la Universidad de Ciencia y Tecnología de Hong Kong, quiere cambiar esta situación. Ha desarrollado un software capaz de seleccionar los anuncios contextuales en función del contenido de las imágenes o los vídeos en una página. Yang y sus colegas de la Universidad Shanghai Jiao Tong de China presentaron su trabajo en la Conferencia AAAI sobre Inteligencia Artificial en Atlanta la semana pasada.
Muchas áreas de rápido crecimiento dentro de internet, como Facebook o Picasa de Google, están llenas de imágenes generadas por el usuario. Podrían convertirse en una lucrativa oportunidad publicitaria con la tecnología adecuada, afirma Yang. "Muchas fotos dentro de los álbumes de fotos por internet, además de muchas escenas de vídeo, no tienen textos que las describan", afirma. "La gente que navega a través de sus propios álbumes o las fotos de otras personas son un público potencial para los anuncios". Hoy día, asegura, es imposible llegar a la gente allí donde no haya texto colindante.
Para hacer coincidir un anuncio con una imagen, el software del grupo primero convierte la imagen en una colección de palabras. El software fue entrenado para realizar esta tarea después de analizar cerca de 60.000 imágenes en Flickr con etiquetas añadidas por los usuarios.
Después, cualquier nueva imagen puede ser más o menos resumida con pocas palabras, y un segundo algoritmo utiliza esas palabras para seleccionar un anuncio que mostrar. Durante las pruebas de esta técnica, los anuncios fueron combinados con más de 300.000 imágenes encontradas a través del motor de búsqueda MSN de Microsoft (antes de que cambiara su marca a Bing), utilizando términos de búsqueda populares. Los resultados fueron buenos, afirma Yang. Por ejemplo, una foto de una rana arbórea hizo que se mostraran anuncios de alimentos para mascotas. Uno de un barco y una playa seleccionó anuncios para pasar vacaciones haciendo vela y comprar zapatos náuticos.
Este método es un ejemplo de una técnica de aprendizaje de máquinas llamada "transferencia de aprendizaje", afirma Yang. "La transferencia de aprendizaje trata de aprender en un espacio (texto) y luego aplicar el modelo aprendido a un espacio de características muy diferentes (como imágenes)", asegura. "Su objetivo es imitar el aprendizaje humano, con el que podemos aplicar los conocimientos aprendidos, por ejemplo, jugando al ajedrez, a un dominio aparentemente diferente como la planificación estratégica dentro de los negocios."
A un panel de voluntarios se le pidió que observase las imágenes y los anuncios elegidos junto a ellas, para después evaluar los anuncios que se consideraran suficientemente pertinentes como para considerar hacer clic en ellos. "Esta prueba demuestra que podemos, como promedio, producir un anuncio correcto por cada tres anuncios sugeridos", afirma Yang. Cree que se trata de una tasa de éxito suficientemente alta como para sugerir que el método podría funcionar comercialmente. Cuando a los mismos usuarios se les mostraron imágenes con anuncios seleccionados al azar, sólo uno de cada 50 fue considerado suficientemente importante como para hacer clic en él.
Un grupo de investigadores de Microsoft Research Asia previamente desarrolló un sistema que utiliza el análisis de imagen para clasificar las fotos dentro de una serie de categorías, y así refinar la selección publicitaria basada en texto. El objetivo de Yang, afirma, es llevar la publicidad contextual a páginas con poco o ningún texto. Para ello sería necesario un tipo de software capaz de clasificar las imágenes utilizando un vocabulario más amplio, como el que está desarrollando.
El equipo está trabajando para agregar a su sistema capacidades parecidas a un tesauro, para que pueda generar varias palabras para describir la misma característica en una imagen, y por tanto aumentar el número de anuncios relevantes que se puedan encontrar. En la actualidad, ya es posible hacer que el software funcione con fotogramas de vídeo individuales. El grupo también está trabajando para hacer que funcione con secuencias de video.
"Este enfoque de publicidad contextual es potencialmente muy interesante para los anunciantes", señala Debra Williamson, analista senior en la firma de investigación publicitaria y marketing digital eMarketer. "Hoy día en internet la publicidad se basa en el texto de una página, incluso cuando los medios que ocupan el centro de atención de los usuarios son las imágenes o el vídeo."
Si la tecnología es lo suficientemente fiable, su aplicación al vídeo probablemente tendría más potencial que con las imágenes fijas, asegura Williamson. Para los vídeos de larga duración, afirma, "una breve descripción no logra representar todo el metraje. Si fuéramos capaces de escanear lo que hay en el video, podríamos elegir anuncios para mostrarlos minuto a minuto en base a lo que aparece. "