Computación

«La escala y la precisión del Gráfico del Conocimiento es única en toda la historia»

El vicepresidente de ingeniería de Google, John Giannandrea, habla sobre esta nueva herramienta que quiere que Google comprenda tus búsquedas

por Tom Simonite | traducido por Francisco Reyes
29 Enero, 2014

A pesar de su éxito, el famoso algoritmo Page Rank de Google nunca ha entendido una palabra de los miles de millones de páginas web a las que ha dirigido a la gente a lo largo de los años. Por ello, en 2010 Google adquirió Metaweb, una compañía dedicada a construir una base de datos con la que dar a los ordenadores la capacidad de entender el mundo. Dos años más tarde, la tecnología de la compañía resurgió como el Gráfico del Conocimiento, o Knowledge Graph. El vicepresidente de ingeniería de Google y cofundador de Metaweb, John Giannandrea, asegura que ayudará a que los futuros productos de Google sean capaces de entender realmente a las personas que los utilizan y las cosas que les importan. Estuvo charlando Tom Simonite, de MIT Technology Review, sobre cómo hacerlo gracias a un almacén de datos diseñado para unir todo el conocimiento existente en la Tierra.

¿Qué es el Gráfico del Conocimiento?

Es una síntesis de lo que Google sabe sobre el mundo. Una analogía que utilizo a menudo son los mapas. Para un producto de mapas tienes que construir una base de datos del mundo real y saber que hay cosas que se llaman calles, ríos y países en el mundo físico. Eso es crear una estructura simbólica para el mundo físico, mientras que el Gráfico del Conocimiento hace lo mismo, pero dentro del mundo de las ideas y el sentido común. Tenemos entidades en el gráfico del conocimiento para alimentos, recetas, productos, ideas de filosofía e historia, y gente famosa. Podemos crear relaciones entre ellas, para poder decir que dos personas están casadas o que este lugar está en este país, o decir que tal película tiene que ver con tal persona.

¿En qué se diferencia eso de una búsqueda web de Google?

Hemos pasado desde el nivel de sólo hablar de las palabras para hablar de lo que algo es en realidad. Ahora podemos añadir una comprensión del propio documento al rastreo e indexación de documentos . Si el documento es sobre tenistas famosos sabemos que es sobre deporte y tenis. Cada pieza de información que captamos, indexamos o buscamos se analiza en el contexto del Gráfico del Conocimiento. Eso no es lo mismo que entender completamente el texto como tú y yo podríamos entenderlo, pero es un paso en esa dirección.

Ahora podemos hacer preguntas y respuestas en Google.com, como por ejemplo buscar "¿Qué edad tiene Barack Obama?". También estamos haciendo cosas relacionadas con la exploración. Tenemos una característica llamada carrusel para explorar las categorías de entidades, por lo que si escribes "puentes de Londres" te mostrará varios puentes.

Por supuesto, ser capaces de entender lo que la gente está buscando nos ayudará a orientar los anuncios de búsqueda. Pero, ¿el Gráfico del Conocimiento tiene usos más allá de las búsquedas?

Dentro de Google, el Gráfico del Conocimiento es un elemento de infraestructura cada vez más grande, amplio y profundo. Es un esfuerzo de toda la compañía. Casi todos los datos estructurados de todos nuestros productos como Mapas, Finanzas, Películas y Música están en el Gráfico del Conocimiento, por lo que podemos afirmar, razonablemente, que todo lo que sabemos sigue una estructura canónica. Permite a nuestros responsables de producto en cada rincón de la empresa ser más ambiciosos.

Como tema general, tratamos de ir más allá y no quedarnos en las búsquedas sino realmente saber sobre las cosas. Creemos que esto es esencial porque queremos entender lo que estás tratando de hacer y poder ayudarte. Google Now es un ejemplo de producto que trata de averiguar el estado en el que estás y hacerte sugerencias. Para hacerlo de manera eficaz es necesario comprender a las personas, y que se van de viaje, y que los viajes en aviones pueden retrasarse.

Una de las áreas principales es intentar entender a un nivel ligeramente más alto de qué tratan los textos. Las palabras que se ven en un texto son fundamentalmente ambiguas [para un ordenador], pero si tienes el Gráfico del Conocimiento y entiendes cómo se relacionan entre sí las palabras, entonces puedes eliminar sus ambigüedades. Si ves un documento que habla de George Bush, Saddam Hussein y Norman Schwarzkopf, podrías ser capaz de adivinar de qué Bush se trata porque sólo uno de ellos tenía a Norman Schwarzkopf presente. Es como un pequeño paso hacia la comprensión de lo que en realidad quiere decir el documento.

¿Ya está acabado el Gráfico del Conocimiento?

Está creciendo a cada segundo. Si un negocio local actualiza sus horarios de apertura con Google esos datos acaban yendo al Gráfico del Conocimiento, por ejemplo, y existen algoritmos que buscan cambios en muchos sitios web públicos, como Wikipedia. Básicamente, tomamos estos datos en bruto y los filtramos para decidir nuestro nivel de confianza y ver si hay que cambiar el gráfico. Si una persona famosa muere, por ejemplo, nos damos cuenta y el Gráfico del Conocimientos se actualiza.

Con anterioridad, la gente ha propuesto la construcción de este tipo de representaciones de sentido común usando inteligencia artificial. Creo que lo que distingue al Gráfico del Conocimiento es que se trata de una implementación muy grande y práctica de eso mismo. La escala y la precisión del Gráfico del Conocimiento es probablemente única en toda la historia.

¿Qué pasa con la información subjetiva, como por ejemplo si un restaurante es romántico?

Esa es un área de trabajo en curso, aunque el Gráfico del Conocimiento contiene algunos datos subjetivos. A veces podemos observar ciertas palabras, como por ejemplo si este restaurante es conocido por X, Y o Z. Los géneros, en general, son difíciles y los géneros musicales aún más difíciles porque las personas no se ponen de acuerdo. Pero la mayoría de las bases de datos harían un intento de enumerar el género y eso es algo a lo que podemos recurrir.

¿Por qué parece distinto el Gráfico del Conocimiento de la visión de la web semántica desarrollada por Tim Berners-Lee y otros?

La idea original de la web semántica consistía en que las personas emitirían sus datos en formatos estándar y después un motor de búsqueda como Google podría agregarlos y ofrecer todo tipo de maravillosos servicios. Esa potente idea de enseñar a los ordenadores acerca del mundo del conocimiento no fue lo suficientemente rápida, y queríamos acelerarla reuniendo una masa crítica de elementos. Reconocemos que no tenemos todos los datos del mundo, pero creemos que este modelo es útil. Todavía gestionamos un sitio web público llamado Freebase donde la gente puede aportar datos a la base de datos de código abierto y Google proporciona APIs públicas para acceder a ella. El uso y las contribuciones a Freebase son cada vez mayores.

Computación

«La escala y la precisión del Gráfico del Conocimiento es única en toda la historia»

Google anuncia un hito hacia la computación cuántica sin errores

El vídeo es el rey: bienvenido a la era del contenido audiovisual

Esta empresa quiere superar a Google e IBM en la carrera cuántica con un superordenador de fotones