.

Computación

Extracción de significados entre millones de páginas

1

El software de la Universidad de Washington extrae datos repartidos entre 500 millones de páginas web.

  • por David Talbot | traducido por Francisco Reyes (Opinno)
  • 10 Junio, 2009

Un grupo de investigadores de la Universidad de Washington ha desarrollado un motor de software que reúne datos a partir de más de 500 millones de páginas web. La herramienta extrae la información de miles de millones de líneas de texto mediante el análisis de las relaciones básicas entre las palabras.

Algunos expertos afirman que este tipo de “extracción automatizada de la información” probablemente será la base de una nueva generación de búsquedas web más inteligentes, en la que los pequeños trozos de información primero se recogen y luego se combinan de forma inteligente.

El proyecto de la Universidad de Washington representa un gran paso adelante dentro de un tipo de tecnología existente en la actualidad y desarrollada allí mismo llamada TextRunner, en términos del número de páginas y el rango de temas que puede analizar.

“La importancia de TextRunner es que se puede aumentar porque nadie lo supervisa,” afirma Meter Norvig, director de investigación de Google, que donó la base de datos de páginas web que TextRunner analiza. “Es capaz de descubrir y aprender millones de relaciones, no sólo una a la vez. Con TextRunner no hay interacción humana: encuentra las relaciones por sí mismo.”

Norvig explica que las tecnologías previas requerían una mayor orientación por parte del programador. Por ejemplo, para encontrar los nombre de la gente que ocupan cargos de dirección general entre millones de documentos, primero habría que entrenar al software con otros ejemplos, tales como “Steve Jobs es el director general de Apple, Sheryl Sandberg en la directora general de Facebook.” Norvig añade que Google está llevando a cabo un estudio similar y que ya ha utilizado este tipo de tecnología en contextos limitados.

TextRunner no necesita trabajo manual. Los usuarios pueden introducir, por ejemplo, “mata a las bacterias,” y el motor devolverá páginas que ofrezcan datos del tipo “el cloro mata a las bacterias” o “la luz ultravioleta mata a las bacterias” o “el calor mata a las bacterias”—unos resultados llamados “triples”. También permitirá prever el texto y después visitar la web de la que ha sido extraido.

El prototipo aún tiene una interfaz bastante simple y no está pensado para búsquedas públicas sino para demostrar la extracción automática de información a partir de 500 millones de páginas web, afirma Oren Etzioni, científico informático de la Universidad de Washington que ha dirigido el proyecto. “Lo que estamos mostrando es la capacidad del software de alcanzar un entendimiento rudimentario del texto a una escala y rango sin precedentes,” afirma.

TextRunner también es un punto de partida para construir deducciones a partir de preguntas que utilicen el lenguaje natural, y en esto en lo que está trabajando el grupo actualmente. Por ejemplo: si TextRunner encuentra una página web que afirma que “los mamíferos tienen sangre caliente” y otra web que señala que “los perros son mamíferos,” el motor de deducciones llegará a la conclusión de que probablemente los perros tengan sangre caliente.

Esto es parecido a la tecnología desarrollada por Powerset, que fue adquirida por Microsoft el año pasado. Poco después de esta adquisición, Powerset desveló una herramienta que se limitaba a extraer datos de alrededor de dos millones de páginas de Wikipedia. La tecnología de TextRunner trabaja con Wikipedia y con cualquier texto arbitrario en cualquier página, incluyendo blogs, catálogos de productos, artículos en periódicos y mucho más.

“Esta línea de trabajo ha estado produciendo unos avances importantes dentro de la escala en que estas tareas se pueden llegar a realizar,” afirma Jon Kleinberg, científico informático de la Universidad de Cornell y que ha estado siguiendo la investigación de la Universidad de Washington. Añade que “este trabajo refleja una creciente tendencia hacia el diseño de herramientas de búsqueda que combinen de forma activa los trozos de información que encuentren en la web dentro de un tipo de síntesis más amplia.”

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. Google anuncia un hito hacia la computación cuántica sin errores

    Una técnica llamada “código de superficie” permite a los bits cuánticos de la empresa almacenar y manipular datos fielmente durante más tiempo, lo que podría allanar el camino a ordenadores cuánticos útiles

  2. El vídeo es el rey: bienvenido a la era del contenido audiovisual

    Cada vez aprendemos y nos comunicamos más a través de la imagen en movimiento. Esto cambiará nuestra cultura de manera inimaginable

    Dos personas creando contenido en formato vídeo
  3. Esta empresa quiere superar a Google e IBM en la carrera cuántica con un superordenador de fotones

    La empresa quiere construir una computadora que contenga hasta un millón de cúbits en un campus de Chicago