Las milésimas por las que superó la marca anterior de Google se basaron en malas prácticas sobre la prueba oficial
El deporte de entrenar software para que actúe de forma inteligente acaba de sufrir su primer escándalo de trampas. El pasado mes de mayo la empresa china de buscadores Baidu anunció que su software de reconocimiento de imágenes había dado mejor rendimiento en una prueba estandarizada de precisión que el software de Google. La semana pasada la empresa reconoció que para conseguir tan alta puntuación rompieron las propias reglas de la prueba.
Los expertos académicos dicen que esto priva de valor los alardeos de Baidu de haber superado a Google. El investigador jefe que dirigió el trabajo sobre este software, Ren Wu, ha pedido disculpas y dice que la empresa está revisando sus resultados. Baidu ya ha modificado un ensayo técnico que había publicado sobre su software.
No sabemos si esta acción corresponde a un individuo, o una estrategia a nivel de equipo. Pero el por qué una corporación valorado en miles de millones de dólares se molestaría en hacer trampas en una prueba poco conocida y regida de forma voluntaria por académicos está muy claro.
Baidu, Google, Facebook y otras empresas líderes en la computación han hecho fuertes inversiones en los últimos años para construir equipos de investigación dedicados al aprendizaje profundo, un método para crear software de aprendizaje artificial que ha conseguido grandes logros en el reconocimiento de voz e imágenes. Estas compañías han trabajado duro en la contratación de expertos líderes en este pequeño campo - a veces robándoselos entre sí (ver ¿Quiere Google acaparar el mercado del aprendizaje profundo?). Un puñado de pruebas estandarizadas desarrolladas por académicos son la moneda por la que estos equipos de investigación miden sus progresos y dan visibilidad de sus avances al público.
Baidu consiguió una ventaja injusta al alterar el diseño de la prueba. Para que un software sea puntuado por el Reto de ImageNet, primero debe entrenarse con un conjunto estándar de 1,5 millones de imágenes. Entonces se introduce el código del software en el servidor de ImageNet Challenge para que se evalúe su precisión con una colección de 100.000 imágenes "de validación" que el software no ha visto con anterioridad.
Las reglas del reto dictan que sólo se debe probar el código dos veces por semana, porque los resultados de la prueba incluyen un elemento de casualidad.
Baidu ha reconocido que utilizó múltiples cuentas de correo electrónico para probar su código unas 200 veces en seis meses - más de cuatro veces lo permitido por ImageNet Challenge.
El CEO del Instituto Allen para la Inteligencia Artificial, Oren Etzioni, compara las acciones de Baidu a comprar muchos boletos de lotería. "Si compras dos boletos de lotería a la semana tienes ciertas probabilidades, y si compras 200 boletos a la semana tus probabilidades aumentan", dijo. Además, probar versiones ligeramente modificadas a lo largo de muchas pruebas podría facilitar la optimización del software por parte de los investigadores para procesar las peculiaridades de la colección de imágenes de validación que no se encuentren en fotos del mundo real.
Tanto es el éxito del aprendizaje profundo en esta prueba en particular que hasta una pequeña ventaja puede marcar la diferencia. Baidu había afirmado conseguir un índice de errores de tan sólo el 0,0458%, mejorando así el récord anterior del 0,0482% conseguido por Google el pasado mes de marzo. De hecho, algunos expertos han señalado que las pequeñas márgenes de victoria en la carrera de mejorar el rendimiento en esta prueba en concreto le restan importancia. El hecho de que Baidu y otros sigan alardeando de sus resultados igualmente - y que estén incluso dispuestos a infringir las reglas para conseguirlos - sugiere que ser considerado el mejor en el campo del aprendizaje artificial sin duda les importa mucho.