Microsoft y Google buscan la manera de sortear los temores y normas sobre privacidad para alimentar algoritmos con datos tan sensibles como los médicos
La reciente aparición de una potente técnica de aprendizaje de máquinas conocida como aprendizaje profundo ha hecho que los gigantes de la computación como Google, Facebook y Microsoft tengan todavía más apetito por los datos. Es lo que permite que el software aprenda a hacer cosas como reconocer imágenes o entender el lenguaje (ver Esto es lo que ve un ordenador para saber lo que le están enseñando).
Pero muchos problemas para los que el aprendizaje profundo podría resultar más útil necesitan datos que resultan difíciles de recopilar o son propiedad de organizaciones que no quieren compartirlos. Y como lo expresó el CEO de Apple, Tim Cook, algunos consumidores ya están preocupados por ciertas empresas que "engullen" sus datos personales.
"Mucha gente que posee conjuntos de datos sensibles como imágenes médicas no los va a compartir por motivos legales o de regulación", afirma el profesor del campus tecnológico de la Universidad de Cornell (EEUU) Vitaly Shmatikov, que estudia la privacidad. "De alguna manera estamos privando a esa gente de los beneficios del aprendizaje profundo".
Shmatikov e investigadores de Microsoft y Google están trabajando en maneras de esquivar ese problema de privacidad. Buscan maneras de utilizar y entrenar las redes neuronales artificiales, las que emplea el aprendizaje profundo, pero sin la necesidad de engullir todo. El objetivo es poder entrenar software más inteligente y convencer a los guardianes de datos sensibles para usar este tipo de sistemas.
Shmatikov y su colega Reza Shokri están probando lo que llaman "aprendizaje profundo conservador de la privacidad". Ofrece una manera beneficiarse de múltiples organizaciones -como varios hospitales- y emplear sus datos para entrenar software de aprendizaje profundo, pero sin tener que exponerse al riesgo de compartirlos.
Cada organización entrena algoritmos de aprendizaje profundo con sus propios datos, y entonces comparte sólo los parámetros claves del software entrenado. Después pueden juntarse para formar un sistema que rinde casi tan bien como si se hubiera entrenado con todos los datos de forma simultánea.
La investigación de la Universidad de Cornell fue financiada en parte por Google, que ha publicado un trabajo sobre unos experimentos similares y se encuentra en negociaciones con Shmatikov acerca de sus ideas. Los investigadores de la empresa inventaron una manera de entrenar los algoritmos de aprendizaje profundo de la empresa con datos como las imágenes procedentes de smartphones, pero sin llegar a transferirlas a la nube de Google.
Eso podría facilitar que la empresa aproveche los datos más personales que almacenamos en nuestros dispositivos móviles, escribieron. Google rehusó facilitar un contacto para hablar sobre esa investigación, pero Shmatikov cree que la empresa sigue trabajando en ella.
El grupo de investigaciones de criptografía de Microsoft ha desarrollado su propia solución para el problema de la privacidad del aprendizaje profundo. Inventó una manera de utilizar software de aprendizaje profundo entrenado con datos encriptados para generar respuestas encriptadas. La idea es que un hospital, por ejemplo, podría pedir a Microsoft que utilice una de esas “CryptoNets” (criptoredes) para identificar imágenes de escáner que sugieran problemas potenciales y evitar la necesidad de exponer esas imágenes ante la empresa.
Los investigadores lograron esta hazaña con el uso de una técnica llamada cifrado homomórfico, que posibilita realizar operaciones matemáticas con datos encriptados para generar un resultado encriptado (ver TR10: Cifrado homomórfico). Han probado la idea con software de aprendizaje profundo que reconoce la escritura a mano, y un sistema que calcula el riesgo de un paciente de padecer neumonía a partir de sus constantes vitales.
Una criptored requiere más potencia computacional que el software convencional de aprendizaje profundo para realizar la misma tarea. Pero una de las responsables de las investigaciones de criptografía en Microsoft Kristin Lauter, dice que la diferencia es lo suficientemente pequeña para permitir que las criptoredes se vuelvan prácticas para aplicaciones del mundo real. "Creo que las industrias médicas, financieras y farmacéuticas tienen las mayores probabilidades de emplear este sistema primero", afirma Lauter.