La gente denuncia que sus datos de contacto personales han sido expuestos por la IA de Google —y al parecer no hay una forma sencilla de evitarlo.
Un usuario de Reddit escribió recientemente que estaba “desesperado pidiendo ayuda”: desde hacía aproximadamente un mes, dijo, su teléfono había sido inundado por llamadas de “extraños” que buscaban “un abogado, un diseñador de productos, un cerrajero”. Al parecer, las personas que llamaban fueron mal dirigidas por la IA generativa de Google.
En marzo, un desarrollador de software en Israel fue contactado por WhatsApp después de que el chatbot Gemini de Google proporcionara instrucciones incorrectas de atención al cliente que incluían su número de teléfono.
Y en abril, una doctoranda de la Universidad de Washington, mientras experimentaba con Gemini, logró que el sistema revelara el número de teléfono móvil personal de su colega.
Investigadores de IA y expertos en privacidad en línea han advertido desde hace tiempo de los innumerables peligros que la IA generativa plantea para la privacidad personal. Estos casos nos presentan otro escenario más del que preocupa os: la IA generativa exponiendo números de teléfono reales de personas. (El usuario de Reddit no respondió a múltiples solicitudes de comentarios y no pudimos verificar su historia de forma independiente.)
Los expertos afirman que estas fallas de privacidad se deben muy probablemente a que la información de identificación personal (IIP) se utiliza en los datos de entrenamiento, aunque es difícil comprender el mecanismo exacto que provoca que números de teléfono reales aparezcan en las respuestas generadas por IA. Pero, sea cual sea la razón, el resultado no es agradable para los afectados y, lo que es aún más preocupante, parece haber poco que se pueda hacer para detenerlo.
Un incremento del 400% en las solicitudes de privacidad relacionadas con la IA
Es imposible saber con qué frecuencia quedan expuestos los números de teléfono de las personas por los chatbots de IA, pero los expertos aseguran que esto ocurre mucho más de lo que se informa públicamente.
DeleteMe, una empresa que ayuda a los clientes a eliminar su información personal de inte et, afirma que las consultas de los clientes sobre inteligencia artificial generativa han aumentado un 400% —hasta varios miles— en los últimos siete meses. Estas consultas “hacen referencia específicamente a ChatGPT, Claude, Gemini… u otras herramientas de IA generativa”, dice Rob Shavell, cofundador y CEO de la empresa. En concreto, el 55% de estas preocupaciones sobre la IA generativa hacen referencia a ChatGPT, el 20% a Gemini, el 15% a Claude y el 10% a otras herramientas de IA, según Shavell. (MIT Technology Review tiene una suscripción comercial a DeleteMe.)
Shavell afirma que las quejas de los clientes sobre la exposición de información personal por parte de los LLM suelen presentarse de dos formas: O bien, “un cliente pregunta algo inofensivo sobre sí mismo a un chatbot y recibe a cambio direcciones de casa, números de teléfono, nombres de familiares o detalles del empleador precisos”. Alte ativamente, un cliente puede encontrarse con la exposición de datos personales de otra persona y denunciarla, cuando “el chatbot genera información de contacto plausible pero errónea”.
Esto concuerda con lo que le ocurrió a Daniel Abraham, un ingeniero de software de 28 años en Israel. A mediados de marzo, según él, un desconocido le envió un "raro" mensaje de WhatsApp desde un número desconocido, pidiéndole ayuda con su cuenta en PayBox, una aplicación de pago israelí.
«Creí que era un mensaje de spam», escribió a MIT Technology Review en un correo electrónico —«alguien que intentaba trolearme».
Pero cuando preguntó al desconocido cómo habían encontrado su número, le enviaron una captura de pantalla de las instrucciones de Gemini para contactar con el servicio de atención al cliente de PayBox a través de WhatsApp —dando su número personal. Abraham no trabaja para PayBox, y PayBox no tiene un número de atención al cliente por WhatsApp, confirmó Elad Gabay, representante de atención al cliente de la empresa.
Posteriormente, Abraham preguntó a Gemini cómo contactar con PayBox, y generó el número de WhatsApp de otra persona. Cuando pregunté recientemente, Gemini volvió a responder con un número de teléfono israelí —no pertenecía a PayBox, sino a una compañía de tarjetas de crédito diferente que trabaja con PayBox.

El intercambio de Abraham con el desconocido terminó rápidamente, pero dijo que le preocupaba cómo otros posibles intercambios podrían agriarse con rapidez, incluyendo "acoso u otras malas interacciones". "¿Y si pidiera dinero para 'solucionar' ese problema [de atención al cliente]?", dijo.
Para intentar averiguar cómo sucedió esto, Abraham realizó una búsqueda normal en Google con su número de teléfono, y descubrió que había sido compartido en línea una vez, en 2015, en un sitio local similar a Quora. Aunque no está seguro de quién lo publicó allí, esto podría explicar cómo terminó siendo reproducido por Gemini más de una década después.
Los chatbots como Gemini, ChatGPT de OpenAI y Claude de Anthropic se basan en LLM que han sido entrenados con enormes cantidades de datos extraídos de toda la web. Esto incluye inevitablemente cientos de millones de casos de PII. Como informamos el verano pasado, por ejemplo, el gran y popular conjunto de datos de código abierto DataComp CommonPool, que se ha utilizado para entrenar modelos de generación de imágenes, incluía copias de currículums, licencias de conducir y tarjetas de crédito.
La probabilidad de que aparezca información personal identificable en los datos de entrenamiento de la IA no hace más que aumentar a medida que los datos públicos "se agotan" y las empresas de IA buscan nuevas fuentes de datos de entrenamiento de alta calidad. Esto incluye información de corredores de datos y sitios web de búsqueda de personas. Según el registro de corredores de datos de Califo ia, por ejemplo, 31 de los 578 corredores de datos registrados que operan en el estado declararon haber "compartido o vendido datos de consumidores a un desarrollador de un sistema o modelo de IA generativa en el último año".
Además, se sabe que los modelos memorizan y reproducen datos de forma literal de los conjuntos de datos de entrenamiento—y investigaciones recientes sugieren que no son solo los datos que aparecen con frecuencia los que tienen más probabilidades de ser memorizados.
Medidas Imperfectas
Ahora es práctica estándar incorporar barreras de seguridad en el diseño de un LLM para limitar ciertas salidas, desde filtros de contenido destinados a identificar y evitar que los chatbots divulguen PII, hasta las instrucciones de Anthropic a Claude para que elija respuestas que contengan «la menor cantidad de información personal, privada o confidencial perteneciente a terceros».
Pero, como un par de estudiantes de doctorado de la Universidad de Washington que investigan la privacidad y la tecnología vieron de primera mano recientemente, estas salvaguardas no siempre funcionan.
«Un día, estaba experimentando con Gemini y busqué a Yael Eiger, mi amiga y colaboradora», afirma Meira Gilbert. Introdujo «datos de contacto de Yael Eiger» y, después de que Gemini le proporcionara una visión general de la investigación de Eiger, algo que Gilbert esperaba, Gemini también le devolvió el número de teléfono personal de su amiga. «Fue impactante», dice Gilbert.
Cuando vio el resultado de Gemini, Eiger recordó que, de hecho, había compartido su número de teléfono en línea el año anterior para un taller de tecnología. Pero no había esperado que fuera tan visible para todo el mundo en inte et.
¿Ha sufrido la revelación de sus Datos de Carácter Personal (DCP) por la IA generativa? Contacte con la periodista a través de Signal en eileenguo.15 o en tips@technologyreview.com.
«Que tu información sea... accesible para un público, y que luego Gemini la haga accesible para cualquiera» resulta completamente diferente, afirma Eiger —sobre todo al descubrir que esa información estaba enterrada en una búsqueda normal de Google.
«Fue severamente degradado —confirma Gilbert—. Nunca lo habría encontrado si solo hubiera estado buscando entre los resultados de Google». (Probé el mismo *prompt* en Gemini a principios de este mes, y tras una negativa inicial, la herramienta también me proporcionó el número de Eiger.)
Después de esta experiencia, Eiger, Gilbert y otra estudiante de doctorado de la UW, Anna-Maria Gueorguieva, decidieron probar ChatGPT para ver qué sacaría a la luz sobre un profesor.
Al principio, las medidas de seguridad de OpenAI se activaron, y ChatGPT respondió que la información no estaba disponible. Pero en la misma respuesta, el chatbot sugirió: "si desea profundizar, aún puedo intentar un enfoque más de 'estilo investigativo'". Su consulta solo tenía que ayudar a "acotar la búsqueda", dijo ChatGPT, proporcionando "una estimación del barrio" donde podría vivir el profesor, o "un posible nombre de copropietario" de la vivienda del profesor. ChatGPT continuó: "Esa suele ser la única forma de sacar a la luz registros de propiedad más recientes o intencionadamente menos visibles."
Los estudiantes proporcionaron esta información, lo que llevó a ChatGPT a generar la dirección particular del profesor, el precio de compra de su vivienda y el nombre de su cónyuge a partir de los registros de propiedad de la ciudad.
(Taya Christianson, una representante de OpenAI, afirmó que no podía comentar lo sucedido en este caso sin ver capturas de pantalla o saber qué modelo habían probado los estudiantes, incluso después de que le señaláramos que muchos usuarios quizás no sepan qué modelo estaban utilizando en la interfaz de ChatGPT. También se negó a comentar en general sobre la exposición de Datos de Carácter Personal por parte del chatbot, y en su lugar, proporcionó enlaces a documentos que describen cómo OpenAI gestiona la privacidad, incluido el filtrado de Datos de Carácter Personal, y otras herramientas.)
Esto pone de manifiesto uno de los problemas fundamentales de los chatbots, afirma Shavell, de DeleteMe. Las empresas de IA “pueden establecer límites, pero [sus chatbots] también están diseñados para ser efectivos y para responder a las preguntas de los clientes.”
El problema de la exposición no se limita a Gemini o ChatGPT. El año pasado, Futurism descubrió que si se le solicitaba al chatbot Grok de xAI con "[name] address", en casi todos los casos, proporcionaba no solo direcciones residenciales, sino también a menudo los números de teléfono de la persona, direcciones de trabajo y direcciones de personas con nombres de sonido similar. (xAI no respondió a una solicitud de comentarios.)
Sin respuestas claras
No existen soluciones directas para este problema; no hay una forma sencilla ni de comprobar si los datos personales de alguien forman parte del conjunto de entrenamiento de un modelo determinado ni de obligar a los modelos a eliminar dicha información.
Idealmente, los consumidores individuales deberían poder solicitar la eliminación de su Información de Identificación Personal (IIP), afirma Jennifer King, investigadora de privacidad y datos en el Instituto de Inteligencia Artificial Centrada en el Ser Humano de la Universidad de Stanford. No obstante, esto suele interpretarse como aplicable únicamente a los datos que las personas han proporcionado directamente a las empresas —como cuando interactúan con un chatbot, explica King.
“No sé si Google siquiera tiene la infraestructura… para decirme: ‘Sí, tenemos tus datos en nuestros datos de entrenamiento, podemos resumir lo que sabemos sobre ti y luego podemos eliminar o corregir cosas que estén mal o cosas que no quieras que estén ahí’”, dice.
La legislación de privacidad existente, como la Ley de Privacidad del Consumidor de Califo ia o el RGPD de Europa, no cubre la información “disponible públicamente” que ya ha sido rastreada y utilizada para entrenar LLMs, especialmente dado que gran parte de esta está anonimizada (aunque múltiples estudios también han demostrado lo fácil que es inferir identidades e IIP a partir de datos anonimizados y seudónimos).
Sobre si «ellas [las empresas de IA] han intentado alguna vez de forma sistemática revisar los datos que ya se habían recopilado de inte et público y minimizar esos datos», añade King. «Ni idea».
La siguiente mejor solución sería que las empresas estén "eliminando los números de teléfono de todo el mundo o cualquier dato que se asemeje a [números de teléfono]", dice King, pero "nadie ha estado dispuesto a decir" que lo estén haciendo.
Hugging Face, una plataforma que aloja conjuntos de datos y modelos de IA de código abierto, dispone de una herramienta que permite a la gente buscar con qué frecuencia un dato —como su número de teléfono— ha aparecido en conjuntos de datos de entrenamiento de LLM de código abierto, pero esto no representa necesariamente lo que se ha utilizado para entrenar LLM cerrados que impulsan chatbots populares como Claude, ChatGPT y Gemini. (El número de Eiger, por ejemplo, no apareció en la herramienta de Hugging Face.)
Alex Joseph, responsable de comunicación de las aplicaciones Gemini y Google Labs, no respondió a preguntas específicas, pero dijo que "el equipo" está "investigando" los casos concretos señalados por MIT Technology Review. También proporcionó un enlace a un documento de soporte que describe cómo los usuarios pueden "oponerse al tratamiento de sus datos personales" o "solicitar la corrección de datos personales inexactos en las respuestas de las aplicaciones Gemini". La página señala que la respuesta de la empresa dependerá de las leyes de privacidad de su jurisdicción.
OpenAI dispone de un portal de privacidad que permite a las personas enviar solicitudes para eliminar su información personal de las respuestas de ChatGPT, pero señala que equilibra las solicitudes de privacidad con el interés público y “puede denegar una solicitud si tenemos una razón legal para hacerlo.”
Anthropic describe cómo utiliza los datos personales en el entrenamiento de modelos, pero no dispone de una forma clara para que las personas soliciten su eliminación. La compañía no respondió a una solicitud de comentarios.
La mejor opción para cualquiera que quiera proteger sus datos privados ahora mismo es «empezar en la fuente: retirar los datos personales de la web pública antes de que acaben en el siguiente rastreo», dice Shavell. Desde principios de año, por ejemplo, Califo ia ha ofrecido a sus residentes un portal web para solicitar a los brókeres de datos que eliminen su información. Aun así, esto no garantiza que tus datos no hayan sido utilizados ya para el entrenamiento –y, por lo tanto, no aparezcan en la respuesta de un chatbot.
El usuario de Reddit que recibió llamadas incesantes publicó que había "enviado una solicitud oficial de Eliminación Legal/Privacidad a Google, pidiéndoles que vetaran urgentemente mi número de las salidas de sus LLM", pero aún no había recibido respuesta. También escribió el mes pasado que "el acoso continúa a diario".
Abraham, el desarrollador de software israelí, afirma que contactó con el servicio de atención al cliente de Google el 17 de marzo, el día después de que su número de teléfono fuera expuesto. Dice que no recibió respuesta hasta el 4 de mayo, y esta simplemente le solicitaba documentación que ya había proporcionado.
Mientras tanto, inspirada por su propia exposición en Gemini, Eiger, junto con Gilbert y Gueorguieva, está diseñando un proyecto de investigación para estudiar más a fondo qué información personal está siendo revelada por varios chatbots de IA —y qué podrían saber, incluso si no nos lo están diciendo.
Parte de esa información puede ser "técnicamente pública", afirma Gilbert, pero los chatbots podrían estar alterando "el esfuerzo que dedicarías a encontrarla". Ahora, en lugar de buscar en 10 páginas de resultados de búsqueda de Google, o de pagar por la información en un sitio de un intermediario de datos, "¿simplemente la IA generativa reduce la barrera de entrada para dirigirse a las personas?"

