Privacy on LLMs

Resumen

Cada día, millones de profesionales escriben información sensible en herramientas como ChatGPT, Google Gemini, Microsoft Copilot y GitHub Copilot creyendo que se trata de una conversación privada. La realidad es muy distinta: esos datos viajan a servidores externos, pueden ser leídos por revisores humanos y, en ciertos casos, alimentar el entrenamiento de futuros modelos de inteligencia artificial. Comprender este flujo es fundamental para proteger tanto la información personal como los activos de cualquier organización.

¿Qué sucede realmente después de presionar "enviar"?

La analogía más útil es pensar en cada prompt como una postal, no como una carta sellada en un sobre [0:33]. El "cartero" —la empresa que opera la IA— puede leer lo que escribiste. El proceso técnico sigue tres pasos:

Tu mensaje viaja a los servidores de la compañía [0:48].
El modelo lo procesa y genera una respuesta [0:52].
La interacción no termina al cerrar la pestaña: la conversación puede quedar almacenada [1:00].

Para usuarios de nivel gratuito, esas conversaciones pueden convertirse en datos de entrenamiento para versiones futuras de la IA [1:07]. Google confirma que revisores humanos leen muestras de conversaciones de Gemini, almacenadas hasta tres años [1:16]. OpenAI reconoce que las conversaciones individuales de ChatGPT pueden entrenar modelos [1:24]. Microsoft señala que revisores humanos pueden leer tus interacciones con Copilot [1:30].

¿Cómo se viola la privacidad con un simple correo?

Imagina que estás redactando un correo de soporte y pides a ChatGPT que mejore la redacción. Incluyes el nombre completo del cliente, su correo electrónico y su número telefónico [1:35]. Esos tres datos ahora están en los servidores de OpenAI: revisables por humanos y con potencial de influir en futuras respuestas [1:50]. Bajo regulaciones como la Ley 1581 de Colombia, la ley federal de protección de datos de México o la CCPA de California, esto podría constituir una violación legal [1:55]. Lo mismo ocurre cuando un desarrollador pega código propietario en un asistente de programación o cuando un gerente de marketing sube un plan estratégico para darle formato: se está entregando propiedad intelectual a servidores de terceros [2:07].

¿Cómo afecta esto a la tríada CIA?

La tríada CIA —confidentiality, integrity, availability— es el marco clásico de seguridad de la información, y los LLMs impactan cada uno de sus pilares [2:42].

Confidencialidad es el pilar más amenazado directamente. Cada prompt que envías es potencialmente visible para revisores humanos. Incluso cuando herramientas automatizadas eliminan detalles identificables, la información ya salió del círculo de acceso autorizado [2:54].

Integridad se ve comprometida de forma diferente. Los LLMs pueden generar información sobre personas y empresas reales que es factualmente incorrecta pero presentada con total confianza [3:11]. Es como un colega muy seguro de sí mismo que responde sin verificar ninguna fuente [3:19]. Si actúas sobre datos fabricados y los compartes en un reporte, estás circulando información cuya integridad está rota [3:26].

Disponibilidad presenta un trade-off que pocos mencionan [3:37]. Al desactivar el historial o solicitar la eliminación de datos por motivos de privacidad, pierdes acceso a conversaciones pasadas. ChatGPT elimina chats no guardados en treinta días [3:50]. Es como elegir una pizarra en lugar de un cuaderno: ganas privacidad, pero al borrar, la información desaparece [3:53].

¿Qué controles ofrece cada plataforma?

ChatGPT: en Settings existe un toggle llamado Chat History and Training. Al desactivarlo, las nuevas conversaciones no se guardan ni se usan para entrenamiento. Detalle crítico: esta configuración no se sincroniza entre dispositivos [4:06].
Gemini: accede a myactivity.google.com y desactiva Gemini Apps Activity por completo [4:23].
Copilot: borra el historial de actividad en privacy.microsoft.com, aunque hacerlo también elimina tu historial de búsqueda [4:31].

¿Cuál es la diferencia entre plan personal y empresarial?

La distinción más importante es plan individual versus plan de negocio [4:41]. En una cuenta personal de ChatGPT, tus conversaciones pueden entrenar modelos por defecto. En ChatGPT Enterprise o la plataforma API, no lo hacen. Lo mismo aplica para GitHub Copilot Business y Enterprise: tu código privado permanece privado [4:56]. Piensa en los planes empresariales como una sala de reuniones privada frente a un salón de conferencias público [5:04].

¿Qué diferencia hay entre borrar, desactivar y solicitar eliminación?

Esta es la confusión más común y tiene consecuencias reales [5:09].

Borrar historial (clearing): elimina lo que tú ves, como vaciar el historial del navegador, pero los datos pueden seguir existiendo en los servidores [5:21].
Desactivar guardado (disabling): detiene el almacenamiento de conversaciones futuras, pero las anteriores no se ven afectadas [5:28].
Solicitar eliminación (requesting deletion): pide a la empresa destruir todos los datos asociados, conectando directamente con los derechos ARCO ya cubiertos en sesiones anteriores [5:38].

La analogía es clara: imagina a alguien anotando todo lo que dices. Borrar es arrancar las páginas que puedes ver. Desactivar es pedirle que deje de escribir. Eliminar es pedirle que destruya todas las notas, incluidas las copias [5:50]. Cada paso es más completo, pero ninguno garantiza que cada rastro desaparezca una vez que los datos entraron al sistema [6:09].

Estas son las reglas diarias que vale la pena adoptar de inmediato: nunca escribir información confidencial en ningún LLM, tratar la ventana de chat como un espacio público [6:12], reemplazar nombres reales con marcadores de posición, eliminar números de teléfono y correos antes de compartir [6:21], desactivar el historial en cada plataforma y en cada dispositivo [6:30], hacer opt-out del entrenamiento de modelos a través del portal de privacidad de cada servicio [6:34] y, sobre todo, verificar siempre las respuestas del LLM antes de actuar [6:49].

Los LLMs introducen una categoría nueva de exposición de datos que los firewalls y los filtros de phishing no pueden detectar, porque eres tú quien envía la información voluntariamente [7:01]. La próxima vez que abras un chatbot, pregúntate: ¿escribiría esto en una postal que cualquier desconocido podría leer?

General

Los tres pilares de la seguridad de la información

Cómo detectar emails falsos antes de hacer clic

Cómo proteger datos de trabajo en tu dispositivo personal

Passwords y 2FA - Tu Full Security Stack

Data Privacy

Data Privacy en Platzi

Gestión de incidentes en Data Privacy

Privacy on LLMs

Privacy on LLMs