Cómo los archivos saben lo que son

Resumen

¿Alguna vez te preguntaste cómo sabe tu computadora que un archivo es una imagen, un PDF o un documento de Word? Los formatos de archivo son el lenguaje interno que usan los sistemas operativos para identificar qué tipo de contenido tienes frente a ti, y entenderlos te abre la puerta a temas como compresión, seguridad y bases de datos.

¿Cómo identifica un sistema operativo el tipo de archivo?

Existen varias formas de reconocer qué hay dentro de un archivo, y ninguna es perfecta por sí sola.

La más conocida es la extensión del archivo: ese sufijo después del punto que indica si algo es .txt, .doc, .html o .png. El problema es que los sistemas operativos modernos esconden las extensiones por defecto, así que si estás tomando este curso, abre ahora mismo tu Windows, Linux o Mac y actívalas. En el celular no se puede, pero en escritorio no hay excusa [01:00].

La segunda forma, mucho más confiable, es leer los primeros cuatro bytes del archivo. En archivos estructurados como imágenes o PDFs, esos bytes iniciales son una firma conocida como número mágico. Por ejemplo, un archivo PNG empieza literalmente con los caracteres .PNG en su cabecera [02:30].

¿Qué es un número mágico en un archivo? Son los primeros bytes que actúan como firma para identificar el formato. En un PNG verás .PNG al inicio; en un PDF, una marca específica que el sistema reconoce sin depender de la extensión.

¿Cómo se ve un archivo binario por dentro?

Cuando abres un archivo binario con un editor hexadecimal, encuentras tres zonas:

  • A la izquierda, la posición de cada byte.
  • Al centro, la representación hexadecimal, donde cada byte se expresa como un par de dígitos de base 16.
  • A la derecha, la representación ASCII, que muestra el texto legible cuando lo hay.

Esa estructura es la misma para cualquier archivo, pero el contenido cambia según el formato.

¿Qué son los MIME types y cómo los usan los servidores web?

En internet, los archivos viajan entre servidores y navegadores, y para que ambos se entiendan existen los MIME types [03:30]. Son una clasificación con tipo y subtipo: por ejemplo, text/plain, text/csv, image/png, image/jpg o application/pdf.

Los servidores web mantienen una base de datos interna que asocia ciertas extensiones o cabeceras con un MIME type específico. Esto le dice al navegador cómo tratar el archivo, aunque no es infalible: el servidor tiene que estar bien configurado para reconocer cada tipo.

¿Qué diferencia hay entre texto plano, CSV y archivos binarios?

Un archivo de texto plano es exactamente eso: texto sin formato oculto. HTML, JavaScript y Python son texto plano con una estructura lógica interna que el intérprete o el navegador entiende [05:00].

Dentro del texto plano hay un formato muy útil para datos tabulares: el CSV, o Comma Separated Values. Es la forma más simple de representar una tabla. En los recursos de la clase encontrarás un archivo empleados.csv con 50 registros y cinco columnas: nombre, cargo, edad, salario y país. Si lo abres en un editor de código verás texto puro; si lo abres en Excel, verás una tabla.

¿CSV es lo mismo que Excel? No. CSV es texto plano con valores separados por comas. Excel usa un formato binario mucho más complejo que soporta fórmulas, estilos y múltiples hojas.

Los archivos binarios como .docx o .pdf son distintos. Tienen una cabecera llena de bytes específicos donde se guardan metadatos, seguida de la estructura interna del documento. Si comparas dos PDFs en un editor hexadecimal, los primeros bytes serán casi idénticos porque ahí se declara que es un PDF y con qué herramienta se generó.

¿Qué información esconden los metadatos de un archivo?

Los metadatos son datos sobre los datos: información que el archivo guarda sobre sí mismo y que rara vez ves a simple vista [07:00].

  • En una foto, encontrarás el modelo de cámara (por ejemplo, iPhone 16 Pro), las dimensiones originales y la última fecha de apertura.
  • En un PDF, suele aparecer el título original del documento del que se exportó. Muchos PDFs nacieron en Word o Adobe Illustrator antes de convertirse.
  • En un video, está el codec usado para comprimirlo, la resolución, el formato y la calidad.
  • En un archivo .zip, la cabecera contiene la lista de todos los archivos comprimidos antes de descomprimirlos.

Hay una anécdota memorable de la Universidad Tecnológica Nacional de Buenos Aires: enviaron un PDF de aviso de deuda a estudiantes morosos, y los metadatos revelaban que el archivo original se llamaba paga ratón. Lección directa: revisa siempre los metadatos antes de enviar algo.

¿Qué pasa si la cabecera de un archivo se daña?

Si modificas o corrompes la cabecera, el archivo se vuelve ilegible. Recuperarlo requiere técnicas avanzadas de reparación que rara vez se aplican. Para verificar que un archivo descargado llegó completo, existen mecanismos como el Checksum, que veremos más adelante.

¿Qué es la esteganografía y por qué importa?

La esteganografía es una técnica de seguridad informática que esconde datos dentro de otros archivos aprovechando su estructura conocida [10:30]. Imagina una imagen JPG que, por dentro, guarda en secreto un archivo de Excel: para cualquier visor parece una foto normal, pero contiene información oculta.

Es común en distribución de malware y en operaciones de inteligencia militar. Y aquí va un recordatorio clave: un archivo no es una base de datos. Un archivo puede contener datos, incluso puede ser una base de datos, pero el concepto de base de datos es algo completamente distinto, y eso lo verás en la próxima clase.

¿Ya activaste las extensiones en tu sistema operativo? Cuéntame en los comentarios qué archivo te sorprendió al revisar sus metadatos.