Cómo los archivos saben lo que son

Curso de Fundamentos de Ingeniería de Software

Contenido del curso

Computación Básica

Redes e Internet

Sistemas Operativos y Almacenamiento

Archivos y estructuras de datos

Introducción a Blockchain e Inteligencia Artificial

Tomar examen

Cómo los archivos saben lo que son

Resumen

¿Alguna vez te preguntaste cómo sabe tu computadora que un archivo es una imagen, un PDF o un documento de Word? Los formatos de archivo son el lenguaje interno que usan los sistemas operativos para identificar qué tipo de contenido tienes frente a ti, y entenderlos te abre la puerta a temas como compresión, seguridad y bases de datos.

¿Cómo identifica un sistema operativo el tipo de archivo?

Existen varias formas de reconocer qué hay dentro de un archivo, y ninguna es perfecta por sí sola.

La más conocida es la extensión del archivo: ese sufijo después del punto que indica si algo es .txt, .doc, .html o .png. El problema es que los sistemas operativos modernos esconden las extensiones por defecto, así que si estás tomando este curso, abre ahora mismo tu Windows, Linux o Mac y actívalas. En el celular no se puede, pero en escritorio no hay excusa [01:00].

La segunda forma, mucho más confiable, es leer los primeros cuatro bytes del archivo. En archivos estructurados como imágenes o PDFs, esos bytes iniciales son una firma conocida como número mágico. Por ejemplo, un archivo PNG empieza literalmente con los caracteres .PNG en su cabecera [02:30].

¿Qué es un número mágico en un archivo? Son los primeros bytes que actúan como firma para identificar el formato. En un PNG verás .PNG al inicio; en un PDF, una marca específica que el sistema reconoce sin depender de la extensión.

¿Cómo se ve un archivo binario por dentro?

Cuando abres un archivo binario con un editor hexadecimal, encuentras tres zonas:

A la izquierda, la posición de cada byte.
Al centro, la representación hexadecimal, donde cada byte se expresa como un par de dígitos de base 16.
A la derecha, la representación ASCII, que muestra el texto legible cuando lo hay.

Esa estructura es la misma para cualquier archivo, pero el contenido cambia según el formato.

¿Qué son los MIME types y cómo los usan los servidores web?

En internet, los archivos viajan entre servidores y navegadores, y para que ambos se entiendan existen los MIME types [03:30]. Son una clasificación con tipo y subtipo: por ejemplo, text/plain, text/csv, image/png, image/jpg o application/pdf.

Los servidores web mantienen una base de datos interna que asocia ciertas extensiones o cabeceras con un MIME type específico. Esto le dice al navegador cómo tratar el archivo, aunque no es infalible: el servidor tiene que estar bien configurado para reconocer cada tipo.

¿Qué diferencia hay entre texto plano, CSV y archivos binarios?

Un archivo de texto plano es exactamente eso: texto sin formato oculto. HTML, JavaScript y Python son texto plano con una estructura lógica interna que el intérprete o el navegador entiende [05:00].

Dentro del texto plano hay un formato muy útil para datos tabulares: el CSV, o Comma Separated Values. Es la forma más simple de representar una tabla. En los recursos de la clase encontrarás un archivo empleados.csv con 50 registros y cinco columnas: nombre, cargo, edad, salario y país. Si lo abres en un editor de código verás texto puro; si lo abres en Excel, verás una tabla.

¿CSV es lo mismo que Excel? No. CSV es texto plano con valores separados por comas. Excel usa un formato binario mucho más complejo que soporta fórmulas, estilos y múltiples hojas.

Los archivos binarios como .docx o .pdf son distintos. Tienen una cabecera llena de bytes específicos donde se guardan metadatos, seguida de la estructura interna del documento. Si comparas dos PDFs en un editor hexadecimal, los primeros bytes serán casi idénticos porque ahí se declara que es un PDF y con qué herramienta se generó.

¿Qué información esconden los metadatos de un archivo?

Los metadatos son datos sobre los datos: información que el archivo guarda sobre sí mismo y que rara vez ves a simple vista [07:00].

En una foto, encontrarás el modelo de cámara (por ejemplo, iPhone 16 Pro), las dimensiones originales y la última fecha de apertura.
En un PDF, suele aparecer el título original del documento del que se exportó. Muchos PDFs nacieron en Word o Adobe Illustrator antes de convertirse.
En un video, está el codec usado para comprimirlo, la resolución, el formato y la calidad.
En un archivo .zip, la cabecera contiene la lista de todos los archivos comprimidos antes de descomprimirlos.

Hay una anécdota memorable de la Universidad Tecnológica Nacional de Buenos Aires: enviaron un PDF de aviso de deuda a estudiantes morosos, y los metadatos revelaban que el archivo original se llamaba paga ratón. Lección directa: revisa siempre los metadatos antes de enviar algo.

¿Qué pasa si la cabecera de un archivo se daña?

Si modificas o corrompes la cabecera, el archivo se vuelve ilegible. Recuperarlo requiere técnicas avanzadas de reparación que rara vez se aplican. Para verificar que un archivo descargado llegó completo, existen mecanismos como el Checksum, que veremos más adelante.

¿Qué es la esteganografía y por qué importa?

La esteganografía es una técnica de seguridad informática que esconde datos dentro de otros archivos aprovechando su estructura conocida [10:30]. Imagina una imagen JPG que, por dentro, guarda en secreto un archivo de Excel: para cualquier visor parece una foto normal, pero contiene información oculta.

Es común en distribución de malware y en operaciones de inteligencia militar. Y aquí va un recordatorio clave: un archivo no es una base de datos. Un archivo puede contener datos, incluso puede ser una base de datos, pero el concepto de base de datos es algo completamente distinto, y eso lo verás en la próxima clase.

¿Ya activaste las extensiones en tu sistema operativo? Cuéntame en los comentarios qué archivo te sorprendió al revisar sus metadatos.

Gabriel Obregón

Estudiante

¿Qué son los formatos de archivo?

Los formatos de archivo permiten a los sistemas operativos identificar el tipo de contenido que contiene un archivo. Algunos archivos pueden ser imágenes, documentos de Word o Excel, videos, archivos PDF, de texto, entre otros. Esta identificación no siempre es evidente a simple vista.

1. Formas de identificar un archivo

a. Por la extensión del archivo

La forma más común es mediante la extensión del nombre del archivo:

.txt → archivo de texto
.doc → archivo de Word
.html → archivo HTML

Problema: en muchos sistemas operativos actuales, estas extensiones están ocultas por defecto. Por eso, es recomendable que actives la opción para verlas. Esto se puede hacer en Windows, Mac y Linux, pero no en teléfonos móviles.

b. Por los primeros bytes del archivo

Los archivos también pueden identificarse leyendo sus primeros cuatro bytes, que contienen lo que se conoce como el "número mágico" o cabecera:

En archivos de imagen o PDF, estos primeros caracteres indican claramente de qué tipo de archivo se trata.
Por ejemplo, un archivo PNG comienza con .PNG.

Cuando abres un archivo con un editor hexadecimal, puedes ver:

A la derecha: representación en texto (ASCII).
En el centro: representación hexadecimal, donde cada byte se muestra como dos dígitos hexadecimales.

c. Por los tipos MIME

Los tipos MIME (Multipurpose Internet Mail Extensions) se usan en internet para que los servidores sepan qué tipo de archivo se está transmitiendo.

Ejemplos:

Tipo: texto, imagen, aplicación
Subtipo: plain (texto plano), csv, jpeg, pdf, etc.

Aunque los servidores usan esta información, no es un sistema perfecto, ya que requiere que el servidor reconozca correctamente cada archivo.

2. Archivos de texto plano y CSV

Los archivos como HTML (.html), JavaScript (.js) o Python (.py) son texto plano con una estructura lógica interna.

Un formato especial dentro del texto plano es CSV (Comma Separated Values), donde los datos están organizados como en una tabla, separados por comas.

Ejemplo: el archivo empleados.csv contiene los datos de 50 empleados con columnas como nombre, cargo, edad, salario y país.

En un editor de texto, se ve como texto plano.
En Excel, se ve como una tabla, aunque no es un archivo nativo de Excel.

3. Archivos complejos y metadatos

Los archivos como Word (.docx) o PDF tienen una estructura interna más compleja, que incluye:

Una cabecera con metadatos
Una estructura de datos binarios

Los metadatos son información adicional sobre el archivo, como:

Dispositivo con el que fue creado (ej. iPhone)
Fecha de creación
Aplicación que lo generó (ej. Word, Illustrator)

Estos datos pueden visualizarse con clic derecho → "Propiedades" en Windows o Mac.

4. Códecs y compresión

Los videos y otros archivos multimedia suelen incluir:

Información sobre resolución, calidad, códec utilizado, etc.
Esto se encuentra en la cabecera del archivo

Los archivos comprimidos como .zip también incluyen en su cabecera una lista de archivos internos.

5. Archivos dañados y verificación

Si se daña la cabecera de un archivo, es posible que no se pueda abrir. A veces se pueden reparar, pero se requieren conocimientos avanzados.

También existen técnicas para verificar la integridad de archivos, como el checksum, que se verá más adelante.

6. Conceptos clave para recordar

Un archivo no es una base de datos. Aunque puede contener datos, una base de datos es un concepto distinto.
Esteganografía: técnica avanzada para ocultar archivos dentro de otros, como un Excel dentro de una imagen JPG. Muy usada en seguridad informática y espionaje.

Jose Ricardo Dueñas Suarez

Estudiante

gracias por el resumen

Humberto Cruz

Gabriel Bastia

Juan Miguel Jimenez

Jose Luis Flores

Alan Yahir Juárez Rubio

javier gosaine

Emmanuel Monreal

Juan Camilo Santa Sánchez

Irvin Alexis Trejo Joven

Jesus Percy Nazario Portilla

Diego Mendez

Daniel F Lopez

Laura Ximena Velasco

Jonatán Gabriel Corado Samayoa

Luciano Ivan Villa Zuñiga

Felipe Chavez

oscar calderon

SAID MIZTLI MORENO SANCHEZ

Cristian Alejandro Pereira Rodriguez

•

Luis Garcia

Cristian Lopez

Cristian Javier Martinez Torres

Cristian Arellano

Juan López

Samuel Soto Hoyos

Francisco Zuñiga

SERGIO ENRIQUE RODRIGUEZ TOVAR

Fabian Andres Villon Garcia

David Hanyelo Galindo Vivanco

Cómo los archivos saben lo que son

Computación Básica

Proceso de arranque y encendido de computadoras y móviles

Cómo funciona un circuito electrónico

Qué es un bit y qué es un byte

Cómo funciona una CPU por dentro

Qué hace un sistema operativo por dentro

Cómo funciona internet

Cómo guarda y borra datos tu computadora

Cómo se organizan los archivos

Qué es y cómo funciona un system on a chip

GPUs: Procesadores gráficos y de AI

Qué es un algoritmo y cómo funciona

Redes e Internet

Qué es una dirección IP y cómo funciona

Qué es el DNS y cómo comprar tu dominio

Cómo funciona el modelo cliente servidor

Sistemas Operativos y Almacenamiento

Diferencias entre Windows, Linux y MacOS

Permisos de archivos rwx en Linux