La comprensión de los formatos de archivos es fundamental para cualquier persona que trabaje con computadoras. Estos formatos determinan cómo se almacena y se interpreta la información digital, permitiendo a los sistemas operativos identificar correctamente cada tipo de archivo. Conocer estos conceptos no solo mejora nuestra experiencia digital, sino que también nos ayuda a entender mejor cómo funcionan nuestros dispositivos y cómo se organiza la información en ellos.
¿Cómo identifican los sistemas operativos los tipos de archivos?
Los sistemas operativos utilizan varios mecanismos para determinar qué tipo de archivo están manejando. Esto es crucial para saber qué programa debe abrirlo y cómo debe procesarse la información contenida en él.
Extensiones de archivo
El método más común y visible es mediante las extensiones de archivo. Estas son las letras que aparecen después del punto en el nombre del archivo:
.txt para archivos de texto plano
.doc o .docx para documentos de Word
.html para páginas web
.jpg o .png para imágenes
Sin embargo, este método no es completamente confiable, ya que las extensiones pueden cambiarse fácilmente. Además, los sistemas operativos modernos tienden a ocultar estas extensiones por defecto, lo que puede generar confusión.
Si estás siguiendo este curso, es altamente recomendable que configures tu sistema operativo para mostrar las extensiones de archivo. Esta opción está disponible en Windows, Linux y Mac, y te ayudará a identificar mejor los archivos con los que trabajas.
Números mágicos y cabeceras de archivo
Una forma más técnica y confiable de identificar archivos es mediante los números mágicos. Estos son los primeros bytes de un archivo que actúan como una firma digital, indicando qué tipo de archivo es.
Por ejemplo:
Los archivos PNG comienzan con los caracteres ".PNG"
Los archivos PDF comienzan con "%PDF"
Cuando abrimos un archivo binario con un editor hexadecimal, podemos ver esta representación:
8950 4E 47 0D 0A 1A 0A 000000 0D 49484452
En la representación ASCII, estos primeros bytes se verían como ".PNG", lo que identifica inmediatamente el tipo de archivo.
MIME types
En el contexto de Internet, los servidores web utilizan los MIME types (Multipurpose Internet Mail Extensions) para identificar qué tipo de contenido están enviando. Estos se dividen en tipos y subtipos:
Tipos: text, image, application, audio, video
Subtipos: plain, html, jpeg, png, pdf, etc.
Por ejemplo, un archivo HTML tendría el MIME type "text/html", mientras que una imagen PNG sería "image/png". Esto permite a los navegadores web saber cómo interpretar y mostrar correctamente el contenido recibido.
¿Qué son los archivos de texto plano y estructurados?
Archivos de texto plano
Los archivos de texto plano contienen únicamente caracteres legibles sin formato especial. Ejemplos comunes incluyen:
Archivos .txt
Código fuente (.py, .js, .html)
Archivos de configuración
A pesar de su simplicidad, estos archivos pueden seguir estructuras lógicas específicas, como la sintaxis de Python o HTML.
CSV: datos tabulares en texto plano
Un formato particularmente útil es el CSV (Comma-Separated Values), que permite representar datos tabulares en texto plano. Por ejemplo:
Este formato puede abrirse tanto en un editor de texto como en Excel, donde se visualizará como una tabla. Es importante destacar que CSV no es el formato nativo de Excel, sino una forma simple de intercambiar datos tabulares.
Archivos binarios estructurados
Los archivos como documentos de Word (.docx) o PDFs tienen estructuras binarias complejas. Al abrirlos con un editor hexadecimal, veremos patrones específicos:
Cabeceras que identifican el tipo de archivo
Metadatos sobre el contenido
Estructuras internas que organizan la información
Estas estructuras son diseñadas por los desarrolladores del formato y no necesitas entenderlas a menos que estés programando aplicaciones que las procesen directamente.
¿Qué son los metadatos y por qué son importantes?
Los metadatos son datos sobre los datos, información adicional que describe características del archivo pero no forma parte de su contenido principal.
Metadatos en imágenes
Las fotografías digitales contienen abundantes metadatos, como:
Modelo de cámara utilizado
Fecha y hora de captura
Configuración de la cámara (apertura, velocidad, ISO)
Ubicación GPS (si está habilitado)
Dimensiones originales
Metadatos en documentos
Los documentos como PDFs también almacenan metadatos importantes:
Título original del documento
Aplicación que lo creó
Autor
Fecha de creación y modificación
Es crucial tener cuidado con los metadatos al compartir archivos, ya que pueden revelar información sensible. Un caso anecdótico es el de una universidad que envió un PDF de cobro a estudiantes cuyo nombre original del archivo era "paga ratón", visible en los metadatos.
Otros usos de los metadatos
Los metadatos también pueden indicar:
Versión mínima de software necesaria para abrir el archivo
Códecs necesarios para reproducir videos
Contenido de archivos comprimidos (como .zip)
Si la cabecera de un archivo se daña, es posible que todo el archivo se vuelva ilegible, ya que el sistema no podrá identificar correctamente su estructura.
Los formatos de archivos son fundamentales para entender cómo se organiza la información digital. Desde las simples extensiones hasta las complejas estructuras internas y metadatos, cada elemento cumple una función específica en el ecosistema digital. Recuerda que los archivos no son bases de datos (aunque pueden contener datos), y que existen técnicas avanzadas como la esteganografía que permiten ocultar información dentro de otros archivos. ¿Qué otros aspectos de los formatos de archivos te gustaría explorar? Comparte tus inquietudes en los comentarios.
No sabia que se llamara esteganografía pero si había escuchado de "firmas digitales" que se podían ocultar en documentos y archivos. Se que lo pueden usar las empresas entregando a sus trabajadores archivos a cada uno con una firma diferente y si se filtra información se puede saber quien lo filtro debido a esa "firma oculta". También, no hace mucho se propuso que las imágenes hechas por IA se pudieran identificar por medio de este mismo método, haciendo que sea obligatorio que cuando una IA cree una imagen esta tenga que marcarla con "su firma".
Hace unos días hice el curso de Introducción A Informática Forense. En él se habla de que cada archivo tiene un valor único llamado Hash. Los algoritmos más comunes para calcularlo son SHA-256 y SHA-512. Utilizar estos algoritmos permite verificar la autenticidad de un archivo, lo que es crucial en investigaciones forenses y ciberseguridad.
Este proceso es esencial para asegurar la integridad de los datos, ya que cualquier modificación en el archivo cambia su valor hash.
No es la "firma digital" que mencionas pero me suena parecido.
Yo tampoco conocía ese nombre, los conocia como un "caballo de troya"
En Linux puedes descargar exiftool y ver los datos de los archivos
en ecosistemas Debian/ Ububtu seria :
sudo apt install exiftool
Sí, es muy útil. Yo lo utilizo para eliminar los metadatos de los archivos, para eliminar aquellos que son solo datos extra, datos que no se ocupan para el funcionamiento del archivo. Muchas veces estos metadatos extra son datos sensibles (e.g., coordenadas GPS, e-mail, nombre de usuario)
Hola Jose, gracias por el aporte !
p.d: no compartas imágenes donde se ve el nombre de tu usuario :P
¿Qué son los formatos de archivo?
Los formatos de archivo permiten a los sistemas operativos identificar el tipo de contenido que contiene un archivo. Algunos archivos pueden ser imágenes, documentos de Word o Excel, videos, archivos PDF, de texto, entre otros. Esta identificación no siempre es evidente a simple vista.
1. Formas de identificar un archivo
a. Por la extensión del archivo
La forma más común es mediante la extensión del nombre del archivo:
.txt → archivo de texto
.doc → archivo de Word
.html → archivo HTML
Problema: en muchos sistemas operativos actuales, estas extensiones están ocultas por defecto. Por eso, es recomendable que actives la opción para verlas. Esto se puede hacer en Windows, Mac y Linux, pero no en teléfonos móviles.
b. Por los primeros bytes del archivo
Los archivos también pueden identificarse leyendo sus primeros cuatro bytes, que contienen lo que se conoce como el "número mágico" o cabecera:
En archivos de imagen o PDF, estos primeros caracteres indican claramente de qué tipo de archivo se trata.
Por ejemplo, un archivo PNG comienza con .PNG.
Cuando abres un archivo con un editor hexadecimal, puedes ver:
A la derecha: representación en texto (ASCII).
En el centro: representación hexadecimal, donde cada byte se muestra como dos dígitos hexadecimales.
c. Por los tipos MIME
Los tipos MIME (Multipurpose Internet Mail Extensions) se usan en internet para que los servidores sepan qué tipo de archivo se está transmitiendo.
Ejemplos:
Tipo: texto, imagen, aplicación
Subtipo: plain (texto plano), csv, jpeg, pdf, etc.
Aunque los servidores usan esta información, no es un sistema perfecto, ya que requiere que el servidor reconozca correctamente cada archivo.
2. Archivos de texto plano y CSV
Los archivos como HTML (.html), JavaScript (.js) o Python (.py) son texto plano con una estructura lógica interna.
Un formato especial dentro del texto plano es CSV (Comma Separated Values), donde los datos están organizados como en una tabla, separados por comas.
Ejemplo: el archivo empleados.csv contiene los datos de 50 empleados con columnas como nombre, cargo, edad, salario y país.
En un editor de texto, se ve como texto plano.
En Excel, se ve como una tabla, aunque no es un archivo nativo de Excel.
3. Archivos complejos y metadatos
Los archivos como Word (.docx) o PDF tienen una estructura interna más compleja, que incluye:
Una cabecera con metadatos
Una estructura de datos binarios
Los metadatos son información adicional sobre el archivo, como:
Dispositivo con el que fue creado (ej. iPhone)
Fecha de creación
Aplicación que lo generó (ej. Word, Illustrator)
Estos datos pueden visualizarse con clic derecho → "Propiedades" en Windows o Mac.
4. Códecs y compresión
Los videos y otros archivos multimedia suelen incluir:
Información sobre resolución, calidad, códec utilizado, etc.
Esto se encuentra en la cabecera del archivo
Los archivos comprimidos como .zip también incluyen en su cabecera una lista de archivos internos.
5. Archivos dañados y verificación
Si se daña la cabecera de un archivo, es posible que no se pueda abrir. A veces se pueden reparar, pero se requieren conocimientos avanzados.
También existen técnicas para verificar la integridad de archivos, como el checksum, que se verá más adelante.
6. Conceptos clave para recordar
Un archivo no es una base de datos. Aunque puede contener datos, una base de datos es un concepto distinto.
Esteganografía: técnica avanzada para ocultar archivos dentro de otros, como un Excel dentro de una imagen JPG. Muy usada en seguridad informática y espionaje.
gracias por el resumen
Algo está mal con mi app? Soy el primero en comentar en este video? Este curso me está gustando muchísimo.
No bro, estas clases las abrieron al publico hoy... Somos los primeros usuarios en verlas
¿Qué son los formatos de archivos?
📜 Determinan cómo se almacena y se interpreta la información digital.
🖥️ Permiten a los sistemas operativos identificar cada tipo de archivo.
🔹 Cómo identifican los sistemas operativos los archivos 🔍
🏷️ Extensiones:.txt, .docx, .jpg, .html.
🔢 Números mágicos: Bytes iniciales que identifican el tipo de archivo.
🌐 MIME types: Usados en Internet para clasificar contenido (text/html, image/png).
🔹 Tipos de archivos 📑
✍️ Texto plano:.txt, .py, .html.
📊 CSV: Datos tabulares separados por comas.
📄 Binarios estructurados:.docx, .pdf, con cabeceras y metadatos.
🔹 Metadatos y su importancia 🛡️
📷 Imágenes: Modelo de cámara, fecha, ubicación GPS.
📄 Documentos: Autor, fecha de creación, aplicación usada.
🎥 Videos: Códecs necesarios para reproducción.
🔹 Precauciones con los metadatos ⚠️
🚫 Pueden revelar información sensible.
🔍 Se pueden editar o eliminar antes de compartir archivos.
Si desean un editor de codigo Hexadecimal les dejo una forma de segura de descargarlo:
A quien pueda interesar, en esta web: pueden subir cualquier archivo y mirar su estructura interna.
¡Hola! Te comparto mis notas sobre las clases de "Permisos, niveles de procesos y privilegios" y "Formatos de archivos":
graciaaaas
¿Sera esteganografía cuando softonic incluye un software dentro de otro ?
sorry si me pregunta es basica para algunos.
gracias por sus respuesta de antemano
Según tengo entendido...
Ellos empaquetan (bundling) varios programas en un solo instalador.
No intentan ocultarlo como tal (aunque a veces lo disimulan con algunas casillas).
No es esteganografía, es más bien adware o bloatware camuflado dentro de un instalador legítimo.
La diferencia es:
Esteganografía = ocultar para que no parezca que hay algo extra.
Bundling = meter programas extra, pero el contenedor ya se sabe que es un instalador.
Si analizan la cabecera de un archivo .docx (Word) observarán que inicia con PK, esto es por que son las iniciales de Phil Katz creador del formato Zip.
En realidad un archivo Word es un archivo comprimido ZIP disfrazado. Hasta el 2003, los archivos de Word eran binarios puros y muy difíciles de leer si no tenías Word instalado. A partir de 2007, Microsoft cambió al estándar Office Open XML.
Decidieron que, en lugar de inventar un formato nuevo, usarían dos tecnologías que ya existían:
XML: Para guardar el texto y el formato (letra negrita, colores) de forma estructurada.
ZIP: Para empaquetar todos esos archivos XML y las imágenes en un solo contenedor comprimido.
Por eso la cabecera (Magic Number) es (PK). Para el sistema de archivos, estructuralmente, es un ZIP.
Tremendo datooo! Gracias!
Clase 17: La anatomía de un archivo
Introducción: ¿Cómo sabe una computadora qué es un archivo?
Un sistema operativo necesita saber cómo interpretar la secuencia de bits y bytes que componen un archivo para poder abrirlo con la aplicación correcta. No es una tarea trivial, y se basa en varios mecanismos que van desde simples convenciones de nombres hasta la estructura interna del propio archivo.
1. Métodos de Identificación de Archivos
Existen tres formas principales en que un sistema operativo identifica el tipo de un archivo:
Extensión de Archivo: El método más común pero menos fiable. Es el sufijo después del último punto en el nombre del archivo (ej. .docx, .png, .html). El OS mantiene una tabla de asociaciones entre extensiones y aplicaciones. Es crucial para los desarrolladores tener las extensiones visibles.
Cabecera / Número Mágico (Magic Number): El método más robusto y técnicamente correcto. Los primeros bytes de un archivo binario contienen una secuencia única y estandarizada (el "número mágico") que identifica su formato. Por ejemplo, un archivo PNG siempre comenzará con los bytes que representan las letras PNG.
Tipo MIME (MIME Type): Un estándar utilizado principalmente en Internet. Cuando un servidor web envía un archivo a un navegador, incluye un header HTTP que especifica el tipo MIME (ej. image/png, application/pdf), indicando explícitamente al navegador cómo debe manejar el contenido.
2. Estructura Interna: Texto Plano vs. Binarios
Los archivos se dividen en dos grandes categorías según su contenido interno.
Archivos de Texto Plano: Su contenido está compuesto íntegramente por caracteres legibles por humanos, codificados usando estándares como ASCII o UTF-8. Ejemplos: .txt, .html, .css, .js, .py. También incluye formatos de datos estructurados como CSV (Comma-Separated Values), que representa tablas en texto plano.
Archivos Binarios: Su contenido no es texto legible y está estructurado de una manera específica para una aplicación.
Cabecera (Header): La sección inicial de un archivo binario. Contiene el número mágico para identificar el tipo de archivo y, crucialmente, los metadatos.
Metadatos: Son "datos sobre los datos". Es información descriptiva sobre el archivo que no forma parte del contenido principal. Ejemplos:
En una foto: Modelo de la cámara, fecha de creación, resolución, ubicación GPS.
En un PDF: Título, autor, aplicación de origen (ej. Microsoft Word).
En un video: Códec de compresión, resolución, duración.
3. Integridad y Seguridad de los Archivos
La estructura interna de un archivo es delicada y su integridad es clave.
Corrupción de Archivos: Si la cabecera o los metadatos de un archivo se dañan, el sistema operativo no podrá interpretar su estructura y el archivo se volverá ilegible ("corrupto"), aunque el contenido principal siga intacto.
Checksum: Un valor criptográfico calculado a partir del contenido de un archivo. Se utiliza para verificar que un archivo no ha sido alterado o dañado durante una transferencia o descarga. No identifica el tipo de archivo, sino su integridad.
Esteganografía: Una técnica avanzada que consiste en ocultar datos (incluso archivos completos) dentro de los datos de otro archivo. Por ejemplo, se puede esconder un archivo .zip dentro de los píxeles de una imagen .jpg de manera que sea visualmente imperceptible.
4. Distinción Clave: Archivo vs. Base de Datos
Aunque ambos almacenan datos, no son lo mismo.
Un archivo es un contenedor de datos con un formato específico.
Una base de datos es un sistema complejo y estructurado, diseñado para almacenar, gestionar, consultar y relacionar grandes volúmenes de datos de manera eficiente. Un archivo puede contener una base de datos (ej. un archivo de SQLite), pero no son conceptos intercambiables.
Honestly no sabia nada de esteganografía. New concept para mi de verdad
¡No! a Freddy le están saliendo canitas! aprovechen. aprendan mucho. 😭😭😭😭
En esta foto está el repositorio que Apple eliminó por denuncia DMCA.
Apple ha denunciado por infracción de derechos de autor los repositorios que contenían la interfaz de su nueva tienda web de aplicaciones.
Puede que todavía existan algunas copias en GitHub, pero seguramente también las borren pronto.
Si esto te molesta, alégrate con esta imagen sospechosamente grande de Tim Cook con aspecto igualmente sospechoso.
JAJAJA increibleee!!
¿Qué es el algoritmo checksum?
El algoritmo checksum es como calcular un pequeño "sello digital" para esos datos. Toma todos los bits de la información original, realiza una serie de operaciones matemáticas sencillas con ellos, y produce un número pequeño, el checksum.
Cuando los datos llegan a su destino, se aplica exactamente el mismo algoritmo para calcular un nuevo checksum a partir de los datos recibidos.
¿Por qué se usa para verificar la integridad?
La clave está en que cualquier cambio, incluso el más pequeño, en los datos originales probablemente generará un checksum diferente.
Entonces:
Si el checksum calculado al recibir los datos coincide con el checksum original (que se envió junto con los datos), es muy probable que los datos hayan llegado intactos.
Si los checksums no coinciden, sabrás que los datos sufrieron alguna alteración durante la transmisión o el almacenamiento.
Es una forma rápida y sencilla de detectar errores, aunque no es infalible contra manipulaciones muy sofisticadas. Piensa en ello como una primera línea de defensa para asegurar que la información se mantiene fiel a su estado original.
Extensiones: El sobre de la carta
La extensión es la parte del nombre que va después del punto (por ejemplo, .jpg, .pdf, .mp3). Piensa en esto como la imagen que pones en el sobre para indicar qué hay dentro.
¿Para qué sirve? Le dice a tu computadora qué programa usar para abrir el archivo.
Ejemplo: Un archivo que termina en .pdf le dice a la computadora: "¡Ábreme con un lector de documentos!". Un archivo con .mp3 le dice: "¡Reproduce esta canción con un reproductor de música!".
Metadatos: La información de la carta
Los metadatos son como las notas que escribes en la parte de atrás de la carta, sin que afecte lo que dice adentro. Es información sobre el archivo, no el archivo en sí.
¿Para qué sirve? Es como una pequeña etiqueta que dice quién hizo el archivo, cuándo se creó, qué tan grande es, etc.
Ejemplo: En una foto, los metadatos pueden ser la fecha en que se tomó, el modelo de la cámara e incluso la ubicación.
Cabeceras: El saludo y despedida
La cabecera es la información que va al principio del archivo, justo antes de los datos importantes. Es como el "Hola" y el "Atentamente" en tu carta.
¿Para qué sirve? Le dice al programa cómo debe leer el archivo y cómo está organizada la información. Es un dato fundamental para que la computadora sepa dónde empieza y dónde termina la información.
Ejemplo: En un archivo de imagen, la cabecera indica el tamaño de la imagen, cuántos colores tiene y cómo se organizan los píxeles. Sin esta información, la computadora no sabría cómo mostrar la imagen correctamente.
¿Alguien conoce de forma sencilla la diferencia de un archivo CVS y uno JSON? son excluyentes entre si?
CSV (Comma-Separated Values)
Es una tabla de datos.
Usa filas y columnas, como Excel.
Cada fila es un registro.
Muy fácil de leer y editar.
JSON (JavaScript Object Notation)
Es datos estructurados (más flexible).
Usa llaves {} y corchetes [].
Puede tener datos dentro de datos (niveles).
Cortesía de nanobanana
Los archivos .RAW son un tipo de archivo de imagen que captura datos sin procesar directamente desde el sensor de la cámara. A diferencia de formatos como JPEG, que están comprimidos y procesados, los archivos .RAW mantienen toda la información de la imagen, permitiendo una mayor flexibilidad en la edición. Al abrir un archivo .RAW en un software especializado, puedes ajustar la exposición, el balance de blancos y otros parámetros sin perder calidad. Esto es esencial en fotografía profesional, donde se requiere mayor control sobre los detalles de la imagen.