Qué son los traces en telemetría distribuida

Curso de Fundamentos de Observabilidad con New Relic

Contenido del curso

Bienvenida al curso

1
Observabilidad en sistemas digitales complejos
04:33 min

¿Cómo funciona la web moderna?

Observabilidad y monitoreo

Telemetría y tipos de datos

Reto: Monoliths y Microservices

13
Uso de New Relic: Análisis de Mapas de Aplicaciones Web
02:29 min

Cierre y despedida

Tomar examen

Qué son los traces en telemetría distribuida

Resumen

Los traces distribuidos son el cuarto tipo de dato en telemetría y te permiten reconstruir, paso a paso, qué ocurre dentro de un sistema cuando una transacción atraviesa múltiples componentes. Si trabajas en DevOps, observabilidad o monitoreo de aplicaciones, entender este concepto te ayuda a encontrar cuellos de botella que un evento aislado nunca te mostraría.

Qué son los traces y por qué se llaman distribuidos

En DevOps, cuando alguien menciona traces casi siempre se refiere a distributed traces, porque ocurren a través de varios componentes de tu sistema al mismo tiempo [0:18].

Piensa en cuando pierdes el celular y rehaces tus pasos: pasaste por el baño, la cocina, la sala y tu cuarto. Un trace funciona igual, pero dentro de una aplicación. Conecta cadenas de eventos entre el carrito de compras, la pasarela de pagos y cualquier otro componente involucrado.

Al igual que los eventos y los logs, los traces son discretos e irregulares: no sabes cuándo van a ocurrir, solo sabes que debes guardarlos cuando pasen.

¿Qué es un trace distribuido? Es un registro que sigue una transacción a través de múltiples componentes de un sistema, mostrando cada paso y cuánto tardó.

Por qué un evento no basta para encontrar el problema

Imagina una máquina expendedora que acepta efectivo y tarjeta de crédito. Para procesar un pago con tarjeta ocurren varios pasos [1:30]:

La máquina recibe el input del usuario.
El backend contacta al procesador de tarjetas, como Visa o Mastercard.
El procesador contacta al banco emisor para validar el cupo.
La respuesta regresa por el mismo camino en reversa.

Si registras solo el evento, verás algo como credit card purchase event con una duración de 23 segundos [2:11]. Sabes que algo va lento, pero no sabes dónde. El evento no te dice cuánto tardó contactar al banco ni cuánto demoró el procesador. El problema está ahí, escondido.

Cómo los traces resuelven esa ceguera

Los traces unen los eventos especiales en una cadena a lo largo del sistema. Cada servicio pasa un identificador llamado correlation ID, que viaja como metadata en forma de atributo dentro del evento [3:05].

Ese identificador enlaza todas las piezas, sin importar que vivan en componentes distintos. Así, en lugar de ver un bloque opaco de 23 segundos, descompones la transacción paso por paso:

Procesador de tarjeta: 5 segundos.
Banco emisor: 3 segundos.
Backend de la máquina expendedora: 15 segundos.

Ahí está el culpable. El backend propio, no el banco ni la red de tarjetas. Y esa es la diferencia entre adivinar y observar con datos.

Cómo se estructura un trace por dentro

Un trace se apoya en varios atributos que aparecen en la tabla de telemetría: el event type es el span, y lo acompañan el trace ID, el span ID, el parent ID y los servicios involucrados [4:18].

De todos esos campos, hay uno que manda: el trace ID. Es la pieza que une todo el rastro y permite que exista como una sola historia coherente. Plataformas como New Relic se encargan de generarlo y manejarlo por ti, así que no necesitas construirlo a mano.

¿Qué es un span en un trace? Es una espera de tiempo durante la que ocurre una acción específica dentro de la transacción, como contactar al banco o validar el pago.

La analogía de Hansel y Gretel para entender el span

Un span es como una migaja de pan. Hansel y Gretel iban dejando migajas para regresar por el bosque; tus servicios van dejando spans para que puedas reconstruir qué ocurrió dentro de tu sistema [5:32].

Cada span representa un paso, y el conjunto de spans, unidos por el mismo trace ID, te da el mapa completo. Esa es la base de la observabilidad: no solo saber que algo falló, sino poder rastrear exactamente dónde y por qué.

¿Has tenido que depurar una transacción lenta sin saber qué componente la estaba ralentizando? Cuéntame en los comentarios cómo lo resolviste.

Luis Eduardo Payano Villar

Estudiante

**MELT** es un acrónimo que se refiere a **Metrics, Events, Logs y Traces**, los cuatro pilares fundamentales de la observabilidad en sistemas distribuidos y microservicios. Cada uno de estos componentes proporciona una perspectiva única para entender el comportamiento y el rendimiento de las aplicaciones en producción. Cuando hablamos de "una mirada más cercana a Traces", nos centramos específicamente en la capacidad de rastrear solicitudes y transacciones a lo largo de los diferentes servicios que conforman un sistema.

### ¿Qué son los **Traces**?

Los **traces** (o **rastros**) permiten observar el flujo de una solicitud mientras viaja por los distintos componentes de un sistema distribuido. Cada interacción o paso de una solicitud se denomina **span**. Un conjunto de spans interconectados que representan el viaje completo de la solicitud es lo que constituye un **trace**. Este enfoque ayuda a visualizar cómo una solicitud pasa por los distintos servicios, y es clave para identificar cuellos de botella, problemas de latencia y dependencias entre servicios.

### Características importantes de los Traces:

1. **Propagación a través de servicios**: Un trace sigue a una solicitud desde el inicio hasta el final, cruzando varios servicios, bases de datos y sistemas externos.

2. **Estructura jerárquica**: Un trace puede estar compuesto por múltiples spans que muestran las distintas capas y dependencias del sistema.

3. **Identificación de problemas de latencia**: Los traces permiten identificar en qué parte del sistema se generan retrasos significativos.

4. **Visualización del flujo**: Los traces proporcionan una visión clara del flujo de datos, útil para analizar las interacciones entre microservicios.

### ¿Por qué son importantes los Traces?

- **Depuración eficiente**: En sistemas distribuidos, es difícil rastrear problemas sin una visión clara del camino de las solicitudes. Los traces permiten a los desarrolladores y equipos de operaciones identificar la fuente de los problemas.

- **Optimización de rendimiento**: Los traces facilitan la detección de los cuellos de botella, lo que permite optimizar el rendimiento de la aplicación.

- **Monitoreo proactivo**: Al ver patrones anómalos en los traces, los equipos pueden detectar problemas antes de que afecten a los usuarios.

### Ejemplo de uso de Traces:

Imagina que un usuario hace una solicitud a una aplicación que involucra múltiples servicios: un front-end, una API gateway, un servicio de autenticación y una base de datos. Un trace documentará cómo esa solicitud viaja entre cada uno de estos servicios, cuánto tiempo pasa en cada uno y si ocurre algún error en el camino.

En resumen, en la observabilidad del ciclo MELT, los **traces** proporcionan visibilidad del flujo de datos y solicitudes a través de un sistema distribuido, ayudando a mejorar el monitoreo, el diagnóstico de errores y la optimización del rendimiento.

Brayan Estiben Rodallega Saavedra

Jonathan Barzola

Elena Hernández

Silvia Veronelli

Renzo Valentin

Miguel R Montilla

Ana Karina Serrano Romero

Leandro Espino Espino

uRieL Martinez Bautista

Leiber Bertel

Juan Sifontez

Daniel Giovanny Ochoa Torres

Elisa Zamarron Muñoz

Edwin Giovanny Nieto Baron

Gualberto Montiel

Emmanuel Rodríguez

Qué son los traces en telemetría distribuida

Bienvenida al curso

Observabilidad en sistemas digitales complejos

¿Cómo funciona la web moderna?

De monolitos a microservicios en web

Contenedores, Docker y Kubernetes explicados

Aplicaciones Nativas en la Nube: Conceptos y Beneficios

Observabilidad y monitoreo

Límites reales del monitoreo en DevOps

Monitoreo de apps con MTTD y MTTR

Observabilidad vs Monitoreo en Sistemas Digitales

Los 3 pilares de la observabilidad

Telemetría y tipos de datos

Qué son eventos y metadata en telemetría

Métricas vs eventos en observabilidad MELT

Logs vs eventos en telemetría