Análisis Léxico: Construcción de un Léxer para Intérpretes

Cursos Empresas Blog Live Conf Precios

Contenido del curso

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción del lexer o tokenizador

Construcción del parser o analizador sintáctico

Evaluación o análisis semántico

Mejora del intérprete

Siguientes pasos

Tomar examen

Análisis Léxico: Construcción de un Léxer para Intérpretes

Resumen

Construir un intérprete desde cero implica entender cómo una computadora lee y procesa código fuente. El primer paso de este proceso es el análisis léxico, una fase fundamental que transforma texto plano en piezas con significado, y el componente encargado de hacerlo se llama lexer.

¿Qué es el análisis léxico y por qué es el primer paso del intérprete?

El análisis léxico es el procedimiento mediante el cual se convierte una secuencia de caracteres en tokens que tienen un significado dentro de un lenguaje de programación [0:14]. Piensa en tu código fuente como una oración larga: el lexer la descompone palabra por palabra, símbolo por símbolo, hasta obtener las unidades mínimas con sentido.

Por ejemplo, en un fragmento de código estos serían algunos tokens reconocibles:

La palabra variable es un token.
El signo = (asignación) es otro token.
El punto y coma ; es un token.
Los paréntesis y las llaves también son tokens individuales.

Cada uno de estos tokens tiene dos propiedades esenciales: un tipo y un valor [1:08]. En un intérprete listo para producción, también incluirían información adicional como el archivo, la línea y la columna donde se encuentran, principalmente para ofrecer buenos mensajes de error.

¿Cómo funciona el lexer al procesar código fuente?

El flujo es sencillo de visualizar. Tu código fuente entra como input a un objeto llamado lexer [1:30]. Este componente lo lee carácter por carácter, identifica patrones que corresponden a tokens válidos y devuelve una lista de tokens como resultado.

¿Cómo se ve la tokenización en la práctica?

Considerando un fragmento del lenguaje de programación Platzi donde se asigna un procedimiento a la variable suma [1:50], la tokenización produce esta lista:

variable → keyword.
suma → identificador.
= → operador de asignación.
funcion → keyword.
( → paréntesis izquierdo.
A, B → identificadores.
) → paréntesis derecho.
{ → llave de apertura.
regresa → keyword.
A + B → identificadores y operador.
} → llave de cierre.
; → punto y coma.

Un detalle importante: en este lenguaje, los espacios en blanco se ignoran [2:22]. Sin embargo, en lenguajes como Python, los espacios en blanco sí tienen significado semántico y necesitarían su propio token asignado.

¿Qué errores detecta el lexer y cuáles no?

El lexer no se preocupa por validar si la estructura del programa es correcta [2:44]. Su única responsabilidad es identificar los pedazos primitivos del código y rechazar símbolos que no estén permitidos en el lenguaje.

Por ejemplo:

El símbolo ¿ no está permitido como operador, así que generaría un error.
El @ tampoco forma parte del lenguaje y sería rechazado.

La validación de la sintaxis corresponde a la siguiente fase del pipeline: el parser [2:55]. Este sí verificará que los paréntesis estén cerrados, que los procedimientos terminen en punto y coma y que la estructura general del programa sea coherente.

¿Qué construirás como resultado de esta fase?

El objetivo concreto es crear un lexer que tome un string como entrada, lo recorra carácter por carácter, identifique qué pedazos tienen significado dentro del lenguaje de programación y devuelva una lista de tokens con su tipo y valor asignados [3:20].

Esta es la base sobre la que se construirán las fases posteriores del intérprete. Sin un análisis léxico correcto, el parser no tendría material con el cual trabajar. Comparte tus dudas en los comentarios para que la comunidad pueda ayudarte antes de comenzar a escribir código en la siguiente sesión.

Comentarios

Carlos Eduardo Gomez García

teacher

Básicamente el funcionamiento del Lexer es el siguiente: .

Código fuente: Este es el archivo de texto plano que nosotros escribimos, es simplemente texto sin sentido para la computadora, pero con mucho sentido para nosotros los programadores. Este texto hay que empezar a traducirlo a algo que la computadora entienda.
Es aquí donde viene el Lexer, el Lexer se encargará de identificar todos los simbolos y "tokens" que estén escritos en el código fuente, y justamente gracias a ese análisis va a generar los tokens.

. Ahora, ¿qué es un token? . En mis propias palabras, es el identificador de cada componente de nuestro lenguaje, por ejemplo, nuestro lenguaje tiene predefinidos qué tokens (o componentes) aceptará, por ejemplo, yo puedo decir: "Oye lenguaje, quiero que tengas un operador de suma", entonces defino mi token suma, y el Lexer se encargará de ir buscando parte por parte en el código fuente en qué lugares aparece mi token suma y te va a decir: "Ah mira, lo encontré, aquí hay un token suma" y así con el resto de tokens, puedes tener tokens para sumas, restas, funciones, asignaciones, etc. 👀

Roberth Jason Rios Jesus

student

Humberto Pérez

student

Dos capítulos del libro de compiladores bien resumidos. El libro del "Dragon" :'v

Adrian Dalí

student

Muy buen libro por cierto para complementar!!

Santiago Ahumada Lozano

student

También te recomiendo el del modern compiler implementation in C (ó ML ó Java)

Carlos Mauricio Alí Corzo

student

Me estaba perdiendo de la maravilla de este curso

Ana Patricia Pérez Ríos

student

El token termina siendo el escaneo a partir del diccionario de símbolos con los cuales defines tu lenguaje de programación.

Omar Jalil Fierro López

student

¿Como funciona un token en lenguajes como PHP? donde el signo de $ va pegado completamente a la variable, cuenta como un único token?, o el $ es un token y lo que sigue es otro?

Sebastián Franco

student

Efectivamente, el $ es un token aparte y será una keyword dentro del lenguaje, por lo que al momento de aplicar el parser podrás verificar si la expresión empieza con ese símbolo para tratarla como una variable.

Santiago Ahumada Lozano

student

¿Qué se hace cuando un símbolo no se encuentra dentro del lenguaje definido? (@,&…)

Sebastián Franco

student

Se envía directamente un error y se termina el programa, la idea con el lexer, aparte de tokenizar todos los caracteres del lenguaje, es no permitir la entrada de aquellos que no tienen o no tendrán sentido sin darles la oportunidad de ser procesados.

Si ingresas un token no válido para el sistema, inmediatamente te dará un error de sintáxis, es decir, algo está "mal escrito" (es decir, no pertenece al lenguaje).

Si agregas este error en una linea que empieza teniendo sentido, la procesa hasta encontrar dicho error y nuevamente se detiene todo el proceso.

Lo que es diferente a un error lógico, que, aunque esté bien escrito, no tiene sentido para el intérprete/compilador; de esto se encargará el parser.

Fabián Vega Alcota

student

Si mi lenguaje tuviera tipado fuerte ¿debería los tipos declarados en el programa también tener un token?

Carlos Eduardo Gomez García

teacher

Sí, recuerda que el Lexer se encarga de convertir cada cosa de tu lenguaje en un token, por lo que el tipado también sería un token, sería algo así como TokenType.CLASSNAME me imagino 🤔

Fabián Vega Alcota

student

Oh, ya veo, gracias :)

Andrés Xavier Vargas Vera

student

Los tokens a parte de nombre y valor.... pueden tener mas campos? como por ejemplo número de línea y índice en la fila???

Sebastián Franco

student

Puede llegar a ser una decisión de diseño, porque lo que percibimos como lineas e indices son convenciones humanas; algunos compiladores (C, Lua, Java) eliminan todos los espacios y saltos de linea para tener texto limpio a procesar, por lo que en estos casos no es de mayor sentido.

El otro caso es el de Python, donde se tiene que tener en cuenta la identación para comprender el scope de la instrucción, en este caso tal vez guardemos estos datos, pero no se haría necesariamente a nivel de lexer.

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción de Intérpretes de Software en Python 3.8

Creación de Compiladores e Intérpretes con Lenguaje Platzi

Construcción del lexer o tokenizador