Contenido del curso
Construcción del lexer o tokenizador
- 3

Análisis Léxico: Construcción de un Léxer para Intérpretes
Viendo ahora - 4

Definición de Tokens en Lenguaje de Programación Platzi
11:53 min - 5

Desarrollo de un Lexer con Test-Driven Development
15:42 min - 6

Pruebas de Operadores, Delimitadores y Fin de Archivo en Lexer Python
10:01 min - 7

Lexer: Identificación de Keywords y Tokens Complejos
18:57 min - 8

Reconocimiento de Funciones en Lexer de Lenguaje de Programación
07:46 min - 9

Implementación de Operadores y Condicionales en Lexer de Platzi
12:38 min - 10

Implementación de Operadores de Dos Caracteres en Lexer
12:07 min - 11

Creación de un REPL en Python para Lenguaje de Programación
12:35 min
Construcción del parser o analizador sintáctico
- 12

Construcción de un Parser para el Lenguaje Platzi
05:22 min - 13

Definición de Nodos Abstractos para Árbol de Sintaxis (AST) en Python
09:14 min - 14

Desarrollo de un AST en Python: Creación de la Clase Programa
12:48 min - 15

Parseo de Let Statements en Lenguaje Platzi
20:21 min - 16

Implementación de funciones advanced y expected tokens
08:26 min - 17

Manejo de Errores en Parsers con Test Driven Development
11:06 min - 18

Parseo de Return Statements en Lenguaje Platzi
12:42 min - 19

Técnicas de Parsing: Top-Down y Bottom-Up
01:46 min - 20

Pruebas de AST para Let y Return Statements en Parsers
12:05 min - 21

Pratt Parsing: Implementación y Registro de Funciones en Python
11:47 min - 22

Parseo de Identificadores en Lenguajes de Programación
13:29 min - 23

Parseo de Expression Statements en Platzi Parser
16:33 min - 24

Parseo de Enteros en Lenguaje Platzi
14:03 min - 25

Implementación de Operadores Prefijo en Parsers
16:43 min - 26

Operadores InFix en Expresiones: Implementación y Pruebas
10:40 min - 27

Implementación de Operadores InFix en un Parser
20:20 min - 28

Expresiones Booleanas en el Lenguaje de Programación Platzi
13:00 min - 29

Evaluación de Precedencia y Testeo de Booleanos en Parsers
08:39 min - 30

Evaluación de Expresiones Agrupadas en un Parser
10:16 min - 31

Parseo de Condicionales en Lenguaje Platzi
13:50 min - 32

Implementación de Condicionales en Parser de Lenguaje
12:05 min - 33

Parsing de Funciones en Lenguaje Platzi: Creación de Nodos AST
15:51 min - 34

Construcción de nodos de función en un parser AST
15:43 min - 35

Llamadas a Funciones en Lenguajes de Programación
13:05 min - 36

Implementación de llamadas a funciones en un parser con AST
12:21 min - 37

Parseo de Expresiones en LET y RETURN Statements
07:58 min - 38

Implementación de REPL para Árbol de Sintaxis Abstracta
08:59 min
Evaluación o análisis semántico
- 39

Evaluación Semántica en Lenguajes de Programación
03:42 min - 40

Estrategias de Evaluación en Lenguajes de Programación
09:18 min - 41

Representación de Nodos AST y Objetos en Python
14:17 min - 42

Evaluación de Expresiones en JavaScript y Python
19:39 min - 43

Implementación del Patrón Singleton para Booleanos y Nulos
11:52 min - 44

Evaluación de Prefijos en Lenguaje de Programación Platzi
14:41 min - 45

Evaluación de Expresiones Infix en Lenguaje Platzi
18:07 min - 46

Evaluación de Condicionales en Lenguaje de Programación Platzi
13:50 min - 47

Evaluación y Uso del Return Statement en Programación
14:41 min - 48

Manejo de Errores Semánticos en Lenguaje Platzi
21:04 min - 49

Declaración y Gestión de Variables en Lenguajes de Programación
13:55 min - 50

Manejo de Ambientes y Variables en Lenguajes de Programación
11:56 min - 51

Declaración de Funciones en Lenguaje de Programación Platzi
12:26 min - 52

Implementación de Llamadas a Funciones en PlatziLang
23:55 min
Mejora del intérprete
Siguientes pasos
Análisis Léxico: Construcción de un Léxer para Intérpretes
Resumen
Construir un intérprete desde cero implica entender cómo una computadora lee y procesa código fuente. El primer paso de este proceso es el análisis léxico, una fase fundamental que transforma texto plano en piezas con significado, y el componente encargado de hacerlo se llama lexer.
¿Qué es el análisis léxico y por qué es el primer paso del intérprete?
El análisis léxico es el procedimiento mediante el cual se convierte una secuencia de caracteres en tokens que tienen un significado dentro de un lenguaje de programación [0:14]. Piensa en tu código fuente como una oración larga: el lexer la descompone palabra por palabra, símbolo por símbolo, hasta obtener las unidades mínimas con sentido.
Por ejemplo, en un fragmento de código estos serían algunos tokens reconocibles:
- La palabra
variablees un token. - El signo
=(asignación) es otro token. - El punto y coma
;es un token. - Los paréntesis y las llaves también son tokens individuales.
Cada uno de estos tokens tiene dos propiedades esenciales: un tipo y un valor [1:08]. En un intérprete listo para producción, también incluirían información adicional como el archivo, la línea y la columna donde se encuentran, principalmente para ofrecer buenos mensajes de error.
¿Cómo funciona el lexer al procesar código fuente?
El flujo es sencillo de visualizar. Tu código fuente entra como input a un objeto llamado lexer [1:30]. Este componente lo lee carácter por carácter, identifica patrones que corresponden a tokens válidos y devuelve una lista de tokens como resultado.
¿Cómo se ve la tokenización en la práctica?
Considerando un fragmento del lenguaje de programación Platzi donde se asigna un procedimiento a la variable suma [1:50], la tokenización produce esta lista:
variable→ keyword.suma→ identificador.=→ operador de asignación.funcion→ keyword.(→ paréntesis izquierdo.A,B→ identificadores.)→ paréntesis derecho.{→ llave de apertura.regresa→ keyword.A + B→ identificadores y operador.}→ llave de cierre.;→ punto y coma.
Un detalle importante: en este lenguaje, los espacios en blanco se ignoran [2:22]. Sin embargo, en lenguajes como Python, los espacios en blanco sí tienen significado semántico y necesitarían su propio token asignado.
¿Qué errores detecta el lexer y cuáles no?
El lexer no se preocupa por validar si la estructura del programa es correcta [2:44]. Su única responsabilidad es identificar los pedazos primitivos del código y rechazar símbolos que no estén permitidos en el lenguaje.
Por ejemplo:
- El símbolo
¿no está permitido como operador, así que generaría un error. - El
@tampoco forma parte del lenguaje y sería rechazado.
La validación de la sintaxis corresponde a la siguiente fase del pipeline: el parser [2:55]. Este sí verificará que los paréntesis estén cerrados, que los procedimientos terminen en punto y coma y que la estructura general del programa sea coherente.
¿Qué construirás como resultado de esta fase?
El objetivo concreto es crear un lexer que tome un string como entrada, lo recorra carácter por carácter, identifique qué pedazos tienen significado dentro del lenguaje de programación y devuelva una lista de tokens con su tipo y valor asignados [3:20].
Esta es la base sobre la que se construirán las fases posteriores del intérprete. Sin un análisis léxico correcto, el parser no tendría material con el cual trabajar. Comparte tus dudas en los comentarios para que la comunidad pueda ayudarte antes de comenzar a escribir código en la siguiente sesión.