Contenido del curso
Construcción del lexer o tokenizador
- 3

Análisis Léxico: Construcción de un Léxer para Intérpretes
05:35 min - 4

Definición de Tokens en Lenguaje de Programación Platzi
11:53 min - 5

Desarrollo de un Lexer con Test-Driven Development
15:42 min - 6

Pruebas de Operadores, Delimitadores y Fin de Archivo en Lexer Python
10:01 min - 7

Lexer: Identificación de Keywords y Tokens Complejos
Viendo ahora - 8

Reconocimiento de Funciones en Lexer de Lenguaje de Programación
07:46 min - 9

Implementación de Operadores y Condicionales en Lexer de Platzi
12:38 min - 10

Implementación de Operadores de Dos Caracteres en Lexer
12:07 min - 11

Creación de un REPL en Python para Lenguaje de Programación
12:35 min
Construcción del parser o analizador sintáctico
- 12

Construcción de un Parser para el Lenguaje Platzi
05:22 min - 13

Definición de Nodos Abstractos para Árbol de Sintaxis (AST) en Python
09:14 min - 14

Desarrollo de un AST en Python: Creación de la Clase Programa
12:48 min - 15

Parseo de Let Statements en Lenguaje Platzi
20:21 min - 16

Implementación de funciones advanced y expected tokens
08:26 min - 17

Manejo de Errores en Parsers con Test Driven Development
11:06 min - 18

Parseo de Return Statements en Lenguaje Platzi
12:42 min - 19

Técnicas de Parsing: Top-Down y Bottom-Up
01:46 min - 20

Pruebas de AST para Let y Return Statements en Parsers
12:05 min - 21

Pratt Parsing: Implementación y Registro de Funciones en Python
11:47 min - 22

Parseo de Identificadores en Lenguajes de Programación
13:29 min - 23

Parseo de Expression Statements en Platzi Parser
16:33 min - 24

Parseo de Enteros en Lenguaje Platzi
14:03 min - 25

Implementación de Operadores Prefijo en Parsers
16:43 min - 26

Operadores InFix en Expresiones: Implementación y Pruebas
10:40 min - 27

Implementación de Operadores InFix en un Parser
20:20 min - 28

Expresiones Booleanas en el Lenguaje de Programación Platzi
13:00 min - 29

Evaluación de Precedencia y Testeo de Booleanos en Parsers
08:39 min - 30

Evaluación de Expresiones Agrupadas en un Parser
10:16 min - 31

Parseo de Condicionales en Lenguaje Platzi
13:50 min - 32

Implementación de Condicionales en Parser de Lenguaje
12:05 min - 33

Parsing de Funciones en Lenguaje Platzi: Creación de Nodos AST
15:51 min - 34

Construcción de nodos de función en un parser AST
15:43 min - 35

Llamadas a Funciones en Lenguajes de Programación
13:05 min - 36

Implementación de llamadas a funciones en un parser con AST
12:21 min - 37

Parseo de Expresiones en LET y RETURN Statements
07:58 min - 38

Implementación de REPL para Árbol de Sintaxis Abstracta
08:59 min
Evaluación o análisis semántico
- 39

Evaluación Semántica en Lenguajes de Programación
03:42 min - 40

Estrategias de Evaluación en Lenguajes de Programación
09:18 min - 41

Representación de Nodos AST y Objetos en Python
14:17 min - 42

Evaluación de Expresiones en JavaScript y Python
19:39 min - 43

Implementación del Patrón Singleton para Booleanos y Nulos
11:52 min - 44

Evaluación de Prefijos en Lenguaje de Programación Platzi
14:41 min - 45

Evaluación de Expresiones Infix en Lenguaje Platzi
18:07 min - 46

Evaluación de Condicionales en Lenguaje de Programación Platzi
13:50 min - 47

Evaluación y Uso del Return Statement en Programación
14:41 min - 48

Manejo de Errores Semánticos en Lenguaje Platzi
21:04 min - 49

Declaración y Gestión de Variables en Lenguajes de Programación
13:55 min - 50

Manejo de Ambientes y Variables en Lenguajes de Programación
11:56 min - 51

Declaración de Funciones en Lenguaje de Programación Platzi
12:26 min - 52

Implementación de Llamadas a Funciones en PlatziLang
23:55 min
Mejora del intérprete
Siguientes pasos
Lexer: Identificación de Keywords y Tokens Complejos
Resumen
Construir un lexer capaz de reconocer palabras reservadas, identificadores y números enteros es el paso que transforma un analizador léxico básico en una herramienta real de compilación. Aquí se detalla cómo lograrlo siguiendo Test Driven Development, creando primero los tests que fallan y después las funciones que los hacen pasar.
¿Qué tokens nuevos necesita reconocer el lexer?
Hasta ahora el lexer solo tokenizaba delimitadores y operadores simples. Ahora es momento de soportar asignaciones, keywords como variable, identificadores como el nombre de una variable, y enteros [0:48]. Para validar este comportamiento se escribe un test llamado test_assignment que representa la sentencia variable cinco = 5; y espera cinco tokens:
- Un token de tipo
LETcon literalvariable. - Un token de tipo
IDENTcon literalcinco. - Un token de tipo
ASSIGNcon literal=. - Un token de tipo
INTcon literal5. - Un token de tipo
SEMICOLONcon literal;.
Cada llamada a next_token debe devolver exactamente uno de estos valores [2:30].
¿Cómo determinar si un carácter es una letra válida?
La función is_letter recibe un carácter y devuelve un booleano [4:15]. Internamente usa una expresión regular con un character set que incluye a-z, A-Z, el guion bajo y, como el lenguaje soporta español, también vocales acentuadas (á, é, í, ó, ú) en minúsculas y mayúsculas, además de la ñ y Ñ [5:10]. El patrón se envuelve con bool(match(...)) para garantizar que el retorno sea estrictamente booleano.
¿Qué hace read_identifier?
Una vez confirmado que el carácter actual es una letra, read_identifier avanza posición por posición mientras siga encontrando letras [6:20]. El algoritmo es directo:
- Guarda la posición inicial en
initial_position. - Ejecuta
read_characteren un ciclowhile is_letter(self._character). - Retorna el slice del source desde
initial_positionhastaself._position.
Este slice es la literal completa del identificador o keyword que se acaba de leer.
¿Cómo distinguir un keyword de un identificador?
La función lookup_token_type vive en el archivo token porque su responsabilidad está ligada al tipo de token, no al lexer [7:35]. Dentro de ella se define un diccionario keywords de tipo Dict[str, TokenType] que mapea palabras reservadas a su tipo correspondiente. Por ejemplo, la llave "variable" apunta a TokenType.LET. Cuando la literal leída coincide con alguna llave del diccionario, se devuelve ese tipo; en caso contrario, se devuelve TokenType.IDENT [8:40].
¿Por qué es necesario ignorar los espacios en blanco?
En este lenguaje de programación el espacio en blanco no tiene significado semántico, así que debe descartarse antes de procesar cada token [9:30]. La función skip_whitespace se invoca al inicio de next_token y utiliza la expresión regular \s para detectar whitespace. Mientras el carácter actual coincida, simplemente llama a read_character para avanzar sin generar ningún token.
¿Cómo se tokenizan los números enteros?
El enfoque es idéntico al de los identificadores, pero con dígitos. Primero, is_number valida si el carácter actual es un dígito mediante la expresión regular ^\d$ [11:08]. Después, read_number guarda la posición inicial y avanza mientras encuentre dígitos, retornando el slice correspondiente. Finalmente, next_token crea un token de tipo TokenType.INT con esa literal [11:50].
La estructura de read_number es prácticamente un espejo de read_identifier:
initial_position = self._position.while is_number(self._character): self._read_character().return self._source[initial_position:self._position].
Con estas funciones implementadas, los tests pasan correctamente y el lexer ya reconoce operadores, delimitadores, keywords, identificadores y enteros [12:50]. El siguiente reto es soportar declaraciones de funciones con el keyword procedimiento y llamadas a funciones, temas que se abordan en la clase siguiente. ¿Qué otros keywords agregarías a tu lenguaje? Comparte tus ideas en los comentarios.