Contenido del curso
Construcción del lexer o tokenizador
- 3

Análisis Léxico: Construcción de un Léxer para Intérpretes
05:35 min - 4

Definición de Tokens en Lenguaje de Programación Platzi
11:53 min - 5

Desarrollo de un Lexer con Test-Driven Development
Viendo ahora - 6

Pruebas de Operadores, Delimitadores y Fin de Archivo en Lexer Python
10:01 min - 7

Lexer: Identificación de Keywords y Tokens Complejos
18:57 min - 8

Reconocimiento de Funciones en Lexer de Lenguaje de Programación
07:46 min - 9

Implementación de Operadores y Condicionales en Lexer de Platzi
12:38 min - 10

Implementación de Operadores de Dos Caracteres en Lexer
12:07 min - 11

Creación de un REPL en Python para Lenguaje de Programación
12:35 min
Construcción del parser o analizador sintáctico
- 12

Construcción de un Parser para el Lenguaje Platzi
05:22 min - 13

Definición de Nodos Abstractos para Árbol de Sintaxis (AST) en Python
09:14 min - 14

Desarrollo de un AST en Python: Creación de la Clase Programa
12:48 min - 15

Parseo de Let Statements en Lenguaje Platzi
20:21 min - 16

Implementación de funciones advanced y expected tokens
08:26 min - 17

Manejo de Errores en Parsers con Test Driven Development
11:06 min - 18

Parseo de Return Statements en Lenguaje Platzi
12:42 min - 19

Técnicas de Parsing: Top-Down y Bottom-Up
01:46 min - 20

Pruebas de AST para Let y Return Statements en Parsers
12:05 min - 21

Pratt Parsing: Implementación y Registro de Funciones en Python
11:47 min - 22

Parseo de Identificadores en Lenguajes de Programación
13:29 min - 23

Parseo de Expression Statements en Platzi Parser
16:33 min - 24

Parseo de Enteros en Lenguaje Platzi
14:03 min - 25

Implementación de Operadores Prefijo en Parsers
16:43 min - 26

Operadores InFix en Expresiones: Implementación y Pruebas
10:40 min - 27

Implementación de Operadores InFix en un Parser
20:20 min - 28

Expresiones Booleanas en el Lenguaje de Programación Platzi
13:00 min - 29

Evaluación de Precedencia y Testeo de Booleanos en Parsers
08:39 min - 30

Evaluación de Expresiones Agrupadas en un Parser
10:16 min - 31

Parseo de Condicionales en Lenguaje Platzi
13:50 min - 32

Implementación de Condicionales en Parser de Lenguaje
12:05 min - 33

Parsing de Funciones en Lenguaje Platzi: Creación de Nodos AST
15:51 min - 34

Construcción de nodos de función en un parser AST
15:43 min - 35

Llamadas a Funciones en Lenguajes de Programación
13:05 min - 36

Implementación de llamadas a funciones en un parser con AST
12:21 min - 37

Parseo de Expresiones en LET y RETURN Statements
07:58 min - 38

Implementación de REPL para Árbol de Sintaxis Abstracta
08:59 min
Evaluación o análisis semántico
- 39

Evaluación Semántica en Lenguajes de Programación
03:42 min - 40

Estrategias de Evaluación en Lenguajes de Programación
09:18 min - 41

Representación de Nodos AST y Objetos en Python
14:17 min - 42

Evaluación de Expresiones en JavaScript y Python
19:39 min - 43

Implementación del Patrón Singleton para Booleanos y Nulos
11:52 min - 44

Evaluación de Prefijos en Lenguaje de Programación Platzi
14:41 min - 45

Evaluación de Expresiones Infix en Lenguaje Platzi
18:07 min - 46

Evaluación de Condicionales en Lenguaje de Programación Platzi
13:50 min - 47

Evaluación y Uso del Return Statement en Programación
14:41 min - 48

Manejo de Errores Semánticos en Lenguaje Platzi
21:04 min - 49

Declaración y Gestión de Variables en Lenguajes de Programación
13:55 min - 50

Manejo de Ambientes y Variables en Lenguajes de Programación
11:56 min - 51

Declaración de Funciones en Lenguaje de Programación Platzi
12:26 min - 52

Implementación de Llamadas a Funciones en PlatziLang
23:55 min
Mejora del intérprete
Siguientes pasos
Desarrollo de un Lexer con Test-Driven Development
Resumen
Escribir código que funcione desde el primer intento suena ideal, pero la realidad del desarrollo profesional es distinta. La metodología test-driven development (TDD) propone algo contraintuitivo: primero escribir los tests que van a fallar y luego implementar el código necesario para que pasen. En esta sesión se construye el primer lexer funcional siguiendo exactamente ese enfoque, leyendo carácter por carácter y generando tokens a partir de un source code de entrada.
¿Cómo se estructura un proyecto para hacer test-driven development?
Antes de escribir cualquier test, la estructura del proyecto debe estar lista. Se necesitan dos carpetas principales:
- lpp: contiene el módulo
lexer.pyy un archivo__init__.pypara que mypy lo reconozca como paquete. - test: contiene
lexer_test.pyy su propio__init__.pypara que mypy y nosetests detecten los tests automáticamente.
Cada vez que se cambia de branch, es fundamental correr los tests con mypy . y nosetests para verificar que todo sigue funcionando [0:52]. Este hábito garantiza que no se arrastren errores entre ramas.
¿Qué patrón siguen todos los tests?
Todos los tests en TDD siguen la estructura assemble, act, assert [5:30]:
- Assemble: se preparan los datos y se inicializa el objeto, en este caso el lexer.
- Act: se ejecuta la acción que se quiere probar, como llamar a
next_token. - Assert: se compara el resultado obtenido con el resultado esperado usando
assert_equals.
¿Cómo se escriben los primeros tests para tokens ilegales?
El primer test verifica que el lexer identifique correctamente los tokens ilegales, es decir, caracteres que el lenguaje no permite. Se define una variable source con tres caracteres prohibidos: el signo de exclamación !, el signo de apertura de pregunta ¿ y la arroba @ [3:08].
Después se inicializa el lexer con ese source, se ejecuta next_token tantas veces como caracteres haya y se almacenan los resultados en una lista. Lo esperado es recibir tres tokens, todos de tipo TokenType.ILLEGAL, cada uno con su literal correspondiente.
python from unittest import TestCase from typing import List from lpp.token import Token, TokenType from lpp.lexer import Lexer
class LexerTest(TestCase): def test_illegal(self) -> None: source: str = '!¿@' lexer: Lexer = Lexer(source) tokens: List[Token] = [] for i in range(len(source)): tokens.append(lexer.next_token()) expected_tokens: List[Token] = [ Token(TokenType.ILLEGAL, '!'), Token(TokenType.ILLEGAL, '¿'), Token(TokenType.ILLEGAL, '@'), ] self.assertEqual(tokens, expected_tokens)
¿Por qué el test falla varias veces antes de pasar?
Esta es la esencia de TDD. Al correr el test por primera vez, el error dice que Lexer no existe [4:40]. Se crea la clase. Luego dice que next_token no existe. Se define el método. Después el test falla correctamente: regresa None en lugar de tokens [6:30]. Cada error es una guía que indica exactamente qué implementar a continuación.
¿Cómo funciona el método read character dentro del lexer?
El lexer lee el source carácter por carácter mediante el método privado _read_character. Este método utiliza dos variables internas [7:22]:
- position: indica la posición actual del carácter que se está procesando.
- read_position: apunta al siguiente carácter por leer.
La lógica es directa: si read_position es mayor o igual a la longitud del source, se asigna un string vacío al carácter (indicando el fin del archivo o EOF, End Of File). Si no, se extrae el carácter en esa posición. Después se avanza moviendo position al valor de read_position y se incrementa read_position en uno [7:50].
python class Lexer: def init(self, source: str) -> None: self._source: str = source self._character: str = '' self._read_position: int = 0 self._position: int = 0 self._read_character()
def next_token(self) -> Token: token = Token(TokenType.ILLEGAL, self._character) self._read_character() return token def _read_character(self) -> None: if self._read_position >= len(self._source): self._character = '' else: self._character = self._source[self._read_position] self._position = self._read_position self._read_position += 1
El método _read_character se ejecuta en el constructor para inicializar el primer carácter y se vuelve a llamar dentro de next_token antes de retornar, asegurando que el lexer siempre avance al siguiente carácter.
El método next_token es la interfaz principal del lexer [1:18]. Cada llamada devuelve el siguiente token disponible, lo que permite iterar sobre todo el archivo fuente de forma secuencial.
Los errores durante el desarrollo no son obstáculos, son la brújula que señala qué falta. Cuéntanos en los comentarios cómo te pareció esta forma de construir software donde primero fallas, corriges y avanzas paso a paso.