Desarrollo de un Lexer con Test-Driven Development

Curso de Creación de Lenguajes de Programación: Intérpretes

Contenido del curso

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción del lexer o tokenizador

Construcción del parser o analizador sintáctico

Evaluación o análisis semántico

Mejora del intérprete

Siguientes pasos

Tomar examen

Desarrollo de un Lexer con Test-Driven Development

Resumen

Escribir código que funcione desde el primer intento suena ideal, pero la realidad del desarrollo profesional es distinta. La metodología test-driven development (TDD) propone algo contraintuitivo: primero escribir los tests que van a fallar y luego implementar el código necesario para que pasen. En esta sesión se construye el primer lexer funcional siguiendo exactamente ese enfoque, leyendo carácter por carácter y generando tokens a partir de un source code de entrada.

¿Cómo se estructura un proyecto para hacer test-driven development?

Antes de escribir cualquier test, la estructura del proyecto debe estar lista. Se necesitan dos carpetas principales:

lpp: contiene el módulo lexer.py y un archivo __init__.py para que mypy lo reconozca como paquete.
test: contiene lexer_test.py y su propio __init__.py para que mypy y nosetests detecten los tests automáticamente.

Cada vez que se cambia de branch, es fundamental correr los tests con mypy . y nosetests para verificar que todo sigue funcionando [0:52]. Este hábito garantiza que no se arrastren errores entre ramas.

¿Qué patrón siguen todos los tests?

Todos los tests en TDD siguen la estructura assemble, act, assert [5:30]:

Assemble: se preparan los datos y se inicializa el objeto, en este caso el lexer.
Act: se ejecuta la acción que se quiere probar, como llamar a next_token.
Assert: se compara el resultado obtenido con el resultado esperado usando assert_equals.

¿Cómo se escriben los primeros tests para tokens ilegales?

El primer test verifica que el lexer identifique correctamente los tokens ilegales, es decir, caracteres que el lenguaje no permite. Se define una variable source con tres caracteres prohibidos: el signo de exclamación !, el signo de apertura de pregunta ¿ y la arroba @ [3:08].

Después se inicializa el lexer con ese source, se ejecuta next_token tantas veces como caracteres haya y se almacenan los resultados en una lista. Lo esperado es recibir tres tokens, todos de tipo TokenType.ILLEGAL, cada uno con su literal correspondiente.

python from unittest import TestCase from typing import List from lpp.token import Token, TokenType from lpp.lexer import Lexer

class LexerTest(TestCase): def test_illegal(self) -> None: source: str = '!¿@' lexer: Lexer = Lexer(source) tokens: List[Token] = [] for i in range(len(source)): tokens.append(lexer.next_token()) expected_tokens: List[Token] = [ Token(TokenType.ILLEGAL, '!'), Token(TokenType.ILLEGAL, '¿'), Token(TokenType.ILLEGAL, '@'), ] self.assertEqual(tokens, expected_tokens)

¿Por qué el test falla varias veces antes de pasar?

Esta es la esencia de TDD. Al correr el test por primera vez, el error dice que Lexer no existe [4:40]. Se crea la clase. Luego dice que next_token no existe. Se define el método. Después el test falla correctamente: regresa None en lugar de tokens [6:30]. Cada error es una guía que indica exactamente qué implementar a continuación.

¿Cómo funciona el método read character dentro del lexer?

El lexer lee el source carácter por carácter mediante el método privado _read_character. Este método utiliza dos variables internas [7:22]:

position: indica la posición actual del carácter que se está procesando.
read_position: apunta al siguiente carácter por leer.

La lógica es directa: si read_position es mayor o igual a la longitud del source, se asigna un string vacío al carácter (indicando el fin del archivo o EOF, End Of File). Si no, se extrae el carácter en esa posición. Después se avanza moviendo position al valor de read_position y se incrementa read_position en uno [7:50].

python class Lexer: def init(self, source: str) -> None: self._source: str = source self._character: str = '' self._read_position: int = 0 self._position: int = 0 self._read_character()

def next_token(self) -> Token:
    token = Token(TokenType.ILLEGAL, self._character)
    self._read_character()
    return token

def _read_character(self) -> None:
    if self._read_position >= len(self._source):
        self._character = ''
    else:
        self._character = self._source[self._read_position]
    self._position = self._read_position
    self._read_position += 1

El método _read_character se ejecuta en el constructor para inicializar el primer carácter y se vuelve a llamar dentro de next_token antes de retornar, asegurando que el lexer siempre avance al siguiente carácter.

El método next_token es la interfaz principal del lexer [1:18]. Cada llamada devuelve el siguiente token disponible, lo que permite iterar sobre todo el archivo fuente de forma secuencial.

Los errores durante el desarrollo no son obstáculos, son la brújula que señala qué falta. Cuéntanos en los comentarios cómo te pareció esta forma de construir software donde primero fallas, corriges y avanzas paso a paso.

Comentarios19

Carlos Eduardo Gomez García

Profesor

Efectivamente los errores fueron mis amigos jaja, tuve otros errores porque había escrito mal una sintaxis en Python, y me decía: "Error en la línea X" y fui a ver la línea X y así encontré mis errores :D . Apenas estamos iniciando pero ando con hype jajaja, me gusta el TDD. Por cierto, algo curioso es que, por la forma en la que se leen los tokens ilegales, el orden en el que los comparamos en el expected_tokens debe ser el mismo que el orden en el que pusimos los tokens en source, de lo contrario el assert fallará aunque los tokens sí sean ilegales simplemente por el orden

Carlos Eduardo Gomez García

Profesor

Por cierto, otra cosa interesante es que para este test, estamos forzando a que los Tokens sean ilegales, en la función next_token estamos retornando siempre caracteres ilegales, por lo que incluso si en el test pasamos un caracter que sí es válido, el test de caracteres ilegales va a pasar de todas formas porque se retorna como caracter ilegal 👀

Kenny Emmanuel Lajara Aquino

Estudiante

A mí los test no me fallaban, solo me decía Ran 0 tests in 0.007s (se corrieron cero pruebas en 0.007 segundos) y al final lo solucioné usando el comando:

mypy . && py -m unittest discover  -p "*_test.py"

en vez de

mypy . && nosetests

Andrés Xavier Vargas Vera

Estudiante

A qué se debe que no nos funcione el comando nosetests??!!

Javier Andrés Valdez González

Estudiante

Muchas gracias por el aporte, me ayudo mucho 😁👍

Jherom Chacon

Estudiante

A ver, entendamos lo que tenemos por acá:

def test_ilegal(self) -> None:
        source: str = '!¿@'
        lexer: Lexer = Lexer(source)
        tokens: List[Token] = []

        for i in range(len(source)):
            tokens.append(lexer.next_token())

        expected_tokens: List[Token] = [
            Token(TokenType.ILLEGAL, '!'),
            Token(TokenType.ILLEGAL, '¿'),
            Token(TokenType.ILLEGAL, '@')
        ]

        self.assertEquals(tokens, expected_tokens)

Aquí tenemos un test en el que estamos cargando una lista con caracteres inválidos para nuestro lenguaje. Luego de esto creamos una lista de los tokens esperados, en este caso queremos que el Lexer devuelva que los tres caracteres son ilegales como TokenType.ILLEGAL Para hacer esto alimentamos el lexer con la línea de texto que contiene los caracteres ilegales. Esta línea es revisada por el lexer en next_token Method validando que el carácter sea ilegal y devolviendo un TokenType.ILLEGAL Sin embargo, debemos notar que en este punto el Lexer siempre va a devolver Token.ILLEGAL para lo que sea que lea, podemos meterle cualquier carácter alfanumérico que siempre va a devolver Token.ILLEGAL ya que aún no estamos haciendo ninguna validación.

def next_token(self) -> Token:
        token = Token(TokenType.ILLEGAL, self._character)
        self._read_character()
        return token

En el método next_token devolvemos siempre Tokens Ilegales por cada carácter recibido en la línea.

def _read_character(self) -> None:
        if self._read_position >= len(self._source):
            self._character = ''
        else:
            self._character = self._source[self._read_position]
        self._position = self._read_position
        self._read_position += 1

Solamente está moviendo la lectura un carácter hacia adelante de la lista recibida en la línea de texto.

Rescatamos acá un par de cosas, los Lexer van a moverse linea a linea por cada archivo de código fuente.
Los token nos van a permitir usar los Enum para identificar el tipo de elemento que tenemos en cada línea
Tendremos que encontrar una forma de pasear o validar palabras más allá de caracteres simples, es como veíamos en la clase pasada lo que haremos con los espacios en blanco.

Fernando Ramos

Estudiante

Para aquellos que "nosetests" les de algún error como 'AttributeError', es porque "nose" ya no es mantenido, yo he instalado nose2. Lo usarían así

mypy . && nose2

Hector F

Estudiante

Tip: Desde python 3.9 es posible utilizar list[Token] para no tener que importar List desde typing.

Carlos Alberto Estrada Leon

Estudiante

Si no les funciona mypy . && nosetest y ya intentaron las soluciones de la sección de aportes, instalen nose2

requirements.txt

nose2
mypy==0.782

recuerden renombrar lexer_test.py por test_lexer.py

Y ya solo ejecutan

mypy . && nose2

José De Jesús Ávalos Leal

Estudiante

Si funciono!!!

José Luis Orozco Ordoñez

Estudiante

para windows podemos usar mypy .; nosetests

Jherom Chacon

Estudiante

Nota mental, para que los tests corran hay que estar en la carpeta raíz que contiene la carpeta lpp. De lo contrario se muestra un error como este:

. is not a valid Python package name

Carlos José González Juan

Estudiante

Tengo que darle un par de vueltas más. Complicado el tema

Victor Alexander De Jesus De Nobrega

Estudiante

he tenido problemas ejecutando el mypy me dice que no reconoce el comando como alguno interno de sistema. Al final tuve que instalar una versión mas moderna de mypy para que me lo reconociera, la 0.942 por que veo que hay componentes en la instalacion que simplementemente no encuentra. Ahora bien luego de aregar los elementos faltantes al test me lanza el siguiente error al ejecutar $mypy . && nosetests

Success: no issues found in 4 source files
Traceback (most recent call last):
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\runpy.py", line 196, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\runpy.py", line 86, in _run_code
    exec(code, run_globals)
  File "D:\proyectos\python\platzi_interpreter\venv\Scripts\nosetests.exe\__main__.py", line 7, in <module>
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\core.py", line 118, in __init__
    unittest.TestProgram.__init__(
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\unittest\main.py", line 100, in __init__
    self.parseArgs(argv)
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\core.py", line 179, in parseArgs
    self.createTests()
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\core.py", line 193, in createTests
    self.test = self.testLoader.loadTestsFromNames(self.testNames)
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\loader.py", line 481, in loadTestsFromNames  
    return unittest.TestLoader.loadTestsFromNames(self, names, module)
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\unittest\loader.py", line 220, in loadTestsFromNames 
    suites = [self.loadTestsFromName(name, module) for name in names]
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\unittest\loader.py", line 220, in <listcomp>
    suites = [self.loadTestsFromName(name, module) for name in names]
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\loader.py", line 454, in loadTestsFromName   
    return LazySuite(
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\suite.py", line 53, in __init__
    super(LazySuite, self).__init__()
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\unittest\suite.py", line 22, in __init__
    self._tests = []
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\suite.py", line 106, in _set_tests
    if isinstance(tests, collections.Callable) and not is_suite:
AttributeError: module 'collections' has no attribute 'Callable'

no se por que ocurre Agradezco de antemano al que me pueda ayudar

Victor Alexander De Jesus De Nobrega

Estudiante

al final ejecute lo que tenia hecho en una maquina virtual de Ubuntu ya que con Windows no conseguí que ejecutara la pruebas unitarias correctamente

José De Jesús Ávalos Leal

Estudiante

Yo tampoco pude usar la forma del video, lo que hice fue installar con pip el nose2

pip install nose2

despues de ello renombre el archivo a test_lexer.py, por ultimo y como en windows no existe el && ejecute el comando de la siguiente manera

mypy . 
nose2

Adrian Ronaldo Hermoza Bayona

Estudiante

Hay algun fin en concreto para usar "_" antes de la veriable? Como self._source:....

Kevin Fiorentino

Estudiante

Algunos lenguajes de programación utilizan un _ antes del nombre de una variable, una propiedad o una función para indicar que es privado. Aunque colocar un _ realmente no lo convierte en privado, es más conceptual de recordar, tanto tu como el equipo con el que trabajar, de no utilizar esa variable o función fuera de la clase. Esto se utiliza mucho en lenguajes débilmente tipado. Otros lenguajes, fuertemente tipados, esto no es necesario ya que existe la propiedad "private" que realmente vuelve privado una propiedad o función. Saludos!

Andrés Xavier Vargas Vera

Estudiante

Influye en algo si yo importo de esta manera:

from lpp.token import Token, TokenType

en lugar de

from lpp.token import (Token, TokenType)

??????!!!!!!

Andrés Xavier Vargas Vera

Estudiante

A alguien más le pasa esto?

Raúl Humberto Peñate Ramírez

Estudiante

nose esta deprecado, recomiendo usar y instalar pynose, el comando sería:

mypy . && pynose

Raúl Humberto Peñate Ramírez

Estudiante

mypy . && pynose

Raúl Humberto Peñate Ramírez

Estudiante

Si les da error:

"LexerTest" has no attribute "assertEquals" [attr-defined]

Es porque ahora se llama assertEqual

Fuente: Click derecho ir a la definition, y les muestra algo asi:

luimarco daniel Carrascal Diaz

Estudiante

recuerden que la versión actual es python 3.9

José De Jesús Ávalos Leal

Estudiante

Para aquellos que esten en windows como yo, se les sera un poco mas dificil, en especial la parte de concatenar los comandos, pero lo solucione usando la terminal de windows 10 y dando enters, otra cosa que tuve que hacer fue instalar el nose2 y renombrar el archivo a test_lexer.py

El comando final quedaria como:

mypy.
nose2

Tienen que dejar el salto de linea

Darío Cabezas

Estudiante

Chic@s, si no les funciona el test intenten con este code.

$ mypy . && nosetests test/*_test.py

Andrés Xavier Vargas Vera

Estudiante

Muy cool el TDD!!!

Desarrollo de un Lexer con Test-Driven Development

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción de Intérpretes de Software en Python 3.8

Creación de Compiladores e Intérpretes con Lenguaje Platzi

Construcción del lexer o tokenizador

Análisis Léxico: Construcción de un Léxer para Intérpretes

Definición de Tokens en Lenguaje de Programación Platzi