Desarrollo de un Lexer con Test-Driven Development

Clase 5 de 58 • Curso de Creación de Lenguajes de Programación: Intérpretes

Contenido del curso

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción del lexer o tokenizador

Construcción del parser o analizador sintáctico

Evaluación o análisis semántico

Mejora del intérprete

Siguientes pasos

Tomar examen

Resumen

¿Cómo iniciar la construcción de un lexer y los primeros tests?

Desarrollar un lexer efectivo es un arte que requiere paciencia y atención al detalle. Al iniciar este proceso, es fundamental adoptar el enfoque de desarrollo guiado por pruebas (Test-Driven Development, TDD). Esto implica escribir las pruebas antes del código y es una práctica que ayudará a garantizar que tu código funcione como esperas. En esta sesión, vamos a enfocar nuestros primeros tests en tokens ilegales, operadores de un solo carácter y el token EOF (End of File) que nos señala el final del archivo. También, nos enfrentaremos al reto de los delimiters.

Los métodos clave que implementaremos en nuestro lexer incluyen:

next_token: nuestro principal punto de interacción con el lexer, que continuamente nos proporcionará el siguiente token.
_read_character: una función privada para leer cada carácter del texto fuente.

¿Cuál es el proceso para escribir nuestros tests?

Los tests actúan como una guía y nos ayudan a verificar continuamente que el código esté en el camino correcto. Aquí se describen los pasos esenciales para escribir tu primer test:

Configuración del entorno: Asegúrate de estar en un branch correcto para el desarrollo, como "building del lexer número 1". Corre mypy y nose para verificar que no hay problemas en tu entorno.
Estructura del proyecto: Crea un archivo __init__.py dentro de tus carpetas para que mypy y nose puedan reconocer los paquetes. Organiza tu proyecto de manera que todas las pruebas residan en una carpeta test.
Escritura del test: Abre un editor de texto para Lexertest y comienza importando TestCase desde unittest. Luego, crea la clase LexerTest que extiende TestCase. Aquí es donde se definirá cada test.
Definir el test para tokens ilegales: Por ejemplo, define caracteres ilegales como !, ¿, y @. Inicializa un lexer y usa una lista para almacenar los tokens devueltos tras llamar a next_token.
Asserts y errores: Asegúrate de usar assertEqual para verificar que la lista de tokens devueltos coincide con la esperada. Los errores en este punto son valiosos, te guiarán sobre qué ha fallado y cómo solucionarlo.

¿Cómo implementamos las funciones clave del lexer?

Con los tests en su lugar, es momento de codificar las funciones necesarias. Aquí se desglosan los pasos para implementar los métodos de nuestro lexer:

Inicializar el lexer: Empieza creando una clase Lexer con un constructor que recibe un source. Define también una variable privada _source para almacenar este valor.
Implementar next_token y _read_character:
- next_token: Este método regresará un token. Inicialmente, puede devolver un token ilegal con un carácter vacío hasta que se implemente la lógica adecuada.
- _read_character: Esta función se encargará de avanzar en el texto fuente y deberá actualizar las posiciones de las variables internas.

class Lexer:
    def __init__(self, source: str) -> None:
        self._source = source
        self._read_position = 0
        self._position = 0
        self._character = ''
        self._read_character()

    def next_token(self) -> Token:
        token = Token(TokenType.ILLEGAL, self._character)
        self._read_character()
        return token

    def _read_character(self) -> None:
        if self._read_position >= len(self._source):
            self._character = ''
        else:
            self._character = self._source[self._read_position]
        self._position = self._read_position
        self._read_position += 1

¿Cómo resolver errores y avanzar en el desarrollo?

El desarrollo guiado por pruebas es un ciclo de escribir fallos de tests, solucionarlos y mejorar continuamente. Aquí algunas recomendaciones al enfrentar errores:

Leer errores atentamente: Estos mensajes a menudo te dicen exactamente dónde está el problema y cómo corregirlo.
Resolver errores gradualmente: Correcciones pequeñas y frecuentes son preferibles a cambios drásticos que pueden introducir más errores.
Considerar los errores como aliados: Permiten identificar partes del código que no funcionan como se esperaba y son esenciales para mejorar tu producto final.

Las pruebas y los errores son parte inseparable del proceso de desarrollo, y aprender a manejarlos te convertirá en un mejor desarrollador. ¡Con perseverancia, cada error es una oportunidad de aprendizaje que te acerca más a una solución robusta y optimizada!

Comentarios

Carlos Eduardo Gomez García

teacher•

Efectivamente los errores fueron mis amigos jaja, tuve otros errores porque había escrito mal una sintaxis en Python, y me decía: "Error en la línea X" y fui a ver la línea X y así encontré mis errores :D . Apenas estamos iniciando pero ando con hype jajaja, me gusta el TDD. Por cierto, algo curioso es que, por la forma en la que se leen los tokens ilegales, el orden en el que los comparamos en el expected_tokens debe ser el mismo que el orden en el que pusimos los tokens en source, de lo contrario el assert fallará aunque los tokens sí sean ilegales simplemente por el orden

Carlos Eduardo Gomez García

teacher•

Por cierto, otra cosa interesante es que para este test, estamos forzando a que los Tokens sean ilegales, en la función next_token estamos retornando siempre caracteres ilegales, por lo que incluso si en el test pasamos un caracter que sí es válido, el test de caracteres ilegales va a pasar de todas formas porque se retorna como caracter ilegal 👀

Kenny Emmanuel Lajara Aquino

student•

A mí los test no me fallaban, solo me decía Ran 0 tests in 0.007s (se corrieron cero pruebas en 0.007 segundos) y al final lo solucioné usando el comando:

mypy . && py -m unittest discover  -p "*_test.py"

en vez de

mypy . && nosetests

Andrés Xavier Vargas Vera

student•

A qué se debe que no nos funcione el comando nosetests??!!

Javier Andrés Valdez González

student•

Muchas gracias por el aporte, me ayudo mucho 😁👍

Jherom Chacon

student•

A ver, entendamos lo que tenemos por acá:

def test_ilegal(self) -> None:
        source: str = '!¿@'
        lexer: Lexer = Lexer(source)
        tokens: List[Token] = []

        for i in range(len(source)):
            tokens.append(lexer.next_token())

        expected_tokens: List[Token] = [
            Token(TokenType.ILLEGAL, '!'),
            Token(TokenType.ILLEGAL, '¿'),
            Token(TokenType.ILLEGAL, '@')
        ]

        self.assertEquals(tokens, expected_tokens)

Aquí tenemos un test en el que estamos cargando una lista con caracteres inválidos para nuestro lenguaje. Luego de esto creamos una lista de los tokens esperados, en este caso queremos que el Lexer devuelva que los tres caracteres son ilegales como TokenType.ILLEGAL Para hacer esto alimentamos el lexer con la línea de texto que contiene los caracteres ilegales. Esta línea es revisada por el lexer en next_token Method validando que el carácter sea ilegal y devolviendo un TokenType.ILLEGAL Sin embargo, debemos notar que en este punto el Lexer siempre va a devolver Token.ILLEGAL para lo que sea que lea, podemos meterle cualquier carácter alfanumérico que siempre va a devolver Token.ILLEGAL ya que aún no estamos haciendo ninguna validación.

def next_token(self) -> Token:
        token = Token(TokenType.ILLEGAL, self._character)
        self._read_character()
        return token

En el método next_token devolvemos siempre Tokens Ilegales por cada carácter recibido en la línea.

def _read_character(self) -> None:
        if self._read_position >= len(self._source):
            self._character = ''
        else:
            self._character = self._source[self._read_position]
        self._position = self._read_position
        self._read_position += 1

Solamente está moviendo la lectura un carácter hacia adelante de la lista recibida en la línea de texto.

Rescatamos acá un par de cosas, los Lexer van a moverse linea a linea por cada archivo de código fuente.
Los token nos van a permitir usar los Enum para identificar el tipo de elemento que tenemos en cada línea
Tendremos que encontrar una forma de pasear o validar palabras más allá de caracteres simples, es como veíamos en la clase pasada lo que haremos con los espacios en blanco.

Fernando Ramos

student•

Para aquellos que "nosetests" les de algún error como 'AttributeError', es porque "nose" ya no es mantenido, yo he instalado nose2. Lo usarían así

mypy . && nose2

Hector F

student•

Tip: Desde python 3.9 es posible utilizar list[Token] para no tener que importar List desde typing.

Carlos Alberto Estrada Leon

student•

Si no les funciona mypy . && nosetest y ya intentaron las soluciones de la sección de aportes, instalen nose2

requirements.txt

nose2
mypy==0.782

recuerden renombrar lexer_test.py por test_lexer.py

Y ya solo ejecutan

mypy . && nose2

José De Jesús Ávalos Leal

student•

Si funciono!!!

José Luis Orozco Ordoñez

student•

para windows podemos usar mypy .; nosetests

Jherom Chacon

student•

Nota mental, para que los tests corran hay que estar en la carpeta raíz que contiene la carpeta lpp. De lo contrario se muestra un error como este:

. is not a valid Python package name

Carlos José González Juan

student•

Tengo que darle un par de vueltas más. Complicado el tema

Victor Alexander De Jesus De Nobrega

student•

he tenido problemas ejecutando el mypy me dice que no reconoce el comando como alguno interno de sistema. Al final tuve que instalar una versión mas moderna de mypy para que me lo reconociera, la 0.942 por que veo que hay componentes en la instalacion que simplementemente no encuentra. Ahora bien luego de aregar los elementos faltantes al test me lanza el siguiente error al ejecutar $mypy . && nosetests

Success: no issues found in 4 source files
Traceback (most recent call last):
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\runpy.py", line 196, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\runpy.py", line 86, in _run_code
    exec(code, run_globals)
  File "D:\proyectos\python\platzi_interpreter\venv\Scripts\nosetests.exe\__main__.py", line 7, in <module>
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\core.py", line 118, in __init__
    unittest.TestProgram.__init__(
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\unittest\main.py", line 100, in __init__
    self.parseArgs(argv)
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\core.py", line 179, in parseArgs
    self.createTests()
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\core.py", line 193, in createTests
    self.test = self.testLoader.loadTestsFromNames(self.testNames)
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\loader.py", line 481, in loadTestsFromNames  
    return unittest.TestLoader.loadTestsFromNames(self, names, module)
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\unittest\loader.py", line 220, in loadTestsFromNames 
    suites = [self.loadTestsFromName(name, module) for name in names]
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\unittest\loader.py", line 220, in <listcomp>
    suites = [self.loadTestsFromName(name, module) for name in names]
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\loader.py", line 454, in loadTestsFromName   
    return LazySuite(
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\suite.py", line 53, in __init__
    super(LazySuite, self).__init__()
  File "C:\Users\vical\AppData\Local\Programs\Python\Python310\lib\unittest\suite.py", line 22, in __init__
    self._tests = []
  File "D:\proyectos\python\platzi_interpreter\venv\lib\site-packages\nose\suite.py", line 106, in _set_tests
    if isinstance(tests, collections.Callable) and not is_suite:
AttributeError: module 'collections' has no attribute 'Callable'

no se por que ocurre Agradezco de antemano al que me pueda ayudar

Victor Alexander De Jesus De Nobrega

student•

al final ejecute lo que tenia hecho en una maquina virtual de Ubuntu ya que con Windows no conseguí que ejecutara la pruebas unitarias correctamente

José De Jesús Ávalos Leal

student•

Yo tampoco pude usar la forma del video, lo que hice fue installar con pip el nose2

pip install nose2

despues de ello renombre el archivo a test_lexer.py, por ultimo y como en windows no existe el && ejecute el comando de la siguiente manera

mypy . 
nose2

Adrian Ronaldo Hermoza Bayona

student•

Hay algun fin en concreto para usar "_" antes de la veriable? Como self._source:....

Kevin Fiorentino

student•

Algunos lenguajes de programación utilizan un _ antes del nombre de una variable, una propiedad o una función para indicar que es privado. Aunque colocar un _ realmente no lo convierte en privado, es más conceptual de recordar, tanto tu como el equipo con el que trabajar, de no utilizar esa variable o función fuera de la clase. Esto se utiliza mucho en lenguajes débilmente tipado. Otros lenguajes, fuertemente tipados, esto no es necesario ya que existe la propiedad "private" que realmente vuelve privado una propiedad o función. Saludos!

Andrés Xavier Vargas Vera

student•

Influye en algo si yo importo de esta manera:

from lpp.token import Token, TokenType

en lugar de

from lpp.token import (Token, TokenType)

??????!!!!!!

Andrés Xavier Vargas Vera

student•

A alguien más le pasa esto?

Raúl Humberto Peñate Ramírez

student•

nose esta deprecado, recomiendo usar y instalar pynose, el comando sería:

mypy . && pynose

Raúl Humberto Peñate Ramírez

student•

mypy . && pynose

Raúl Humberto Peñate Ramírez

student•

Si les da error:

"LexerTest" has no attribute "assertEquals" [attr-defined]

Es porque ahora se llama assertEqual

Fuente: Click derecho ir a la definition, y les muestra algo asi:

luimarco daniel Carrascal Diaz

student•

recuerden que la versión actual es python 3.9

José De Jesús Ávalos Leal

student•

Para aquellos que esten en windows como yo, se les sera un poco mas dificil, en especial la parte de concatenar los comandos, pero lo solucione usando la terminal de windows 10 y dando enters, otra cosa que tuve que hacer fue instalar el nose2 y renombrar el archivo a test_lexer.py

El comando final quedaria como:

mypy.
nose2

Tienen que dejar el salto de linea

Darío Cabezas

student•

Chic@s, si no les funciona el test intenten con este code.

$ mypy . && nosetests test/*_test.py

Andrés Xavier Vargas Vera

student•

Muy cool el TDD!!!

Desarrollo de un Lexer con Test-Driven Development

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción de Intérpretes de Software en Python 3.8

Creación de Compiladores e Intérpretes con Lenguaje Platzi

Construcción del lexer o tokenizador

Análisis Léxico: Construcción de un Léxer para Intérpretes

Definición de Tokens en Lenguaje de Programación Platzi