Implementación de funciones advanced y expected tokens

Clase 16 de 58 • Curso de Creación de Lenguajes de Programación: Intérpretes

Contenido del curso

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción del lexer o tokenizador

Construcción del parser o analizador sintáctico

Evaluación o análisis semántico

Mejora del intérprete

Siguientes pasos

Tomar examen

Resumen

¿Cómo implementar las funciones avanzadas en nuestro parser?

Cuando desarrollamos un parser para un lenguaje de programación, implementar funciones como advanced tokens y expected token es crucial. Estas funciones nos permiten navegar entre los tokens y validar si los tokens esperados coinciden con los definidos por el lenguaje que estamos creando. La función expected token nos ayuda a asegurar que el próximo token es el correcto en contexto, mientras que advanced tokens nos ayuda a avanzar al siguiente token.

¿Qué es y cómo se crea expected token?

La función expected token recibe como parámetro un token type. Su propósito es verificar si el siguiente token es del tipo esperado.

Uso de Assert: Mediante un assert, se compara el tipo del token actual (pick token) con el tipo que esperamos.
Resultado: Si coincide, la función avanza al siguiente token y devuelve true. Si no coincide, devuelve false.

def expected_token(token_type):
    assert peek_token.token_type == token_type, "Token inesperado!"
    advance_token()
    return True

¿Cómo funciona advanced tokens?

advanced tokens está diseñado para avanzar entre tokens, similar a cómo avanzamos entre caracteres. Se realiza al guardar el pick token actual como el current token y solicitar un nuevo pick token del Lexer.

Proceso de Avance: Primero, se asigna el pick token al current token. Después, se solicita un nuevo pick token al Lexer.
Objetivo: Mantener el flujo entre tokens, permitiendo análisis secuenciales y confiables.

def advance_tokens():
    current_token = peek_token
    peek_token = lexer.get_next_token()

¿Cómo solucionar problemas comunes al inicializar y correr tests?

Es frecuente enfrentarse a errores al configurar las estructuras de un parser. A continuación, se presentan algunos problemas comunes y cómo solucionarlos.

Inicialización de tokens

Al comenzar a analizar tokens, es esencial inicializarlos adecuadamente para evitar errores de tipo None.

Doble Llamada: Para iniciar tanto el pick como el current token, se hace una llamada repetida a advance_tokens durante la inicialización del parser.

def initialize_parser():
    advance_tokens()
    advance_tokens()

Ajustes durante el ciclo de vida del parser

Al terminar de parsear declaraciones, es crucial avanzar al token siguiente.

Integration con bucles: Es importante asegurarse de que dentro de un bucle while, se esté avanzando correctamente al próximo token.

while current_token is NOT None:
    parse_statement()
    advance_tokens()

¿Cómo verificar la precisión de los identificadores en let statements?

Es vital no sólo parsear correctamente los resultados, sino también verificar que los nombres de los identificadores sean precisos.

Primer y único reto: Validación de nombres

El instructor propone un reto para el estudiante que consiste en asegurar que no sólo los let statements estén correctamente parseados, sino que también los nombres de los identificadores coincidan con los esperados:

Ejemplo de Verificación: Comprueba que el nombre del primer identificador sea x, el segundo y, y el tercero fu.

def test_identifier_names():
    assert program[0].identifier == 'x'
    assert program[1].identifier == 'y'
    assert program[2].identifier == 'fu'

Se alienta al estudiante a implementar estos tests por sí mismo, considerando expectativas y ajustes hasta que los tests pasen exitosamente. Esto no sólo refuerza el conocimiento adquirido, sino que también fomenta la habilidad de resolución de problemas y familiarización con el desarrollo de software orientado a pruebas.

Este enfoque meticuloso no sólo cubre las bases técnicas, sino que también ofrece un camino claro para seguir explorando y perfeccionando habilidades en el desarrollo de parsers y entender con mayor profundidad la estructura de un lenguaje de programación. ¡Adelante!

Comentarios

Carlos Eduardo Gomez García

teacher•

Muy bien, mi solución es poco eficiente comparada con la del profesor, pero antes de ponerla, explicaré un par de cosas importantes (tuve que ver la solución del profesor porque no entendía qué pasaba xD) . Mi idea era que, en program.statements estaban guardados cada uno de los statements, por lo que basándome en la clase LetStatement, debería tener un nombre disponible, así que mi idea era hacer esto:

self.assertEqual(program.statements[0].name, "x")
self.assertEqual(program.statements[1].name, "y")
self.assertEqual(program.statements[2].name, "foo")

Sin embargo, me salía un error de que name no existía en el statement y yo estaba de "¡¿Cómo así que noe existe?! No tas viendo que ahí está definido dentro de la clase?" . Quería hacer prints desde los tests para debuguear, pero no podía usar la función print() desde los tests, no se imprimía nada, de ahi descubrí que si quieres usar prints en los tests tienes que correr este comando:

mypy . && nosetests -s

Así se imprime lo que quiera debuguear, gracias a esto descrubrí que cada statement era un string, y por eso no estaba definida la propiedad name... ¡Pues claro!, LetStatement tiene el dunder method __str__ que hace que cada vez que se consulte una instancia de statement esta devuelva un string... revisando el código del profesor ví que el estaba usando una función llamada cast(), no sé exactamente lo que hace pero intuyo que esa función convierte ese string generado por el dunder method a una instancia de LetStatement, así que aplicándolo, llegue a esta conclusión:

self.assertEqual(cast(LetStatement, program.statements[0]).name, "x")
self.assertEqual(cast(LetStatement, program.statements[1]).name, "y")
self.assertEqual(cast(LetStatement, program.statements[2]).name, "foo")

Todo bien pero... en el atributo name se guarda una instancia de Identifier, así que tenía que acceder a su value (propiedad de la clase Identifier).

self.assertEqual(cast(LetStatement, program.statements[0]).name.value, "x")
self.assertEqual(cast(LetStatement, program.statements[1]).name.value, "y")
self.assertEqual(cast(LetStatement, program.statements[2]).name.value, "foo")

Pero soprresa, Identifier también tiene un dunder method xD Así que al final mi solución quedó así jaja:

self.assertEqual(cast(Identifier, cast(LetStatement, program.statements[0]).name).value, "x")
self.assertEqual(cast(Identifier, cast(LetStatement, program.statements[1]).name).value, "y")
self.assertEqual(cast(Identifier, cast(LetStatement, program.statements[2]).name).value, "foo")

Y solo hay que importar los módulos requeridos:

from typing import (
    cast
)

from lpp.ast import (
    Identifier,
    LetStatement,
    Program,
)

Después vi el código del profesor y el lo hizo con listas y bah! xD Al menos lo logré jaja, una hora para lograrlo:'D

Kenny Emmanuel Lajara Aquino

student•

Tal y como funciona el programa actualmente, si al quien prepare la prueba automatizada o al usuario que escriba el código, se le olvida escribir el punto y coma al final del último statement, el programa quedará en un loop infinito de todas maneras.

Para solucionar esto basta con cambiar la línea del archivo parse.py que tiene esto:

while self._current_token.token_type != TokenType.SEMICOLON:

y sustituirlo por esto

while self._current_token.token_type != TokenType.SEMICOLON and self._current_token.token_type != TokenType.EOF:

Fabián Vega Alcota

student•

Tengo pensado que mi lenguaje no necesite de los SEMICOLON, ¿Cómo podría implementar aquello?

Alex Camacho

teacher•

Simplemente sería eliminar la validación que se hace correspondiente al ;

Jherom Chacon

student•

Asigna otro caracter de finalización o una palabra reservada como FIN

Raúl Humberto Peñate Ramírez

student•

Toco vear la explicación del profe porque estaba díficil. En mi caso use foo, bar y fizz , y simplemente es de hacer la lista de nombres a esperar y la que se comparara. La lista díficil de sacar es la de que se comprara, para sacarla es de prestar atención que Program guarda una List[Statement] en estas pueden ir LetStatement ya que esta hereda de Statement, así que en este caso como todas son LetStatement podemos acceder a su atributo name y por parte de name como es declarada en el constructor de LetStatement como Optional[Identifier] podemos acceder a s u clase Identifier para obtener su atributo value.

        expected_names = ['foo', 'bar', 'fizz']

        names: List[str] = []
        for statement in program.statements:
            names.append(statement.name.value)
        
        self.assertEqual(names, expected_names)

Raúl Humberto Peñate Ramírez

student•

        expected_names = ['foo', 'bar', 'fizz']

        names: List[str] = []
        for statement in program.statements:
            names.append(statement.name.value)
        
        self.assertEqual(names, expected_names)
```Toco vear la explicación del profe porque estaba díficil. En mi caso use `foo`, `bar` y `fizz`, y simplemente es de hacer la lista de nombres a esperar y la que se comparara. La lista díficil de sacar es la de que se comprara, para sacarla es de prestar atención que Program guarda una `List[Statement]` en estas pueden ir `LetStatement` ya que esta hereda de `Statement`, así que en este caso como todas son `LetStatement` podemos acceder a su atributo `name` y por parte de name como es declarada en el constructor de `LetStatement` como  `Optional[Identifier]` podemos acceder a s u clase `Identifier` para obtener su atributo `value`.

David Torres M

student•

Mi solucion usando la funcion zip de python.

El archivo de parser_test.py es:

    def test_identifiers(self) -> None:
        source: str = """
            variable x =  5;
            variable y = 10;
            variable foo = 20;
        """
        lexer: Lexer = Lexer(source)
        parser: Parser = Parser(lexer)

        program: Program = parser.parse_program()
        
        self.assertEqual(len(program.statements), 3)

        nombres = ['x','y','foo']
        for statement, nombre in zip(program.statements, nombres):
            self.assertEqual(statement.name.value,nombre)

Alejandro Ibarra Rodriguez

student•

Aqui les dejo el reto.

        self.assertEqual(cast(Identifier, cast(LetStatement, program.statements[0]).name).value ,'x')
        self.assertEqual(cast(Identifier, cast(LetStatement, program.statements[1]).name).value ,'y')
        self.assertEqual(cast(Identifier, cast(LetStatement, program.statements[2]).name).value ,'foo')

Por lo que entendi segun la documentacion: https://mypy.readthedocs.io/en/stable/casts.html

La funcion cast(1, 2), basicamente lo que hace es decirle a mypy que trate al valor 2 como si fuera un tipo de valor 1. En nuestro caso, ocupabamos que tratara a nuestro Statement, como un tipo de valor LetStatament, ya que al momento de declarar la lista de statements en program,

 def __init__(self, statements: List[Statement]) -> None:

le estamos diciendo que la lista va a contener valores de tipo Statement, pero la lista a la cual le estamos haciendo el test, contiene valores de tipo LetStatement, por lo que, cuando intentamos acceder a el name.value de el elemento de la lista, mypy nos dice " creo que eso no se va a poder", ya que el elemento de la lista se supone que tiene valores de tipo Statement, y este no tiene la propiedad .name. Por lo que aqui es donde entra cast, el cual de dice a mypy, "Trata a ese elemento de la lista que se supone que es un Statement, como un LetStatement y trata a su prop .name como un Identifier.

Eso fue lo que entendí de la documentación, si es que alguien se da cuenta que estoy incorrecto, porfavor dime jajaja.

Alejandro Ibarra Rodriguez

student•

Edit: En la siguiente clase lo explican xd

Jherom Chacon

student•

Resolución del reto dentro del test_let_statements

letStatement = cast(LetStatement,program.statements[0])
        identifier = cast(Identifier, letStatement.name) 
        self.assertEqual(identifier.value,'x')
        letStatement = cast(LetStatement, program.statements[1])
        identifier = cast(Identifier, letStatement.name)
        self.assertEqual(identifier.value, 'y')
        letStatement = cast(LetStatement, program.statements[2])
        identifier = cast(Identifier, letStatement.name)
        self.assertEqual(identifier.value, 'foo')

Jherom Chacon

student•

Inicialización de current y peek tokens

Jherom Chacon

student•

En caso de que a alguien más le suceda, yo moví mi carpeta de trabajo a otra carpeta en otra ubicación y perdí nose, después de estar buscando pude volver a instalarlo en el entorno virtual usando

sudo pip3 install nose

Jherom Chacon

student•

Implementación de _expected_token y _advance_token

Implementación de funciones advanced y expected tokens

Introducción al desarrollo de intérpretes y lenguajes de programación

Construcción de Intérpretes de Software en Python 3.8

Creación de Compiladores e Intérpretes con Lenguaje Platzi

Construcción del lexer o tokenizador

Análisis Léxico: Construcción de un Léxer para Intérpretes

Definición de Tokens en Lenguaje de Programación Platzi

Desarrollo de un Lexer con Test-Driven Development

Pruebas de Operadores, Delimitadores y Fin de Archivo en Lexer Python

Lexer: Identificación de Keywords y Tokens Complejos

Reconocimiento de Funciones en Lexer de Lenguaje de Programación

Implementación de Operadores y Condicionales en Lexer de Platzi

Implementación de Operadores de Dos Caracteres en Lexer

Creación de un REPL en Python para Lenguaje de Programación

Construcción del parser o analizador sintáctico

Construcción de un Parser para el Lenguaje Platzi

Definición de Nodos Abstractos para Árbol de Sintaxis (AST) en Python

Desarrollo de un AST en Python: Creación de la Clase Programa

Parseo de Let Statements en Lenguaje Platzi