Introducción al desarrollo de intérpretes y lenguajes de programación

1

Aprende a desarrollar lenguajes de programación con intérpretes

2

Desarrolla LPP o Lenguaje de Programación Platzi

Construcción del lexer o tokenizador

3

¿Qué es análisis léxico? Funcionamiento del lexer y tokens

4

Estructura y definición de tokens en Python

5

Lectura de caracteres y tokens

6

Tokens ilegales, operadores de un solo carácter y delimitadores

7

Reconocimiento y diferenciación entre letras y números

8

Declaración y ejecución de funciones

9

Extensión del lexer: condicionales, operaciones y booleanos

10

Operadores de dos caracteres

11

Primera versión del REPL con tokens

Construcción del parser o analizador sintáctico

12

¿Qué es un parser y AST?

13

Estructura y definición de nodos del AST en Python

14

Parseo del programa o nodo principal

15

Parseo de assignment statements

16

Parseo de let statements

17

Parseo de errores

18

Parseo del return statement

19

Técnicas de parsing y pratt parsing

20

Pruebas del AST

21

Implementación del pratt parser

22

Parseo de Identifiers: testing

23

Parseo de Identifiers: implementación

24

Parseo de enteros

25

Prefix operators: negación y negativos

26

Infix operators y orden de las operaciones: testing

27

Infix operators y orden de las operaciones: implementación

28

Parseo de booleanos

29

Desafío: testing de infix operators y booleanos

30

Parseo de expresiones agrupadas

31

Parseo de condicionales: testing y AST

32

Parseo de condicionales: implementación

33

Parseo de declaración de funciones: testing

34

Parseo de declaración de funciones: AST e implementación

35

Parseo de llamadas a funciones: testing y AST

36

Parseo de llamadas a funciones: implementación

37

Completando los TODOs o pendientes del lexer

38

Segunda versión del REPL con AST

Evaluación o análisis semántico

39

Significado de símbolos

40

Estrategias de evaluación para intérpretes de software

41

Representación de objetos

42

Evaluación de expresiones: enteros

43

Evaluación de expresiones: booleanos y nulos

44

Evaluación de expresiones: prefix

45

Evaluación de expresiones: infix

46

Evaluación de condicionales

47

Evaluación del return statement

48

Manejo de errores

49

Ambiente

50

Bindings

51

Evaluación de funciones

52

Llamadas a funciones

Mejora del intérprete

53

Implementación de strings

54

Operaciones con strings

55

Built-in functions: objeto y tests

56

Built-in functions: evaluación

Siguientes pasos

57

Retos para expandir tu intérprete

58

Continúa con el Curso de Creación de Compiladores de Software

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Operadores de dos caracteres

10/58
Recursos

Aportes 10

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Hice varios cambios a mi código, en sí estoy creando o más bien intentando crear un lenguaje que llamaré SigmaF, tengo planeado que sea del paradigma funcional, y está muy basada en Haskell, un lenguaje que me gusta bastante.
Aquí les dejo un link a mi repositorio, por si tienen curiosidad o si les intereso mi proyecto 😉
https://github.com/FabianVegaA/sigmaF/tree/dev

Vengo del futuro a extender los tokens que acepta el Lexer (para tener un lenguaje con más operadores, no es spoiler 😄) para que ahora acepte <= y >= (menor o igual que) y “mayor o igual que”:
.
Primero, tenemos que añadir los tokens a la lista de tokens en token.py:
.

GE = auto() # Gretater Than or Equal To (>=)
LE = auto() # Less Than or Equal To (<=)

.
Después, en los matches donde revisamos los caracteres “<” y “>”, tenemos que agregar las condicionales para aceptar los tokens de doble caracter:

elif match(r"^<$", self._character):

    # Aquí revisamos si el siguiente token es "=", por lo que tendríamos un "<="
    if self._peek_character() == "=":
        token = self._make_two_character_token(TokenType.LE)

    else:
        token = Token(TokenType.LT, self._character)

elif match(r"^>$", self._character):

    # Aquí revisamos si el siguiente token es "=", por lo que tendríamos un ">="
    if self._peek_character() == "=":
        token = self._make_two_character_token(TokenType.GE)

    else:
        token = Token(TokenType.GT, self._character)

Con eso basta por ahora, no es necesario, pero recomiendo agregar los tests al lexer, pueden ver mis tests para estos operadores aquí:
.
Test Two Characters Operators
.
Durante el curso no se hace ninguna implementación para estos operadores (el LPP original del profesor no los soporta), pero pueden ir buscando mis aportes donde yo les iré dando el código junto con sus tests para que puedan implementar estos operadores al LPP 😄. Yo ya tengo el lenguaje funcionando con estos operadores así que trust me jaja

Pongo el código de mi Lexer.

from re import match
from cantte.token import TokenType, Token, lookup_token_type


class Lexer:
    def __init__(self, source: str) -> None:
        self._source: str = source
        self._character: str = ''
        self._read_position: int = 0
        self._position: int = 0

        self._read_character()

    def next_token(self) -> Token:
        self._skip_whitespace()

        if self._is_letter(self._character):
            ident_literal: str = self._read_identifier()
            token_type = lookup_token_type(ident_literal)
            token = Token(token_type, ident_literal)
        elif self._is_number(self._character):
            num_literal: str = self._read_number()
            token = Token(TokenType.INT, num_literal)
        else:
            token_type = self._get_token_type()
            if token_type == TokenType.EQUAL or token_type == TokenType.NOT_EQUAL:
                token = self._make_two_character_token(token_type)
            else:
                token = Token(token_type, self._character)
            self._read_character()

        return token

    def _get_token_type(self):
        if match(r'^=$', self._character):
            if self._peek_character() == '=':
                token_type = TokenType.EQUAL
            else:
                token_type = TokenType.ASSIGN
        elif match(r'^\+$', self._character):
            token_type = TokenType.PLUS
        elif match(r'^-$', self._character):
            token_type = TokenType.MINUS
        elif match(r'^\*$', self._character):
            token_type = TokenType.MULTIPLICATION
        elif match(r'^/$', self._character):
            token_type = TokenType.DIVISION
        elif match(r'^$', self._character):
            token_type = TokenType.EOF
        elif match(r'^\($', self._character):
            token_type = TokenType.LPAREN
        elif match(r'^\)$', self._character):
            token_type = TokenType.RPAREN
        elif match(r'^{$', self._character):
            token_type = TokenType.LBRACE
        elif match(r'^}$', self._character):
            token_type = TokenType.RBRACE
        elif match(r'^,$', self._character):
            token_type = TokenType.COMMA
        elif match(r'^;$', self._character):
            token_type = TokenType.SEMICOLON
        elif match(r'^<$', self._character):
            token_type = TokenType.LESS_THAN
        elif match(r'^>$', self._character):
            token_type = TokenType.GREATER_THAN
        elif match(r'^!$', self._character):
            if self._peek_character() == '=':
                token_type = TokenType.NOT_EQUAL
            else:
                token_type = TokenType.NEGATION
        else:
            token_type = TokenType.ILLEGAL

        return token_type

    @staticmethod
    def _is_letter(character: str) -> bool:
        return bool(match(r'^[a-zA-ZñÑ_]$', character))

    @staticmethod
    def _is_number(character: str) -> bool:
        return bool(match(r'^\d$', character))

    def _make_two_character_token(self, token_type: TokenType) -> Token:
        prefix = self._character
        self._read_character()
        suffix = self._character

        return Token(token_type, f'{prefix}{suffix}')

    def _peek_character(self) -> str:
        if self._read_position >= len(self._source):
            return ''
        return self._source[self._read_position]

    def _read_identifier(self) -> str:
        initial_position = self._position

        while self._is_letter(self._character):
            self._read_character()

        return self._source[initial_position:self._position]

    def _read_character(self) -> None:
        if self._read_position >= len(self._source):
            self._character = ''
        else:
            self._character = self._source[self._read_position]

        self._position = self._read_position
        self._read_position += 1

    def _read_number(self) -> str:
        initial_position = self._position

        while self._is_number(self._character):
            self._read_character()

        return self._source[initial_position:self._position]

    def _skip_whitespace(self) -> None:
        while match(r'^\s$', self._character):
            self._read_character()

Wohh!! Acabo de extender el lexer para añadir un operador de triple igualdad y de diferenciación, los típicos de === y !===
.
Primero escribí los tests, para este caso quise esribir dos tests, uno para probar la triple igualdad y otro para porbar la mezcla de los dobles y triples:

    def test_three_character_operator(self) -> None:

        source: str = """
            10 === 10;
            10 !== 9;
        """

        lexer: Lexer = Lexer(source)

        tokens: List[Token] = []

        for i in range(8):

            tokens.append(lexer.next_token())

        expected_tokens: List[Token] = [
            Token(TokenType.INT, "10"),
            Token(TokenType.SIMILAR, "==="),
            Token(TokenType.INT, "10"),
            Token(TokenType.SEMICOLON, ";"),
            Token(TokenType.INT, "10"),
            Token(TokenType.DIFF, "!=="),
            Token(TokenType.INT, "9"),
            Token(TokenType.SEMICOLON, ";"),
        ]

        self.assertEquals(tokens, expected_tokens)


    def test_mixed_character_operator(self) -> None:

        source: str = """
            10 === 10;
            10 !== 9;
            10 == 10;
            10 != 9;
        """

        lexer: Lexer = Lexer(source)

        tokens: List[Token] = []

        for i in range(16):

            tokens.append(lexer.next_token())

        expected_tokens: List[Token] = [
            Token(TokenType.INT, "10"),
            Token(TokenType.SIMILAR, "==="),
            Token(TokenType.INT, "10"),
            Token(TokenType.SEMICOLON, ";"),
            Token(TokenType.INT, "10"),
            Token(TokenType.DIFF, "!=="),
            Token(TokenType.INT, "9"),
            Token(TokenType.SEMICOLON, ";"),
            Token(TokenType.INT, "10"),
            Token(TokenType.EQ, "=="),
            Token(TokenType.INT, "10"),
            Token(TokenType.SEMICOLON, ";"),
            Token(TokenType.INT, "10"),
            Token(TokenType.NOT_EQ, "!="),
            Token(TokenType.INT, "9"),
            Token(TokenType.SEMICOLON, ";"),
        ]

        self.assertEquals(tokens, expected_tokens)

Luego agregué los tokens:

DIFF = auto() # Diferencia (!==)
SIMILAR = auto() # Triple igualdad (===)

Para hacerlos funcionar, modifiqué el lexer para el operador de asignación y de diferencia:

        if match(r"^=$", self._character):

            if self._peek_character() == "=":
                token = self._make_two_character_token(TokenType.EQ)

                if self._peek_character(2) == "=":
                    token = self._make_three_character_token(TokenType.SIMILAR)

                else:
                    token = self._make_two_character_token(TokenType.EQ)

Condición para el operador de diferencia:

        elif match(r"^!$", self._character):

            if self._peek_character() == "=":
                token = self._make_two_character_token(TokenType.NOT_EQ)

                if self._peek_character(2) == "=":
                    token = self._make_three_character_token(TokenType.DIFF)

                else:
                    token = self._make_two_character_token(TokenType.NOT_EQ)

            else:
                token = Token(TokenType.NEGATION, self._character)

Para este caso, tuve que modificar el método _peek_character para que aceptara cuántos espacios se quiere salltar:

def _peek_character(self, skip = 1) -> str:

        if self._read_position >= len(self._source):
            return ""

        return self._source[self._read_position] if skip == 1 else self._source[self._read_position + (skip - 1)] 

Y agregué otro método para que construyera el token de 3 caracteres:

def _make_three_character_token(self, token_type: TokenType) -> Token:

        first = self._character
        self._read_character()
        second = self._character
        self._read_character()
        third = self._character

        return Token(token_type, f"{first}{second}{third}")

Y con eso ya tu lexer ya acepta tokens de 3 caracteres como la triple igualdad o la diferenciación 😄

Estoy muy feliz con este curso, me está ayudando muchísimo en la materia de Compiladores de mi carrera universitaria, aunque tengo que traducir de Python a Java porque me piden que lo haga en Java,

Como segui el approach de iterar en vez de hacer varios if, me quedo así: ```python def next_token(self) -> Token: token_dict: Dict[str, TokenType] = { r"^=$": TokenType.ASSIGN, r"^\!$": TokenType.NOT, r"^\+$": TokenType.PLUS, r"^\*$": TokenType.MULT, r"^\-$": TokenType.MINUS, r"^\/$": TokenType.DIV, r"^\($": TokenType.LPAREN, r"^\)$": TokenType.RPAREN, r"^{$": TokenType.LBRACE, r"^}$": TokenType.RBRACE, r"^,$": TokenType.COMMA, r"^;$": TokenType.SEMICOLON, r"^>$": TokenType.GT, r"^<$": TokenType.LT, r"^$": TokenType.EOF, } token = None self._skip_whitespace() if self._is_letter(self._character): literal = self._read_identifier() token_type = lookup_token_type(literal) return Token(token_type, literal) if self._is_number(self._character): literal = self._read_number() return Token(TokenType.INT, literal) for regex, token_type in token_dict.items(): if match(regex, self._character): if self._check_two_character_operator(): token = self._make_two_character_token(self._two_char_token_type) self._two_char_token_type = TokenType.ILLEGAL # Cleaning TokenType break else: token = Token(token_type, self._character) break if token is None: token = Token(TokenType.ILLEGAL, self._character) self._read_character() return token ``` Me toco agregar una nueva variable al `Lexer`: ```python class Lexer: def __init__(self, source: str) -> None: ... self._two_char_token_type: TokenType = TokenType.ILLEGAL self._read_character() ``` Así que hice una función que itera una lista de posibles sufijos:```python def _check_two_character_operator(self) -> bool: char_suffix: List[str] = [ r"^=$", r"^!$", r"^>$", r"^<$" ] for i in range(len(char_suffix)): if match(char_suffix[i], self._character): return self._save_two_char_type() return False ``` Y ya para no complicarme más la vida de lo que ya hice, mejor refactorize esta función pero que retorna si había match y booleano de una vez si existio:```python # This func save the token type and returns a boolean in case it existed def _save_two_char_type(self) -> bool: two_char_dict : Dict[str, TokenType] = { r"^==$": TokenType.EQ, r"^>=$": TokenType.GT_EQ, r"^<=$": TokenType.LT_EQ, r"^!=$": TokenType.NOT_EQ, } prefix = self._character suffix = self._peek_character() two_char = f'{prefix}{suffix}' for regex, token_type in two_char_dict.items(): if match(regex, two_char): self._two_char_token_type = token_type return True return False ```
```python def _peek_two_character_token(self,token_tyoe:Tokentype)->Token: prefix=self._character self._read_character() suffix=self._character return Token(token_type, f'{prefix}{suffix}') ``` ```js ```
```python def test_two_character_operator(self)->None: source:str=''' 10==10; 10!=9; ''' ```
ok

Si hice algunos cambios, empezando por el test, se me hizo más sencillo validarlos en una única cadena separada por ;
Por otra parte decidí hacer el Diferente a usando <>
Al final todo ha funcionado perfecto