Introducci贸n al desarrollo de int茅rpretes y lenguajes de programaci贸n

1

Aprende a desarrollar lenguajes de programaci贸n con int茅rpretes

2

Desarrolla LPP o Lenguaje de Programaci贸n Platzi

Construcci贸n del lexer o tokenizador

3

驴Qu茅 es an谩lisis l茅xico? Funcionamiento del lexer y tokens

4

Estructura y definici贸n de tokens en Python

5

Lectura de caracteres y tokens

6

Tokens ilegales, operadores de un solo car谩cter y delimitadores

7

Reconocimiento y diferenciaci贸n entre letras y n煤meros

8

Declaraci贸n y ejecuci贸n de funciones

9

Extensi贸n del lexer: condicionales, operaciones y booleanos

10

Operadores de dos caracteres

11

Primera versi贸n del REPL con tokens

Construcci贸n del parser o analizador sint谩ctico

12

驴Qu茅 es un parser y AST?

13

Estructura y definici贸n de nodos del AST en Python

14

Parseo del programa o nodo principal

15

Parseo de assignment statements

16

Parseo de let statements

17

Parseo de errores

18

Parseo del return statement

19

T茅cnicas de parsing y pratt parsing

20

Pruebas del AST

21

Implementaci贸n del pratt parser

22

Parseo de Identifiers: testing

23

Parseo de Identifiers: implementaci贸n

24

Parseo de enteros

25

Prefix operators: negaci贸n y negativos

26

Infix operators y orden de las operaciones: testing

27

Infix operators y orden de las operaciones: implementaci贸n

28

Parseo de booleanos

29

Desaf铆o: testing de infix operators y booleanos

30

Parseo de expresiones agrupadas

31

Parseo de condicionales: testing y AST

32

Parseo de condicionales: implementaci贸n

33

Parseo de declaraci贸n de funciones: testing

34

Parseo de declaraci贸n de funciones: AST e implementaci贸n

35

Parseo de llamadas a funciones: testing y AST

36

Parseo de llamadas a funciones: implementaci贸n

37

Completando los TODOs o pendientes del lexer

38

Segunda versi贸n del REPL con AST

Evaluaci贸n o an谩lisis sem谩ntico

39

Significado de s铆mbolos

40

Estrategias de evaluaci贸n para int茅rpretes de software

41

Representaci贸n de objetos

42

Evaluaci贸n de expresiones: enteros

43

Evaluaci贸n de expresiones: booleanos y nulos

44

Evaluaci贸n de expresiones: prefix

45

Evaluaci贸n de expresiones: infix

46

Evaluaci贸n de condicionales

47

Evaluaci贸n del return statement

48

Manejo de errores

49

Ambiente

50

Bindings

51

Evaluaci贸n de funciones

52

Llamadas a funciones

Mejora del int茅rprete

53

Implementaci贸n de strings

54

Operaciones con strings

55

Built-in functions: objeto y tests

56

Built-in functions: evaluaci贸n

Siguientes pasos

57

Retos para expandir tu int茅rprete

58

Contin煤a con el Curso de Creaci贸n de Compiladores de Software

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Operadores de dos caracteres

10/58
Recursos

Aportes 6

Preguntas 0

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Hice varios cambios a mi c贸digo, en s铆 estoy creando o m谩s bien intentando crear un lenguaje que llamar茅 SigmaF, tengo planeado que sea del paradigma funcional, y est谩 muy basada en Haskell, un lenguaje que me gusta bastante.
Aqu铆 les dejo un link a mi repositorio, por si tienen curiosidad o si les intereso mi proyecto 馃槈
https://github.com/FabianVegaA/sigmaF/tree/dev

Vengo del futuro a extender los tokens que acepta el Lexer (para tener un lenguaje con m谩s operadores, no es spoiler 馃槃) para que ahora acepte <= y >= (menor o igual que) y 鈥渕ayor o igual que鈥:
.
Primero, tenemos que a帽adir los tokens a la lista de tokens en token.py:
.

GE = auto() # Gretater Than or Equal To (>=)
LE = auto() # Less Than or Equal To (<=)

.
Despu茅s, en los matches donde revisamos los caracteres 鈥<鈥 y 鈥>鈥, tenemos que agregar las condicionales para aceptar los tokens de doble caracter:

elif match(r"^<$", self._character):

    # Aqu铆 revisamos si el siguiente token es "=", por lo que tendr铆amos un "<="
    if self._peek_character() == "=":
        token = self._make_two_character_token(TokenType.LE)

    else:
        token = Token(TokenType.LT, self._character)

elif match(r"^>$", self._character):

    # Aqu铆 revisamos si el siguiente token es "=", por lo que tendr铆amos un ">="
    if self._peek_character() == "=":
        token = self._make_two_character_token(TokenType.GE)

    else:
        token = Token(TokenType.GT, self._character)

Con eso basta por ahora, no es necesario, pero recomiendo agregar los tests al lexer, pueden ver mis tests para estos operadores aqu铆:
.
Test Two Characters Operators
.
Durante el curso no se hace ninguna implementaci贸n para estos operadores (el LPP original del profesor no los soporta), pero pueden ir buscando mis aportes donde yo les ir茅 dando el c贸digo junto con sus tests para que puedan implementar estos operadores al LPP 馃槃. Yo ya tengo el lenguaje funcionando con estos operadores as铆 que trust me jaja

Pongo el c贸digo de mi Lexer.

from re import match
from cantte.token import TokenType, Token, lookup_token_type


class Lexer:
    def __init__(self, source: str) -> None:
        self._source: str = source
        self._character: str = ''
        self._read_position: int = 0
        self._position: int = 0

        self._read_character()

    def next_token(self) -> Token:
        self._skip_whitespace()

        if self._is_letter(self._character):
            ident_literal: str = self._read_identifier()
            token_type = lookup_token_type(ident_literal)
            token = Token(token_type, ident_literal)
        elif self._is_number(self._character):
            num_literal: str = self._read_number()
            token = Token(TokenType.INT, num_literal)
        else:
            token_type = self._get_token_type()
            if token_type == TokenType.EQUAL or token_type == TokenType.NOT_EQUAL:
                token = self._make_two_character_token(token_type)
            else:
                token = Token(token_type, self._character)
            self._read_character()

        return token

    def _get_token_type(self):
        if match(r'^=$', self._character):
            if self._peek_character() == '=':
                token_type = TokenType.EQUAL
            else:
                token_type = TokenType.ASSIGN
        elif match(r'^\+$', self._character):
            token_type = TokenType.PLUS
        elif match(r'^-$', self._character):
            token_type = TokenType.MINUS
        elif match(r'^\*$', self._character):
            token_type = TokenType.MULTIPLICATION
        elif match(r'^/$', self._character):
            token_type = TokenType.DIVISION
        elif match(r'^$', self._character):
            token_type = TokenType.EOF
        elif match(r'^\($', self._character):
            token_type = TokenType.LPAREN
        elif match(r'^\)$', self._character):
            token_type = TokenType.RPAREN
        elif match(r'^{$', self._character):
            token_type = TokenType.LBRACE
        elif match(r'^}$', self._character):
            token_type = TokenType.RBRACE
        elif match(r'^,$', self._character):
            token_type = TokenType.COMMA
        elif match(r'^;$', self._character):
            token_type = TokenType.SEMICOLON
        elif match(r'^<$', self._character):
            token_type = TokenType.LESS_THAN
        elif match(r'^>$', self._character):
            token_type = TokenType.GREATER_THAN
        elif match(r'^!$', self._character):
            if self._peek_character() == '=':
                token_type = TokenType.NOT_EQUAL
            else:
                token_type = TokenType.NEGATION
        else:
            token_type = TokenType.ILLEGAL

        return token_type

    @staticmethod
    def _is_letter(character: str) -> bool:
        return bool(match(r'^[a-zA-Z帽脩_]$', character))

    @staticmethod
    def _is_number(character: str) -> bool:
        return bool(match(r'^\d$', character))

    def _make_two_character_token(self, token_type: TokenType) -> Token:
        prefix = self._character
        self._read_character()
        suffix = self._character

        return Token(token_type, f'{prefix}{suffix}')

    def _peek_character(self) -> str:
        if self._read_position >= len(self._source):
            return ''
        return self._source[self._read_position]

    def _read_identifier(self) -> str:
        initial_position = self._position

        while self._is_letter(self._character):
            self._read_character()

        return self._source[initial_position:self._position]

    def _read_character(self) -> None:
        if self._read_position >= len(self._source):
            self._character = ''
        else:
            self._character = self._source[self._read_position]

        self._position = self._read_position
        self._read_position += 1

    def _read_number(self) -> str:
        initial_position = self._position

        while self._is_number(self._character):
            self._read_character()

        return self._source[initial_position:self._position]

    def _skip_whitespace(self) -> None:
        while match(r'^\s$', self._character):
            self._read_character()

Wohh!! Acabo de extender el lexer para a帽adir un operador de triple igualdad y de diferenciaci贸n, los t铆picos de === y !===
.
Primero escrib铆 los tests, para este caso quise esribir dos tests, uno para probar la triple igualdad y otro para porbar la mezcla de los dobles y triples:

    def test_three_character_operator(self) -> None:

        source: str = """
            10 === 10;
            10 !== 9;
        """

        lexer: Lexer = Lexer(source)

        tokens: List[Token] = []

        for i in range(8):

            tokens.append(lexer.next_token())

        expected_tokens: List[Token] = [
            Token(TokenType.INT, "10"),
            Token(TokenType.SIMILAR, "==="),
            Token(TokenType.INT, "10"),
            Token(TokenType.SEMICOLON, ";"),
            Token(TokenType.INT, "10"),
            Token(TokenType.DIFF, "!=="),
            Token(TokenType.INT, "9"),
            Token(TokenType.SEMICOLON, ";"),
        ]

        self.assertEquals(tokens, expected_tokens)


    def test_mixed_character_operator(self) -> None:

        source: str = """
            10 === 10;
            10 !== 9;
            10 == 10;
            10 != 9;
        """

        lexer: Lexer = Lexer(source)

        tokens: List[Token] = []

        for i in range(16):

            tokens.append(lexer.next_token())

        expected_tokens: List[Token] = [
            Token(TokenType.INT, "10"),
            Token(TokenType.SIMILAR, "==="),
            Token(TokenType.INT, "10"),
            Token(TokenType.SEMICOLON, ";"),
            Token(TokenType.INT, "10"),
            Token(TokenType.DIFF, "!=="),
            Token(TokenType.INT, "9"),
            Token(TokenType.SEMICOLON, ";"),
            Token(TokenType.INT, "10"),
            Token(TokenType.EQ, "=="),
            Token(TokenType.INT, "10"),
            Token(TokenType.SEMICOLON, ";"),
            Token(TokenType.INT, "10"),
            Token(TokenType.NOT_EQ, "!="),
            Token(TokenType.INT, "9"),
            Token(TokenType.SEMICOLON, ";"),
        ]

        self.assertEquals(tokens, expected_tokens)

Luego agregu茅 los tokens:

DIFF = auto() # Diferencia (!==)
SIMILAR = auto() # Triple igualdad (===)

Para hacerlos funcionar, modifiqu茅 el lexer para el operador de asignaci贸n y de diferencia:

        if match(r"^=$", self._character):

            if self._peek_character() == "=":
                token = self._make_two_character_token(TokenType.EQ)

                if self._peek_character(2) == "=":
                    token = self._make_three_character_token(TokenType.SIMILAR)

                else:
                    token = self._make_two_character_token(TokenType.EQ)

Condici贸n para el operador de diferencia:

        elif match(r"^!$", self._character):

            if self._peek_character() == "=":
                token = self._make_two_character_token(TokenType.NOT_EQ)

                if self._peek_character(2) == "=":
                    token = self._make_three_character_token(TokenType.DIFF)

                else:
                    token = self._make_two_character_token(TokenType.NOT_EQ)

            else:
                token = Token(TokenType.NEGATION, self._character)

Para este caso, tuve que modificar el m茅todo _peek_character para que aceptara cu谩ntos espacios se quiere salltar:

def _peek_character(self, skip = 1) -> str:

        if self._read_position >= len(self._source):
            return ""

        return self._source[self._read_position] if skip == 1 else self._source[self._read_position + (skip - 1)] 

Y agregu茅 otro m茅todo para que construyera el token de 3 caracteres:

def _make_three_character_token(self, token_type: TokenType) -> Token:

        first = self._character
        self._read_character()
        second = self._character
        self._read_character()
        third = self._character

        return Token(token_type, f"{first}{second}{third}")

Y con eso ya tu lexer ya acepta tokens de 3 caracteres como la triple igualdad o la diferenciaci贸n 馃槃

Estoy muy feliz con este curso, me est谩 ayudando much铆simo en la materia de Compiladores de mi carrera universitaria, aunque tengo que traducir de Python a Java porque me piden que lo haga en Java,

Si hice algunos cambios, empezando por el test, se me hizo m谩s sencillo validarlos en una 煤nica cadena separada por ;
Por otra parte decid铆 hacer el Diferente a usando <>
Al final todo ha funcionado perfecto