Estima costos en la API de OpenAI con tiktoken

Curso de Desarrollo de Chatbots con OpenAI

Contenido del curso

OpenAI API

Fine-tuning de modelos de OpenAI

Integración de modelo a aplicación de chat

Conclusión

24
Proyectos de Fine Tuning y Procesamiento de Lenguaje Natural
02:58 min

Tomar examen

Estima costos en la API de OpenAI con tiktoken

Resumen

Calcular costos en la API de OpenAI empieza por entender cómo el modelo lee tu texto. La clave está en la tokenización: convertir frases en unidades llamadas tokens que el modelo procesa y factura. Si trabajas con GPT-3.5 Turbo, GPT-4 o embeddings, dominar este cálculo te ahorra sorpresas en la facturación.

¿Qué es un token y por qué importa para el costo?

Un token es la representación numérica que los modelos de OpenAI usan para interpretar texto. Cada palabra, signo o fragmento se convierte en un número antes de que el modelo pueda trabajar con él, y la facturación se calcula sobre esa cantidad.

¿Qué es un token en OpenAI? Es la unidad mínima en la que el modelo divide tu texto para procesarlo. Una frase como El perrito come solito tiene 22 caracteres y se traduce en 7 tokens.

La cantidad de tokens varía según el modelo. No asumas que la misma frase pesa igual en GPT-4 que en GPT-3.5 Turbo, porque cada modelo puede usar un encoding distinto [00:55].

¿Cómo uso el tokenizer web de OpenAI?

La herramienta web de OpenAI te deja pegar texto y ver al instante cuántos tokens genera. Es ideal para frases cortas o pruebas rápidas, pero se queda corta cuando manejas documentos largos o conversaciones completas.

Para esos casos, necesitas algo más robusto: la librería tiktoken en Python.

¿Cómo instalo y configuro tiktoken en Python?

La librería tiktoken permite procesar grandes volúmenes de texto y estimar costos antes de hacer la llamada real a la API. El flujo arranca con la instalación [01:50]:

bash pip install tiktoken

Después importas la librería y cargas el encoding correspondiente a tu modelo. Para GPT-4, GPT-3.5 Turbo y el modelo de embeddings text-embedding-ada-002, el encoding correcto es cl100k_base [02:20].

python import tiktoken

encoding = tiktoken.get_encoding("cl100k_base")

También puedes pedirle a tiktoken que detecte el encoding por modelo, lo cual es útil cuando trabajas con varios al mismo tiempo:

python encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")

¿Cómo tokenizo una frase con tiktoken?

Una vez cargado el encoding, llamas al método encode y obtienes una lista de números. Esa lista es la traducción del texto al lenguaje del modelo.

python tokens = encoding.encode("El perrito come solito") len(tokens) # 7

El resultado coincide con lo que muestra el tokenizer web: 7 tokens. Hasta aquí sirve para frases sueltas, pero los modelos de chat reciben mensajes estructurados con roles, no frases planas.

¿Cómo cuento tokens en una conversación con varios mensajes?

Las conversaciones de chat se envían en formato de lista con roles: system, user y assistant. Cada mensaje incluye metadata que también consume tokens, así que no basta con contar el contenido.

OpenAI publica en su cookbook una función llamada num_tokens_from_messages que considera la estructura completa. Solo la copias en tu notebook y le pasas tu lista de mensajes [04:30].

python num_tokens_from_messages(example_messages, model="gpt-3.5-turbo")

En el ejemplo de la clase, una conversación completa con system, user y assistant suma 130 tokens. Pero ese número mezcla entrada y salida, y para calcular el costo real necesitas separarlos.

¿Por qué separar input y output al contar tokens? Porque OpenAI cobra precios distintos por cada uno. El input es lo que envías (system y user) y el output es la respuesta del modelo (assistant).

¿Cómo separo input y output en el conteo?

Ejecutas la función dos veces sobre la misma conversación, eliminando primero los mensajes del assistant y luego los de system y user. Así obtienes los totales por separado.

Input (system + user): 61 tokens.
Output (assistant): 72 tokens.
Total combinado: 130 tokens.

Con estos dos números ya puedes ir a la calculadora y estimar tu gasto.

¿Cómo calculo el costo en dólares de una conversación?

La página de precios de OpenAI muestra tarifas por cada 1.000 tokens, diferenciadas entre input y output. Para GPT-3.5 Turbo, la fórmula es directa: divides tus tokens entre 1.000 y multiplicas por el precio correspondiente.

Siguiendo el ejemplo de la clase:

Costo del input: 61 / 1.000 × precio input = 0.000061 dólares.
Costo del output: 72 / 1.000 × 0.0020 = 0.000144 dólares.
Costo total de la conversación: aproximadamente 0.000205 dólares.

Es una cifra mínima porque la conversación es corta, pero a escala (miles de usuarios, mensajes largos, contexto extenso) la suma se vuelve significativa. Por eso conviene estimar antes de desplegar a producción.

¿Cómo aplico esto a mi propio proyecto?

El reto que deja la clase es claro: tokeniza cinco conversaciones tuyas, separa input y output, calcula el costo de cada una y compara. Vas a notar cómo crece el gasto cuando los prompts incluyen instrucciones largas o cuando el modelo genera respuestas extensas.

¿Ya hiciste el cálculo con tus propios mensajes? Comparte tus resultados y el modelo que usaste en los comentarios.

Modelo	Costo enviar pregunta	Costo recibir respuesta	Costo total
GPT-3.5 Turbo 4K context	$0.0015 * 5 = 0,0075	$0.002 * 5 =0,01	$0,0175
Davinci Pre Trained	$0.1200 * 5 = 0.6	$0.1200 * 5 = 0.6	$1,2
Ada Pretrained	$0.0016 * 5 = 0.008	$0.0016 * 5 = 0.008	$0,016

John Fredy Ramirez Bedoya

Estudiante

Tokenizer

Un tokenizer es una herramienta que convierte texto en fragmentos más pequeños llamados tokens. Estos tokens pueden ser palabras, subpalabras o incluso caracteres, según cómo esté diseñado el tokenizer. El proceso de tokenización es crucial en los modelos de lenguaje porque permite descomponer el texto en unidades que el modelo puede entender y procesar. Estos tokens luego se convierten en números (índices) que el modelo puede utilizar para hacer predicciones o generar respuestas.

import tiktoken

"""
How to count tokens with tiktoken (https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb)
"""

def num_tokens_from_messages(messages, model):
    """Return the number of tokens used by a list of messages."""
    try:
        encoding = tiktoken.encoding_for_model(model)
    except KeyError:
        print("Warning: model not found. Using cl100k_base encoding.")
        encoding = tiktoken.get_encoding("cl100k_base")
    if model in {
        "gpt-3.5-turbo-0613",
        "gpt-3.5-turbo-16k-0613",
        "gpt-4-0314",
        "gpt-4-32k-0314",
        "gpt-4-0613",
        "gpt-4-32k-0613",
        }:
        tokens_per_message = 3
        tokens_per_name = 1
    elif model == "gpt-3.5-turbo-0301":
        tokens_per_message = 4  # every message follows <|start|>{role/name}\n{content}<|end|>\n
        tokens_per_name = -1  # if there's a name, the role is omitted
    elif "gpt-3.5-turbo" in model:
        print("Warning: gpt-3.5-turbo may update over time. Returning num tokens assuming gpt-3.5-turbo-0613.")
        return num_tokens_from_messages(messages, model="gpt-3.5-turbo-0613")
    elif "gpt-4" in model:
        print("Warning: gpt-4 may update over time. Returning num tokens assuming gpt-4-0613.")
        return num_tokens_from_messages(messages, model="gpt-4-0613")
    else:
        raise NotImplementedError(
            f"""num_tokens_from_messages() is not implemented for model {model}."""
        )
    num_tokens = 0
    for message in messages:
        num_tokens += tokens_per_message
        for key, value in message.items():
            num_tokens += len(encoding.encode(value))
            if key == "name":
                num_tokens += tokens_per_name
    
    num_tokens += 3  # every reply is primed with <|start|>assistant<|message|>
    print(num_tokens)
    # return num_tokens

example_messages = [
    {
      "role": "system",
      "content": "Eres un asistente de atención a clientes y estudiantes de la plataforma de educación online en tecnología, inglés y liderazgo llamada Platzi"
    },
    {
      "role": "user",
      "content": "¿Cómo puedo mejorar mis habilidades de creación de contenido con inteligencia artificial?"
    },
    {
      "role": "assistant",
      "content": "Para mejorar tus habilidades de creación de contenido con inteligencia artificial te sugiero que tomes el Taller de Creación de Contenido con Inteligencia Artificial en https://platzi.com/cursos/contenido-ia/. En este curso aprenderás a utilizar herramientas para generar contenido de manera automatizada y eficiente. ¡No te lo pierdas!"
    }
]

num_tokens_from_messages(example_messages, "gpt-3.5-turbo")

Paolo Joaquin Pinto Perez

Juan R. Vergara M.

Patricio Sánchez Fernández

Luis Rogelio Reyes Hernandez

Diego Jurado

Juan Camilo Jaramillo Tascón

Antony Diaz

Mateo Montoya Henao

Wilson Barrera

Miguel Moroyoqui

Camilo Moreno

Alexander Velasquez

Diana Citlalli Perez Mendoza

Arístides Pérez Hernández

Rommer Batista

Jesus E. Rocca

Grupointer SAS

Percy Soria Del Castillo

Johan Nicolás Valderrama Serrato

Fredy Talero

Sanjay Ramchandani

Eduardo Toledo

Estima costos en la API de OpenAI con tiktoken

OpenAI API

Análisis de sentimiento con la API de OpenAI

Uso de la Documentación de OpenAI para Fine Tuning y Text Completion

Roles en Chat Completions con GPT-3.5

Temperatura y top P en la API de OpenAI

Juego de adivinanza de animales con OpenAI en Python

Soft limit y hard limit en OpenAI

Actualización de Modelos y Funcionalidades de OpenAI

Fine-tuning de modelos de OpenAI

Cuándo hacer fine tuning a modelos OpenAI

Modelos de OpenAI para Fine-Tuning: Guía Completa