Gestión de Límites y Facturación en OpenAI

Clase 6 de 24 • Curso de Desarrollo de Chatbots con OpenAI

Contenido del curso

OpenAI API

Fine-tuning de modelos de OpenAI

Integración de modelo a aplicación de chat

Conclusión

24
Proyectos de Fine Tuning y Procesamiento de Lenguaje Natural
02:58 min

Tomar examen

Resumen

Controlar el gasto, gestionar usuarios y aplicar buenas prácticas de seguridad son pasos esenciales para trabajar de forma eficiente con los modelos de OpenAI. Conocer cada ajuste disponible en la plataforma te permite optimizar costos y proteger tus proyectos desde el primer request.

¿Cómo optimizar el uso de los modelos de OpenAI?

El punto de partida es redactar solicitudes claras y con el mayor contexto posible. Mientras mejor sea el prompt, mejor será la respuesta del modelo [0:10]. Junto a esto, conviene controlar la longitud del texto midiendo la cantidad de tokens que contiene cada entrada y cada salida.

Experimentar con la temperatura y otros hiperparámetros también marca la diferencia. Ajustar estos valores te permite encontrar el equilibrio entre creatividad y precisión en las respuestas [0:30].

¿Qué son el soft limit y el hard limit en la facturación?

OpenAI ofrece dos umbrales de gasto que puedes configurar dentro de la sección Billing → Usage limits [3:26]:

Soft limit: es un aviso temprano. Cuando lo superas, OpenAI envía un correo electrónico de notificación, pero tus modelos siguen funcionando con normalidad.
Hard limit: es el tope absoluto. Al alcanzarlo, la API deja de procesar solicitudes y no puedes consumir más recursos.

Por encima de ambos existe un límite máximo por defecto que asigna OpenAI a tu cuenta —en el ejemplo mostrado, 120 dólares— [3:26]. Si necesitas un presupuesto mayor, puedes completar el formulario de Request increase, donde debes incluir el ID de la organización y una descripción de tu caso de uso [4:05].

¿Cómo monitorear el consumo en la plataforma?

Desde platform.openai.com, en la sección Manage account → Usage, se despliega una gráfica con el gasto diario en dólares [1:30]. Puedes filtrar por fechas, comparar días específicos e incluso ver el consumo desglosado por miembros del equipo [2:25].

En la sección Rate limits [2:45] encuentras los topes de tokens por minuto y requests por minuto para cada modelo disponible. Estos valores determinan cuántas llamadas simultáneas puede realizar tu organización.

¿Qué medidas de seguridad y ética debes considerar?

Más allá del presupuesto, hay aspectos críticos que no puedes pasar por alto [4:25]:

Manejo de errores y excepciones: implementar reintentos y captura de errores evita interrupciones inesperadas en producción.
Ética y consideraciones legales: al personalizar modelos con datos propios, asegúrate de que la información se obtiene de forma legítima y respeta la privacidad de los datos.
Control de usuarios: desde la sección Members puedes asignar dos roles clave [4:55].

¿Qué roles existen dentro de una organización?

Owner (propietario): configura facturación, establece límites y gestiona usuarios.
Reader (lector): solo puede consumir los modelos dentro del espacio que el owner le asigna.

Esta separación de permisos es fundamental para mantener el control sobre quién accede a los recursos y cuánto puede gastar [5:10].

Si te queda alguna duda, compártela en los comentarios o consulta el foro abierto de OpenAI, donde la comunidad comparte soluciones y experiencias prácticas [5:30].

Comentarios

Rogger Erikson Cruz Zapata

student•

Creo q esa debió ser la primera clase jejeje los costos de uso 😅😅😅

Juan R. Vergara M.

student•

Sí, buen punto.

Lilián Gómez

student•

Asi es

Hugo Montoya Diaz

student•

Existiran parametros ejemplo de consumos de recursos cuantificables por aplicaciones tipo? por ejemplo un chatbot de agencia de viajes, tantos usuarios... tantos procesos... es igual a $54.00 dlls al mes o algo asi

Pepe Sosa

student•

En la página de pricing de OpenAI te ponen una especie de ejemplos, tal vez si buscamos el uso "promedio" de un chat, + el ejemplo, nos podríamos dar una idea aproximada.

Nelson Andrés Loyola Salas

student•

ChatGPT (Bing) : "El consumo de tokens dependerá de varios factores, como el tráfico del sitio web, la cantidad de interacciones que los usuarios tengan con el chatbot, la duración promedio de cada interacción y la complejidad de las respuestas del chatbot."

miguel laurente

student•

Consulta: Se que se puede especificar el máximo de token por respuesta pero hay forma de saber ¿cuantos tokens se consumen por respuesta?

Jose Miguel Lopez

student•

print("Tokens utilizados:", response.usage.prompt_tokens)

 "usage": {
    "prompt_tokens": 5,
    "completion_tokens": 150,
    "total_tokens": 155
  }

Nelson Andrés Loyola Salas

student•

no sería más bien por cada solicitud el número total de tokens utilizados (total tokens: prompt + completion):

print('Total tokens utilizados:', response.usage.total_tokens)

Pero si solo se quiere el total de tokens por "completion" sería:

print('Total tokens utilizados en la completion :', response.usage.completion_tokens)

Percy Soria Del Castillo

student•

En la clase anterior sin querer hice un loop infinito a openai, literal veía como se iba el dinero por cada loop, felizmente existía el CTRL+C para cortarlo. 😅😅😅

Mateo Montoya Henao

student•

Aquí tienes una lista de buenas prácticas al usar modelos de OpenAI:

1. Cumple con las políticas de uso

Respetar las leyes aplicables: No comprometas la privacidad de los demás, no realices actividades reguladas sin cumplir con las regulaciones pertinentes y no promuevas o participes en actividades ilegales.
No causar daño: No uses los servicios de OpenAI para dañarte a ti mismo o a otros. No repurpuse o distribuya la salida de nuestros servicios para causar daño a otros.

2. Usa los parámetros adecuadamente

Temperature: Controla la creatividad de las respuestas. Valores bajos producen respuestas más deterministas, mientras que valores altos producen respuestas más creativas.
Top_p: Limita la selección de tokens a los más probables, afectando la coherencia y la diversidad de las respuestas.
n: Especifica cuántas variantes de respuesta el API debe generar para una sola entrada.

3. Escribe prompts claros y efectivos

Simplicidad y claridad: Escribe prompts breves y claros. Evita prompts engorrosos y precisos.
Especifica los detalles: Sea específico sobre el contexto, el resultado, la longitud, el formato y el estilo deseado.
Usa ejemplos: Proporciona ejemplos específicos de la salida deseada para ayudar al modelo a entender mejor tus requisitos.

4. Usa delimitadores para la claridad

Delimitadores: Usa delimitadores como marcado de texto, etiquetas XML y títulos de secciones para indicar claramente diferentes partes de la entrada, ayudando al modelo a interpretar adecuadamente diferentes secciones.

5. Intenta el enfoque sin disparos primero, luego el enfoque con pocos disparos si es necesario

Enfoque sin disparos: Los modelos de razonamiento a menudo no necesitan ejemplos de enfoque con pocos disparos para producir buenos resultados, así que intenta escribir prompts sin ejemplos primero.
Enfoque con pocos disparos: Si tienes requisitos más complejos para la salida deseada, puede ayudar incluir un par de ejemplos de entradas y salidas deseadas en tu prompt. Asegúrate de que los ejemplos coincidan muy de cerca con las instrucciones de tu prompt, ya que las discrepancias entre los dos pueden producir resultados pobres.

6. Proporciona directivas específicas

Directivas específicas: Si hay maneras en las que deseas restringir la respuesta del modelo de manera explícita (como "propone una solución con un presupuesto inferior a $500"), incluye esas restricciones explícitamente en el prompt.

7. Sé muy específico sobre tu objetivo final

Objetivo final específico: En tus instrucciones, intenta proporcionar parámetros muy específicos para una respuesta exitosa y anima al modelo a continuar razonando e iterando hasta que coincida con tus criterios de éxito.

8. Usa el formato de marcado Markdown

Formato de marcado: A partir de o1-2024-12-17, los modelos de razonamiento en la API evitarán generar respuestas con formato de marcado Markdown. Para indicar al modelo cuando desees formato de marcado en la respuesta, incluye la cadena "Formatting re-enabled" en la primera línea de tu mensaje de desarrollador.

9. Evita prompts de cadena de pensamiento

Cadena de pensamiento: Los modelos realizan el razonamiento internamente, por lo que instarlos a "pensar paso a paso" o "explicar tu razonamiento" es innecesario y puede incluso perjudicar el rendimiento.

10. Usa el enfoque sin disparos primero, luego el enfoque con pocos disparos si es necesario

Enfoque sin disparos: Los modelos de razonamiento a menudo no necesitan ejemplos de enfoque con pocos disparos para producir buenos resultados, así que intenta escribir prompts sin ejemplos primero.
Enfoque con pocos disparos: Si tienes requisitos más complejos para la salida deseada, puede ayudar incluir un par de ejemplos de entradas y salidas deseadas en tu prompt. Asegúrate de que los ejemplos coincidan muy de cerca con las instrucciones de tu prompt, ya que las discrepancias entre los dos pueden producir resultados pobres.

11. Reduce las descripciones "flacas" e imprecisas

Descripciones precisas: Evita descripciones vagues e imprecisas. Sea específico y descriptivo.

12. En lugar de solo decir lo que no hacer, di lo que hacer en su lugar

Instrucciones claras: En lugar de solo decir lo que no hacer, di lo que hacer en su lugar. Esto proporciona una orientación más clara y efectiva.

13. Usa palabras clave para orientar el modelo hacia un patrón específico

Palabras clave: Usa palabras clave específicas para orientar el modelo hacia un patrón específico. Por ejemplo, agregar "import" al modelo le da una pista de que debe comenzar a escribir en Python.

14. Usa la función "Generar Cualquier cosa"

Generar Cualquier cosa: Los desarrolladores pueden usar la función "Generar Cualquier cosa" para describir una tarea o una salida natural en lenguaje y recibir una plantilla personalizada.

15. Usa el modelo más reciente

Modelo más reciente: Para obtener los mejores resultados, se recomienda generalmente usar el modelo más reciente y capaz. Los modelos más recientes tienden a ser más fáciles de trabajar con.

16. Respetar la privacidad y los derechos de los creadores

Privacidad y derechos: No comparta o distribuya la salida de nuestros servicios de manera que pueda comprometer la privacidad de los demás o los derechos de los creadores.

17. No responda con contenido NSFW

Contenido NSFW: No genere o responda con contenido no apto para todos (NSFW) a menos que esté en un contexto apropiado para la edad.

18. Usa el sistema de moderación de OpenAI

Moderación: Utiliza el sistema de moderación de OpenAI para detectar y evitar contenido inapropiado o dañino.

19. No uses el modelo para actividades no permitidas

Actividades no permitidas: No uses el modelo para actividades como la generación de contenido ilegal, el engaño o la promoción de actividades peligrosas.

20. Mantén un enfoque ético y responsable

Enfoque ético: Asegúrate de que el uso del modelo sea ético y responsable, evitando cualquier uso que pueda causar daño o abuso.

Siguiendo estas prácticas, puedes aprovechar al máximo los modelos de OpenAI mientras mantienes un enfoque ético y seguro.

Tabares Hernandez Jose Luis

student•

Sería muy bueno un curso de Llama 2 que es gratis.

Juan R. Vergara M.

student•

💰💸

Luis Rogelio Reyes Hernandez

student•

La idea que yo tengo para medir los costos en mi empresa es: ya que los costos son por request y por lo largo del chat, un ejercicio que recomendaría sería medir cuantas request y cuanto costo sería una interacción esperada de tu chatbot, y lo multiplicas por la cantidad de interacciones que esperas de ese tipo para tener un aproximado de cuanto consumiría tu chatbot.

Seria esto el mejor camino para esto?

Patricio Sánchez Fernández

student•

Claramente, el curso está enfocado en la construcción de un "Chatbot" desde el punto de vista del "desarrollador". Pero recomiendo que al desarrolllar el chatbot, se junten con el equipo de marketing, y si es una empresa de gran envergadura, lo hagan con el equipo de "UX" (experiencia de usuario) Porque hay que pensar fuera de la caja, es decir: El chatbot es para el cliente, no para el quipo de desarrollo, ni para el equipo de marketing, y un chatbot que no responde lo que se pregunta, va a generar un loop eterno de preguntas sin respuestas, ocasionando al menos dos situaciones: 1 Decepción por parte del cliente, sentirá que está perdiendo su tiempo. 2 Un mayor costo, ya que el cliente, al no tener una respuesta, seguirá interactuando con él. Algo muy importante a considerar, el chatbot hay que iterarlo permanentemente, de manera que consiga tener una conversación eficiente con el cliente. Es decir, que dé soluciones.

Erasmo Herrera

student•

Pasar calcular cuando podría ser nuestra facturación mensual comparto los costos de botpress, ofrecen un servicio de chatbot basado en GPT, nos podría ayudar a estimar cuando costara haciéndolo directamente con la API. Ej. botpress 5000 mensajes por $25 usd, probablemente haciéndolo directamente el costo sea un 40% menos.

Supongamos que tenemos 100 usuarios activos mensuales, eso les da 50 mensajes al mes.

Sebastián Vergara Villegas

student•

Antes de hacer una implementación a un cliente, si es que trabajan como consultores y desarrollardores en IA para negocios, dejen en claro que esto requiere un costo mensual de uso de tecnología e intenten cuantificar en medida de lo posible.

He visto proyectos apagarse porque implementan todo y nunca consideraron operación mensual.

Yo lo estimo considerando un número de tokens esperado de input y output por cada ejecución, luego múltiplicando por el valor de los tokens y finalmente multiplicar por la cantidad de ejecuciones mensuales. A eso sumar costo de otras tecnologías asociadas que se requieran para el caso.

Lo otro relevante es poder hacerles la comparación de costos del proceso usando IA y haciéndo algo manual. Ese costo de oportunidad debería ser uno de los grandes criterios de decisión también.

Alex Gary Silvestre Fuentes

student•

no encuentro el link o enlace que se menciona en la clase

Ricardo Mazuera

student•

Lo puedes ver en la sección de recursos debajo del video. Acá te dejo el link:

Alex Gary Silvestre Fuentes

student•

Gracias por el link. Al parecer era un ERROR de platzi ya que en esos días no se encontraba ningún recurso en ningun curso.

Sebastian Gaviria

student•

Con el último lanzamiento de GPT-4 Turbo, se lanzaron servicios adicionales. Ahora hay un servicio de asistencia para desarrolladores:

Jorge onam Barcelo alfaro

student•

si tienes muchos usuarios usando chatgpt, si sale caro muchos toman el modelo y montan su propia infraestructura de AI

John Fredy Ramirez Bedoya

student•

Que buenas recomendaciones para tener un mejor control de los consumos y costos.

Gracias.

Wilson Barrera

student•

los creditos gratuitos expirados todavia se podrian usar luego de que se agoten los nuevos que tengo de la tarjeta de crédito?

Jorge Ivan Meza

student•

si ya expiraron, no.

Carlos

student•

En el caso anterior adivinaranimal, me conviene decirle a gpt que me arme 100 caracterizaras por cada animal, así mi aplicación ya no consumiría creditos de gpt

Arístides Pérez Hernández

student•

¿Qué pasa si supero el soft limit?

Recibirás una alerta por correo electrónico, pero tus aplicaciones seguirán funcionando sin interrupciones. El Soft Limit actúa como un sistema de advertencia temprana. Imagina que es el medidor de gasolina de tu auto encendiendo la luz amarilla; te avisa que estás gastando más de lo previsto, pero no te apaga el motor. Esto es crucial cuando lanzas una aplicación a producción y experimentas un pico de tráfico inesperado. En lugar de que tus usuarios reciban errores porque la API dejó de responder, tú obtienes el tiempo necesario para evaluar si ese consumo es legítimo o si hay un error en tu código que está gastando tokens de más. Para configurarlo estratégicamente, colócalo en un 70% u 80% de tu presupuesto ideal mensual. Así tendrás margen de maniobra para optimizar tus prompts o ajustar parámetros antes de que el gasto se vuelva un problema real.

Arístides Pérez Hernández

student•

¿Cuándo debo asignar el rol de Reader?

Debes usarlo para desarrolladores o miembros del equipo que solo necesitan ejecutar pruebas y consumir la API. El principio de menor privilegio es vital en la seguridad de cualquier proyecto de software. El rol de Reader está diseñado exactamente para esto. Si le das acceso de Owner a todo tu equipo, cualquiera podría modificar los límites de facturación por error, invitar a personas externas o cambiar las tarjetas de crédito. Al asignar el rol de Reader, garantizas que los programadores puedan generar sus API Keys, probar los modelos, ajustar la temperatura de las respuestas y hacer su trabajo técnico sin tocar la configuración financiera. Es la forma más segura de escalar un equipo de desarrollo. Si un Reader expone accidentalmente su clave en un repositorio público, el daño estará contenido por los límites de facturación que tú ya configuraste previamente.

Arístides Pérez Hernández

student•

¿Por qué es mejor configurar un hard limit?

Porque es tu seguro de vida financiero contra errores de código o ataques de denegación de servicio. A diferencia del límite suave que solo te avisa, el Hard Limit corta de tajo cualquier petición adicional a la API una vez que alcanzas el monto en dólares establecido. Imagina que cometes un error en un bucle dentro de tu código en Python y tu aplicación empieza a enviar miles de solicitudes por minuto a OpenAI durante la madrugada. Si no tienes un límite duro, podrías despertar con una factura de cientos o miles de dólares. Al configurarlo, le dices a la plataforma que bajo ninguna circunstancia quieres gastar más de esa cantidad. Es preferible que tu aplicación muestre un error temporal de servicio no disponible a tus usuarios, a que comprometas las finanzas de tu proyecto. Configúralo siempre basándote en el presupuesto máximo absoluto que estás dispuesto a perder.

Gestión de Límites y Facturación en OpenAI

OpenAI API

Uso de Modelos GPT para Análisis de Texto en Python

Uso de la Documentación de OpenAI para Fine Tuning y Text Completion

Configuración y Uso de Chat Completions en OpenAI GPT

Ajuste de Parámetros en Modelos de OpenAI para Mejorar Resultados

Juego de adivinanza de animales con OpenAI en Python