Documentación
FAQ: ¿Cómo debería usar max_tokens? en la documentación de NexoRouter.
FAQ: ¿Cómo debería usar max_tokens?
max_tokens limita el tamaño de la respuesta del modelo. No reduce los tokens que ya están en tu prompt.
Cuándo configurarlo
| Situación | Recomendación |
|---|---|
| Primera prueba de setup | Usa un valor pequeño como 64 o 128. |
| Control de costo | Usa un límite acorde a la longitud esperada de respuesta. |
| Generación larga | Aumenta gradualmente y revisa Usage Logs. |
| Loops de agentes o herramientas | Mantén un límite para evitar salidas repetidas costosas. |
Qué no soluciona
- No hace que un prompt demasiado grande quepa.
- No cambia la capacidad de contexto del modelo elegido.
- No reduce el costo de tokens de entrada.
- No arregla
request_too_largesi el input ya es demasiado grande.
Si la salida se corta
- Aumenta
max_tokensmoderadamente. - Pide al modelo un formato más corto.
- Divide la tarea en secciones.
- Revisa Usage Logs para completion tokens y costo.