Saltar al contenido principal
Vision permite a los usuarios subir imágenes para que un agente las analice. El agente pasa la imagen a un modelo compatible con Vision, que la describe, la resume o responde preguntas sobre su contenido.

Habilitar las capacidades de Vision

Vision solo funciona con modelos que admiten entrada de imágenes. Si el modelo seleccionado no admite entrada de imágenes, el control de carga en el editor de mensajes se desactiva. Cambia a un modelo compatible con Vision en Parámetros del modelo para volver a habilitarlo.

Usa las capacidades de Vision

Haz clic en el icono del clip en la esquina inferior izquierda del editor de mensajes y elige Upload to Provider para adjuntar una imagen: una captura de pantalla, una foto, un gráfico o un diagrama. Después, haz cualquier pregunta que requiera leer la imagen: “¿Qué tiene de malo este plan de consulta?”, “Transcribe el texto de esta captura de pantalla” o “Compara este dashboard con el de la semana pasada.” El agente trata la imagen como parte del contexto del mensaje, así que las preguntas de seguimiento dentro del mismo turno pueden hacer referencia a lo que vio sin tener que volver a subirla.

Combina Vision con otras herramientas

Vision se complementa bien con el code interpreter para analizar imágenes; por ejemplo, el agente extrae números de una captura de pantalla y luego ejecuta Python para calcular totales, y con web search cuando una imagen hace referencia a algo que el modelo necesita buscar.
Última modificación el 10 de junio de 2026