Noticias

OpenAI revoluciona la IA con “GPT-4 omni”

GPT-4o presenta avances en la interacción Humano-Computadora a través de texto, audio e imágenes con un menor lag

Cristian Do Carmo Rodríguez
13 de may. de 2024
3 min de lectura
Inteligencia ArtificialSoftware

El reciente lanzamiento de GPT-4o ("o" por "omni") de OpenAI marca un paso significativo hacia una interacción más natural entre humanos y computadoras. Esta nueva iteración del modelo acepta combinaciones de texto, audio e imágenes como entrada, y genera combinaciones similares como salida.

Con la capacidad de responder a entradas de audio en tan solo 232 milisegundos en promedio, y equiparable al tiempo de respuesta humano en una conversación, GPT-4o representa un avance notable en la fluidez de la comunicación entre humanos y máquinas.

a man sitting in front of a laptop computer

Las nuevas capacidades de GPT-4o

Antes de GPT-4o, los usuarios podían utilizar el Modo de Voz para interactuar con ChatGPT, pero con latencias promedio de 2.8 segundos (GPT-3.5) y 5.4 segundos (GPT-4). Esto se debía a un proceso de tres modelos separados: uno para transcribir audio a texto, otro para generar respuestas de texto, y un tercero para convertir ese texto de vuelta a audio. Sin embargo, esta cascada de modelos reducía la capacidad de comprensión del modelo principal, impidiéndole captar tonos, múltiples hablantes o ruidos de fondo, y limitando su capacidad para expresar emociones como risas o cantos.

Con GPT-4o, OpenAI ha entrenado un solo modelo nuevo de extremo a extremo, abarcando texto, visión y audio en un único modelo neuronal. Esto significa que todas las entradas y salidas son procesadas por la misma red neural, lo que permite una comprensión más completa y una generación más natural de respuestas en diferentes modalidades.

a digital image of a brain with the word change in it

Las capacidades de GPT-4o son diversas y sorprendentes. Desde interactuar con otro GPT-4o en actividades como canto o juegos, hasta realizar tareas como prepararse para entrevistas, comprender sarcasmo o incluso aprender matemáticas de manera entretenida. Destaca especialmente su mejora en comprensión de visión y audio en comparación con modelos existentes.

En términos de rendimiento, GPT-4o alcanza niveles comparables al rendimiento de GPT-4 Turbo en texto e incluso supera significativamente en lenguajes no ingleses. También es mucho más rápido y un 50% más económico en la API. Además, sus capacidades de traducción en tiempo real y comprensión de lenguajes visuales han establecido nuevos estándares en la industria.

GPT más seguro.

OpenAI ha puesto un énfasis significativo en la seguridad de GPT-4o, incorporando técnicas de filtrado de datos de entrenamiento y refinamiento del comportamiento del modelo para garantizar su uso responsable y ético. Además, han realizado extensivas evaluaciones de seguridad y evaluaciones externas para identificar y mitigar posibles riesgos en las nuevas modalidades de audio.

a computer screen with a bunch of words on it

Disponibilidad de GPT-4o

GPT-4o está disponible para desarrolladores a través de la API como modelo de texto y visión, siendo más rápido, económico y con límites de uso más altos que su predecesor GPT-4 Turbo. Próximamente, se lanzará el soporte para las capacidades de audio y video a un grupo selecto de socios confiables.

En resumen, GPT-4o representa un hito en la evolución de la interacción humano-computadora, combinando múltiples modalidades de entrada y salida de manera fluida y efectiva. Su disponibilidad en la API ofrece nuevas oportunidades para desarrolladores y empresas que buscan integrar inteligencia artificial de vanguardia en sus productos y servicios, promoviendo así un futuro más conectado y accesible para todos.