Noticias

Firefox pide tu ayuda para darle voz a las imágenes en PDF

¿Te imaginas que una aplicación pueda describir las imágenes por ti? Pues Firefox está en eso. Pero antes de que pienses que la inteligencia artificial ha alcanzado la clarividencia, déjame contarte un poco de qué va esto.

Cristian Do Carmo Rodríguez
5 de nov. de 2024
3 min de lectura
NavegadoresInteligencia ArtificialAvanzadoNuevas tecnologías

Primero, un poquito de contexto. Firefox, para quienes no lo conocen, es ese navegador que lleva años siendo la alternativa libre y abierta al dominio de los gigantes. Con Firefox puedes navegar sin que tu información personal acabe en el plato de datos de una mega-corporación. Y ahora, con su versión 130, Firefox se ha propuesto hacer del mundo un lugar más accesible, facilitando que los documentos en PDF incluyan descripciones automáticas (alt text) para las imágenes. ¡Perfecto para quien usa lectores de pantalla y quiere enterarse de qué va ese gráfico!

La magia del texto automático, o casi mágico

A ver, el objetivo es que el propio Firefox pueda agregar texto alternativo a las imágenes en PDF. Esto permite a las personas con discapacidades visuales entender lo que otros ven sin ayuda. Ahora bien, si estás pensando en un robot todopoderoso que descifra imágenes como un crítico de arte... mejor bajemos un poco las expectativas.

graphical user interface

El modelo que usa Firefox para esta tarea está en pañales, y a veces puede cometer errores graciosos o simplemente quedarse corto. Así que Mozilla, la casa de Firefox, ha diseñado el sistema para que tú, amable usuario, puedas revisar y corregir estas descripciones antes de guardarlas.

¿Y cómo funciona esta “IA casera”?

Para los curiosos del “bajo el capó”, el modelo de Mozilla no es una inteligencia artificial que te va a conquistar el mundo. Se trata de un modelo pequeño (bueno, pequeño en términos de IA) que funciona localmente en tu dispositivo, es decir, no necesita enviar tus datos a la nube, donde podrían ser espiados por empresas. Este modelo tiene 180 millones de parámetros y se basa en dos grandes cerebros digitales: un Vision Transformer (que identifica objetos en las imágenes) y una versión reducida de GPT-2, un modelo conocido por su habilidad para generar texto.

La idea es que este modelo trabaje rápido y sin ocupar mucho espacio. Firefox lo ha comprimido hasta el punto en que ocupa solo 180 MB. Aunque este es el principio, Mozilla quiere que sepas que están comprometidos con la transparencia, tanto en el código como en el desarrollo del modelo. De hecho, ¡quieren que la comunidad participe!

Firefox te necesita... ¡sí, a ti!

Mozilla tiene claro que su modelo necesita mucha ayuda para llegar a ser perfecto, así que han abierto las puertas para que cualquier persona, desde expertos en IA hasta usuarios comunes, contribuya. La invitación es clara: si encuentras errores o piensas que el sistema podría ser mejor, ¡díselo a Mozilla! Hay varias formas de ayudar:

two hands reaching for a flying object in the sky

Arquitectura del modelo: 

Si te gusta la ingeniería de software y tienes sugerencias sobre cómo mejorar la estructura del modelo, Mozilla quiere escucharte.

Datos de entrenamiento: 

Aquí es donde las cosas se ponen interesantes. Mozilla ha estado usando datasets como COCO y Flickr30k, pero han encontrado algunas sorpresas no tan agradables: descripciones sesgadas por género, lenguaje anticuado o incluso un exceso de gatos (que, por supuesto, a internet le fascinan). Así que, si tienes imágenes interesantes o datasets inclusivos y variados, puedes contribuir creando uno en HuggingFace.

Código de entrenamiento: 

Firefox usa herramientas de Transformers para entrenar el modelo. Si encuentras un bug o quieres mejorar los resultados, ¡adelante!

Mozilla sabe que el viaje apenas empieza y que su IA de texto alt está lejos de la perfección. No hace falta ser un genio para contribuir, pero si lo eres, ¡mejor que mejor!

Conclusión: Firefox quiere ser accesible... y más divertido

Firefox está trabajando para hacer de los PDFs un lugar donde todos puedan ver las imágenes, aunque no las vean. ¿El objetivo final? Que más personas puedan leer un PDF, con o sin vista. Y si te sumas a su causa, tal vez en el futuro hasta consigan que el modelo sea capaz de diferenciar a un gato de una tostadora... aunque, en el fondo, quizá nunca deje de confundirlos un poquito.