IA obtiene puntuaciones altas en las pruebas gaokao de idioma y bajas en matemáticas

Por DIARIO DEL PUEBLO digital | el 21 de junio de 2024 | 13:40

Foto：VCG

La inteligencia artificial ha tenido un buen desempeño en las asignaturas de literatura china y lengua inglesa, pero obtuvo una puntuación baja en matemáticas, según un estudio que utilizó diferentes herramientas de chatbot para generar respuestas a los exámenes nacionales de ingreso a la universidad de este año (gaokao, en idioma chino).

Los investigadores del Laboratorio de Inteligencia Artificial de Shanghai hicieron que seis modelos de IA de código abierto, así como GPT-4o, la última versión lanzada por la empresa líder Open AI, tomaran la prueba a la que deben someterse la mayoría de los estudiantes de secundaria chinos para ser admitidos en las universidades nacionales.

Los resultados publicados este miércoles por el laboratorio muestran que los examinados de IA lograron una tasa de precisión promedio del 67 por ciento en lengua y literatura chinas y del 81 por ciento en lengua inglesa. Sin embargo, en matemáticas solo respondieron correctamente el 36 por ciento de las preguntas.

El mejor puntuado fue el último modelo de lenguaje multilingüe de la empresa nacional Alibaba, conocido como Qwen2-72B, que acertó alrededor del 72 por ciento de las preguntas, seguido de GPT-4o y un modelo lanzado por el propio Laboratorio de Inteligencia Artificial de Shanghai el 4 de junio.

Los investigadores destacaron que los exámenes incluyen no solo secciones de opción múltiple, preguntas para llenar los espacios en blanco y preguntas con una sola respuesta correcta, sino también preguntas de respuesta abierta, como las que requieren escribir un ensayo corto basado en un tema. Cada hoja de respuestas fue revisada por al menos tres tutores a quienes no se les informó de la identidad especial de los examinados hasta que terminaron de calificar.

Los evaluadores comentaron que las herramientas de IA parecían ser más capaces de comprender textos chinos escritos en un estilo contemporáneo, pero tenían dificultades para comprender pasajes chinos clásicos y premodernos. Además, pocos de ellos eran capaces de utilizar técnicas como citar adagios al escribir artículos.

"En el examen de matemáticas, sus respuestas subjetivas tienden a ser desorganizadas y confusas, aunque la respuesta podría ser correcta a pesar de los errores en el proceso. También exhibieron una gran capacidad de memorización de fórmulas, pero no pudieron aplicarlas rápidamente a la resolución de problemas", aseguraron los calificadores.

Los participantes de IA también obtuvieron resultados mediocres durante la ronda preliminar de la Competencia Global de Matemáticas Alibaba 2024. Los organizadores dijeron este mes que el puntaje promedio de los más de 500 equipos de IA fue de 18 de 120, y el puntaje más alto entre ellos fue de solo 34, en comparación con el puntaje humano más alto de 113.

Cao Sanxing, vicedecano del Instituto de Investigación de Información de Internet de la Universidad de Comunicación de China, dijo que el bajo rendimiento de los modelos de IA en matemáticas no necesariamente indica debilidades en las capacidades de razonamiento y cálculo.

"En la actualidad, el entrenamiento en IA relacionado con preguntas matemáticas no es el enfoque principal del sector, y la mayoría de los recursos se han dedicado a alimentar materiales de lenguaje humano en modelos de IA, de ahí la puntuación más alta en los idiomas chino e inglés", dijo Cao.

A pesar de las altas calificaciones de la IA en temas relacionados con el lenguaje, Cao piensa que el contenido generado por IA todavía contiene fallas obvias, como declaraciones contradictorias, y muestra una falta de pensamiento profundo.

Xu Yi, estudiante de posgrado de la Escuela de Inteligencia Artificial Gaoling de la Universidad Renmin de China, indicó que la mayor fortaleza actual de la IA es hacer resúmenes mediante el análisis de grandes cantidades de datos, lo que explica su excelente desempeño en la generación de texto.

"Sin embargo, la IA es menos capaz de pensar lógicamente o crear contenido completamente nuevo", agregó.

Por su parte, Xiong Bingqi, director del Instituto de Investigación Educativa del Siglo XXI, también atribuyó la puntuación más baja en matemáticas a la escasez de programación relacionada con esta ciencia.

"Mientras tanto, la aparición de la IA muestra que ahora es importante que los estudiantes no solo memoricen conocimientos, sino que también aprendan a innovar y fomentar las habilidades de pensamiento crítico", concluyó Xiong.

(Web editor: Rosa Liu, Zhao Jian)