CIbSE 2025
Mon 12 - Fri 16 May 2025 Ciudad Real, Spain
Wed 14 May 2025 15:00 - 15:30 at Aula Marvin Minsky - Session W2b Software Testing and LLMs Chair(s): Claudia Ayala

Los Modelos de Lenguaje de Gran Escala (LLMs) han mostrado un gran potencial para facilitar diversas tareas de la ingeniería del software, incluyendo la generación automática de pruebas unitarias y de integración. Sin embargo, su rápida evolución plantea un reto significativo para las empresas que desean adoptarlos, pues las evaluaciones de su eficacia quedan rápidamente desactualizadas. Aunque existe abundante investigación académica sobre las capacidades de generación automática de pruebas mediante LLMs, las evaluaciones suelen limitarse a análisis puntuales con referencias académicas, sin considerar las necesidades específicas del sector industrial. Este trabajo presenta un marco práctico para la evaluación continua de LLMs para la generación de pruebas en entornos industriales, ilustrado mediante un estudio longitudinal de GitHub Copilot en una consultoría de software de tamaño medio. El marco propuesto se integra con herramientas estándar en la industria como SonarQube y establece un conjunto de métricas que evalúan tanto la idoneidad técnica como aspectos prácticos, incluyendo la mantenibilidad y la integración con procesos existentes. Nuestra metodología incorpora estrategias para la selección de casos de prueba, ingeniería de prompts y una infraestructura de medición, abordando desafíos como la fuga de datos y la reproducibilidad. Los resultados de la implementación del marco revelan hallazgos sobre la evolución temporal de las capacidades de generación automatizada de pruebas mediante LLMs, ofreciendo una guía práctica para empresas que buscan adoptar estas tecnologías.

Wed 14 May

Displayed time zone: Brussels, Copenhagen, Madrid, Paris change