Mejoran la calidad de los datos que entrenan a la IA para descubrir fármacos
Un estudio en el que participa la UCAM, mejora la fiabilidad de la inteligencia artificial al aumentar la concordancia y reducir los errores. Ha sido publicado en la revista científica ‘Journal of Cheminformatics’
Jochem Nelen, investigador del grupo BIO-HPC de la Universidad Católica de Murcia (UCAM), ha realizado un análisis exhaustivo de datos de bioactividad química para mejorar la fiabilidad de la inteligencia artificial (IA) aplicada al descubrimiento de nuevos fármacos. Uno de los principales retos en este campo es la presencia de errores e inconsistencias en los datos químicos, lo que puede reducir la precisión de las predicciones generadas por los modelos de IA. Dado que estos modelos dependen de grandes conjuntos de datos para aprender cómo se comportan los compuestos, una baja calidad en los datos puede llevar a resultados poco fiables.
El estudio, publicado en Journal of Cheminformatics, analizó datos de bioactividad de la base de datos ChEMBL32, una fuente ampliamente utilizada en el desarrollo de medicamentos. El equipo se centró en los llamados “pares moleculares coincidentes” —compuestos similares probados en distintos experimentos— y observó que comparar las diferencias en su potencia ayudaba a reducir el impacto de la variabilidad experimental. Al limpiar los datos con filtros básicos o más estrictos, la concordancia aumentó del 44%-46% al 66%-79%. Además, eliminar ciertos objetivos terapéuticos problemáticos —asociados a mayores tasas de error— mejoró aún más la calidad de los datos. Esto permite generar conjuntos de datos más robustos para entrenar modelos de IA, lo que se traduce en predicciones más fiables.
Este trabajo, financiado por Eurofins–VillaPharma a través de la Cátedra VillaPharma, representa un paso importante hacia un desarrollo farmacéutico más eficiente impulsado por inteligencia artificial, al proponer estrategias prácticas para reducir el ruido en los datos y mejorar la calidad de los conjuntos utilizados. El estudio se llevó a cabo en colaboración con la University of Antwerp durante una estancia de investigación en Bélgica, bajo la supervisión del Prof. Hans De Winter y el Dr. Dries Van Rompaey, con la participación del líder del grupo BIO-HPC de la UCAM, Horacio Pérez-Sánchez. Todos los conjuntos de datos y herramientas empleados en este trabajo se han publicado en acceso abierto, lo que permite a la comunidad científica seguir desarrollando estas líneas de investigación y avanzar en las aplicaciones de la IA en el descubrimiento de fármacos.
Artículo completo: https://doi.org/10.1186/s13321-025-00956-y