Algoritmos Many-core para la Bioinformática

En el marco de una colaboración con el grupo AGR-248 de la Universidad de Córdoba, nuestro equipo de investigación ha trabajado en el desarrollo de algoritmos bioinformáticos optimizados para arquitecturas many-core. Este trabajo ha sido posible gracias al acceso a tres tarjetas TilExpress-20G de la compañía Tilera Corp, así como a las negociaciones con Intel Corp. para realizar desarrollos con su innovador chip Intel SCC (Single-Chip Cloud Computer).

🎯 Objetivos del Proyecto

El principal objetivo de este proyecto es desarrollar e implementar algoritmos bioinformáticos altamente optimizados para su ejecución en arquitecturas many-core, con un enfoque específico en el alineamiento de secuencias genéticas a gran escala. Para ello, nos hemos marcado las siguientes metas:

Optimizar el rendimiento computacional mediante el uso de arquitecturas many-core, logrando una mayor eficiencia en el procesamiento de grandes volúmenes de datos genómicos.
Desarrollar algoritmos adaptados a las limitaciones y ventajas de procesadores many-core, como el Tile64 y el Intel SCC, mejorando su capacidad de paralelización.
Ampliar la capacidad de alineamiento de secuencias de ADN y proteínas, superando la barrera de 10Mbp (millones de pares de bases) por secuencia, con el objetivo de acercarnos al alineamiento de cromosomas completos.
Aplicar estos desarrollos a problemas bioinformáticos clave, como la detección de mutaciones SNP (Single Nucleotide Polymorphism) y la construcción de árboles filogenéticos, fundamentales en estudios evolutivos y biomédicos.

Para complementar este trabajo, se han utilizado ordenadores Dell Precision T5400 con bases de datos alojadas en estos sistemas, lo que ha permitido superar la barrera de 10Mbp en cada secuencia alineada. Este avance representa un paso crucial hacia el alineamiento de cromosomas completos, acercándonos a una capacidad computacional solo un orden de magnitud por debajo de este objetivo.

La aplicación de arquitecturas many-core en bioinformática supone un gran avance en términos de eficiencia y escalabilidad. Este proyecto sienta las bases para futuras investigaciones en secuenciación genómica masiva, optimización de algoritmos de alineamiento y análisis de grandes volúmenes de datos biológicos con una velocidad y precisión sin precedentes.