Index distribué de k-mer permettant leur comptage et leur localisation

Alban Mancheron (Université de Montpellier)

09/02/2023 10:30 - 12:00
Emplacement: Aurigny Room


Les progrès des 15 dernières annĂ©es en matière de sĂ©quençage d’ADN et d’ARN, associĂ©s Ă  la baisse de leurs coĂ»ts ont eu comme effet direct une production massive de donnĂ©es Ă  analyser. Ce changement d’Ă©chelle du volume de donnĂ©es a induit l’apparition de nouvelles mĂ©thodologies et notamment celles basĂ©es sur le comptage des k-mers – fragments de longueur k – prĂ©sents dans les sĂ©quences. Ces comptages peuvent ĂŞtre utilisĂ©s de diffĂ©rentes manières. Par exemple, rechercher des marqueurs spĂ©cifiques de certaines populations ou bien pour discriminer les erreurs de sĂ©quençage des variations biologiques…
Afin de compter les occurrences de tous les k-mers provenant de très gros volumes de donnĂ©es, il devient nĂ©cessaire de disposer de machines surpuissantes ou d’adapter les mĂ©thodes existantes afin de distribuer les calculs. C’est cette seconde option que nous avons choisi en dĂ©veloppant une librairie en C++ (intitulĂ©e libGkArrays-MPI et distribuĂ©e sous la licence libre CeCILL-C), exploitant le parallĂ©lisme lĂ©ger (multithreading) mais Ă©galement le calcul distribuĂ©, permettant de compter les k-mers des sĂ©quences dĂ©crites dans un ou plusieurs fichiers (fasta, fastq, compressĂ©s ou non). Outre le simple comptage, cette librairie permet Ă©galement de les indexer (donc de pouvoir retrouver leurs sĂ©quences d’origine). Sur la base de cette librairie, nous avons Ă©galement dĂ©veloppĂ© un outil (intitulĂ© gkampi et distribuĂ© sous licence libre CeCILL) pouvant s’exĂ©cuter sur une simple machine comme sur un cluster de calcul en passant par un parc de machines hĂ©tĂ©rogènes.
L’outil gkampi et la librairie libGkArrays-MPI proposent les mĂŞme fonctionnalitĂ©s que les outils standards de comptage (Jellyfish, KMC, …) ; mais ils permettent Ă©galement Ă©galement de compter/indexer des k-mers espacĂ©s.