Le groupe GUGGO représente un espace collaboratif pour les scientifiques, biologistes ou bioinformaticiens, intéressés par l’analyse de données et la plateforme web Galaxy.

Ce groupe a pour but de faciliter le transfert d’informations au niveau du grand ouest concernant Galaxy en propageant les fondements de cette plateforme web, basés sur l’accessibilité, la reproductibilitéet la transparence.

Reunion GUGGO 2

image_print

Seconde RĂ©union Groupe des Utilisateurs de Galaxy du Grand Ouest (GUGGO)

04 juin – 14h/17h – IRISA / INRIA

Présents

Jeanne Cambefort (IE CNRS, GenScale), Laure Quintric (Ingénieur PCIM Ifremer Plouzané), Cédric Mendosa (stagiaire PCIM Ifremer Plouzané), Grégory Carrier (Postdoctorant Ifremer Nantes), Edouard Hirchaud (Plateforme Bio-informatique BRID Nantes), Audrey Bihouée (Plateforme Bioinformatique BRID Nantes), Stéphanie Mottier (IE IGDR), Cyril Falentin (INRA IGEPP), Aurélien Le Roult (Administrateur système INSERM GenOuest et PF Protéomique HD), Olivier Sallou (Responsable développement Université Rennes1 GenOuest), Philippe Vanderkoornhuyse (Professeur Université Rennes1 OSUR Rennes), Alexan Andrieux (Ingénieur INRIA Genscale), Olivier Quénez (Ingénieur INRIA GensCale), Sivasangari Nandy (Ingénieur GenOuest), Anthony Bretaudeau (IE INRA), Mathieu Bahin (IE GenOuest/PF Séquençage environnemental), Cyril Monjeaud (Ingénieur GenOuest) , Yvan Le Bras (CNRS /GenOuest)

Excusés

Olivier Collin (CNRS/GenOuest), Gilles Lassale (Ingénieur INRA IGEPP), Marc Aubry (IR Université Rennes1 PF Séquençage Santé)

Introduction

Suite Ă  la crĂ©ation du groupe des utilisateurs de Galaxy du Grand Ouest, une rĂ©union s’Ă©tait tenue en avril 2012 afin de prĂ©parer la mise en place d’instances de Galaxy au niveau des diffĂ©rentes plateformes de Bio-informatique de Bretagne et Pays de la Loire. Nous nous rĂ©unissons ce 4 juin dans les locaux de l’IRISA / INRIA pour une seconde rĂ©union GUGGO afin de faire un point sur le dĂ©veloppement des diffĂ©rentes instances.

Point sur les différentes instances

La plateforme GenOuest IRISA/INRIA

L’instance Galaxy de la plateforme GenOuest est le fruit du travail de 6 personnes :

  • Administration : AurĂ©lien Roult
  • DĂ©veloppement : Yvan Le Bras, Cyril Monjeaud, Olivier Quenez (aujourd’hui sur un autre projet) et Mathieu Bahin
  • Supervision : Olivier Collin

De septembre Ă  novembre 2012, une première instance a Ă©tĂ© mise en place avec l’intĂ©gration d’outils issus de Symbiose principalement. Cependant, des difficultĂ©s (conflits) ont Ă©tĂ© rencontrĂ©es lors de la mise Ă  jour Ă  partir du serveur principal de Galaxy (main.g2.bx.psu.edu), c’est pourquoi une vraie stratĂ©gie a Ă©tĂ© mise en place. Pendant un temps, il a Ă©tĂ© envisagĂ© de faire une instance par domaine (NGS, protĂ©omique, etc.) mais il a rapidement Ă©tĂ© conclus que cela serait compliquĂ© Ă  maintenir et inadaptĂ© car les utilisateurs peuvent ĂŞtre amenĂ©s Ă  faire des Ă©tudes transversales. De ce fait, il est important de veiller Ă  une bonne organisation des outils.

Depuis novembre 2012, il existe deux instances, une de dĂ©veloppement et une de production. L’instance de dĂ©veloppement est mise Ă  jour Ă  partir du dĂ©pĂ´t du main Galaxy (ce qui est parfois dangereux car les versions proposĂ©es ne sont pas toujours très stables). Cependant, l’Ă©quipe Galaxy est rĂ©active pour corriger les erreurs lorsqu’elles sont soulevĂ©es. Les dĂ©veloppements sont rĂ©alisĂ©s sur cette instance avant d’ĂŞtre basculĂ©s en production. Tout cela est gĂ©rĂ© Ă  l’aide d’un dĂ©pĂ´t Git. L’instance de production est mise Ă  jour plus d’une fois par mois.

En terme de configuration, la connexion se fait via le LDAP, il n’y a pas d’accès sans un compte sur le cluster GenOuest. Les jobs sont exĂ©cutĂ©s sur le Genocluster SGE sur lequel un demi nĹ“ud est affectĂ© Ă  chacune des deux instances (8 cores / 144 Go de RAM / 11 To d’espace). La base de donnĂ©es est sous PostgreSQL. Une file spĂ©ciale a Ă©tĂ© crĂ©Ă©e pour rĂ©pondre aux demandes dans le système de gestion de tickets de la plateforme GenOuest basĂ© sur OTRS.

De nombreux outils issus de des Ă©quipes Genscale et Dyliss, de la plateforme GenOuest et autres logiciels dĂ©veloppĂ©s ou utilisĂ©s par la communautĂ© Biogenouest ont Ă©tĂ© intĂ©grĂ©s. De plus, la mise Ă  jour des banques de donnĂ©es sont gĂ©rĂ©es via BioMAJ. L’instance se veut non spĂ©cialisĂ©e dans un domaine d’application en particulier. L’Ă©quipe bĂ©nĂ©ficie de l’expertise de plusieurs collègues sur Mobyle, dont principalement Olivier Sallou.

Actuellement, l’utilisation d’un toolshed privĂ© est en test. L’objectif est d’intĂ©grer de nombreux outils Ă  ce toolshed et possĂ©der un certain recul avant de proposer la mise en place d’un « toolshed du Grand Ouest ».

L’instance compte environ 60 utilisateurs Ă  ce jour.

3 formations ont Ă©tĂ© dispensĂ©es autour de l’instance de la plateforme GenOuest :

  • 04/12/12 : Formation test avec le groupe Symbiose (2h)
  • 08/01/13 : Formation pour les utilisateurs de GenOuest (1 journĂ©e)
  • 15/02/13 : Formation pour les utilisateurs de l’OSUR (1 journĂ©e)

Les retours sur ces formations ont été positifs et de nouvelles formations devraient être proposées.

Une 3ème instance est en cours de crĂ©ation, elle contiendra en particuliers l’outil « toolfactory » qui permet de crĂ©er et tester des outils Ă  la volĂ©e. Cela permettra Ă  des utilisateurs avertis de produire des outils avant de les proposer Ă  l’Ă©quipe afin de les intĂ©grer Ă  l’instance GenOuest. Cette nouvelle instance est quasiment prĂŞte et devrait voir le jour prochainement. Une rĂ©flexion est Ă©galement menĂ©e sur la possibilitĂ© de mettre les outils dĂ©veloppĂ©s Ă  disposition de tous par simple tĂ©lĂ©chargement (fichier xml et Ă©ventuel script appelĂ©).

La plateforme ABiMS, Station Biologique de Roscoff

L’Ă©quipe de Roscoff dispose de 3 instances : une de formation, une de dĂ©veloppement et une de production.

L’instance de production regroupe 4-5 workflows et quelques outils « maison ».

L’objectif est de monter une formation à la rentrée.

L’Ă©quipe sera prĂ©sente Ă  Oslo en juin pour le grand meeting Galaxy oĂą elle prĂ©sentera un poster et elle participe au groupe de travail IFB Galaxy France.

Le Pôle de calcul intensif pour la mer (PCIM), U.B.O./Ifremer/IUEM/SHOM/IRD/ENSTA, Plouzané

Le projet est géré par 2 personnes : Laure Quintric et Grégory Carrier. Entre avril et juin 2013, un stagiaire, Cédric Mendoza, aide au développement.

3 instances sont en interaction :

  • instance de l’Ifremer pour l’utilisation de pipeline NGS et des bases de donnĂ©es nationales
  • instance de PBA (Physiologie & Biotechnologies des Algues) pour les outils bioinfo du quotidien, des outils spĂ©cifiques de l’Ă©tude des micro-algues et l’accès aux bases de donnĂ©es du laboratoire
  • une troisième instance pour l’utilisation de pipeline NGS

L’instance de Brest fonctionne sur un serveur web intranet et avec une base de donnĂ©es PostgreSQL. Les jobs sont envoyĂ©s sur le calculateur et gĂ©rĂ©s par PBSpro. L’accès se fait via le LDAP.

Divers outils ont Ă©tĂ© intĂ©grĂ©s notamment Velvet pour l’assemblage, des outils de nettoyage/qualitĂ© NGS et Qiime pour la mĂ©tagĂ©nomique. Des workflows ont Ă©galement Ă©tĂ© dĂ©veloppĂ©s. Plusieurs projets ont Ă©tĂ© rĂ©alisĂ©s Ă  l’aide de Galaxy en assemblage, annotation, etc. Dans la plupart des cas, il y avait utilisation d’un outil intĂ©grĂ© Ă  Galaxy puis communication avec une base de donnĂ©es et production de donnĂ©es au format HTML. Des projets et des collaborations sont en cours ou Ă  venir.

Laure Quintric assistera à la conférence à Oslo.

INRA BIPAA, Rennes

Une instance a Ă©tĂ© crĂ©Ă©e (clone Ă  partir de l’instance de la plateforme GenOuest) par Anthony Bretaudeau et Fabrice Legeai dans le cadre de projets INRA.

L’instance est en production depuis janvier 2013, elle fonctionne par un accès LDAP et est ouverte Ă  une quinzaine de personnes. Elle dispose d’accès restreints Ă  quelques libraires, d’outils spĂ©cifiques et d’un quota de base plus Ă©levĂ© que l’instance de GenOuest.

Les objectifs sont de fournir aux utilisateurs une autonomie pour l’analyse des donnĂ©es, de produire quelques workflows standards et d’avoir un lien avec la gestion de mĂ©ta-donnĂ©es. Une forte demande de formation a Ă©tĂ© ressentie.

Plateforme BIRD, Université de Nantes

L’instance est encore en cours de dĂ©veloppement, Audrey BihouĂ©e et Edouard Hirchaud s’en occupent. Elle tourne actuellement sur un server interne avec une base de donnĂ©es PostgreSQL et un serveur FTP (demande d’expertise auprès de la plateforme GenOuest qui a dĂ©jĂ  rĂ©alisĂ© cette opĂ©ration).

Les outils intĂ©grĂ©s seront principalement MadTools, des outils d’analyse de donnĂ©es de puce (en cours) et de donnĂ©es NGS (fin 2013). Cette instance sera a priori très axĂ©e sur l’analyse des donnĂ©es de puces.

Il est prĂ©vu d’envoyer les jobs sur un cluster SGE quand il sera installĂ© et de passer par le LDAP pour l’identification.

Étant donnĂ© que les autres instances ont un peu d’avance sur le plateforme BIRD, ils n’hĂ©siteront pas Ă  demander des conseils pour bĂ©nĂ©ficier de l’expĂ©rience sur les autres instances.

Retours des utilisateurs

Utilisation de Galaxy

Certains utilisateurs largement avertis sur un outil peuvent ĂŞtre déçu par l’implĂ©mentation « simpliste » faite dans Galaxy. En effet, tous les paramètres disponibles en ligne de commande ne le sont pas toujours via Galaxy. De plus, il peut ĂŞtre regrettĂ© de ne pas pouvoir suivre rĂ©ellement le dĂ©roulement/Ă©tat d’avancement d’un job (quand il tourne, en jaune dans le panneau de droite). Cependant, cela reste très pratique pour la partage de donnĂ©es, la collaboration et l’amĂ©lioration du lien entre les communautĂ©s bio et info qui est aujourd’hui essentiel. L’aspect workflow simplifiĂ© reprĂ©sente Ă©galement une bonne raison de passer Ă  Galaxy.

Dans un futur proche, il n’est pas impossible que des enchainements d’outils soient proposĂ©s automatiquement (avec un apprentissage des enchainements rĂ©gulièrement rĂ©alisĂ©s par les utilisateurs).

Infrastructure d’accueil

Des inquiĂ©tudes ont Ă©tĂ© soulevĂ©es quant au nombre grandissant d’utilisateurs et Ă  la masse grandissante de donnĂ©es Ă  stocker et Ă  traiter. Les diffĂ©rentes instances seront-elles capable de faire face Ă  la demande ?

Sauvegarde des données

Le problème de la sauvegarde des donnĂ©es a Ă©tĂ© Ă©voquĂ©. Dans le cadre de la plateforme GenOuest, les donnĂ©es peuvent ĂŞtre sauvegardĂ©es sur le home des utilisateurs sur le cluster mais pas sur Galaxy car ce n’est pas un espace de stockage (et il n’est pas souhaitable de dupliquer les donnĂ©es). Pour les utilisateurs, il est important de pouvoir avoir accès aux analyses faites dans le passĂ©.

Maintien des outils/workflows

Le maintien des outils pose un rĂ©el problème (de la mĂŞme manière que sur le cluster) car il n’est pas souhaitable de voir de trop de version d’un mĂŞme outil sur Galaxy. Cela pose Ă©galement un problème pour les workflows car dès qu’un outil subit une mise Ă  jour, l’ensemble des workflows l’utilisant sont sucseptible de ne plus fonctionner correctement. Le fait de figer la version d’un outil est Ă©galement problĂ©matique car s’il est utilisĂ© dans plusieurs workflows, les auteurs et utilisateurs des diffĂ©rents workflows peuvent ne pas souhaiter figer la mĂŞme version.

Paramétrage des outils dans les workflows

Certains paramètres d’outils ne peuvent ĂŞtre paramĂ©trĂ©s dans le cadre de workflows. A priori, certaines balisent xml dans les wrappers ne permettent pas d’accĂ©der Ă  l’option « set at runtime » dans le design des workflows. Ce serait le cas notamment pour la balise « conditionnal ». Problème avec les conditions pour les workflows.

DĂ©veloppement, maintenance et perspectives

Un communiquĂ© sera prochainement proposĂ© Ă  la communautĂ© GUGGO pour diffusion sur la liste de diffusion Galaxy France. Il serait intĂ©ressant d’envoyer un communiquĂ© global en collaboration avec les autres instances de Galaxy Grand Ouest pour faire une annonce gĂ©nĂ©rale de l’existence du GUGGO et de ses instances associĂ©es.

Formations : retours et perspective

La possibilitĂ© de monter des formations en commun a Ă©tĂ© Ă©voquĂ©e. Cependant, cela implique une rĂ©flexion commune en amont afin d’avoir les mĂŞmes outils et les mĂŞmes jeux de donnĂ©es en partage.

RĂ©flexion sur un toolshed commun

La plateforme GenOuest est actuellement en train de faire des tests sur le dĂ©veloppement d’un toolshed privĂ©. Elle propose, Ă  terme, d’hĂ©berger le toolshed du Grand Ouest. Cyril Falentin a Ă©galement proposĂ© de se pencher un peu sur la question et notamment de tenter d’intĂ©grer 2 packages R dans un toolshed commun.

Ce toolshed commun pourrait tout d’abord permettre d’y rĂ©pertorier tous les outils prĂ©sents sur les diffĂ©rentes instances du Grand Ouest. Ainsi, les utilisateurs pourraient devenir contributeurs en tĂ©lĂ©chargeant les fichiers concernant un outil (.xml, .py ou autre) et en le modifiant s’il trouve par exemple que les options proposĂ©es ne lui correspondent pas.

Parallèlement, ce toolshed permettraient aux contributeurs utilisant l’instance galaxy-contrib d’uploader et donc partager leurs nouveaux outils dĂ©veloppĂ©s Ă  partir de simples scripts (Python, Perl, R ou autre).

Enfin, ce dĂ©pĂ´t faciliterait l’Ă©change d’outils entre instances distantes, et l’ajout d’outils provenant de contributeurs variĂ©s.

RĂ©flexion sur les visualisations

Alexan Andrieux, qui dĂ©veloppe actuellement un outil de visualisation de rĂ©seaux (notamment pour l’assemblage), a Ă©voquĂ© la possibilitĂ© d’intĂ©grer son outil de manière plus ou moins interne Ă  Galaxy.

Pour le reste, Trackster semble être un bon visualisateur associé à Galaxy. Mais de nombreuses choses restent encore à faire dans ce domaine.

Il existe une demande de la part des utilisateurs pour avoir plus de possibilités de visualisation dans Galaxy.