Le groupe GUGGO représente un espace collaboratif pour les scientifiques, biologistes ou bioinformaticiens, intéressés par l’analyse de données et la plateforme web Galaxy.
Ce groupe a pour but de faciliter le transfert d’informations au niveau du grand ouest concernant Galaxy en propageant les fondements de cette plateforme web, basés sur l’accessibilité, la reproductibilitéet la transparence.
Reunion GUGGO 2
You are currently viewing a revision titled "Reunion GUGGO 2", saved on 3 November 2016 at 17 h 53 min by Cyril MONJEAUD | |
---|---|
Title | Reunion GUGGO 2 |
Content | Seconde Réunion Groupe des Utilisateurs de Galaxy du Grand Ouest (GUGGO)04 juin – 14h/17h – IRISA / INRIA Présents Jeanne Cambefort (IE CNRS, GenScale), Laure Quintric (Ingénieur PCIM Ifremer Plouzané), Cédric Mendosa (stagiaire PCIM Ifremer Plouzané), Grégory Carrier (Postdoctorant Ifremer Nantes), Edouard Hirchaud (Plateforme Bio-informatique BRID Nantes), Audrey Bihouée (Plateforme Bioinformatique BRID Nantes), Stéphanie Mottier (IE IGDR), Cyril Falentin (INRA IGEPP), Aurélien Le Roult (Administrateur système INSERM GenOuest et PF Protéomique HD), Olivier Sallou (Responsable développement Université Rennes1 GenOuest), Philippe Vanderkoornhuyse (Professeur Université Rennes1 OSUR Rennes), Alexan Andrieux (Ingénieur INRIA Genscale), Olivier Quénez (Ingénieur INRIA GensCale), Sivasangari Nandy (Ingénieur GenOuest), Anthony Bretaudeau (IE INRA), Mathieu Bahin (IE GenOuest/PF Séquençage environnemental), Cyril Monjeaud (Ingénieur GenOuest) , Yvan Le Bras (CNRS /GenOuest) Excusés Olivier Collin (CNRS/GenOuest), Gilles Lassale (Ingénieur INRA IGEPP), Marc Aubry (IR Université Rennes1 PF Séquençage Santé)IntroductionSuite à la création du groupe des utilisateurs de Galaxy du Grand Ouest, une réunion s'était tenue en avril 2012 afin de préparer la mise en place d'instances de Galaxy au niveau des différentes plateformes de Bio-informatique de Bretagne et Pays de la Loire. Nous nous réunissons ce 4 juin dans les locaux de l'IRISA / INRIA pour une seconde réunion GUGGO afin de faire un point sur le développement des différentes instances.Point sur les différentes instancesLa plateforme GenOuest IRISA/INRIAL'instance Galaxy de la plateforme GenOuest est le fruit du travail de 6 personnes :
La plateforme ABiMS, Station Biologique de RoscoffL'équipe de Roscoff dispose de 3 instances : une de formation, une de développement et une de production. L'instance de production regroupe 4-5 workflows et quelques outils « maison ». L’objectif est de monter une formation à la rentrée. L'équipe sera présente à Oslo en juin pour le grand meeting Galaxy où elle présentera un poster et elle participe au groupe de travail IFB Galaxy France.Le Pôle de calcul intensif pour la mer (PCIM), U.B.O./Ifremer/IUEM/SHOM/IRD/ENSTA, PlouzanéLe projet est géré par 2 personnes : Laure Quintric et Grégory Carrier. Entre avril et juin 2013, un stagiaire, Cédric Mendoza, aide au développement. 3 instances sont en interaction :
INRA BIPAA, RennesUne instance a été créée (clone à partir de l'instance de la plateforme GenOuest) par Anthony Bretaudeau et Fabrice Legeai dans le cadre de projets INRA. L'instance est en production depuis janvier 2013, elle fonctionne par un accès LDAP et est ouverte à une quinzaine de personnes. Elle dispose d'accès restreints à quelques libraires, d'outils spécifiques et d'un quota de base plus élevé que l'instance de GenOuest. Les objectifs sont de fournir aux utilisateurs une autonomie pour l'analyse des données, de produire quelques workflows standards et d'avoir un lien avec la gestion de méta-données. Une forte demande de formation a été ressentie.Plateforme BIRD, Université de NantesL'instance est encore en cours de développement, Audrey Bihouée et Edouard Hirchaud s'en occupent. Elle tourne actuellement sur un server interne avec une base de données PostgreSQL et un serveur FTP (demande d'expertise auprès de la plateforme GenOuest qui a déjà réalisé cette opération). Les outils intégrés seront principalement MadTools, des outils d'analyse de données de puce (en cours) et de données NGS (fin 2013). Cette instance sera a priori très axée sur l'analyse des données de puces. Il est prévu d'envoyer les jobs sur un cluster SGE quand il sera installé et de passer par le LDAP pour l'identification. Étant donné que les autres instances ont un peu d'avance sur le plateforme BIRD, ils n’hésiteront pas à demander des conseils pour bénéficier de l’expérience sur les autres instances.Retours des utilisateursUtilisation de GalaxyCertains utilisateurs largement avertis sur un outil peuvent être déçu par l'implémentation « simpliste » faite dans Galaxy. En effet, tous les paramètres disponibles en ligne de commande ne le sont pas toujours via Galaxy. De plus, il peut être regretté de ne pas pouvoir suivre réellement le déroulement/état d'avancement d'un job (quand il tourne, en jaune dans le panneau de droite). Cependant, cela reste très pratique pour la partage de données, la collaboration et l'amélioration du lien entre les communautés bio et info qui est aujourd'hui essentiel. L'aspect workflow simplifié représente également une bonne raison de passer à Galaxy. Dans un futur proche, il n'est pas impossible que des enchainements d'outils soient proposés automatiquement (avec un apprentissage des enchainements régulièrement réalisés par les utilisateurs).Infrastructure d'accueilDes inquiétudes ont été soulevées quant au nombre grandissant d'utilisateurs et à la masse grandissante de données à stocker et à traiter. Les différentes instances seront-elles capable de faire face à la demande ?Sauvegarde des donnéesLe problème de la sauvegarde des données a été évoqué. Dans le cadre de la plateforme GenOuest, les données peuvent être sauvegardées sur le home des utilisateurs sur le cluster mais pas sur Galaxy car ce n'est pas un espace de stockage (et il n'est pas souhaitable de dupliquer les données). Pour les utilisateurs, il est important de pouvoir avoir accès aux analyses faites dans le passé.Maintien des outils/workflowsLe maintien des outils pose un réel problème (de la même manière que sur le cluster) car il n'est pas souhaitable de voir de trop de version d'un même outil sur Galaxy. Cela pose également un problème pour les workflows car dès qu'un outil subit une mise à jour, l'ensemble des workflows l'utilisant sont sucseptible de ne plus fonctionner correctement. Le fait de figer la version d'un outil est également problématique car s'il est utilisé dans plusieurs workflows, les auteurs et utilisateurs des différents workflows peuvent ne pas souhaiter figer la même version.Paramétrage des outils dans les workflowsCertains paramètres d'outils ne peuvent être paramétrés dans le cadre de workflows. A priori, certaines balisent xml dans les wrappers ne permettent pas d'accéder à l'option « set at runtime » dans le design des workflows. Ce serait le cas notamment pour la balise « conditionnal ». Problème avec les conditions pour les workflows.Développement, maintenance et perspectivesUn communiqué sera prochainement proposé à la communauté GUGGO pour diffusion sur la liste de diffusion Galaxy France. Il serait intéressant d'envoyer un communiqué global en collaboration avec les autres instances de Galaxy Grand Ouest pour faire une annonce générale de l'existence du GUGGO et de ses instances associées.Formations : retours et perspectiveLa possibilité de monter des formations en commun a été évoquée. Cependant, cela implique une réflexion commune en amont afin d'avoir les mêmes outils et les mêmes jeux de données en partage.Réflexion sur un toolshed communLa plateforme GenOuest est actuellement en train de faire des tests sur le développement d'un toolshed privé. Elle propose, à terme, d'héberger le toolshed du Grand Ouest. Cyril Falentin a également proposé de se pencher un peu sur la question et notamment de tenter d'intégrer 2 packages R dans un toolshed commun. Ce toolshed commun pourrait tout d'abord permettre d'y répertorier tous les outils présents sur les différentes instances du Grand Ouest. Ainsi, les utilisateurs pourraient devenir contributeurs en téléchargeant les fichiers concernant un outil (.xml, .py ou autre) et en le modifiant s'il trouve par exemple que les options proposées ne lui correspondent pas. Parallèlement, ce toolshed permettraient aux contributeurs utilisant l'instance galaxy-contrib d'uploader et donc partager leurs nouveaux outils développés à partir de simples scripts (Python, Perl, R ou autre). Enfin, ce dépôt faciliterait l'échange d'outils entre instances distantes, et l'ajout d'outils provenant de contributeurs variés.Réflexion sur les visualisationsAlexan Andrieux, qui développe actuellement un outil de visualisation de réseaux (notamment pour l'assemblage), a évoqué la possibilité d'intégrer son outil de manière plus ou moins interne à Galaxy. Pour le reste, Trackster semble être un bon visualisateur associé à Galaxy. Mais de nombreuses choses restent encore à faire dans ce domaine. Il existe une demande de la part des utilisateurs pour avoir plus de possibilités de visualisation dans Galaxy. |
Excerpt | |
Footnotes |