Le groupe GUGGO reprĂ©sente un espace collaboratif pour les scientifiques, biologistes ou bioinformaticiens, intĂ©ressĂ©s par lâanalyse de donnĂ©es et la plateforme web Galaxy.
Ce groupe a pour but de faciliter le transfert dâinformations au niveau du grand ouest concernant Galaxy en propageant les fondements de cette plateforme web, basĂ©s sur lâaccessibilitĂ©, la reproductibilitĂ©et la transparence.
Reunion GUGGO 2
You are currently viewing a revision titled "Reunion GUGGO 2", saved on 3 November 2016 at 17 h 53 min by Cyril MONJEAUD | |
---|---|
Title | Reunion GUGGO 2 |
Content | Seconde RĂ©union Groupe des Utilisateurs de Galaxy du Grand Ouest (GUGGO)04 juin â 14h/17h â IRISA / INRIA PrĂ©sents Jeanne Cambefort (IE CNRS, GenScale), Laure Quintric (IngĂ©nieur PCIM Ifremer PlouzanĂ©), CĂ©dric Mendosa (stagiaire PCIM Ifremer PlouzanĂ©), GrĂ©gory Carrier (Postdoctorant Ifremer Nantes), Edouard Hirchaud (Plateforme Bio-informatique BRID Nantes), Audrey BihouĂ©e (Plateforme Bioinformatique BRID Nantes), StĂ©phanie Mottier (IE IGDR), Cyril Falentin (INRA IGEPP), AurĂ©lien Le Roult (Administrateur systĂšme INSERM GenOuest et PF ProtĂ©omique HD), Olivier Sallou (Responsable dĂ©veloppement UniversitĂ© Rennes1 GenOuest), Philippe Vanderkoornhuyse (Professeur UniversitĂ© Rennes1 OSUR Rennes), Alexan Andrieux (IngĂ©nieur INRIA Genscale), Olivier QuĂ©nez (IngĂ©nieur INRIA GensCale), Sivasangari Nandy (IngĂ©nieur GenOuest), Anthony Bretaudeau (IE INRA), Mathieu Bahin (IE GenOuest/PF SĂ©quençage environnemental), Cyril Monjeaud (IngĂ©nieur GenOuest) , Yvan Le Bras (CNRS /GenOuest) ExcusĂ©s Olivier Collin (CNRS/GenOuest), Gilles Lassale (IngĂ©nieur INRA IGEPP), Marc Aubry (IR UniversitĂ© Rennes1 PF SĂ©quençage SantĂ©)IntroductionSuite Ă la crĂ©ation du groupe des utilisateurs de Galaxy du Grand Ouest, une rĂ©union s'Ă©tait tenue en avril 2012 afin de prĂ©parer la mise en place d'instances de Galaxy au niveau des diffĂ©rentes plateformes de Bio-informatique de Bretagne et Pays de la Loire. Nous nous rĂ©unissons ce 4 juin dans les locaux de l'IRISA / INRIA pour une seconde rĂ©union GUGGO afin de faire un point sur le dĂ©veloppement des diffĂ©rentes instances.Point sur les diffĂ©rentes instancesLa plateforme GenOuest IRISA/INRIAL'instance Galaxy de la plateforme GenOuest est le fruit du travail de 6 personnes :
La plateforme ABiMS, Station Biologique de RoscoffL'Ă©quipe de Roscoff dispose de 3 instances : une de formation, une de dĂ©veloppement et une de production. L'instance de production regroupe 4-5 workflows et quelques outils « maison ». Lâobjectif est de monter une formation Ă la rentrĂ©e. L'Ă©quipe sera prĂ©sente Ă Oslo en juin pour le grand meeting Galaxy oĂč elle prĂ©sentera un poster et elle participe au groupe de travail IFB Galaxy France.Le PĂŽle de calcul intensif pour la mer (PCIM), U.B.O./Ifremer/IUEM/SHOM/IRD/ENSTA, PlouzanĂ©Le projet est gĂ©rĂ© par 2 personnes : Laure Quintric et GrĂ©gory Carrier. Entre avril et juin 2013, un stagiaire, CĂ©dric Mendoza, aide au dĂ©veloppement. 3 instances sont en interaction :
INRA BIPAA, RennesUne instance a Ă©tĂ© créée (clone Ă partir de l'instance de la plateforme GenOuest) par Anthony Bretaudeau et Fabrice Legeai dans le cadre de projets INRA. L'instance est en production depuis janvier 2013, elle fonctionne par un accĂšs LDAP et est ouverte Ă une quinzaine de personnes. Elle dispose d'accĂšs restreints Ă quelques libraires, d'outils spĂ©cifiques et d'un quota de base plus Ă©levĂ© que l'instance de GenOuest. Les objectifs sont de fournir aux utilisateurs une autonomie pour l'analyse des donnĂ©es, de produire quelques workflows standards et d'avoir un lien avec la gestion de mĂ©ta-donnĂ©es. Une forte demande de formation a Ă©tĂ© ressentie.Plateforme BIRD, UniversitĂ© de NantesL'instance est encore en cours de dĂ©veloppement, Audrey BihouĂ©e et Edouard Hirchaud s'en occupent. Elle tourne actuellement sur un server interne avec une base de donnĂ©es PostgreSQL et un serveur FTP (demande d'expertise auprĂšs de la plateforme GenOuest qui a dĂ©jĂ rĂ©alisĂ© cette opĂ©ration). Les outils intĂ©grĂ©s seront principalement MadTools, des outils d'analyse de donnĂ©es de puce (en cours) et de donnĂ©es NGS (fin 2013). Cette instance sera a priori trĂšs axĂ©e sur l'analyse des donnĂ©es de puces. Il est prĂ©vu d'envoyer les jobs sur un cluster SGE quand il sera installĂ© et de passer par le LDAP pour l'identification. Ătant donnĂ© que les autres instances ont un peu d'avance sur le plateforme BIRD, ils nâhĂ©siteront pas Ă demander des conseils pour bĂ©nĂ©ficier de lâexpĂ©rience sur les autres instances.Retours des utilisateursUtilisation de GalaxyCertains utilisateurs largement avertis sur un outil peuvent ĂȘtre déçu par l'implĂ©mentation « simpliste » faite dans Galaxy. En effet, tous les paramĂštres disponibles en ligne de commande ne le sont pas toujours via Galaxy. De plus, il peut ĂȘtre regrettĂ© de ne pas pouvoir suivre rĂ©ellement le dĂ©roulement/Ă©tat d'avancement d'un job (quand il tourne, en jaune dans le panneau de droite). Cependant, cela reste trĂšs pratique pour la partage de donnĂ©es, la collaboration et l'amĂ©lioration du lien entre les communautĂ©s bio et info qui est aujourd'hui essentiel. L'aspect workflow simplifiĂ© reprĂ©sente Ă©galement une bonne raison de passer Ă Galaxy. Dans un futur proche, il n'est pas impossible que des enchainements d'outils soient proposĂ©s automatiquement (avec un apprentissage des enchainements rĂ©guliĂšrement rĂ©alisĂ©s par les utilisateurs).Infrastructure d'accueilDes inquiĂ©tudes ont Ă©tĂ© soulevĂ©es quant au nombre grandissant d'utilisateurs et Ă la masse grandissante de donnĂ©es Ă stocker et Ă traiter. Les diffĂ©rentes instances seront-elles capable de faire face Ă la demande ?Sauvegarde des donnĂ©esLe problĂšme de la sauvegarde des donnĂ©es a Ă©tĂ© Ă©voquĂ©. Dans le cadre de la plateforme GenOuest, les donnĂ©es peuvent ĂȘtre sauvegardĂ©es sur le home des utilisateurs sur le cluster mais pas sur Galaxy car ce n'est pas un espace de stockage (et il n'est pas souhaitable de dupliquer les donnĂ©es). Pour les utilisateurs, il est important de pouvoir avoir accĂšs aux analyses faites dans le passĂ©.Maintien des outils/workflowsLe maintien des outils pose un rĂ©el problĂšme (de la mĂȘme maniĂšre que sur le cluster) car il n'est pas souhaitable de voir de trop de version d'un mĂȘme outil sur Galaxy. Cela pose Ă©galement un problĂšme pour les workflows car dĂšs qu'un outil subit une mise Ă jour, l'ensemble des workflows l'utilisant sont sucseptible de ne plus fonctionner correctement. Le fait de figer la version d'un outil est Ă©galement problĂ©matique car s'il est utilisĂ© dans plusieurs workflows, les auteurs et utilisateurs des diffĂ©rents workflows peuvent ne pas souhaiter figer la mĂȘme version.ParamĂ©trage des outils dans les workflowsCertains paramĂštres d'outils ne peuvent ĂȘtre paramĂ©trĂ©s dans le cadre de workflows. A priori, certaines balisent xml dans les wrappers ne permettent pas d'accĂ©der Ă l'option « set at runtime » dans le design des workflows. Ce serait le cas notamment pour la balise « conditionnal ». ProblĂšme avec les conditions pour les workflows.DĂ©veloppement, maintenance et perspectivesUn communiquĂ© sera prochainement proposĂ© Ă la communautĂ© GUGGO pour diffusion sur la liste de diffusion Galaxy France. Il serait intĂ©ressant d'envoyer un communiquĂ© global en collaboration avec les autres instances de Galaxy Grand Ouest pour faire une annonce gĂ©nĂ©rale de l'existence du GUGGO et de ses instances associĂ©es.Formations : retours et perspectiveLa possibilitĂ© de monter des formations en commun a Ă©tĂ© Ă©voquĂ©e. Cependant, cela implique une rĂ©flexion commune en amont afin d'avoir les mĂȘmes outils et les mĂȘmes jeux de donnĂ©es en partage.RĂ©flexion sur un toolshed communLa plateforme GenOuest est actuellement en train de faire des tests sur le dĂ©veloppement d'un toolshed privĂ©. Elle propose, Ă terme, d'hĂ©berger le toolshed du Grand Ouest. Cyril Falentin a Ă©galement proposĂ© de se pencher un peu sur la question et notamment de tenter d'intĂ©grer 2 packages R dans un toolshed commun. Ce toolshed commun pourrait tout d'abord permettre d'y rĂ©pertorier tous les outils prĂ©sents sur les diffĂ©rentes instances du Grand Ouest. Ainsi, les utilisateurs pourraient devenir contributeurs en tĂ©lĂ©chargeant les fichiers concernant un outil (.xml, .py ou autre) et en le modifiant s'il trouve par exemple que les options proposĂ©es ne lui correspondent pas. ParallĂšlement, ce toolshed permettraient aux contributeurs utilisant l'instance galaxy-contrib d'uploader et donc partager leurs nouveaux outils dĂ©veloppĂ©s Ă partir de simples scripts (Python, Perl, R ou autre). Enfin, ce dĂ©pĂŽt faciliterait l'Ă©change d'outils entre instances distantes, et l'ajout d'outils provenant de contributeurs variĂ©s.RĂ©flexion sur les visualisationsAlexan Andrieux, qui dĂ©veloppe actuellement un outil de visualisation de rĂ©seaux (notamment pour l'assemblage), a Ă©voquĂ© la possibilitĂ© d'intĂ©grer son outil de maniĂšre plus ou moins interne Ă Galaxy. Pour le reste, Trackster semble ĂȘtre un bon visualisateur associĂ© Ă Galaxy. Mais de nombreuses choses restent encore Ă faire dans ce domaine. Il existe une demande de la part des utilisateurs pour avoir plus de possibilitĂ©s de visualisation dans Galaxy. |
Excerpt | |
Footnotes |