Previous seminars – 2017

(archives from old symbiose site)

 

  • Novel Pattern Mining Techniques for Genome-wide Association Studies
    Hoang Son Pham (IRISA/INRIA lab, University Rennes 1)
    Friday, December 22, 2017 – 14:00
    Room Metiviers
    Talk abstract: 
    Discovering high-order SNP combinations associated with diseases is an important task of bioinformatics.
    Once  new  genetic associations are identified, they can be used to develop better strategies to detect, treat and prevent the diseases.
    Recently, this issue has been effectively tackled with discriminative pattern mining algorithms.
    However, the number of SNPs is often very large, discovering of SNP combinations remains many challenges.
    To address these challenges this thesis has been advanced the state-of-the-art discriminative pattern mining techniques to discover SNP combinations associated with interesting phenotype.
    Different solutions have been proposed in this thesis to tackle GWAS analysis.
    These solutions focus on efficient association strength evaluation, statistically significant discriminative SNP combinations discovery and interesting SNP combinations visualization.
    The solutions proposed in this thesis are also promising for other tasks of bioinformatics such as differential gene expression discovery, phosphorylation motifs detection and regulatory motif combination mining.
     
     
  • Étude exhaustive de voies de signalisation de grande taille par clustering des trajectoires et caractĂ©risation par analyse sĂ©mantique
    Jean Coquet
    Wednesday, December 20, 2017 – 14:00
    Room MĂ©tivier
    Talk abstract: 

    TBA

  • Extraction de k-mers gĂ©nomiques dans des reads longs
    Pierre Morisse
    Thursday, December 7, 2017 – 10:30
    Room Minquiers
    Talk abstract: 

    Les mĂ©thodes modernes de correction de reads longs, qu’elles soient hybrides ou non, reposent davantage sur l’utilisation de graphes de de Bruijn, plutĂ´t que sur de multiples alignements. Dans le cas hybride, un graphe de de Bruijn fiable peut facilement ĂŞtre construit Ă  partir des k-mers des reads courts. Cependant, dans le cas de l’auto-correction, construire un graphe fiable uniquement Ă  partir des reads longs est difficile, notamment dans le cas des donnĂ©es Oxford Nanopore, qui sont très bruitĂ©es. En effet, Ă  cause de leur fort taux d’erreur, une simple Ă©tude de frĂ©quence des k-mers des reads longs ne permet pas de diffĂ©rencier les k-mers gĂ©nomiques des k-mers contenant des erreurs de sĂ©quençage. Nous introduisons donc une nouvelle approche, visant Ă  simuler de potentielles corrections aux erreurs d’insertions et de suppressions prĂ©sentes dans les reads longs, lors de l’extraction des k-mers, afin de permettre de diffĂ©rencier les k-mers gĂ©nomiques des k-mers contenant des erreurs.Nous nous penchons ensuite sur les mots minimaux absents des reads longs et en soulignons une propriĂ©tĂ© intĂ©ressante. Nous Ă©tudions une approche utilisant ces mots minimaux absents, et cette propriĂ©tĂ© particulière, afin de tenter d’identifier les k-mers gĂ©nomique dans un ensemble de k-mers. Nous donnons Ă©galement quelques pistes restant Ă  explorer pour la correction, mais Ă©galement pour l’assemblage, de reads longs avec ces mots minimaux absents.

  • MĂ©tagĂ©nomique comparative de novo Ă  grande Ă©chelle
    Gaetan Benoit
    Wednesday, November 29, 2017 – 13:45
    Room MĂ©tiviers
    Talk abstract: 
    La métagénomique vise à étudier le contenu génomique d’un échantillon extrait d’un milieu naturel. Parmi les analyses de données métagénomiques, la métagénomique comparative a pour objectif d’estimer la similarité entre deux ou plusieurs environnements d’un point de vue génomique. L’approche traditionnelle compare les échantillons sur la base des espèces identifiées. Cependant, cette méthode est biaisée par l’incomplétude des bases de données de références.
    La métagénomique comparative est dite de novo lorsque les échantillons sont comparés sans connaissances a priori. La similarité est alors estimée en comptant le nombre de séquences d’ADN similaires entre les jeux de données. Un projet métagénomique génère typiquement des centaines de jeux de données. Chaque jeu contient des dizaines de millions de courtes séquences d’ADN de 100 à 200 nucléotides (appelées lectures). Dans le contexte du début de cette thèse, il aurait fallu des années pour comparer une telle masse de données avec les méthodes usuelles. Cette thèse présente des approches de novo pour calculer très rapidement la similarité entre de nombreux jeux de données.
    Les travaux que nous proposons se basent sur le k-mer (mot de taille k) comme unité de comparaison des métagénomes. La méthode principale développée pendant cette thèse, nommée Simka, calcule de nombreuses mesures de similarité en remplacement les comptages d’espèces classiquement utilisés par des comptages de grands k-mers (k > 21). Simka passe à l’échelle sur les projets métagénomiques actuels grâce à un nouvelle stratégie pour compter les k-mers de nombreux jeux de données en parallèle.
    Les expériences sur les données du projet Human Microbiome Projet et Tara Oceans montrent que les similarités calculées par Simka sont bien corrélées avec les similarités basées sur des comptages d’espèces ou d’OTUs. Simka a traité ces projets (plus de 30 milliards de lectures réparties dans des centaines de jeux) en quelques heures. C’est actuellement le seul outil à passer à l’échelle sur une telle quantité de données, tout en étant complet du point de vue des résultats de comparaisons.
     
     
    — english version —
     
    Large scale de novo comparative metagenomics
     
    Metagenomics studies the genomic content of a sample extracted from a natural environment. Among available analyses, comparative metagenomics aims at estimating the similarity between two or more environmental samples at the genomic level. The traditional approach compares the samples based on their content in known identified species. However, this method is biased by the incompleteness of reference databases.
    By contrast, de novo comparative metagenomics does not rely on a priori knowledge. Sample similarity is estimated by counting the number of similar DNA sequences between datasets. A metagenomic project typically generates hundreds of datasets. Each dataset contains tens of millions of short DNA sequences ranging from 100 to 150 base pairs (called reads). In the context of this thesis, it would require years to compare such an amount of data with usual methods.
    This thesis presents novel de novo approaches to quickly compute the similarity between numerous datasets. The main idea underlying our work is to use the k-mer (word of size k) as a comparison unit of the metagenomes. The main method developed during this thesis, called Simka, computes several similarity measures by replacing species counts by k-mer counts (k > 21). Simka scales-up today’s metagenomic projects thanks to a new parallel k-mer counting strategy on multiple datasets.
    Experiments on data from the Human Microbiome Project and Tara Oceans show that the similarities computed by Simka are well correlated with reference-based and OTU-based similarities. Simka processed these projects (more than 30 billions of reads distributed in hundreds of datasets) in few hours. It is currently the only tool able to scale-up such projects, while providing precise and extensive comparison results.

     

  • IntĂ©grer les Ă©chelles molĂ©culaires et cellulaires dans l’infĂ©rence de rĂ©seaux mĂ©taboliques. Application aux xĂ©nobiotiques
    Victorien DelannĂ©e (Symbiose – Dyliss)
    Wednesday, November 8, 2017 – 10:30
    Room MĂ©tivier
    Talk abstract: 

    PrĂ©dire, modĂ©liser et analyser le mĂ©tabolisme de xĂ©nobiotiques, substances Ă©trangères Ă  un organisme, Ă  l’aide de mĂ©thodes informatiques est un challenge majeur mobilisant la communautĂ© scientifique depuis de nombreuses annĂ©es. Cette thèse vise Ă  implĂ©menter des mĂ©thodes informatiques multi-Ă©chelles pour prĂ©dire et analyser le mĂ©tabolisme des xĂ©nobiotiques. Un premier axe de cette Ă©tude portait sur la construction et l’annotation automatique de novo de graphes mĂ©taboliques combinant fortes sensibilitĂ©s et prĂ©cisions. Ces graphes fournissent ainsi la prĂ©diction du mĂ©tabolisme de xĂ©nobiotiques chez l’homme, ainsi que la gĂ©notoxicitĂ© des molĂ©cules et atomes qui le composent. Puis, le travail s’est orientĂ© sur l’implĂ©mentation d’un modèle mathĂ©matique dynamique modĂ©lisant des effets de compĂ©tition enzymatique Ă  travers le dĂ©veloppement d’une mĂ©thodologie permettant l’exploitation de donnĂ©es biologiques restreintes tout en limitant les biais inhĂ©rents. 

  • Soutenance de thèse “Structure de rĂ©seaux biologiques : rĂ´le des noeuds internes vis-Ă -vis de la production de composĂ©s”
    Julie Laniau – Dyliss
    Monday, October 23, 2017 – 14:00
    Room MĂ©tivier
    Talk abstract: 

    Durant cette thèse nous nous sommes intéressés aux réseaux métaboliques et notamment leur
    modélisation sous forme d’un graphe bipartite orienté pondéré. Ce dernier permet d’étudier la pro-
    duction d’éléments cibles métaboliques regroupés dans une biomasse à partir de composants pro-
    venant du milieu de croissance de l’organisme. Nous nous sommes plus particulièrement penchés
    sur le rôle des métabolites internes au réseau et la notion d’essentialité de ces derniers pour la
    production d’une biomasse dont nous avons raffiné la définition dans le cas d’une étude de flux
    (métabolite essentiel du point de vue de la productibilité du réseau et métabolite essentiel du point
    de vue de l’efficacité du réseau) puis étendu cette dernière dans le cas d’une étude topologique
    (métabolite essentiel du point du vue de la persistance du réseau). Nous nous sommes pour cela
    reposés sur le formalisme d’un part de Flux Balance Analysis et ses dérivés, et d’autre part d’ex-
    pansion de réseau, afin de définir un métabolite essentiel (ou carrefour), nous permettant de mettre
    au point un package python (Conquests) cherchant les carrefours dans un réseau métabolite. Nous
    avons appliqué ce dernier à six réseaux métaboliques dont quatre provenant d’espèces modèles
    (iJO1360, iAF1260 et iJR904 d’E. coli et Synecchocystis) et les deux autres d’espèces plus spécifiques
    (A. ferrooxidans et T. lutea). Nous avons aussi défini le concept de cluster de métabolites essentiels
    du point du vue de la persistance du réseau lié aux composants de la biomasse auxquels ils sont
    nécessaires et que nous avons appliqué sur les six réseaux métaboliques précédents et sur 3600
    réseaux dégradés du réseau iJR904 de E. coli puis reconstruits selon trois méthodes de gapfilling
    (Gapfill, Fastgapfill et Meneco) afin de comparer ces dernières. Ces études nous ont permis de
    mette en avant l’importance de métabolites internes dans la production de composés cibles.

  • Graphs as an universal modelling tool
    Nicola Yanev
    Thursday, October 5, 2017 – 10:30
    Room Aurigny
    Talk abstract: 

    The classical topics in optimization graph theory are extended by several new problems,  inspired by the practice:
    – new classes of matching problems in bipartite graphs: inspired by still actual problematic of recognition of protein folding, comparison of protein 3D structure and even the travelling salesman problem,
    – shortest walks over the vertices of the unit hypercube: inspired by needs of  optimization module of a warehouse management system, used to schedule the loading operation in a huge warehouse;
    – finding the fixed number of connected components with the minimum maximal diameter: inspired by the challenge to determine mathematical electoral districts in a single member constituency ,
    – finding the minimum clique cover in a colored graph: inspired by a new approach to the well known classification problem, that is – to recover a partially known stepwise function . 

    • Un voyage bioinformatique dans l’ocĂ©an des donnĂ©es cytomĂ©triques de grandes dimensions
      Nicolas Tchichek
      Thursday, September 21, 2017 – 10:30
      Room Minquiers
      Talk abstract: 

      La cytomĂ©trie en flux et de masse sont des techniques expĂ©rimentales qui permettent de mesurer des protĂ©ines exprimĂ©es par des cellules Ă  une rĂ©solution cellulaire (single-cell profiling). La cytomĂ©trie en flux peut actuellement mesurer jusqu’Ă  18 marqueurs cellulaires pour des millions de cellules. La cytomĂ©trie de masse, qui a Ă©tĂ© introduite plus rĂ©cemment, peut mesurer jusqu’Ă  40 marqueurs cellulaires pour des centaines de milliers de cellules.

      L’analyse de ces données nécessite des nouvelles approches bioinformatiques pour identifier les principales populations cellulaires dans ces matrices tridimensionnelles de grandes dimensions. Ainsi, des algorithmes comme SPADE, viSNE ou Citrus ont été proposé pour identifier automatiquement les populations cellulaires présentes dans des profils cytométriques. Une fois ces populations cellulaires détectées des analyses bioinformatiques complémentaires sont nécessaire pour sélectionner les populations ayant un intérêt biologique particulier.

      Je présenterai dans ce séminaire des approches bio-informatiques que nous avons développées récemment dans notre laboratoire. Plus précisément, nous avons conçus des algorithmes qui permettent : (i) d’identifier les populations cellulaires ayant des phénotypes et comportements pertinents ; (ii) de comparer statistiquement les phénotypes des populations cellulaires ; et (iii) de combiner les informations phénotypiques de populations cellulaires obtenues à partir d’expériences différentes.

      Enfin, je conclurai en discutant des limites des approches bio-informatiques existantes et ainsi des nouveaux défis à relever dans le futur.

    • Towards a Logical Framework for Systems Biology
      Joelle Despeyroux – INRIA Sophia-Antipolis
      Thursday, September 14, 2017 – 10:30
      Room Minquiers
      Talk abstract: 

      We advocates here the use of (mathematical) logic for systems biology, as a unified framework well suited for both modeling the dynamic behaviour of biological systems, expressing properties of them, and verifying these properties.
      The potential candidate logics should have a traditional proof theoretic pedigree (including a sequent calculus presentation enjoying cut-elimination and focusing), and should come with (certified) proof tools. Beyond providing a reliable framework, this allows the adequate encodings of our biological systems.
      We have up to now two main candidate logics; both are modal extensions of linear logic.
      The examples we have considered so far are very simple ones – coming with completely formal (interactive) proofs in Coq.
      Future works includes using automatic provers, which will eventually extend existing automatic provers for linear logic. This should enable us to specify and study more realistic examples in systems biology and biomedicine.

    • Formal Language Representation and Modeling of Bio-molecular Structures by Matrix Insertion-Deletion Systems
      Lakshmanan
      Wednesday, July 5, 2017 – 10:30 to Saturday, July 29, 2017 – 10:30
      Room Aurigny
      Talk abstract: 

      David Searls initiated the representation of molecules as strings and modeled structures formed by the molecules using formal grammars. The work opened the doors to tackle many problems in computational biology like predicting pseudoknot structures of biomolecules. Subsequently, Sakakibara, Hausler, Eddy, Rivas, Umera and others introduced various grammar formalisms for modeling predominantly noticed bio-molecular structures such as stem-loop, pseduoknot, attenuator, clover-leaf, dumbbell. However, there is no unique grammar formalism that models all the structures discussed in literature. In this talk, we shall study a recently introduced grammar formalism namely matrix insertion-deletion systems. In this system, set of rules are applied in order which helps to synchronize the elements even at far. With this system, we will model several intra and inter molecular structures of DNA and RNA. We will also model parallel and anti-parallel beta sheets of protein molecules with the system. 

    • Algorithmique pour les peptides non ribosomiques
      Yoann Dufresne (univ. lille)
      Thursday, June 29, 2017 – 10:30
      Room Aurigny
      Talk abstract: 
      La composition monomĂ©rique de polymères joue un rĂ´le essentiel dans la comparaison de structures et dans la biologie de synthèse. Cependant, la plupart des ressources molĂ©culaires en ligne donne accès Ă  la structure atomique des molĂ©cules et non Ă  leur structure monomĂ©rique. C’est dans ce contexte que j’ai dĂ©veloppĂ© au cours de ma thèse, un outil appelĂ© Smiles2Monomers (s2m) dĂ©diĂ© Ă  la crĂ©ation d’un pont entre ces deux structures.
       
      Au cours de la prĂ©sentation, nous reviendrons sur les aspects algorithmiques de graphes liĂ©s aux recherches de structures. Nous verrons, entre autre, comment il est possible d’effectuer des recherches exactes de sous graphes en optimisant le temps dĂ©pensĂ©.
      Au delĂ  de l’aspect algorithmique, je prĂ©senterai Ă©galement les applications concrètes de ces algorithmes dans l’optique d’amĂ©liorer la base de donnĂ©e Norine. Nous pointerons les avantages de l’utilisation de s2m autant dans la limitation du nombre d’erreurs ajoutĂ©es Ă  la base par les utilisateurs, la correction des erreurs dĂ©jĂ  prĂ©sentes ainsi que l’entrĂ©e automatique de nouvelles donnĂ©es.
    • An eco-systems view of complex natural microbiomes
      Samuel Chaffron (Universite Nantes)
      Thursday, June 15, 2017 – 10:30
      Room Aurigny
      Talk abstract: 

      Microbial communities play crucial ecological roles on our planet, impacting all ecosystems at various levels. Notably, they sustain Earth’s biogeochemical cycles in the oceans, protect plants from pathogens, and also influence host nutrition, immunity and development in humans. Next-Generation Sequencing (NGS) and functional genomics technologies (so called omics approaches) are revolutionizing the field of environmental microbiology and are reshaping our view on microbial ecosystems. These approaches enable the study of ecological systems at the molecular scale and are revealing the under-explored diversity and complexity of microbial ecosystems. Yet our ability to understand and predict the structures and functions of these complex and dynamic microbial communities is very limited. Notwithstanding, the genomic content of naturally co-occurring microbes can now be investigated in situ, and their metabolic networks can be reconstructed and integrated to gain insights into their physiology (from an environmental genotype to its phenotype). Past and on-going work presented here will ultimately lead to the design of integrative models through a microbial metabolic modeling platform integrating omics data, ecological information and metabolic networks reconstruction to further understand and predict microbial communities and ecosystems in and around us. This Microbial Systems Ecology (ECOSYSMIC) platform will enable to go beyond the simple description of natural microbial communities by building computational models to gain a predictive understanding of community function and dynamics, and acquire a mechanistic understanding of microbial species interactions and ecosystem functioning.

    • Filling Scaffolds
      Laurent Bulteau ( LIGM)
      Thursday, June 8, 2017 – 10:30
      Room Aurigny
      Talk abstract: 

       

      The Scaffold Filling problem was introduced by Muñoz et al. with the objective
      of using, for genomic distance purposes, not only perfectly sequenced genomes but
      also unfinished drafts. Indeed, with the development of NGS technologies, it has
      become much faster and cheaper to produce a first draft of any genome. However,
      the cost of “polishing” the draft to a complete sequence has not decreased with the
      same rate, thus many species are left with a genome in scaffold form. In such a form,
      a genome is only known as a series of contigs (i.e., contiguous segments of genes),
      separated by unknown gaps, sometimes with an indication on the length of the gap.
      With the help of a reference genome, that is, the complete genome of a close-
      enough species, one can hope to fill the gaps. Indeed, Muñoz et al. proposed a
      polynomial-time algorithm computing a most parsimonious rearrangement scenario
      between a scaffold and a reference genome, thereby completing the scaffold. However,
      this approach can only be applied in the absence of duplications – the problem
      becomes computationaly hard otherwise. From then on, several algorithms have been
      proposed to deal with gene duplications in order to compute simplified rearrangement
      distances, using both approximation and parameterized techniques. We will
      review these methods, as well as possible extensions of the problem.

    • A Combinatorial Algorithm for Microbial Consortia Synthetic Design
      Alice Julien Laferrière (Lyon)
      Thursday, April 27, 2017 – 10:30
      Room Aurigny
      Talk abstract: 
      RĂ©sumĂ© en français plus bas. 
       
       
      ————————————————————————————-
       
      MULTIPUS (MULTIple species for the synthetic Production of Useful biochemical Substances) is a method to infer microbial communities and metabolic pathways to product specific target compounds from a set of defined substrates.
       
      We use a weighted directed hypergraph and we merge several metabolic networks, including possible transports and exogenous reactions. The problem translates into the enumeration of Directed Steiner Hypertrees. 
       
      We proposed to solve this enumeration problem using an dynamic programming algorithm or an answer-set programming (ASP) solver. Finally, we illustrated MULTIPUS with two case study, the production of antibiotics using a synthetic consortia and the artificial association of a methanogenic archae with Klebsiella pneumoniae.
       
       
      ————————————————————————————————————-
      Nous avons rĂ©flĂ©chi Ă  une mĂ©thode permettant d’infĂ©rer des voies mĂ©taboliques d’intĂ©rĂŞt pour la production de composĂ©s chimiques au sein d’une communautĂ© de micro-organismes.
       Dans cette mĂ©thode, nous reprĂ©sentons les rĂ©seaux mĂ©taboliques sous la forme d’hypergraphes dirigĂ©s et pondĂ©rĂ©s et permettons de prendre en compte  diffĂ©rentes souches ou espèces ainsi que des transports de composĂ©s ou encore l’insertion de rĂ©actions par ingĂ©nierie gĂ©nĂ©tique.
       
      Le problème correspond alors Ă  un problème d’Ă©numĂ©ration d’hyper-arbres de Steiner dirigĂ©s. 
       
      Nous avons proposĂ© de rĂ©soudre cela soit avec un algorithme de programmation dynamique paramĂ©trĂ©, soit par une approche de programmation par ensemble rĂ©ponse (ASP). 
      Ces deux approches sont implĂ©mentĂ©es dans  MULTIPUS (MULTIple species for the synthetic Production of Useful biochemical Substances). Enfin nous avons illustrĂ© l’intĂ©rĂŞt de MULTIPUS dans deux cas d’applications, une communautĂ© synthĂ©tique pour la production d’antibiotiques et un consortium artificiel.
    • SĂ©quençage SMRT et gĂ©nome mitochondrial atypique des cloportes.
      Jean Peccoud (université Poitiers)
      Thursday, April 6, 2017 – 10:30
      Room Aurigny
      Talk abstract: 
      Les cloportes (Isopodes: oniscidés) possèdent un génome mitochondrial curieux. Il est composé d’une unité génomique de 14 kb dans une molécule linéaire, et d’un dimère circulaire de 28 kb composé de 2 unités en palindrome. Chaque individu porte les deux types de molécules.
      Par ailleurs, un mĂŞme locus de ce gĂ©nome semble coder 2 ARNt car chaque individu prĂ©sente une variation d’un nuclĂ©totide (SNP) au niveau de l’anticodon. Ainsi, ce locus peut, selon la base du SNP, coder pour l’ARNt Valine ou l’ARNt Alanine. Deux autres locus “double ARNt” ont Ă©tĂ© identifiĂ©s au sein de plusieurs espèces de cloportes. La variation Ă  chacun de ces locus doit ĂŞtre maintenue dans chaque individu sous peine de mort par dĂ©faut d’un gène d’ARNt. Ceci constituerait une hĂ©tĂ©roplasmie:  la prĂ©sence de molĂ©cules d’ADN homologues portant diffĂ©rentes sĂ©quences dans le cytoplasme. Cette hĂ©tĂ©roplasmie vitale serait maintenue depuis des millions de gĂ©nĂ©rations.
      Cependant, il reste possible que cette apparente hétéroplasmie reflète le fait que les 2 unités génomiques composant le dimère ne soient pas totalement identiques, et que chacune code un jeu d’ARNt. Le dimère dans son ensemble pourrait coder tous les ARNt vitaux. Cette hypothèse en contredit néanmoins une autre : on suppose que le dimère provient de la réplication du monomère, chaque brun du monomère devenant une unité génomique du dimère. Le dimère devrait donc être totalement palindromique, et ne pas pouvoir encoder plus d’ARNt que le monomère dont il est issu. Comment résoudre ce casse-tête ?
       Le sĂ©quençage SMRT (Single Molecule Real Time) de Pacific Biosciences a permis d’apporter des rĂ©ponse dĂ©finitives Ă  ce questionnement, en clarifiant l’hĂ©tĂ©roplasmie, les conversions entre dimères et monomères, ainsi que l’évolution de ce gĂ©nome atypique.
    • ModĂ©lisation logique et raisonnement qualitatif pour la comprĂ©hension du comportement des complexes Biomolecular Network
      Ali AYADI (icube Strasbourg)
      Thursday, March 30, 2017 – 10:30
      Room Aurigny
      Talk abstract: 

      La biologie des systèmes vise Ă  modĂ©liser, dĂ©crire et comprendre le comportement des organismes vivants, Ă  savoir, celui de la cellule. Cet organisme vivant est reprĂ©sentĂ© par un rĂ©seau biomolĂ©culaire complexe. Dans la littĂ©rature, la plupart des recherches se concentrent uniquement sur la modĂ©lisation des parties isolĂ©es de ce rĂ©seau, comme le rĂ©seau mĂ©tabolique ou le rĂ©seau de rĂ©gulation gĂ©nĂ©tiques. Cependant, pour bien comprendre le comportement d’une cellule, il serait indispensable de modĂ©liser et analyser le rĂ©seau biomolĂ©culaire dans son ensemble.

       

      Les approches et mĂ©thodologies actuellement disponibles ne rĂ©pondent pas suffisamment Ă  ces exigences. En combinant une modĂ©lisation logique, une approche sĂ©mantique et un raisonnement qualitatif, nous proposons une plate-forme qui permet aux biologistes de simuler les changements d’Ă©tats des rĂ©seaux biomolĂ©culaires dans le but de diriger leurs comportements d’un Ă©tat quelconque Ă  un Ă©tat spĂ©cifique.

       

      Dans la prĂ©sentation, nous proposons d’abord une introduction portant sur les principales notions du sujet. Ensuite, nous prĂ©sentons une approche logique pour dĂ©crire et modĂ©liser les rĂ©seaux biomolĂ©culaires complexes suivant la thĂ©orie des systèmes. Cette modĂ©lisation est basĂ©e sur les aspects structurels, fonctionnels et comportementaux. En outre, nous proposons une approche sĂ©mantique basĂ©e sur quatre ontologies pour fournir une riche description pour la modĂ©lisation d’un rĂ©seau biomolĂ©culaire et de ses changements d’Ă©tats au cours du temps. Nous prĂ©sentons Ă©galement une mĂ©thode de raisonnement qualitatif, basĂ©e Ă  la fois sur la modĂ©lisation logique et sĂ©mantique, pour simuler qualitativement le rĂ©seau biomolĂ©culaire et interprĂ©ter son comportement dans le temps.

      L’applicabilitĂ© de nos approches est illustrĂ©e par une Ă©tude de cas qui porte sur l‘autorĂ©gulation du gène 32 du phage T4. Ces approches fournissent les Ă©lĂ©ments nĂ©cessaires pour modĂ©liser, analyser, raisonner et comprendre le comportement dynamique et les diffĂ©rents Ă©tats de transition des rĂ©seaux biomolĂ©culaires complexes.

       

       

       

      English version:

       

       

      Title:

      Formal Modeling and Qualitative Reasoning for understanding the behaviour of complex Biomolecular Network

       

      Abstract:

      Systems biology models aim to describe and understand the behaviour of a cell. This living organism is represented by a complex biomolecular network. In the literature, most researches focus only on modeling isolated parts of this network, such as the metabolic network or the gene regulatory network. However, to fully understand the behaviour of a cell we should model and analyze the biomolecular network as a whole.

       

      Currently available approaches and methodologies do not address these new requirements sufficiently. By combining a logical modeling, a semantic approach and a qualitative reasoning, this talk deals with a platform that enables biologists to simulate the state changes of biomolecular networks with the goal of steering their behaviours.

       

      To this end, we firstly offer an introduction to the main ideas of the subject. Second, we present a logic-based approach for describing and modeling complex biomolecular networks following systems theory. This modeling is based on the structural, functional and behavioural aspects.

      In addition, we propose a semantic approach based on four ontologies to provide a rich description for modeling a biomolecular network and its state changes. We also present a method of qualitative reasoning, based on both the logical and semantic modeling, to qualitatively simulate the biomolecular network and interpret its behaviour over time.

       

      The applicability of our approaches is illustrated through a case study related to the autoregulation of the bacteriophage T4 gene 32. These approaches provide the necessary elements to model, analyze, reason and understand the dynamic behaviour and the transition states of complex biomolecular networks.

    • 10xgenomics
      Mickael Ploquin (10xgenomics)
      Thursday, March 23, 2017 – 10:30
      Room Metivier
      Talk abstract: 

      HUMAN GENETICS
      10x’s products enable a deeper understanding of human genetics.Long range phasing and resolution of structural variants are crucial content for genetic studies.

      LONG RANGE PHASING
      10x’s GemCode Technology uncovers long range phasing of SNPs. The Chromium™ Whole Exome Sequencing Kit phases SNPs and indels to reveal critical cis/trans relationships, including across genes with long introns.

       
      The human genome is diploid, with each cell containing a copy of both the maternal and paternal chromosomes. A comprehensive understanding of human genetic variation requires identification of the order, structure and origin of these sets of alleles and their variants across the genome. Haplotypes, the contiguous phased blocks of genomic variants specific to a given homolog, are essen­tial to such analysis. Genome-scale haplotype analysis has many advantages in genetic studies. Phasing of germline variants can be used to identify causative mutations in pedigrees, determine the structure of genomic rearrangement events and unravel cis- versus trans-relationships of ostensibly linked variants

      SINGLE CELL

      High-throughput, single-cell expression measurements enable discovery of gene expression dynamics for profiling individual cell types. the Chromium Single Cell Controller which is a dedicated instrument for single cell applications and features a simple and comprehensive workflow, enabling users to quickly and easily prepare single cell sequencing libraries in less than one workday. With the unique ability to interrogate hundreds to millions of cells, the Single Cell Chromium Controller supports a variety of applications, including the existing Chromium™ Single Cell 3’ Solution for single cell transcriptomics, as well as a potential future product featuring the ability to perform full-length sequencing of paired expressed V(D)J segments from single B or T cells. 

    • Annotating long non-coding RNAs in model and non-model organisms using a Random Forest strategy
      Valentin Wucher (IGDR)
      Thursday, March 16, 2017 – 10:30
      Room Aurigny
      Talk abstract: 

      Le sĂ©quençage du transcriptome (RNA-seq) est devenu un standard pour identifier et caractĂ©riser les diffĂ©rentes populations d’ARN. NĂ©anmoins, l’une des principales difficultĂ©s consiste Ă  pouvoir classer les nouveaux transcrits et notamment diffĂ©rencier les ARN qui seront traduits en protĂ©ines (ARNm/mRNA) des ARN longs non-codants (ARNlnc/lncRNA). Dans ce but, nous avons dĂ©veloppĂ© FEELnc (FlExible Extraction of LncRNAs), un programme ne nĂ©cessitant pas d’alignements de sĂ©quences (alignment-free) et qui permet d’annoter les ARNlnc via une stratĂ©gie Random Forest basĂ©e/entraĂ®nĂ©e sur les frĂ©quences de multiples k-mer et une dĂ©finition d’ORF relâchĂ©e. ComparĂ©es avec 5 autres mĂ©thodes, les performances de FEELnc montrent des rĂ©sultats similaires ou meilleurs sur des jeux de donnĂ©es connus de lncRNA/mRNAs issus de l’annotation de rĂ©fĂ©rence GENCODE (homme et souris) et NONCODE (base de donnĂ©es d’ARNlnc chez des espèces non-modèles). FEELnc automatise aussi l’annotation des ARNlnc en sous-classes distinctes (gĂ©nique et intergĂ©niques) et permet d’identifier des ARNlnc mĂŞme sans sĂ©quences d’ARN longs non-codants en apprentissage, ce qui permet son utilisation pour des espèces non-modèles. FEELnc a Ă©tĂ© utilisĂ© chez 3 espèces non-modèles : le chien, le poulet et l’algue (Ectocarpus), permettant l’identification de plusieurs ARNlnc.

       

    • Using EDAM and bio.tools for the integration of bioinformatics resources
      Hervé Menager (Institut Pasteur)
      Thursday, March 9, 2017 – 10:30
      Room Aurigny
      Talk abstract: 

      The ELIXIR infrastructure is currently building bio.tools, a registry of bioinformatics tools and data services. The aim of this registry is to provide the scientific community with a portal to enable the discovery and the use of the resources needed to conduct bioinformatics analyses. This registry includes detailed description of the tools and services, which relies, among other things, on the use of the EDAM ontology, a community-led vocabulary that has been developed to describe in a consistent manner bioinformatics data and methods. I will here present this effort, and detail the perspectives of collaboration of bio.tools with other initiatives to improve the discovery, deployment, integration and reproducibility of bioinformatics resources. 

       

       

    • MatrixDB : de la curation aux rĂ©seaux d’interactions
      Sylvie RICARD-BLUM (UniversitĂ© Lyon 1 – ICBMS)
      Thursday, February 9, 2017 – 10:30
      Room Aurigny
      Talk abstract: 

      La matrice extracellulaire humaine est constituĂ© de 274 protĂ©ines (collagènes, fibronectine, laminines) et protĂ©oglycanes et de 747 protĂ©ines associĂ©es (enzymes, facteurs de croissance) (Naba et al., 2012 Matrix Biol 31: 371-2). Elle contient Ă©galement des polysaccharides complexes, les glycosaminoglycanes. Elle constitue un rĂ©seau tridimensionnel d’interactions qui assure l’architecture, la cohĂ©sion et les propriĂ©tĂ©s mĂ©caniques des tissus et les interactions avec les cellules. Les interactions biomolĂ©culaires s’influencent mutuellement in vivo et sont conditionnĂ©es par le contexte molĂ©culaire et biologique. Les perturbations de ce rĂ©seau par la modification de la concentration des constituants (fibrose), de leur repliement (maladies neurodĂ©gĂ©nĂ©ratives) et par des mutations sont associĂ©es Ă  des processus pathologiques. Nous avons construit une base de donnĂ©es d’interactions spĂ©cifiques de la matrice extracellulaire, MatrixDB (http://matrixdb.univ-lyon1.fr/, Chautard et al. Nucleic Acids Res 2011 39: D235-40, Launay et al. Nucleic Acids Res 2015 43: D321-7) qui appartient au consortium IMEx (International Molecular exchange consortium, Orchard et al. Nat Methods 2012 9: 345-50, http://www.imexconsortium.org/ ) dont elle suit les règles de curation. MatrixDB contient des donnĂ©es sur des interactions protĂ©ine-protĂ©ine et protĂ©ine-glycosaminoglycane dont au moins un des partenaires est extracellulaire et permet de construire des rĂ©seaux d’interactions extracellulaires dynamiques intĂ©grant la cinĂ©tique et l’affinitĂ©  des interactions (Peysselon et Ricard-Blum Matrix Biol 2014 35: 73-81), des rĂ©seaux d’interactions spĂ©cifiques d’un tissu en intĂ©grant des donnĂ©es transcriptomiques, d’une  molĂ©cule (Gubbiotti et al. Matrix Biol. 2016 55: 7-21) ou d’un processus pathologique (Salza et al. J Alzheimers Dis 2017 Jan 18. doi: 10.3233/JAD-160751. [Epub ahead of print]). Nous travaillons actuellement Ă  l’intĂ©gration de donnĂ©es protĂ©omiques obtenues Ă  partir de tissus sains et tumoraux et Ă  la standardisation des sĂ©quences et des caractĂ©ristiques des glycosaminoglycanes qui sont impliquĂ©es dans leurs interactions avec des protĂ©ines de façon Ă  rendre MatrixDB interopĂ©rable avec les bases de donnĂ©es de glycobiologie. 

       

    • Some Elements about Exploratory Knowledge Discovery with Formal Concept Analysis
      Amedeo Napoli (Loria)
      Thursday, February 2, 2017 – 10:30
      Room Aurigny
      Talk abstract: 

      In this presentation, we discuss the process of Exploratory Knowledge Discovery using Formal Concept Analysis (FCA), a formalism for data and knowledge processing. FCA starts with a binary context and outputs a concept lattice, which can be visualized, navigated and interpreted by human agents, and which is processable by software agents. FCA can be extended with pattern structures for dealing with complex data such as Linked Data. Indeed, the growth of Linked Data has led to challenging aspects regarding quality assessment and data exploration of RDF triple collections. In this way, we discuss the completeness of Linked Data w.r.t. the existence of potential concept definitions in terms of necessary and sufficient conditions.More practically, we present a technique based on FCA and pattern structures which organizes RDF data into a concept lattice. This allows data exploration as well as the discovery of implications, which are used to automatically detect missing information and to complete RDF data.Experiments on the DBpedia knowledge base show that the approach is well founded and effective. Moreover, this provides means for bridging the data and knowledge dimensions of knowledge discovery in the Linked Data cloud.

       

    • SpĂ©ciation chez un groupe diversifiĂ© de papillons Amazoniens
      Marianne Elias (Museum National d’Histoire Naturelle)
      Thursday, January 26, 2017 – 10:30
      Room Aurigny
      Talk abstract: 

      Les papillons nĂ©otropicaux Ithomiini sont remarquables Ă  de nombreux Ă©gards : ils contiennent des dĂ©fenses chimiques et portent des colorations avertissant les prĂ©dateurs de leur toxicitĂ© ; ils ont pour la plupart des ailes partiellement transparentes ; ils sont très abondants et diversifiĂ©s, puisque le groupe compte 390 espèces, pour un âge de 32 millions d’annĂ©es. Quel sont les raisons du succès Ă©cologique et Ă©volutif des Ithomiini ? Nous mettons en Ĺ“uvre des approches phylogĂ©nĂ©tiques, expĂ©rimentales et gĂ©nomique pour tester diffĂ©rentes hypothèses de diversification, comme le rĂ´le de l’histoire gĂ©ologique des neotropiques et celui d’adaptations Ă©cologiques (plante-hĂ´te, colorations des ailes, habitat). Dans cet exposĂ©, je prĂ©senterai nos principaux rĂ©sultats sur la diversification du groupe Ă  l’échelle macroĂ©volutive (patterns phylogĂ©netiques de spĂ©ciation) et macroĂ©cologique (Ă©cologie des communautĂ©s), qui suggèrent un rĂ´le prĂ©pondĂ©rant de l’orogenèse Andine, couplĂ© Ă  des adaptations gĂ©nĂ©rant de l’isolement reproductif. Je prĂ©senterai aussi nos travaux en cours Ă  l’échelle microĂ©volutive (expĂ©riences et gĂ©nomique des populations), qui visent Ă  examiner dans le dĂ©tail le processus de spĂ©ciation.

       

    • in silico at Sanofi: illustrations at the research level
      Anne Olivier-Bandini – Charles Bettembourg (Sanofi)
      Thursday, January 19, 2017 – 10:30
      Room Aurigny
      Talk abstract: 

      Sanofi est un acteur majeur de l’industrie pharmaceutique, impliquĂ© dans la recherche et le dĂ©veloppement de mĂ©dicaments pour des aires thĂ©rapeutiques majeures en santĂ© humaine. L’utilisation, en autres, d’approches in silico a permis ces dernières annĂ©es de diminuer le taux d’attrition de projets en phase clinique en lien avec un problème pharmacocinĂ©tique (absorption, distribution, mĂ©tabolisme et excrĂ©tion du mĂ©dicament). Un dĂ©fi aujourd’hui est de mieux s’assurer de l’efficacitĂ© des produits dĂ©veloppĂ©s sur leurs cibles thĂ©rapeutiques. En effet, une part importante des Ă©checs en recherche clinique, notamment en phase 2, sont liĂ©s Ă  un manque d’efficacitĂ© des produits, que l’on souhaiterait mettre en Ă©vidence de façon plus prĂ©coce en recherche prĂ©-clinique. C’est l’objectif de la recherche translationnelle, qui s’appuie sur les connaissances obtenues au plus près du patient. En intĂ©grant les donnĂ©es des diffĂ©rents domaines omiques obtenues dans ce cadre translationnel in vivo et in vitro, il est possible de dĂ©finir, de valider et d’invalider des hypothèses concernant des mĂ©canismes d’action et d’identifier des biomarqueurs relatifs Ă  une cible thĂ©rapeutique et Ă  l’action d’un produit.

      Après une brève prĂ©sentation gĂ©nĂ©rale de Sanofi, nous prĂ©senterons l’approche in silico appliquĂ©e tout au long de la chaĂ®ne de valeur du mĂ©dicament. Nous illustrerons cette approche par un exemple de collaboration public-privĂ© dans le cadre d’une maladie rare, la maladie de Lesch-Nyhan. Puis nous dĂ©crirons l’approche translationnelle en recherche pharmaceutique. Enfin, nous prĂ©senterons un exemple d’intĂ©gration et d’interrogation de donnĂ©es utilisant AskOmics.

       

 

see year: 202020192018 – 2017 – 20162015201420132012