Previous seminars – 2015

(archives from old symbiose site)

Orthology-based genome annotation and interpretation

Robert Waterhouse

Thursday, December 3, 2015 – 10:30

Room Métivier

Talk abstract:

The OrthoDB catalogue of orthologues at www.orthodb.org [Kriventseva, et al. 2015], represents a comprehensive resource of comparative genomics data to help researchers make the most of their newly-sequenced genomes. OrthoDB’s sets of Benchmarking Universal Single-Copy Orthologues, BUSCO [Simão, et al. 2015], provide a rich source of data to assess the quality and completeness of these genome assemblies and their gene annotations. These resources and tools enable improved and extended orthology-based genome annotation and interpretation in a comparative genomics framework that incorporates the rapidly growing numbers of newly-sequenced genomes. Such comparative approaches are well-established as immensely valuable for gene discovery and characterization, helping to build resources to support biological research. Orthology delineation is a cornerstone of comparative genomics, offering evolutionarily-qualified hypotheses on gene function by identifying “equivalent” genes in different species, as well as highlighting shared and unique genes that offer clues to understanding species diversity and provide the means to begin to investigate key biological traits – for both large-scale evolutionary biology research and targeted gene and gene family studies. The success of such interpretative analyses relies on the comprehensiveness and accuracy of the input data, making BUSCO quality assessment an important part of the process of genome sequencing, assembly, and annotation. Orthology-based approaches therefore offer not only a vital means by which to begin to interpret the increasing quantities of genomic data, but also to help prioritize improvements, and to ensure that initial “draft” genomes develop into high-quality resources that benefit the entire research community.

Affiliations & contacts;

University of Geneva Medical School & Swiss Institute of Bioinformatics, Geneva, Switzerland.

Massachusetts Institute of Technology & Broad Institute of MIT and Harvard, Cambridge, USA.

Robert.Waterhouse@unige.ch

www.rmwaterhouse.org
Whole genome assembly of the parasitoid wasp Lysiphlebus fabarum

Alice Dennis

Thursday, November 19, 2015 – 10:30

Room Turing Petri

Talk abstract:

Lysiphlebus fabarum is one of the most abundant parasitoid wasps in Europe, primarily targeting aphids in the genus Aphis. To facilitate work that will include studies of adaptive gene expression and the basis of contagious parthenogenesis, we are assembling a draft whole-genome sequence of L. fabarum. Initial assemblies conducted using Illumina data, followed by scaffolding using PacBio sequences produced an alignment with a high N50, and good return of both CEGMA and BUSCO genes. Interesting features of this L. fabarum genome thus far include a very low GC content and evidence of historical integrations of viral sequences. However, initial evaluation of this assembly suggests that it contains a number of errors, and this has hindered our construction of linkage groups. I will present a summary of our work to date in evaluating this genome assembly, and in comparing it to several new assemblies using both Illumina and PacBio focused alignment methods.

Authors:

Alice Dennis, Jens Bast, Zoé Dumas, Giancarlo Russo, Tanja Schwander, Christoph Vorburger
Le séquençage et l’assemblage de génomes de référence à partir de données PacBio

Jerome Gouzy (Laboratoire des Interactions Plantes Micro-organismes (LIPM) – INRA/CNRS)

Thursday, November 5, 2015 – 10:30

Room Métivier

Talk abstract:

Depuis bientôt deux ans, les dernières avancées de la technologie de séquençage PacBio ont bouleversé les projets de séquençages génomiques. Non seulement les chromosomes bactériens mais également les chromosomes de nombreux génomes eucaryotes peuvent s’assembler en une seule séquence ou dans le pire des cas en bras chromosomiques. La qualité des assemblages atteint si ce n’est dépasse les assemblages de références Sanger des années 2000, les centromères et télomères alors souvent non résolus sont désormais analysables. Les résultats sur plusieurs espèces de bactéries, champignons et plantes seront présentés afin d’illustrer les réussites de cette rupture technologique mais aussi les cas qui restent encore non parfaitement résolus.
Looking for mutations in PacBio cancer data: an alignment-free method

Justine Rudewicz (Labri Bordeaux)

Thursday, October 1, 2015 – 10:30

Room Métivier

Talk abstract:

L’étude clinique EORTC 10994 a été mise en place afin de déterminer si le statut de p53 permet de sélectionner la thérapie des patientes atteintes de cancers du sein. L’identification des mutations du gène TP53 par séquençage NGS des ARNm de TP53 s’est révélée efficace lors d’une étude pilote effectuée. Afin de déterminer les mutations TP53 présentes chez l’ensemble des patientes (~1500), l’ARNm TP53 tumoral a été séquencé par la technologie de séquençage de troisième génération “Pacific Bioscences”. Cependant, ni le pipeline de l’étude pilote, ni ceux utilisant GATK se sont révélés appropriés pour ce type de données. En effet, au fort taux d’erreurs de séquençage généré par PacBio (~15%) s’ajoute la contamination des échantillons tumoraux par le tissus sain. Le faible taux de mutation attendu pour certains échantillons rend impossible la différenciation des erreurs de séquençage des réelles mutations par les outils standards. Afin de contourner ce problème, nous avons mis en place une méthodologie de détection de mutations par utilisation des graphes de De Bruijn que nous allons vous présenter.

Design algorithmique de protéines et Optimisation Combinatoire

Thomas Schiex (INRA Toulouse)

Thursday, September 24, 2015 – 10:30

Room Aurigny

Talk abstract:

Depuis une dizaine d'années, un nombre croissant de nouvelles
protéines ont été créées en suivant un processus de conception
semi-rationnel. Le but ultime du "Computational Protein Design"  est
d'obtenir une séquence d'acides aminés qui se repliera selon une
structure choisie. Le plus souvent, il s'agit d'obtenir une nouvelle
enzyme, parfois, une nouvelle structure pour les nanotechnologies.
Avec 20 acides aminés, l'espace des séquences est très combinatoire et
son exploration systématique, voire "dirigée", par des voies
expérimentales est peu efficace. Pour focaliser cette recherche,
l'approche rationnelle consiste à modéliser la protéine comme un objet
tridimensionnel soumis à des forces variées (internes, van der Waals,
électrostatiques et interactions avec le milieu) et à rechercher une
séquence la plus stable possible étant donnée un squelette fixé. Même
avec des hypothèses simplificatrices fortes, c'est un problème
d'optimisation combinatoire difficile à modéliser et à résoudre. Au
cœur d'une grande partie des approches actuelles réside cependant un
problème d'optimisation de formulation simple, avec un squelette
rigide, une flexibilité des chaînes latérales représentées par une
librairie de conformations (rotamères) et un champ d'énergie
décomposable. Nous verrons que ce problème peut se modéliser
mathématiquement dans une grande variété de formalismes usuels pour
l'optimisation et que la programmation par contraintes pondérée (ou
réseaux de fonctions de coûts) semble particulièrement efficace. Une
brève introduction aux principaux outils algorithmiques utilisés dans
ce domaine sera présentée.

Apports de la génétique et de la génomique pour la conservation des populations de poissons anadromes

Guillaume Evanno (Inra Rennes)

Thursday, September 10, 2015 – 10:30

Room Minquiers

Talk abstract:

Les poissons anadromes tels que les saumons, aloses et lamproies se reproduisent en eau douce et les juvéniles effectuent une migration vers la mer où ils séjournent jusqu’à leur maturité sexuelle. La plupart de ces espèces sont en déclin suite à la dégradation de leur habitat et / ou à une surexploitation des stocks. En conséquence, de nombreux repeuplements à l’aide de diverses souches ont été effectués dans les populations sauvages. Nous avons utilisé des outils de génétique des populations pour 1) quantifier l’introgression des populations naturelles de saumon par les poissons de repeuplement et 2) délimiter des unités spatiales de conservation. Nous avons aussi étudié l’évolution de l’anadromie chez les lamproies et les truites car chez ces espèces, des formes (ou écotypes) résidentes en eau douces et d’autres migratrices anadromes, coexistent dans les mêmes cours d’eau. Les outils de séquençage NGS nous ont permis d’étudier la divergence génomique entre ces formes.
Towards a model-free classification of spindle elongation

Yann Le Cunff (Irisa)

Thursday, July 2, 2015 – 10:30

Room Minquiers

Talk abstract:

TBA

Mesurer la dispersion : que peuvent apporter les NGS ?

Eric Petit (Inra Rennes)

Thursday, June 25, 2015 – 10:30

Room Minquiers

Talk abstract:

La dispersion est un trait commun à  toutes les formes de vie, qui
affecte tous les niveaux d'organisation du vivant, et est par ailleurs
identifié comme étant fondamental dans la capacité des organismes à
répondre aux changements globaux. Principal véhicule des flux de gènes,
la dispersion peut être quantifiée à partir de l'observation de
variations de fréquences alléliques. la diversité des patrons de
dispersion sera illustrée à partir d'exemples pris chez les Mammifères,
révélant la diversité des pressions de sélection qui peuvent agir sur ce
trait. J'expliquerai et évaluerai ensuite, en m'appuyant sur des
résultats de simulations, ce que les nouvelles technologies de
séquençage peuvent apporter à l'étude de la dispersion.

A carefully tamed p-value is bioinformatician’s most faithful friend

Jacques Van Helden (Université d’Aix-Marseille)

Friday, June 5, 2015 – 10:30

Room Aurigny

Talk abstract:

The p-value has recently been questioned in several publications. Halsey et al . (2015) argue that the wide sample-to-sample variability in the p-value is a major cause for the lack of reproducibility of published research. They propose to replace statistical testing by an inspection of confidence intervals around the estimated effect size. Even though the authors raise a relevant concern about the instability of statistical tests with small-sized samples, the p-value was taken as scapegoat for sins of other sources: limitation of sample sizes, misconception of the p-value, over-interpretation of the significance. The alleged fickleness of the p-value seems to boil down to a rephrasing of the well-known problem of small sample fluctuations. Ironically, the proposed solution suffers from the same instability, since confidence intervals are computed from the same estimators (mean, standard deviation), and their extent depends on Student $t$ distribution. Thus, the proposed alternative — discounting the p-value and focusing on size effect and confidence intervals — offers no solution to the real sources of instability of the observations. Moreover, it would be of no use in bioinformatics, where a single analyse can encompass thousands, millions or billions of tests. In this article, I propose to combine several strategies to enforce the reliability and interpretability of statistical tests in the context of high-throughput data analysis: (i) inspecting p-values and derived statistics as continuous variables rather than setting an arbitrary cut-off; (ii) coupling the analysis of the actual datasets with in silico negative and positive controls; (iii) analyzing the full empirical distributions of p-values; (iv) bootstrapping the samples. These approaches turn the usual difficulties raised by multiple testing into an advantage, by giving insight into the global properties of the datasets, thereby enabling a contextual interpretation of individual tests. I demonstrate that, when adequately treated and interpreted, p-values and derived statistics provide reliable tools to estimate not only the significance but also the robustness of the results.

References

Halsey,L.G., Curran-Everett,D., Vowler,S.L. and Drummond,G.B. (2015) The fickle P value generates irreproducible results. Nature Methods, 12, 179–185.

Jacques van Helden

Lab. Technological Advances for Genomics and Clinics (TAGC), INSERM Unit U1090, Aix-Marseille Université (AMU).
Neuroinformatics: from image analysis to genomics

Olivier Colliot (ARAMIS Team)

Thursday, June 4, 2015 – 10:30

Room Aurigny

Talk abstract:

The past 20 years have witnessed a tremendous development of both neuroimaging and genomic technologies, which have opened entirely new avenues to study neurological disorders.
However, the complexity of the data generated by these techniques poses important challenges to computational and statistical analysis. The first part of this talk will focus on approaches for modeling brain structure from neuroimaging data, in order to build digital phenotypes of the patients. We will in particular focus on quantification of brain structures, deformation models and machine learning approaches for disease prediction. We will then review the main challenges associated to the integration of neuroimaging and genomic data.

Olivier Colliot
ARAMIS Laboratory, Paris, France – www.aramislab.fr
CNRS, Inria, Inserm, Université Pierre et Marie Curie, Institut du Cerveau et de la Moelle épinière
Complexity in Genomic Patterns and Classification

Somdatta Sinha (Indian Institute of Science Education and Research Mohali, India)

Wednesday, May 27, 2015 – 14:00

Room Minquiers

Talk abstract:

Genomes are made of sequences of four nucleotides, A, T, C, and G. Several processes such as mutation, transposition, recombination, translocation, and excision introduce variations in these sequences, which then become the substrates of selection and consequent evolution. Similarity in the liner composition of these letters in two sequences are commonly used as indicators of evolutionary closeness of two organisms. However, researchers are increasingly looking at groups of letters (“words”), or different patterns of nucleotide sequences (“genomic signatures”), and have found that DNA of closely related organisms also have similar genomic signatures. This encourages us to look into the compositional properties of DNA sequences and their relevance to function and evolution. In this talk, I will discuss how these patterns can be used for alignment-free classification of very closely related DNA sequences using Chaos Game Representation (CGR). This points towards the role of higher order word structures carrying some meaning in the DNA language, and the interplay of complex word structures and biological information processing. Long range correlations are also known to exist in genomes at different length scales, and genome sequences have been shown to be multi-fractals. I will also show that the multi fractal properties of these DNA sequences can be used to classify very closely related organisms (sub and sub-subypes of HIV-1 strains). The questions to be explored are the origin of the compositional complexity in DNA, and its functional and evolutionary implications.
Design algorithmique de proteines, Optimisation Combinatoire et Comptage

Thomas Schiex (Inra Toulouse)

Thursday, May 21, 2015 – 10:30

Room Minquiers

Talk abstract:

Depuis une dizaine d’années, un nombre croissant de nouvelles protéines ont été créées en suivant un processus de conception semi-rationnel. Le but ultime du “Computational Protein Design” est d’obtenir une séquence d’acides aminés qui se repliera selon une structure choisie. Le plus souvent, il s’agit d’obtenir une nouvelle enzyme, parfois, une nouvelle structure pour les nanotechnologies. Avec 20 acides aminés, l’espace des séquences est très combinatoire et son exploration systématique, voire “dirigée”, par des voies expérimentales est peu efficace. Pour focaliser cette recherche, l’approche rationnelle consiste à modéliser la protéine comme un objet tridimensionnel soumis à des forces variées (internes, van der Waals, électrostatiques et interactions avec le milieu) et à rechercher une séquence la plus stable possible étant donnée un squelette fixé. Même avec des hypothèses simplificatrices fortes, c’est un problème d’optimisation combinatoire extrêmement difficile à modéliser, et à résoudre. Au cœur d’une grande partie des approches actuelles réside cependant un problème d’optimisation de formulation simple, avec un squelette rigide, une flexibilité des chaînes latérales représentées par une librairie de conformations (rotamères) et un champ d’énergie décomposable. Nous verrons que ce problème peut se modéliser mathématiquement dans une grande variété de formalismes usuels pour l’optimisation et que la programmation par contraintes pondérée (ou réseaux de fonctions de coûts) semble particulièrement efficace. Une brève introduction aux principaux outils algorithmiques utilisés dans ce domaine sera présentée.

Variant detection and assembly via maximal clique enumeration

Alexander Schoenhuth (CWI)

Thursday, April 30, 2015 – 10:30

Room Minquiers

Talk abstract:

Abstract: When searching for genetic variants in genomes or assembling them, the ploidy inherent to the organism can pose severe challenges. Often, techniques are desired that can assign reads to the haplotypes from which they stem. Here, we suggest to make use of overlap-like graphs where nodes represent reads and/or their alignments, and edges indicate, based on sound statistical considerations, that two reads may, sufficiently likely, stem from locally similar haplotypes. By varying the precise definition of the edges, we can identify maximal cliques in the graphs as either groups of reads that indicate single variants, or, alternatively (by a stricter edge definition), to indeed indicate that reads stem from sequentially locally identical haplotypes. We have implemented these two ideas in form of two algorithms, CLEVER and HaploClique, which we will discuss.

Diversité de communautés de reads et structure de nuages de points

Alain Franc (Inra Bordeaux)

Thursday, April 2, 2015 – 10:30

Room Minquiers

Talk abstract:

P { margin-bottom: 0.21cm; }
Il y a une quarantaine d’années, la phytosociologie (étude des communautés de plantes) et le traitement des données (notramment l’AFC) se sont rapprochés, ainsi que la taxonomie et les méthodes de classification, pour construire ce qui est devenu l’écologie statistique. Les outils et méthodes, comme la dimension des tableaux de données, étaient de l’ordre de quelques centaines d’individus tout au plus, limités tant par le coût d’aquisition des données (organismes reconnus et inventoriés) que la puissance ds calculs. Quarante ans plus tard, le paysage a profondément changé. Les données sont devenues moléculaires, avec un coût d’acquisition faible pour des millions de specimens. De plus, les paradigmes biologiques liés à la diversité ont également changé, avec un rapprochement non achevé entre la génétique des populations et l’écologie des communautés, dans un cadre évolutif. Je présenterai une chaîne de traitement pour décrire et comprendre la structure de la diversité moleculaire en prenant comme exempe un ensemble de reads (un métagénome) issus d’un séquançage NGS sur amplicons (une même région), du marqueur rbcL, d’une communautés de diatomées. Le passage à l’échelle est en cours, et non abouti. C’est l’objet du travail présenté. Tout commence par une distance. La distance liée à l’alignement local de deux séquences a été choisie ici, avec un travail en parallèle sur les distances évolutives (âge de l’ancêtre commun le plus proche). Le lien entre distance ulamétrique et taxonomie est naturel. L’idée ancienne est de construire un nuage de points tels que leurs distances euclidiennes soient aussi proche que possible des distances génétiques. La construction de la matrice de distances, le traitement par multidimensional scaling, ou par classification, sont en compexité cubique ou quadratique vis à vis du jeu de données. Je présenterai quelques variants connus mais peu utilisés de la MDS, ainsi qu’un lien entre classification et composantes connexes de graphes induits par les matrices de distances, pour aller vers des méthodes de complexité linéaire avec la taille du jeu de données. Une idée est de ne travailler qu’avec des distances entre voisins, et non sur l’ensemble des paires possibles, et de disposer d’un algorithme en temps linéaire pour décider si deux séquences sont voisines ou non. Cette notion de voisinage permet de présenter un lien dont l’étude se développe depuis une dizaine d’années entre traitement de données et la géométrie des variétés. Une question abordée également est le choix de la dimension de l’espace de travail : une grande dimension permet des représentatons exactes, mais on tombe dans la malédiction de la dimension, et une dimension faible permet une bonne sécurité des algorithmes de classification par exemple, mais sur une image approchée du nuage de points.

P { margin-bottom: 0.21cm; }
Alain Franc & al., Equipe Pleiade, INRIA, & UMR BioGeCo, INRA, Bordeaux

Handling large logical models: the role of model reduction

Aurélien Naldi

Wednesday, April 1, 2015 – 10:30

Room Aurigny

Talk abstract:

Logical (discrete) models have been used to study numerous
biological regulatory networks over the last 40 years.
The increasing size of the networks of interest calls
for formal methods for their dynamical analysis.
Model reduction aims at constructing "simpler" version
of the models by taking out selected components while
preserving important dynamical properties.
Here we will discuss the effect of model reduction on
the dynamical behaviour of logical models, in particular
the attractors and their reachability, as well as its
connections with other formal methods.

Easy identification of generalized common and conserved nested intervals

Mathieu Raffino (LIAFA)

Monday, March 23, 2015 – 14:00

Room Aurigny

Talk abstract:

In this presentation I will explain how to easily compute gene clusters
formalized by generalized nested common or conserved intervals between
a set of K genomes represented as K permutations. A b-nested
common (resp. conserved) interval I of size |I| is either an
interval of size 1 or contains another b-nested common
(resp. conserved) interval of size at least |I|-b. When b=1, this
corresponds to the original notion of nested interval. We exhibit two
simple algorithms to output all b-nested common or conserved
intervals between K permutations in O(Kn+nocc) time,
where nocc is the total number of such intervals. We eventually
explain how to count all b-nested intervals in O(Kn) time. Joint work with
Fabien de Mongolfier (LIAFA, Paris-7) and Irena Rusu (LINA, Univ. of Nantes).

Génomique du cancer : Identification d’altérations génétiques du mélanome chez le modèle canin par Exome et RNAseq

Christophe Hitte (IGDR – CNRS)

Thursday, March 19, 2015 – 10:30

Room Turing/Petri

Talk abstract:

Le mélanome est un cancer de la peau agressif dont l’incidence est en hausse avec plus de 76000 nouveaux cas par an aux États-Unis et 7400 en France. Il existe plusieurs types de mélanomes, le type cutané induit par l’exposition solaire et plusieurs types non-induits par les UV qui se classent et caractérisent selon leurs histologie et localisation anatomique. Il existe également des formes familiales suggérant une prédisposition génétique et des facteurs de risque constitutifs. Le chien est un bon modèle naturel des mélanomes, fondé sur des prédispositions génétiques et le développement de tumeurs spontanées aux propriétés similaires à celles des tumeurs humaines. Nous avons produit et analysé 150 exomes (échantillons tumoral et contrôle pairés) d'une cohorte de 75 chiens de trois races atteints de mélanome muqueux dans le but de déterminer les mutations somatiques acquises au cours du processus tumoral. Nous avons détecté l’ensemble des mutations somatiques notamment celles de faible fréquence car présentes dans un sous-ensemble des cellules du tissu tumoral. La prise en compte de la significativité statistique, de l’annotation des variants, de la prédiction de leur impact fonctionnel, et de leur niveau d’expression permet de discriminer les gènes ‘driver’ contribuant à la progression tumorale des gènes ‘passengers’. Nous avons identifié plus de 40 gènes ‘driver’ mutés de manière significative et récurrent dans plusieurs tumeurs. L’analyse en pathways et des termes GO suggèrent que les principales voies mutées contribuent à l'oncogenèse et la progression tumorale.

Reconstructing the history of speciation from NGS data, accounting for genome-wide heterogeneity in introgression rates

Nicolas Bierne (CNRS Montpellier)

Thursday, March 5, 2015 – 10:30

Room Minquiers

Talk abstract:

Methods to reconstruct the history of divergence and gene flow between populations of closely related taxa with molecular data do not cease improving. It has recently become possible to account for genome-wide heterogeneity (GWH) in introgression rates. Not only this has proven to have profound impacts on the biological conclusions drawn from the inference, but when applied to large NGS datasets can also provide an estimate of the proportion of the genome impeded by the barrier to gene flow. We have evaluated the relative performance of two highly flexible methods on NGS data: (i) a composite maximum likelihood (CML) method that uses diffusion approximation of the joint site frequency spectrum (JSFS) and (ii) an Approximate Bayesian Computation (ABC) method. The CML method makes a number of assumptions that are likely to be violated and also miss some important information of RNA-seq data to account for GWH. The ABC method is much computationally intensive but allows to relax some assumptions and to better extract the between-contig variation that can be important to correctly infer GWH. Methods are applied to RNA-seq datasets of 70 pairs of taxa of animals that were not initially chosen to champion one or another model of speciation (e.g. sympatry vs. allopatry). We show that GWH is widespread, that divergence times are underestimated when GWH is not accounted for, and initiate a description of the relationship between divergence and genome porosity from this kind of analysis.
Graines approchees pour la recherche de courts motifs, application aux microARN

Hélène Touzet (Inria Lille)

Thursday, February 26, 2015 – 10:30

Room Minquiers

Talk abstract:

Les méthodes de comparaison de séquence les plus populaires utilisent
une approche par filtrage, en deux temps: recherche de petits motifs
communs, appelés graines, puis combinaison de ces motifs pour former
un alignement. Ce paradigme se décline de manière variable en fonction
du modèle combinatoire utilisé pour la graine: graine contigue, graine
espacée, graine avec erreurs, etc. Ce choix conditionne la
sensibilité, la spécificité et l’efficacité de la recherche.

Dans cet exposé, nous présenterons un nouveau type de graines,
appelées graines 01*0, qui autorisent des erreurs de type insertion,
délétion et substitution. Ces graines sont particulièrement bien
adaptées à la recherche de courts motifs bruités. Nous montrerons deux
exemples d’application issus du monde des microARN: la recherche de
cibles de microARN, et la recherche de microARN homologues.
Knowledge-based generalization for metabolic models

Anna Zhukova (IBGC Bordeaux)

Thursday, February 12, 2015 – 10:30

Room Minquiers

Talk abstract:

Genome-scale metabolic models describe the relationships between thousands of reactions and biochemical molecules, and are used to improve our understanding of organism’s metabolism. They found applications in pharmaceutical, chemical and bioremediation industries.

The complexity of metabolic models hampers many tasks that are important during the process of model inference, such as model comparison, analysis, curation and refinement by human experts. The abundance of details in large-scale networks can mask errors and important organism-specific adaptations. It is therefore important to find the right levels of abstraction that are comfortable for human experts. These abstract levels should highlight the essential model structure and the divergences from it, such as alternative paths or missing reactions, while hiding inessential details.

To address this issue, we defined a knowledge-based generalization that allows for production of higher-level abstract views of metabolic network models. We developed a theoretical method that groups similar metabolites and reactions based on the network structure and the knowledge extracted from metabolite ontologies, and then compresses the network based on this grouping. We implemented our method as a python
library, that is available for download from metamogen.gforge.inria.fr.

To validate our method we applied it to 1 286 metabolic models from the Path2Model project, and showed that it helps to detect organism-, and domain-specific adaptations, as well as to compare models.

Based on discussions with users about their ways of navigation in metabolic networks, we defined a 3-level representation of metabolic networks: the full-model level, the generalized level, the compartment level. We combined our model generalization method with the zooming user interface (ZUI) paradigm and developed Mimoza, a user-centric tool for zoomable navigation and knowledge-based exploration of metabolic networks that produces this 3-level representation. Mimoza is available both as an on-line tool and for download at mimoza.bordeaux.inria.fr.

Internal coarse-graining of molecular systems

Jérôme Feret (ENS Ulm)

Monday, February 9, 2015 – 10:30

Room Minquiers

Talk abstract:

Modelers of molecular signaling networks must cope with the
combinatorial explosion of protein states generated by
post-translational modifications and complex formation. Rule-based
models provide a powerful alternative to approaches that require an
explicit enumeration of all possible molecular species of a system. Such
models consist of formal rules stipulating the (partial) contexts for
specific protein-protein interactions to occur. These contexts specify
molecular patterns that are usually less detailed than molecular
species. Yet, the execution of rule-based dynamics requires stochastic
simulation, which can be very costly. It thus appears desirable to
convert a rule-based model into a reduced system of differential
equations by exploiting the lower resolution at which rules specify
interactions. We present a formal (and automated) abstract
interpretation-based method for constructing a coarse-grained and
self-consistent dynamical system aimed at molecular patterns that are
distinguishable by the dynamics of the original system as posited by the
rules. The method is formally sound and never requires the execution of
the rule-based model. The coarse-grained variables do not depend on the
values of the rate constants appearing in the rules, and typically form
a system of greatly reduced dimension that can be amenable to numerical
integration and further model reduction techniques.

Efficient index-based filtering for NGS read mapping and suffix/prefix overlap computation

Gregory Kucherov (CNRS/LIGM Marne-la-Vallée)

Thursday, January 29, 2015 – 10:30

Room Minquiers

Talk abstract:

We present two related algorithms for two different problems. The first problem is the classical read mapping problem
where we assume a constant number of errors is allowed in each read alignment. The second problem is the one of
efficiently retrieving reads overlapping with a given query sequence. For both problems, we assume that the reads are
stored in a space-efficient indexing structure such as FM-index, and we propose an efficient search strategy based on 
partitioning the query read. 

The results are joint with D.Tsur (Ben-Gurion University) and K.Salkhov (LIGM/Moscow State University) and have 
been presented to CPM'14 and SPIRE'14 conferences.

Interactions plante – communautés microbiennes dans la rhizosphère sous le regard des ‘omiques’

Christophe Mougel (Inra Rennes)

Thursday, January 22, 2015 – 10:30

Room Minquiers

Talk abstract:

Les communautés microbiennes associées aux plantes, et plus particulièrement celle de la rhizosphère associée aux racines, contribue fortement à la valeur adaptative des plantes à des stress multiples. Des avancées récentes sur l’écologie des communautés microbiennes dans la rhizosphère sous les effets de la plante hôte été permise grâce aux apports des techniques de séquençage à haut-débit. Cependant ces études ne sont permises que si un dialogue étroit entre biologie et bioinformatique/biostatistique existe afin de développer les méthodes nécessaires pour donner sens aux données biologiques. Au cours de l’exposé sera présenté les méthodes développées pour l’analyse de la diversité des communautés microbiennes mais aussi les questions qui demeurent pour mieux intégrer ces données et aller vers des études plus fonctionnelles.

Christophe Mougel

INRA, Institut de Génétique, Environnement et Protection des Plantes, UMR1349, Domaine de la Motte, F-35653 Le Rheu, France

Courriel : christophe.mougel@rennes.inra.fr
Tedna: a Transposable Element De Novo Assembler

Matthias Zytnicki (Inra Toulouse)

Thursday, January 15, 2015 – 10:30

Room Minquiers

Talk abstract:

Recent technological advances are allowing many laboratories to sequence their research organisms. Available de novo assemblers leave repetitive portions of the genome poorly assembled. Some genomes contain very high proportions of transposable elements, and transposable elements appear to be a major force behind diversity and adaptation. Few de novo assemblers for transposable elements exist, and most have either been designed for small genomes or 454 reads.

In this presentation, we present a new transposable element de novo assembler, Tedna, which assembles a set of transposable elements directly from the reads. Tedna uses Illumina paired-end reads, the most widely used sequencing technology for de novo assembly, and forms full length transposable elements.

Tedna is available from http://urgi.versailles.inra.fr/Tools/Tedna, under the GPLv3 license. Tedna can be used on standard computers with limited RAM resources, although it may also use large memory for better results and parallelization when available.
Analyse de la robustesse phénotypique d’une bactérie phytopathogène par intégration du réseau métabolique et du réseau de régulation

Ludovic Cottret (INRA Toulouse)

Thursday, January 8, 2015 – 10:30

Room Minquiers

Talk abstract:

Dans l’analyse du réseau métabolique, la robustesse d’un phénotype est communément définie comme la capacité du métabolisme à maintenir ce phénotype malgré des perturbations génétiques ou environnementales. Plusieurs éléments peuvent être à l’origine de la robustesse phénotypique : la versatilité, i.e. la capacité du système à fonctionner à partir de différents nutriments; la redondance fonctionnelle comprenant la redondance génétique et les voies métaboliques alternatives; et enfin le contrôle du système qui intervient pour capter et compenser efficacement les perturbations.
Nous nous sommes intéressés à l’analyse de la robustesse phénotypique chez une bactérie phytopathogène, Ralstonia solanacearum. Plus particulièrement, nous avons tenté de prédire l’influence du réseau de régulation de la virulence sur la robustesse phénotypique. Pour cela, nous avons d’abord effectué une reconstruction de haute qualité du réseau métabolique et du réseau de régulation de la virulence grâce à une suite d’outils automatiques et semi automatiques. Ensuite, nous avons développé une librairie Java, appelée FlexFlux, destinée à l’analyse de balance des flux (FBA). L’originalité de FlexFlux est d’intégrer de façon native le réseau de régulation et le réseau de métabolique dans chacune de ces fonctions. Nous verrons enfin comment nous avons utilisé FlexFlux pour mesurer la robustesse de plusieurs phénotypes (liés ou non à la virulence) et l’influence du réseau de régulation de la virulence sur celle-ci.

see year: 2020 – 2019 – 2018 – 2017 – 2016 – 2015 – 2014 – 2013 – 2012

Orthology-based genome annotation and interpretation

Whole genome assembly of the parasitoid wasp Lysiphlebus fabarum

Le séquençage et l’assemblage de génomes de référence à partir de données PacBio

Looking for mutations in PacBio cancer data: an alignment-free method

Design algorithmique de protéines et Optimisation Combinatoire

Apports de la génétique et de la génomique pour la conservation des populations de poissons anadromes

Towards a model-free classification of spindle elongation

Mesurer la dispersion : que peuvent apporter les NGS ?

A carefully tamed p-value is bioinformatician’s most faithful friend

Neuroinformatics: from image analysis to genomics

Complexity in Genomic Patterns and Classification

Design algorithmique de proteines, Optimisation Combinatoire et Comptage

Variant detection and assembly via maximal clique enumeration

Diversité de communautés de reads et structure de nuages de points

Handling large logical models: the role of model reduction

Easy identification of generalized common and conserved nested intervals

Génomique du cancer : Identification d’altérations génétiques du mélanome chez le modèle canin par Exome et RNAseq

Reconstructing the history of speciation from NGS data, accounting for genome-wide heterogeneity in introgression rates

Graines approchees pour la recherche de courts motifs, application aux microARN

Knowledge-based generalization for metabolic models

Internal coarse-graining of molecular systems

Efficient index-based filtering for NGS read mapping and suffix/prefix overlap computation

Interactions plante – communautés microbiennes dans la rhizosphère sous le regard des ‘omiques’

Tedna: a Transposable Element De Novo Assembler

Analyse de la robustesse phénotypique d’une bactérie phytopathogène par intégration du réseau métabolique et du réseau de régulation