BIOINFORMATIQUE

Membres du groupe impliqués : Miikka Vikkula, Raphaël Helaers


LA PLATE-FORME DE GÉNOMIQUE

Nous hébergeons la plate-forme UCL microarray (Affymetrix), utilisée par plusieurs groupes de l'Institut de Duve et de l'UCL et pour le profilage d'expression, ainsi que le génotypage. Cette plate-forme est complétée par un équipement de séquençage à haut débit. Financé par la Fondation Contre le Cancer, il se compose d'un séquenceur SOLiD 5500XL (Life Technologies), un PGM (Ion Torrent, Life Technologies), un Proton (Ion Torrent, Life Technologies) et un cluster de calcul pour le traitement bioinformatique. Cet équipement nous permet de séquencer génome, exome, panels, ARN, ChIP-seq et d'effectuer des études de méthylation. L'analyse des données produites par les équipements Life Technologie est effectuée en amont en utilisant leurs logiciels (Lifescope, Torrent Suite), puis avec une combinaison de packages open source (BWA, GATK, snpEff, ...). D'autres pipelines d'analyses sont disponible pour les données provenant d'autres technologies (e.g. Illumina). En aval, l'évaluation et la hiérarchisation des variants sont réalisées en utilisant "Highlander", un package qui intègre plusieurs programmes d'analyse in-silico et d'utilitaires, en proposant une interface graphique conviviale (développé en interne). Tout ceci améliore notre capacité d'identifier et d'explorer les bases génétiques et épigénétiques des maladies.

 

HIGHLANDER, UN LOGICIEL POUR LE FILTRAGE AISÉ DES VARIANTS 
(Raphael Helaers)

Le séquençage à haut débit produit des quantités énormes de données. Le séquençage ciblé d'un exome peut être effectué en quelques jours en utilisant le NGS, permettant la découverte de nouveaux variants en quelques semaines. La technologie génère cependant un nombre considérable de faux positifs, et la différenciation des erreurs de séquençage des véritables mutations n'est pas une tâche aisée. En outre, l'identification des changements d'intérêt parmi des dizaines de milliers de variants nécessite de nombreuses annotations provenant d'une multitude de sources de données, ainsi que des capacités de filtrage avancées.

Nous avons développé Highlander, un logiciel Java couplé à une base de données MySQL, afin de centraliser toutes les données des variants et de leurs annotations au sein du laboratoire, et de fournir des outils de filtrage puissants tout en étant facilement accessibles au biologiste. Les données peuvent être générés par une machine NGS, (comme le HiSeq d'Illumina, ou les SOLiD, Proton et Ion Torrent de Life Technologies) et la plupart des variant callers (comme GATK du Broad Institute ou LifeScope de Life Technologies). Les appels de variants sont annotés en utilisant DBNSFP (fournissant les prédictions de nombreux programmes et les fréquences alléliques d'ExAC, 1000G et d'autres), GoNL et SnpEff, et importés ultérieurement dans la base de données. La base de données est utilisée pour calculer des statistiques globales, permettant la discrimination des variants en fonction de leur représentation dans la base de données. L'interface graphique d'Highlander permet facilement de construire des requêtes complexes pour interroger la base de données, en utilisant des filtres prédéfinis pour certains critères standards, tels que «variants spécifiques à certains échantillons", "variants communs à certains échantillons spécifiques» ou «gènes hétérozygotes combinés". Les utilisateurs peuvent naviguer à travers les résultats de la requête à l'aide de tri, de masques et de mise en évidence des informations. Highlander donne également accès à des outils supplémentaires très utiles, tels qu'un accès direct à IGV, et un algorithme qui vérifie parmi tous les alignements disponibles la valeurs des allèles à des positions spécifiques.
 

EXCALIBUR, UN CLASSIFICATEUR DE REGION GÉNÉTIQUE
(Raphael Helaers, Miikka Vikkula)

L'objectif du projet est d’étendre le logiciel Highlander en développant un nouveau classificateur. Afin d'exploiter au mieux les données biologiques (exomes et génomes), ce nouveau système de classification aura recours à trois stratégies principales : identification de régions d'intérêt, mise en place d’un cadre statistique innovant basé sur les tests d’association et développement d’un algorithme de machine learning. Cette approche est primordiale dans l'analyse des pathologies génétiques hétérogènes, complexes et multigéniques, telles que le lymphoedème primaire, les fentes labiopalatines, ou le cancer du sein (étudiés dans le laboratoire d’accueil). Dans un premier temps, nous considérerons le gène dans son ensemble en tant qu'unité d’analyse, plutôt que le variant comme le font la plupart des autres logiciels de classification. Durant la seconde phase, nous regrouperons les gènes sur base de leur implication au sein de mêmes voies de signalisation. Finalement, pour les données de génomes complets, nous aurons besoin de définir de nouvelles unités d'analyse. Nous développerons ensuite un cadre statistique pour tester l'association de variants parmi les régions génétiques définies. Nous mettrons en place un pipeline qui générera automatiquement des hypothèses, récoltera les données pertinentes et les analysera dans notre cadre statistique. Ensuite, un algorithme de machine learning sera conçu afin de faire usage des résultats récoltés et de classer les hypothèses concurrentes. Notre outil de classification sera mis à disposition gratuitement sous la forme d’un logiciel autonome, et nous comparerons ses performances à des données publiques. Enfin, nous intégrerons cet outil à Highlander et réaliserons des études de cas afin d’identifier de nouvelles associations de variants au sein des maladies étudiées par le laboratoire. Ce projet est le sujet principal de la thèse de doctorat de Simon Boutry.

 

AUTRES PROJETS BIOINFORMATIQUES

(Raphael Helaers)

Nous développons actuellement un LIMS (Laboratory Information Management System) qui nous permettra de gérer plus efficacement les données de nos biobanques, reliant échantillons, patients, informations cliniques, expériences, résultats et publications.

Plusieurs projets ont également été développé dans le cadre de mémoires ou de stages d'étudiants :

  • Simon Boutry (Master d'ingénieur civil -mathématiques appliquées-, UCL) a exploré différents cadres statistiques permettant d'effectuer des tests d'associations sur des ensembles de variants génétiques, et a développé un package R permettant de les classer.
  • Gaël Leroy (Bachelier d'informatique de gestion, Haute École Léonard de Vinci, Institut Paul Lambin) a développé un outil Java permettant d'annoter des variants générés par la technologie Ion Torrent, afin d'éliminer de manière automatisée un maximum de faux positifs et d'artefacts de séquençage.
  • Hélène Libion (Master en bioinformatique, ULB) a développé un outil Java permettant d'explorer des listes de variants génétiques en les groupant par voies de signalisation.

Nous participons également au développement régional et national des pipelines d'analyse NGS. Comme la bioinformatique devient une composante essentielle de la recherche génétique, d'autres projets in-silico seront déployés dans le futur.

 

USEFUL LINKS