Durant le mois de Janvier de cette année, Curoverse et Tute Genomics ont chacun obtenu 1,5 million de dollars en financement de démarrage afin de démocratiser le séquençage de gènes. Curoverse est une plate-forme de cloud privé pour l'industrie biomédicale et soutient Arvados, une plate-forme bio-informatique open source. Tute Genomics, quant à lui, propose une solution de type cloud d'analyse du génome, aidant les chercheurs à interpréter les données séquentielles de l'exome humain et même du génome.
Les coûts de séquençage des gènes ont réduit au cours des dernières années, ce qui a rendu plus facile la commercialisation de ce service à un public plus large. En même temps, le stockage et la puissance de calcul ont augmenté conformément à la loi de Moore, rendant le génome complet d'un être humain plus facile à analyser et à stocker.
Cependant, un génome humain entièrement séquencé est de l'ordre de 100-1000 Go de données. Les données d'un million de clients peuvent ajouter jusqu'à un exabyte ou environ 1.000.000 To de données. Des chercheurs de l'Université de Berkeley ont proposé un moyen possible de gérer cette base de données en utilisant une approche à trois niveaux de stockage de 100 PB, un pétaoctet et un téraoctet dans lequel seul ce dernier serait basé sur un SGBDR. Le Saint-Graal de cet effort est une médecine personnalisée. Les humains partagent 99,9 % de leur ADN et l'hypothèse de travail est que l'analyse de la séquence complète du génome de nombreux patients va permettre de découvrir ce qui se cache dans le 0,1% restant qui pourra être utilisé pour prédire et guérir de nombreuses maladies, dont le cancer.
Du côté de la puissance de calcul, du matériel spécialisé est utilisé pour analyser des données de génome plus rapidement. Le coût de séquençage du génome humain a chuté de 100.000 fois dans les 10 dernières années et le temps pour l'analyser a chuté de 13 ans à moins de 3 jours.
Dans le monde de la recherche , il existe déjà des centres de séquençage et d'analyse des données de stockage, chacun d'un petit nombre de patients. Le véritable défi est de combiner ces ensembles de données dans différentes archives et de les croiser avec les dossiers de patients, les traitements et les résultats .
Tout au long des dernières années, les entreprises privées ont pris le relais et ont commencé à offrir l'analyse de génome pour les masses. Des organisations comme Illumina, Seven Bridges Genomics, Complete Genomics et d'autres offrent aux chercheurs et aux entreprises privées la possibilité de cartographier la séquence complète du génome d'une séquence à quatre symboles. Illumina a annoncé récemment HiSeq X Ten, promettant le tant attendu séquençage du génome à 1000$.
Illumina a lancé une plate-forme de cloud computing et de stockage appelé BaseSpace, permettant aux scientifiques de séquencer, d'analyser et de collaborer sur des données qui sont stockées sur Amazon Web Services. Des applications de bio-informatique peuvent également être développées en utilisant leurs APIs et leurs SDKs.
Seven Bridges génomique, d’un autre côté, utilise une combinaison de cloud et des technologies de base de données NoSQL comme EC2, S3 et MongoDB pour le séquençage et l’analyse du génome humain. Glacier est également utilisé pour faire baisser les coûts de stockage de données. Seven Bridges PaaS fournit une interface graphique pour configurer les pipelines de données qui peuvent être basés sur des modèles prédéfinis ou modifiés pour s'adapter à la tâche à accomplir.
Pour les développeurs bio-informatique en herbe, Crossbow est l'un des outils qui peuvent être utilisés pour toute l'analyse du reséquençage du génome. En combinant plusieurs bibliothèques, il peut analyser un génome humain en moins de trois heures pour moins de 100$ dans AWS. Intel propose un guide pas à pas et le code source peut être trouvé sur GitHub.
L'industrie de la recherche en génomique pèse 15 Milliards de dollars et commence tout juste à s’éveiller. Les progrès de la technologie devraient étendre la notion de soi quantifié bien plus loin que ce que nous avions vu jusqu'à aujourd'hui.