A pesar de los avances en tecnologías de secuenciación y métodos computacionales en la última década, los investigadores han descubierto genomas de solo una pequeña fracción de la diversidad microbiana de la Tierra. Debido a que la mayoría de los microbios no se pueden cultivar en condiciones de laboratorio, sus genomas no se pueden secuenciar utilizando enfoques tradicionales. Identificar y caracterizar la diversidad microbiana del planeta es clave para comprender el papel de los microorganismos en la regulación de los ciclos de nutrientes, así como para obtener información sobre las aplicaciones potenciales que pueden tener en una amplia gama de campos de investigación.
Un repositorio público de 52,515 genomas en borrador microbianos generados a partir de muestras ambientales en todo el mundo, que amplía la diversidad conocida de bacterias y arqueas en un 44%, ya está disponible y se describe el 9 de noviembre de 2020 en Biotecnología de la naturaleza. Conocido como el catálogo GEM (Genomes from Earth’s Microbiomes), este trabajo es el resultado de una colaboración en la que participaron más de 200 científicos, investigadores del Instituto Conjunto del Genoma (JGI) del Departamento de Energía de EE. UU. (DOE), una instalación para usuarios de la Oficina de Ciencias del DOE ubicada en Lawrence Berkeley National Laboratory (Berkeley Lab) y la base de conocimientos de biología de sistemas del DOE (KBase).
La metagenómica es el estudio de las comunidades microbianas en las muestras ambientales sin necesidad de aislar organismos individuales, utilizando varios métodos de procesamiento, secuenciación y análisis. «Utilizando una técnica llamada agrupación de metagenomas, pudimos reconstruir miles de genomas ensamblados en metagenomas (MAG) directamente a partir de muestras ambientales secuenciadas sin necesidad de cultivar los microbios en el laboratorio», señaló Stephen Nayfach, primer autor del estudio e investigador científico en Grupo de ciencia de datos del microbioma de Nikos Kyrpides. «Lo que hace que este estudio realmente se destaque de los esfuerzos anteriores es la notable diversidad ambiental de las muestras que analizamos».
Emiley Eloe-Fadrosh, directora del Programa JGI Metagenome y autora principal del estudio, se refirió a los comentarios de Nayfach. «Este estudio fue diseñado para abarcar la gama más amplia y diversa de muestras y ambientes, incluidos suelos naturales y agrícolas, asociados con hospedadores humanos y animales, y océanos y otros ambientes acuáticos, eso es bastante notable».
Añadiendo valor más allá de las secuencias del genoma
Gran parte de los datos se habían generado a partir de muestras ambientales secuenciadas por el JGI a través del Programa de Ciencia Comunitaria y ya estaban disponibles en la plataforma Integrated Microbial Genomes & Microbiomes (IMG / M) del JGI. Eloe-Fadrosh señaló que era un buen ejemplo de minería de “big data” para obtener una comprensión más profunda de los datos y mejorar el valor al hacer que los datos estén disponibles públicamente.
Para reconocer los esfuerzos de los investigadores que habían realizado el muestreo, Eloe-Fadrosh se acercó a más de 200 investigadores de todo el mundo de acuerdo con la política de uso de datos de JGI. “Sentí que es importante reconocer los importantes esfuerzos para recopilar y extraer ADN de estas muestras, muchas de las cuales provienen de entornos únicos y de difícil acceso, e invitó a estos investigadores a ser coautores como parte del consorcio de datos IMG ”, dijo.
Usando este enorme conjunto de datos, Nayfach agrupó los MAG en 18.000 grupos de especies candidatas, el 70% de los cuales eran novedosos en comparación con los 500.000 genomas existentes disponibles en ese momento. “Mirando a través del árbol de la vida, es sorprendente ver cuántos linajes no cultivados solo están representados por MAG”, dijo. “Si bien estos borradores de genomas son imperfectos, aún pueden revelar mucho sobre la biología y diversidad de microbios no cultivados”.
Equipos de investigadores trabajaron en múltiples análisis aprovechando el repositorio del genoma, y el equipo de IMG / M desarrolló varias actualizaciones y características para minar el catálogo de GEM. (Vea este seminario web de IMG sobre contenedores de metagenomas para obtener más información). Un grupo extrajo el conjunto de datos de nuevos metabolitos secundarios de grupos de genes biosintéticos de metabolitos secundarios (BGC), lo que aumentó estos BGC en IMG / ABC (Atlas de grupos de genes biosintéticos) en un 31%. (Escuche este episodio de JGI Natural Prodcast sobre la minería del genoma). Nayfach también trabajó con otro equipo en la predicción de las conexiones entre el host y el virus entre todos los virus en IMG / VR (Virus) y el catálogo de GEM, asociando 81,000 virus, el 70% de los cuales no lo habían hecho. ya se ha asociado con un host, con 23.000 MAG.
Modelando un nuevo camino para los investigadores en metagenómica
Basándose en estos recursos, KBase, un entorno de creación y descubrimiento de conocimiento colaborativo multiinstitucional diseñado para biólogos y bioinformáticos, desarrolló modelos metabólicos para miles de MAG. Los modelos ahora están disponibles en una narrativa pública, que proporciona flujos de trabajo reproducibles y compartibles. “El modelado metabólico es un análisis de rutina para genomas aislados, pero no se ha realizado a escala para microbios no cultivados”, dijo Eloe-Fadrosh, “y sentimos que la colaboración con KBase agregaría valor más allá de la agrupación y el análisis de estos MAG.
“El simple hecho de incorporar este conjunto de datos a KBase tiene un valor inmediato porque las personas pueden encontrar los MAG de alta calidad y utilizarlos para informar análisis futuros”, dijo José P. Faria, biólogo computacional KBase del Laboratorio Nacional Argonne. “El proceso de construcción de un modelo metabólico es simple: basta con seleccionar un genoma o MAG y presionar un botón para construir un modelo de nuestra base de datos de mapeos entre reacciones bioquímicas y anotaciones. Observamos lo que se anotó en el genoma y el modelo resultante para evaluar las capacidades metabólicas del organismo «. (Vea este seminario web de KBase sobre modelado metabólico).
El líder de participación del usuario de KBase, Elisha Wood-Charlson, agregó que al demostrar la facilidad con la que se generaron los modelos metabólicos a partir del conjunto de datos GEM, los investigadores de metagenómica podrían considerar la posibilidad de ramificarse en este espacio. “La mayoría de los investigadores en metagenómica podrían no estar dispuestos a sumergirse en un campo de investigación completamente nuevo [metabolic modeling], pero podrían estar interesados en cómo la bioquímica impacta en lo que trabajan. La comunidad de genómica ahora puede explorar el metabolismo utilizando el camino fácil de KBase desde genomas o MAG hasta modelos que pueden no haber sido considerados ”, dijo.
Un recurso comunitario para facilitar la investigación
Kostas Konstantinidis del Instituto de Tecnología de Georgia, uno de los coautores cuyos datos formaban parte del catálogo, “No creo que haya muchas instituciones que puedan hacer este tipo de metagenómica a gran escala y que tengan la capacidad de realizar análisis. La belleza de este estudio es que se realiza a esta escala que los laboratorios individuales no pueden hacer, y nos brinda nuevos conocimientos sobre la diversidad y función microbianas «.
Ya está encontrando formas de utilizar el catálogo en su propia investigación sobre cómo los microbios responden al cambio climático. “Con este conjunto de datos puedo ver dónde se encuentra cada microbio y cuán abundante es. Eso es muy útil para mi trabajo y para otros que realizan investigaciones similares «. Además, está interesado en expandir la diversidad de la base de datos de referencia que está desarrollando llamada Microbial Genomes Atlas para permitir análisis más sólidos al agregar los MAG.
«Este es un gran recurso para la comunidad», agregó Konstantinidis. “Es un conjunto de datos que facilitará muchos más estudios posteriormente. Y espero que JGI y otras instituciones sigan haciendo este tipo de proyectos ”.
Referencia: «Un catálogo genómico del microbioma de la Tierra» por Stephen Nayfach, Simon Roux, Rekha Seshadri, Daniel Udwary, Neha Varghese, Frederik Schulz, Dongying Wu, David Paez-Espino, I-Min Chen, Marcel Huntemann, Krishna Palaniappan, Joshua Ladau , Supratim Mukherjee, TBK Reddy, Torben Nielsen, Edward Kirton, José P. Faria, Janaka N. Edirisinghe, Christopher S. Henry, Sean P. Jungbluth, Dylan Chivian, Paramvir Dehal, Elisha M. Wood-Charlson, Adam P. Arkin , Susannah G. Tringe, Axel Visel, IMG / M Data Consortium, Tanja Woyke, Nigel J. Mouncey, Natalia N. Ivanova, Nikos C. Kyrpides y Emiley A. Eloe-Fadrosh, 9 de noviembre de 2020, Biotecnología de la naturaleza.
DOI: 10.1038 / s41587-020-0718-6
El trabajo también utilizó recursos del Centro Nacional de Computación Científica de Investigación de Energía (NERSC), otra instalación de usuarios de la Oficina de Ciencias del DOE ubicada en Berkeley Lab.