Biología computacional para niños
La biología computacional es el uso de algoritmos y computadores para facilitar el entendimiento de problemas biológicos. Rama de las ciencias que estudia sistemas biológicos mediante el diseño, estudio y aplicación de algoritmos computacionales. Se focaliza en el análisis de datos, modelado matemático y simulación computacional. Los sistemas estudiados abarcan desde la escala molecular a los ecosistemas, pasando por las células, el sistema nervioso, y los sistemas sociales. La biología computacional abarca varios campos ya establecidos: química, bioquímica, genética, matemáticas, ingeniería de sistemas, física, estadísticas, etc.
Contenido
- Introducción
- Subcampos
- Software y herramientas
- Centros e instituciones proveedores de recursos en Biología Computacional
- Sociedades y organizaciones relevantes
- Revistas especializadas
- Conferencias de interés
- Bases de datos relevantes en Bioinformática y Biología Computacional
- Ver también
- Véase también
Introducción
La biología computacional es a veces definida como sinónimo de Bioinformática y a veces como una disciplina emparentada, pero distinta, de esta. El NIH define a ambas disciplinas como distintas aunque con cierto grado de solapamiento, según esta definición la bioinformática esta más relacionada con el desarrollo de herramientas computacionales con el fin de analizar y procesar datos y la biología computacional con el estudio por medios computacionales de sistemas biológicos.
Subcampos
Bioinformática
La bioinformática es el campo de la biología computacional centrado en la investigación, desarrollo y aplicación de herramientas computacionales para la adquisición, almacenamiento, organización, análisis y visualización de datos biológicos. Se trata de un área de trabajo multidisciplinar, donde se utiliza una gran variedad de métodos y herramientas de minería de datos, reconocimiento de patrones, machine learning o procesamiento digital de imágenes para resolver cuestiones biológicas como alineamiento de secuencias, predicción de genes, comparación de genomas de diferentes especies, predicción de la estructura de proteínas o modelado de interacciones moleculares, entre muchas otras.
Los temas de estudio más relevantes en la bioinformática son el análisis de secuencias y el análisis de expresión génica y su regulación.
El análisis de secuencias suele comprender la identificación de una serie determinada de bases nucleotídicas, búsqueda de patrones o secuencias repetitivas e identificación de características genéticas y genómicas (ej.: genes que codifican proteínas o ARN, promotores, sitios de unión de factores de transcripción o de histonas, variantes genéticas etc.). Todos estos elementos tienen implicaciones estructurales y funcionales para los sistemas biológicos a diferentes niveles: ADN, cromatina, proteínas y su expresión, composición y organización celular o regulación de rutas metabólicas esenciales para el desarrollo celular o de un organismo completo. La creación de bases de datos como RefSeq, GenBank, Ensembl o ENCODE y de herramientas computacionales como BLAST, FASTA y ClustalW, para alineamiento de secuencias, o GLIMMER, GENSCAN, análisis de k-meros o métodos de aprendizaje automático supervisado, para la identificación de genes y otros elementos genómicos, han supuesto importantes avances en el campo de la bioinformática.
El análisis de expresión génica se aborda, o bien, cuantificando los niveles celulares de ARNm, para lo cual los métodos experimentales más relevantes son RNA-Seq, microarrays de ADN, secuenciación de EST, entre otras, o bien, cuantificando los niveles de proteínas, mediante microarrays de proteínas y la espectrometría de masas. En ambos casos, la bioinformática tiene un papel clave en el desarrollo de herramientas y métodos de control de calidad de los datos obtenidos y asegurar una generación de datos robusta y reproducible. Debido a factores experimentales, es muy común obtener una variabilidad muy alta de señales, ya se correspondan con lecturas de secuencias de ARN o secuencias de proteínas, con un alto ratio de ruido de fondo/señales, siendo necesario limpiar este ruido para obtener señales claras y específicas de las moléculas de estudio. En estos métodos es fundamental la normalización de los datos para una cuantificación correcta de las secuencias; en RNA-Seq, el alineamiento de secuencias cortas de ARN contra un genoma de referencia presenta retos bioinformáticos específicos para no generar falsos positivos; o en espectrometría de masas, es necesario diferenciar secuencias originarias de proteínas con estructura, función y localización celular muy diferentes y de proporciones variables. Algunos ejemplos, entre muchos otros, de herramientas computacionales más relevantes para estos análisis son: STAR, para alineamiento de secuencias cortas obtenidas en RNA-Seq, Picard para control de calidad de secuencias, métodos de agrupamiento jerárquico con aprendizaje automático no supervisado para clasificar familias de proteínas y cuantificar su abundancia celular.
El análisis de la regulación de la expresión génica también se puede abordar, o bien, identificando secuencias reguladoras y secuencias motivo asociadas en el ADN (ej.: promotores, enhancers, sitios de unión de factores de transcripción o de histonas etc.), o bien, identificando modificaciones epigenéticas (ej.: apertura de la cromatina y modificaciones de histonas), modificaciones post-transcripcionales del ARNm (ej.: splicing alternativo, adición de cadenas de poli-A etc.) y post-traduccionales de proteínas (ej.: adición de grupos funcionales: fosfato, metilo etc.) y modificaciones químicas del ADN (ej.: metilación). En estos casos, la bioinformática ha sido fundamental para el desarrollo de bases de datos de secuencias motivo y sitios de unión de factores de transcripción como JASPAR o TFBSshape y para el análisis de datos obtenidos por métodos experimentales de identificación de interacciones entre regiones reguladoras, mediante la comprensión de la organización tridimensional del ADN en el núcleo celular. Estos últimos se engloban en los denominados métodos de captura de la conformación de cromosomas o métodos 3C.
Biomodelado computacional
Biología de sistemas
La biología de sistemas es el análisis computacional de sistemas biológicos, desde el nivel molecular hasta poblaciones completas, vía el modelado matemático de sus componentes, sus interacciones intra- e intersistemas y propiedades emergentes. Se caracteriza por basarse en un enfoque holístico o integral del estudio de los procesos biológicos, en contraposición del reduccionismo, el cual ha sido históricamente la aproximación más utilizada para comprender la organización biológica. Si bien este campo abarca variedad de sistemas biológicos, los más típicamente estudiados son las rutas metabólicas, por ejemplo la glucólisis para la obtención de energía a partir de moléculas de glucosa a nivel celular, y de señalización y transducción de señales celulares, por ejemplo la vía de señalización del factor de crecimiento epidérmico (EGF) al unirse a su receptor diana y la consecutiva cascada de modificaciones bioquímicas a nivel celular.
Las ciencias ómicas, cuyos análisis pueden abarcar gran parte de un sistema biológico generando datos masivos, están frecuentemente asociadas con la biología de sistemas, especialmente la metabolómica, proteómica, interactómica o la genómica. En metabolómica, uno de los métodos de estudio más relevante es el análisis de balance de flujo, centrado en construir y analizar un modelo de los flujos de diferentes metabolitos y otros componentes de una ruta metabólica, por ejemplo: los componentes intermedios de la glucólisis, que son modificados bioquímicamente por enzimas sucesivamente hasta generar un producto final. A mayor escala, es posible crear modelos de simulación de redes metabólicas, en las que se describe la interrelación de genes, proteínas, metabolitos y otros componentes. Esto permite, dependiendo de la precisión del modelo, predecir el fenotipo resultante de todos estos mecanismos moleculares subyacentes. En estos estudios son necesarias herramientas computacionales capaces de clasificar grupos asociados de metabolitos, calcular correlaciones entre estos grupos, describir la cinética de reacciones enzimáticas, de acuerdo con la ley de masas, y el uso de minería de textos para obtener información bibliográfica sobre las biomoléculas de interés.
Un campo estrechamente relacionado con la biología de sistemas es la biología sintética, la cual se centra en mejorar sistemas biológicos que existen en la naturaleza (ej.: añadiendo nuevas funcionalidades a una enzima o una ruta metabólica) o en diseñar y construir nuevos sistemas biológicos mediante ingeniería genética (ej.: sintetizando artificialmente biomoléculas capaces de cumplir tareas específicas). Ambos campos se retroalimentan, junto con otros como la ingeniería de control y el diseño de biomateriales. Algunos de los temas de estudio más relevantes son la síntesis de novo de secuencias de genes, incluso de un genoma completo (ver caso del genoma mínimo de Mycoplasma laboratorium), síntesis de factores de transcripción sintéticos y creación de circuitos biológicos sintéticos capaces de regular la transcripción, traducción y regulación de la expresión génica.
Biología evolutiva
Las herramientas computacionales/estadísticas permiten el estudio de las relaciones evolutivas entre moléculas (como proteínas) y/o entre individuos.
Genómica computacional
La genómica computacional es el estudio de la secuencia de los genomas, tanto de ADN como de ARN mediante herramientas computacionales y estadísticas. Dos de los tipos de estudios más frecuentes en este campo son el alineamiento de secuencias y la secuenciación del ADN. Para el primero, se han desarrollado diferentes algoritmos como el algoritmo Needleman-Wunsch y BLAST para comparar dos o más secuencias y cuantificar el grado de similitud entre estas.
Para el segundo, existe una gran variedad de métodos experimentales desde la secuenciación por el Método de Sanger hasta los más utilizados actualmente de tipo "Next Generation Sequencing" o NGS. El constante progreso en el desarrollo y aplicación de estos métodos experimentales a llevado consigo un desarrollo paralelo de herramientas computacionales capaces de tratar conjuntos de datos cada vez más masivos. Etapas clave en un análisis de datos de secuenciación, como pueden ser la identificación de las bases nucleotídicas para la lectura de una secuencia, el alineamiento de esta contra un genoma de referencia o la identificación de variantes genéticas, requieren de potentes algoritmos como redes neuronales, algoritmos SVM o métodos de inferencia Bayesiana.
El Proyecto Genoma Humano es un ejemplo de genómica computacional realizada a una escala internacional, en el cual se consiguió secuenciar por primera vez el 99% de la eucromatina del genoma humano con una precisión del 99.99% en el año 2003. Tras posteriores estudios, se han publicado diferentes versiones del genoma humano, cada cual más completa que la anterior, hasta que en enero de 2022 el Consorcio Telomere-to-Telomere (T2T) publicó los resultados de la secuenciación completa.
Tras el éxito histórico que supuso este proyecto, se han llevado a cabo otros muchos centrados en la secuenciación de genomas. Algunos ejemplos: el Proyecto 1000 Genomas, con el objetivo de estudiar la variabilidad del genoma humano a escala mundial, identificar frecuencias de variantes raras en poblaciones humanas y mejorar los resultados del genoma de referencia humano obtenido en el Proyecto Genoma Humano; el Proyecto 1000 000 Genomas, centrado en investigar variantes genéticas asociadas con enfermedades raras, cancer y enfermedades infecciosas y potenciar el diagnóstico clínico de pacientes del Reino Unido; el Proyecto Earth BioGenome, dedicado en la secuenciación de todos los organismos eucariotas en la Tierra con el propósito de generar genomas de referencia para cada familia taxonómica y así promover iniciativas de conservación de la biodiversidad.
Neurociencia computacional
Farmacología
Software y herramientas
Los biólogos computacionales usan un amplio rango de herramientas computacionales. Desde programas que se ejecutan en la línea de comandos a programas con entorno gráfico y aplicaciones web. Es común que los biólogos computacionales escriban su propio software. La complejidad de este software varía ampliamente desde pequeños _scripts_ para facilitar la comunicación entre programas o el análisis de datos a programas realmente complejos con miles de líneas de código.
Software de código abierto
Programas de Código abierto (y de Software libre) proveen de una plataforma ideal para el desarrollo de métodos biológicos. El código abierto permite que cualquier persona tenga acceso y pueda corregir y modificar el código fuente de un programa. La revista PLOS Computational Biology cita cuatro principales razones para utilizar código abierto en ciencia:
- Reproducibilidad: Esto permite a los investigadores usar exactamente los mismos métodos para el análisis y/o modelado de datos biológicos.
- Desarrollo más rápido: En vez de re-inventar la rueda los científicos pueden hacer uso de código pre-existente y adaptarlo a sus necesidades.
- Mayor calidad: Al hacer el código accesible a terceros, se hace más fácil que se encuentren y corrijan errores, que de otra forma podrían pasar inadvertidos.
- Disponibilidad a largo plazo: El código abierto (y el software libre) no están atados a una empresa en particular o a patentes, lo que fomenta su diseminación a lo largo de la web y aumenta las chances de que el código este disponible en el futuro.
Centros e instituciones proveedores de recursos en Biología Computacional
A nivel europeo, las instituciones más relevantes centradas en investigación en biología computacional y otros campos asociados son:
- European Molecular Biology Laboratory (EMBL), con 5 sedes principales repartidas entre Francia, Alemania, Reino Unido, Italia y España.
- European Bioinformatics Institute (EBI) en el Reino Unido, formando parte del EMBL.
- Swiss Institute of Bioinformatics (SIB) en Suiza.
- Wellcome Trust Sanger Institute en el Reino Unido.
- Netherlands Bioinformatics Centre en Países Bajos.
- COSBI - The Centre for Computational and Systems Biology en Italia.
- Max Planck Institute of Molecular Cell Biology and Genetics (MPI-CBG) en Alemania.
A nivel americano, las instituciones más relevantes son:
- National Center for Biotechnology Information (NCBI)
- Broad Institute
- Whitehead Institute
- J. Craig Venter Institute
- Center for Biomolecular Science and Engineering (CBSE)
En España:
- Instituto Nacional de Bioinformática (INB)
- Centro Nacional de Supercomputación (BSC-CNS)
- Centro de Regulación Genómica (CNAG-CRG), formando parte del EMBL.
Sociedades y organizaciones relevantes
- International Society for Computational Biology
- bioinformatics.org
Revistas especializadas
- (BMC) Algorithms for Molecular Biology
- Bioinformatics (formerly Computer Applications in the Biosciences)
- BMC Bioinformatics
- BMC Systems Biology
- Genome Biology
- Genomics
- Journal of Computational Biology
- Nucleic Acids Research
- PLoS Computational Biology
- PLoS ONE
- Statistical Applications in Genetics and Molecular Biology
Conferencias de interés
- Intelligent Systems for Molecular Biology (ISMB)
- European Conference on Computational Biology (ECCB)
- Pacific Symposium on Biocomputing (PSB)
- International Conference on Research in Computational Molecular Biology (RECOMB)
Bases de datos relevantes en Bioinformática y Biología Computacional
- Ensembl
- UCSC Genome Browser
- InterPro
- Pfam
- OMIM
- Superfamily
- CATH
- SCOP
- Protein Data Bank
- DECIPHER
Ver también
Véase también
En inglés: Computational biology Facts for Kids