SMILES para niños
Datos para niños SMILES |
||
---|---|---|
http://www.daylight.com/smiles/ | ||
Información general | ||
Extensión de archivo | .smi |
|
Tipo de MIME | chemical/x-daylight-smiles | |
Tipo de formato | formato de archivo de química | |
Formato abierto | ? | |
En el mundo de la química, el Simplified Molecular Input Line Entry System (que significa "Sistema Simplificado de Entrada Lineal Molecular"), o SMILES, es una forma especial de escribir la estructura de una molécula. Imagina que es un código secreto que usa letras y símbolos ASCII para describir cómo están unidos los átomos en una molécula.
Las cadenas SMILES son como instrucciones que la mayoría de los programas de diseño molecular pueden entender. Estos programas usan las cadenas SMILES para dibujar las moléculas en 2D (como un plano) o crear modelos 3D (como una escultura).
La idea original de SMILES fue creada por Arthur Weininger y David Weininger a finales de los años 80. Con el tiempo, otras personas y empresas, como Daylight Chemical Information Systems Inc., la mejoraron. En 2007, un grupo de químicos que trabajan con programas de código abierto (llamado Blue Obelisk) creó una versión abierta de SMILES, llamada "OpenSMILES".
En 2006, la IUPAC (una organización internacional de químicos) lanzó otro sistema llamado InChI. Se dice que SMILES es más fácil de leer para las personas que InChI. Además, muchos programas de computadora usan SMILES porque se basa en la teoría de grafos, que es muy útil para representar conexiones.
Contenido
¿Qué significan los términos de SMILES?
El término SMILES se refiere al sistema general para escribir estructuras moleculares. Sin embargo, cuando hablamos de una molécula específica, usamos el término "cadena SMILES". A veces, la palabra SMILES se usa para referirse a una sola cadena o a varias, y el significado se entiende por el contexto.
Los términos canónico e isomérico pueden sonar un poco confusos. Estos términos describen características diferentes de las cadenas SMILES y no se excluyen mutuamente.
¿Qué es una cadena SMILES canónica?
Para una misma molécula, se pueden escribir varias cadenas SMILES que son correctas. Por ejemplo, para el etanol, puedes escribir CCO, OCC o C(O)C. Todas significan lo mismo.
Para evitar confusiones, se crearon algoritmos especiales. Estos algoritmos aseguran que siempre se genere la misma cadena SMILES para una molécula, sin importar cómo se empiece a describir. Esta cadena única se llama SMILES canónico.
Los algoritmos de SMILES canónicos no solo cambian las letras. Primero, convierten la cadena SMILES en una representación interna de la molécula. Luego, generan la cadena canónica. Empresas como Daylight Chemical Information Systems, OpenEye Scientific Software y Chemical Computing Group desarrollaron estos algoritmos. Una de las principales utilidades de los SMILES canónicos es organizar y asegurar que cada molécula sea única en una base de datos.
¿Qué es una cadena SMILES isomérica?
La notación SMILES también permite describir estereoisómeros. Estas son moléculas que tienen los mismos átomos conectados de la misma manera, pero con una disposición diferente en el espacio. Las cadenas SMILES que incluyen esta información se llaman SMILES isoméricos.
Una característica importante es que permiten especificar la quiralidad (como si una molécula fuera la imagen especular de otra, como tus manos). El término "SMILES isomérico" también se usa para cadenas SMILES que especifican isótopos (átomos del mismo elemento con diferente número de neutrones).
Ejemplos de cómo se usa SMILES
Átomos en SMILES
Los átomos se representan con la abreviatura de su elemento químico. Por ejemplo, [Au] es para el oro. Para algunos elementos comunes como B, C, N, O, P, S, F, Cl, Br e I, los corchetes se pueden omitir.
Si no se usan corchetes, se asume que el átomo tiene el número correcto de átomos de hidrógeno unidos. Por ejemplo, la cadena SMILES para el agua es simplemente O.
Si un átomo tiene una carga eléctrica, se encierra entre corchetes. Después, se pone una H si tiene hidrógenos (y el número si hay más de uno, como NH4 para el amonio). Luego, se añade un '+' para carga positiva o un '-' para carga negativa. El número de cargas se especifica después del signo (o se repite el signo). Por ejemplo, el anión hidróxido es [OH-], el catión oxonio es [OH3+], y el catión cobalto III (Co3+) es [Co+3] o [Co+++].
Enlaces en SMILES
Los enlaces entre átomos en cadenas abiertas (alifáticos) se asumen como simples si no se dice lo contrario. Se indican simplemente poniendo los átomos uno al lado del otro. Por ejemplo, para el etanol, se escribe CCO.
Para los anillos (estructuras cerradas), se usan números para indicar que dos átomos no adyacentes están conectados. Por ejemplo, el ciclohexano es C1CCCCC1 y el dioxano es O1CCOCC1. Si hay un segundo anillo, se usa el número 2 (como en el naftaleno: c1cccc2c1cccc2). Si hay más de 9 anillos, se añade el signo '%' antes del número (por ejemplo, %12 para el anillo 12).
Los enlaces dobles se representan con el símbolo '=' y los triples con '#'. Por ejemplo, O=C=O es el dióxido de carbono y C#N es el cianuro de hidrógeno.
Aromaticidad en SMILES
Los átomos aromáticos (que forman anillos especiales y estables) como C, O, S y N se escriben con su letra minúscula: 'c', 'o', 's' y 'n'. Así, el benceno es c1ccccc1, la piridina es n1ccccc1 y el furano es o1cccc1.
Los enlaces entre átomos aromáticos se asumen como aromáticos, pero se pueden especificar con ':'. Los átomos aromáticos pueden unirse a otros con enlaces simples. Por ejemplo, el bifenilo (dos anillos de benceno unidos) se escribe c1ccccc1-c2ccccc2. Un átomo de nitrógeno aromático unido a hidrógeno, como en el pirrol, se representa como [nH]. El imidazol se escribe n1c[nH]cc1.
Los algoritmos de Daylight y OpenEye para generar SMILES canónicos tienen pequeñas diferencias en cómo manejan la aromaticidad.
Ramificaciones en SMILES
Las ramificaciones (cadenas que salen de la principal) se escriben entre paréntesis. Por ejemplo, CCC(=O)O es el ácido propiónico, y C(F)(F)F es el fluoroformo.
Los anillos con ramificaciones pueden escribirse indicando el punto de unión en el anillo. Esto hace que las cadenas SMILES sean más fáciles de leer. Por ejemplo, COc(c1)cccc1C#N y COc(cc1)ccc1C#N representan los isómeros 3-cianoanisol y 4-cianoanisol.
Estereoquímica en SMILES
La configuración de los enlaces dobles (si los grupos están del mismo lado o de lados opuestos) se indica con los caracteres "/" y "\". Por ejemplo, F/C=C/F representa el E-difluoroeteno (los átomos de flúor están en lados opuestos). F/C=C\F es una forma de representar el Z-difluoroeteno (los átomos de flúor están del mismo lado).
La configuración de un átomo de carbono tetraédrico (que tiene cuatro enlaces que apuntan a las esquinas de un tetraedro) se especifica con @ o @@. Por ejemplo, la L-alanina, un aminoácido común, se escribe N[C@@H](C)C(=O)O. El símbolo @@ indica la dirección en la que se ven los sustituyentes. La D-alanina se puede escribir como N[C@H](C)C(=O)O. El orden de los sustituyentes en la cadena SMILES es muy importante.
Isótopos en SMILES
Los isótopos se especifican poniendo el número de masa del isótopo antes del símbolo del átomo. Por ejemplo, el benceno con un átomo de carbono-14 se escribe [14c]1ccccc1. El deuteriocloroformo (cloroformo con deuterio, un isótopo de hidrógeno) es [2H]C(Cl)(Cl)Cl.
Aplicación de SMILES
Molécula | Estructura | Cadena SMILES |
---|---|---|
Dinitrógeno | N≡N | N#N |
Isocianato de metilo (MIC) | CH3–N=C=O | CN=C=O |
Sulfato de cobre (II) | Cu2+ SO42- | [Cu+2].[O-]S(=O)(=O)[O-] |
Enantotoxina (C17H22O2) | ![]() |
CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO |
Piretrina II (C21H28O5) | ![]() |
COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C |
Aflatoxina B1 (C17H12O6) | ![]() |
O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 |
Glucosa (glucopyranosa) (C6H12O6) | ![]() |
OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1 |
Cuscutina alias Bergenin (resina) (C14H16O9) | ![]() |
OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2 |
Una feromona de la cochinilla californiana | ![]() |
CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C |
2S,5R-Chalcogran: feromona del barrenillo Pityogenes chalcographus | ![]() |
CC[C@H](O1)CC[C@@]12CCCO2 |
Vanilina | ![]() |
O=Cc1ccc(O)c(OC)c1 |
Melatonina (C13H16N2O2) | ![]() |
CC(=O)NCCC1=CNc2c1cc(OC)cc2 |
Flavopereirina (C17H15N2) | ![]() |
CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4 |
Nicotina (C10H14N2) | ![]() |
CN1CCC[C@H]1c2cccnc2 |
α-tujona (C10H16O) | ![]() |
CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2 |
Tiamina (C12H17N4OS+) (vitamine B1) |
![]() |
OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2 |
Aquí tienes un ejemplo de una molécula muy grande, la Cefalostatina-1. Es una molécula esteroidea que se encuentra en un gusano marino llamado Cephalodiscus gilchristi. Su fórmula es C54H74N2O10.
Su cadena SMILES, empezando por el grupo metilo de la izquierda, es:
C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
Fíjate en los símbolos '%' delante de los números de los anillos que son mayores de 9. Esto se explica en la sección "Enlaces" de este artículo.
Otros recursos de SMILES
Puedes encontrar mucha más información sobre la notación SMILES en el manual de teoría de SMILES de Daylight Chemical Information Systems. También tienen una herramienta llamada depict utility que te permite probar tus propias cadenas SMILES. Es una herramienta muy útil para aprender.
Extensiones de SMILES
SMARTS es una notación similar a SMILES, pero se usa para buscar patrones específicos dentro de las moléculas. SMARTS usa muchos símbolos de SMILES, pero también permite usar "comodines" para átomos y enlaces. Estos comodines son como los que usas en los juegos de cartas, que pueden representar cualquier cosa. Así, puedes buscar subestructuras en una base de datos química.
Es importante saber que la búsqueda con SMARTS no compara directamente las cadenas de texto. En realidad, tanto las cadenas SMILES como las SMARTS se convierten primero en representaciones gráficas internas. Luego, se busca si una de estas representaciones es un "subgrafo" (una parte) de la otra.
SMIRKS es otra notación lineal que se usa para describir cómo cambian las moléculas en una reacción química.
Conversión de SMILES
Las cadenas SMILES se pueden convertir de nuevo en dibujos 2D de las estructuras moleculares usando algoritmos especiales (como el de Helson, 1999). Sin embargo, esta conversión no siempre es única. Para convertirlas en modelos 3D, se usan métodos que buscan la forma más estable de la molécula. Hay muchas herramientas de conversión disponibles, tanto en línea como para descargar.
Ver también
- Smiles arbitrary target specification, el lenguaje SMARTS para buscar patrones en moléculas.
- SYBYL, otra forma de escribir estructuras moleculares.
- Molecular Query Language - un lenguaje de consultas que también permite incluir datos numéricos, como valores físicos o distancias.
- Chemistry Development Kit, una herramienta para convertir y dibujar moléculas en 2D.
- International Chemical Identifier (InChI), la alternativa gratuita y abierta a SMILES creada por la IUPAC.
- OpenBabel, JOELib, OELib, herramientas para la conversión de formatos químicos.