User:Lydiaromera/sandbox

Motivo de secuencia
En genética, un motivo de secuencia es un nucleótido o patrón de secuencia de residuos de aminoácidos conservados que son presuntamente importantes para la función de la proteína, de manera que tienen una significancia biológica. Están ubicados dentro de una cierta distancia entre sí.

Un motivo de secuencia se distingue de un motivo estructural, que es un motivo formado por el arreglo tridimensional de aminoácidos que puede ser, o no, adyacente.

Un ejemplo de motivo es el de la N-glicosilación:"Asn, seguida por cualquier aminoácido excepto Pro, seguida por Ser o Thr, seguida por cualquier aminoácido excepto Pro"donde las abreviaturas de las letras son las nomenclaturas convencionales y establecidas para los aminoácidos (ver código genético).

Visión general
Cuándo un motivo de secuencia aparece en el exon de un gen, puede codificar el "motivo estructural" de una proteína; ese es un elemento estereotipado de la estructura global de la proteína. Sin embargo, los motivos no necesitan estar asociados con una estructura secundaria distintiva.

Las secuencias no codificantes de DNA no se traducen a proteínas y los ácidos nucleicos con tales motivos no necesitan desviarse de la forma típica (por ejemplo, la forma B del ADN de doble hélice).

En el exterior de los exones del gen, existen motivos de secuencia reguladora y motivos dentro del "junk", como ADN satélite. Se cree que alguno de estos afecta a la forma de los ácidos nucleicos (como por ejemplo, en el autoempalme de ARN o RNA-self-splicing), pero esto solo ocurre en ocasiones. Por ejemplo, muchas proteínas de unión al ADN (DNA-binding proteins) que tienen afinidad por sitios específicos de unión al ADN, solo se unen a él en su forma de doble hélice. Son capaces de reconocer motivos a través de contacto con el surco mayor o surco menor de la doble hélice.

Los motivos de codificación corta, los cuales parecen carecer de estructura secundaria, incluyen aquellos que señalizan o etiquetan las proteínas para su entrega a diferentes partes de la célula, o bien las marcan para su fosforilación.

Dentro de una secuencia o base de datos de secuencias, los investigadores buscan y encuentran motivos utilizando técnicas de análisis de secuencia pertenecientes a la disciplina de bioinformática, como BLAST. Ver también secuencia de consenso.

Considerando el motivo del sitio de N -glicosilación mencionado anteriormente:"Asn, seguida por cualquier aminoácido excepto Pro, seguida por Ser o Thr, seguida por cualquier aminoácido excepto Pro"Este patrón puede escribirse como: N{P}[ST]{P} Donde: N = Asn, P = Pro, S = Ser, T = Thr; {X} significa cualquier aminoácido excepto  y   significa cualquiera   o

La notación  no da indicación sobre las probabilidades de   o   ocurriendo en el patrón. Las probabilidades observadas pueden ser representadas gráficamente utilizando logos de secuencias. A veces los patrones están definidos en plazos de un modelo probabilista como un Modelo oculto de Márkov.

Motifs y secuencias consenso
La notación  significa   o   o , pero no indica la probabilidad de una coincidencia en particular. Por esta razón, dos o más patrones a menudo se asocian con un solo motivo: el patrón definitorio y varios patrones típicos.

Por ejemplo, la secuencia que define el motivo IQ puede tomarse como:

donde  significa cualquier aminoácido y los corchetes indican una alternativa (ver más abajo para más detalles sobre la notación).

Sin embargo, normalmente la primera letra es, y ambas opciones   resuelven en. Dado que la última elección es tan amplia, el patrón  veces se equipara con el motivo IQ en sí, pero una descripción más precisa sería una secuencia de consenso para el motivo IQ.

Notaciones de la descripción del motivo
Se utilizan varias notaciones para describir motivos, pero la mayoría de ellas son variantes de notaciones estándar para expresiones regulares y utilizan estas convenciones:


 * hay un alfabeto de caracteres individuales, cada uno de los cuales denota un aminoácido específico o un conjunto de aminoácidos;
 * una cadena de caracteres extraídos del alfabeto denota una secuencia de aminoácidos correspondientes;
 * cualquier cadena de caracteres extraídos del alfabeto entre corchetes coincide con cualquiera de los aminoácidos correspondientes; por ejemplo,  coincide con cualquiera de los aminoácidos representados por   o   o

La idea fundamental detrás de todas estas notaciones es el principio de coincidencia, que asigna un significado a una secuencia de elementos de la notación de patrón: una secuencia de elementos de la notación de patrón coincide con una secuencia de aminoácidos si y solo si la última secuencia puede dividirse en subsecuencias de tal manera que cada elemento de patrón coincida con la subsecuencia correspondiente a su vez. Por tanto, el patrón  coincide con las seis secuencias de aminoácidos correspondientes a ,  ,  ,  ,   y.

Las diferentes notaciones de descripción de patrones tienen otras formas de formar elementos de patrones. Una de estas notaciones es la notación PROSITE, que se describe en la siguiente subsección.

PROSITE notación del patrón
La colección más grande y completa de motivos de secuencia se encuentra en la base de datos PROSITE.

La notación PROSITE usa los códigos de una letra de la IUPAC y se ajusta a la descripción anterior con la excepción de que se usa un símbolo de concatenación, '  ', entre los elementos del patrón, pero a menudo se coloca entre las letras del alfabeto del patrón.

PROSITE permite los siguientes elementos de patrón además de los descritos anteriormente:


 * La letra minúscula "  " se puede utilizar como elemento de patrón para indicar cualquier aminoácido.
 * Una cadena de caracteres extraídos del alfabeto y encerrados entre paréntesis denota cualquier aminoácido excepto los de la cadena. Por ejemplo,  denota cualquier aminoácido distinto de   o
 * Si un patrón está restringido al N-terminal de una secuencia, el patrón tiene el prefijo '  '.
 * Si un patrón está restringido al C-terminal de una secuencia, el patrón tiene el sufijo '  '.
 * El carácter '  ' también puede aparecer dentro de un patrón de corchetes de terminación, de modo que   coincida con "   " y "   ".
 * Si  es un elemento de patrón, y   y   son dos números enteros decimales con   <= , entonces:
 * es equivalente a la repetición de  exactamente   veces;
 * es equivalente a la repetición de  exactamente   veces para cualquier entero   satisfaga:   <=   <=.

Algunos ejemplos:


 * es equivalente a.
 * coincide con cualquier secuencia que coincida con    o.

La firma del dominio de dedos de zinc de tipo C2H2 es:

Matrices
Una matriz de números que contiene puntuaciones para cada residuo o nucleótido en cada posición de un motivo de longitud fija. Hay dos tipos de matrices de peso.


 * Una matriz de frecuencia de posición (PFM) registra la frecuencia dependiente de la posición de cada residuo o nucleótido. Los PFM se pueden determinar experimentalmente a partir de experimentos SELEX o se pueden descubrir computacionalmente mediante herramientas como MEME utilizando modelos ocultos de Markov.
 * Una matriz de ponderación de posición (PWM) contiene ponderaciones de probabilidades de registro para calcular una puntuación de coincidencia. Se necesita un límite para especificar si una secuencia de entrada coincide con el motivo o no. Los PWM se calculan a partir de PFM.

Un ejemplo de un PFM de la base de datos TRANSFAC para el factor de transcripción AP-1: La primera columna especifica la posición, la segunda columna contiene el número de ocurrencias de A en esa posición, la tercera columna contiene el número de ocurrencias de C en esa posición, la cuarta columna contiene el número de ocurrencias de G en esa posición, el la quinta columna contiene el número de apariciones de T en esa posición, y la última columna contiene la notación IUPAC para esa posición. Tenga en cuenta que las sumas de apariciones de A, C, G y T para cada fila deben ser iguales porque el PFM se deriva de la agregación de varias secuencias consenso.

Visión general
El descubrimiento del motivo de secuencia se ha desarrollado bien desde la década de 1990. En particular, la mayoría de las investigaciones de descubrimiento de motivos existentes se centran en motivos de ADN. Con los avances en la secuenciación de alto rendimiento, estos problemas de descubrimiento de motivos se ven desafiados tanto por los problemas de degeneración del patrón de secuencia como por los problemas de escalabilidad computacional de uso intensivo de datos.

Descubrimiento del motivo de novo
Hay programas de software que, dadas múltiples secuencias de entrada, intentan identificar uno o más motivos candidatos. Un ejemplo es el algoritmo Multiple EM for Motif Elicitation (MEME), que genera información estadística para cada candidato. Hay más de 100 publicaciones que detallan los algoritmos de descubrimiento de motivos; Weirauch y col. evaluó muchos algoritmos relacionados en un punto de referencia de 2013. La búsqueda de motivos plantados es otro método de descubrimiento de motivos que se basa en un enfoque combinatorio.

Descubrimiento del motivo filogenético
También se han descubierto motivos adoptando un enfoque filogenético y estudiando genes similares en diferentes especies. Por ejemplo, alineando las secuencias de aminoácidos especificadas por el gen GCM ( células gliales faltantes ) en el hombre, el ratón y D. melanogaster, Akiyama y otros descubrieron un patrón al que llamaron motivo GCM en 1996. Abarca alrededor de 150 residuos de aminoácidos y comienza de la siguiente manera:

Aquí cada uno  significa un solo aminoácido o un hueco, y cada   indica un miembro de una familia de aminoácidos estrechamente relacionada. Los autores pudieron demostrar que el motivo tiene actividad de unión al ADN.

Un enfoque similar es comúnmente utilizado por las bases de datos modernas de dominios de proteínas como Pfam : los curadores humanos seleccionarían un grupo de secuencias que se sabe están relacionadas y usarían programas de computadora para alinearlas y producir el perfil del motivo, que se puede usar para identificar otras proteínas relacionadas. También se puede utilizar un enfoque filogénico para mejorar el algoritmo MEME de novo, con PhyloGibbs como ejemplo.

Descubrimiento del motivo pareado de novo
En 2017, MotifHyades se desarrolló como una herramienta de descubrimiento de motivos que se puede aplicar directamente a secuencias emparejadas.

Reconocimiento de un motivo de novo por proteína
En 2018, se propuso un enfoque de campo aleatorio de Markov para inferir motivos de ADN a partir de dominios de proteínas de unión al ADN.

Códigos de cadena tridimensional
La E. coli lactosa operón represor LacI ( cadena A) y E. coli activadora del gen de catabolito (  cadena A) ambos tienen un motivo hélice-giro-hélice, pero sus secuencias de amino ácidos no muestran mucho similitud, como se muestra en la tabla siguiente. En 1997, Matsuda, et al. ideó un código que llamaron "código de cadena tridimensional" para representar la estructura de la proteína como una cadena de letras. Este esquema de codificación revela la similitud entre las proteínas mucho más claramente que la secuencia de aminoácidos (ejemplo del artículo): El código codifica los ángulos de torsión entre alfa-carbonos de la estructura de la proteína. "W" siempre corresponde a una hélice alfa.

Motivos de nucleótido

 * Stem-loop structure:


 * Cruciform DNA:


 * D-loop:


 * G-quadruplex:

Motivos de proteína

 * Greek Key motif
 * Helix-loop-helix
 * Helix-turn-helix

Ver también

 * Biomolecular structure
 * Mammalian Motif Finder
 * Multiple EM for Motif Elicitation
 * Nucleic acid sequence
 * Protein primary structure
 * Protein I-sites
 * Sequence logo
 * Sequence mining
 * Structural motif
 * Short linear motif