Em formação

Identificar um resíduo conservado em múltiplas estruturas PDB

Identificar um resíduo conservado em múltiplas estruturas PDB



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Tenho algumas centenas de estruturas de PDB da mesma proteína e preciso identificar um resíduo específico conservado em todas elas.

Originalmente, eu queria extrair as sequências dos arquivos PDB com BioPython, alinhá-las e, em seguida, usar esse alinhamento para identificar o número do resíduo em cada PDB para o meu resíduo conservado.

Mas descobri que isso é um pouco mais difícil do que eu esperava. Freqüentemente, partes da sequência estão ausentes no PDB. Não vejo uma maneira óbvia de obter uma sequência adequada dos arquivos PDB. Depois, há o problema de mapear o número de resíduos conservados de volta no arquivo PDB.

Existe alguma maneira mais fácil de fazer isso? Não precisa ser BioPython, embora isso seja bom.


Minha abordagem para este problema seria usar VMD (Visual Molecular Dynamics), onde você pode carregar vários PDBs, realizar o alinhamento estrutural e / ou de sequência e analisar a conservação de resíduos dentro de um programa.

VMD é um poderoso programa de visualização molecular para exibir, animar e analisar grandes sistemas biomoleculares usando gráficos 3D e scripts integrados. Provavelmente é um exagero para o que você quer fazer, mas acho bastante intuitivo de usar e poderoso. Eu também tenho uma documentação incrível e muitos tutoriais passo a passo, começando com esta introdução básica.

O que você precisa especificamente para o seu problema é um MultiSeq 2.0 plugin que você pode encontrar em Extensões-> Análise-> MultiSeq nas novas versões do VMD. É um ambiente de bioinformática que permite carregar, exibir e analisar os dados de sequência e estrutura de suas proteínas com apenas alguns cliques do mouse. Ele também tem um ótimo conjunto de tutoriais para ajudá-lo a começar! O que você pode achar interessante para comparar muitas estruturas de proteínas semelhantes é uma opção para criar, visualizar e manipular árvores filogenéticas.

Aqui está o tutorial passo a passo na comparação de estruturas e sequências com MultiSeq.

Aqui você pode encontrar publicações originais para VMD e MultiSeq:

VMD:

Humphrey, W., Dalke, A. e Schulten, K., VMD - Visual Molecular Dynamics., J. Molec. Gráficos, 1996, 14:33-38.

MultiSeq:

Roberts, E., Eargle, J., Wright, D. e Luthey-Schulten, Z., MultiSeq: Unificação de sequência e estrutura de dados para análise evolutiva. BMC Bioinformatics, 2006, 7:382.


Sequências incompletas são um problema comum. Uma maneira de contornar isso é enviar sua lista de IDs do PDB a um mapeador de IDs. O da Uniprot funciona bem. Simplesmente copie e cole seus códigos de ID do PDB. Certifique-se de que está indo do PDB para o UniprotKB (veja a imagem abaixo. Esperamos que você consiga mapear a maioria, senão todos os seus IDs.

Depois disso, baixe o arquivo de texto. Em seguida, você pode extrair as sequências desse arquivo de texto com o seguinte script:

from Bio import SeqIO filenames = ["YOURINPUTFILE.txt"] input_format = "swiss" output_filename = "YOUROUTPUTFILE.fasta" output = open (output_filename, "w") para nome de arquivo em nomes de arquivo: para registro em SeqIO.parse (filename, input_format ): sequence = record.seq output.write (">% s  n% s  n"% (record.id, sequence))

Em seguida, envie essas sequências para sua ferramenta MSA favorita. Eu respondi uma pergunta sobre como fazer um MSA aqui se você ainda não fez um.

Um ponto secundário, e talvez óbvio, na reflexão, é que o número do resíduo não será o mesmo em todas as suas sequências devido aos indels. Você precisará reavaliar essa situação quando chegar lá se ainda planeja mapear os resíduos conservados em estruturas 3D em vez de uma sequência.


Você pode usar o Ensembl (http://www.ensembl.org/index.html) para recuperar ortólogos da proteína e alinhá-los usando um dos muitos programas gratuitos baseados na web (como o ClusterOmega)


Identificando um resíduo conservado em múltiplas estruturas PDB - Biologia

um Instituto de Ciências Biomédicas, Academia Sinica, Taipei 115, Taiwan
O email: [email protected]

b Instituto de Biologia Molecular, Academia Sinica, Taipei 115, Taiwan
O email: [email protected]

c Departamento de Química, Universidade Nacional de Tsing Hua, Hsinchu 300, Taiwan

Resumo

Apresentamos uma estratégia de tratamento de curto prazo para enfrentar surtos de pandemia de coronavírus sem drogas / vacinas específicas, combinando princípios evolutivos e físicos para identificar domínios virais conservados contendo sítios de Zn drogáveis ​​que podem ser direcionados por compostos de ejeção de Zn clinicamente seguros. Ao aplicar esta estratégia à poliproteína-1ab de SARS-CoV-2, previmos vários sítios Zn lábeis na protease de cisteína semelhante à papaína (PL pró ), fator de transcrição nsp10 e helicase nsp13. Estes são alvos de drogas atraentes porque são altamente conservados entre os coronavírus e desempenham papéis estruturais / catalíticos vitais em proteínas virais indispensáveis ​​para a replicação do vírus. Mostramos que cinco ejetores de Zn podem liberar Zn 2+ de PL pró e nsp10, e dissulfiram e ebselen clinicamente seguros podem não apenas se ligar covalentemente às cisteínas ligadas a Zn em ambas as proteínas, mas também inibir PL pró protease. Propomos a combinação de dissulfiram / ebselen com medicamentos / antivirais de amplo espectro para atingir diferentes domínios conservados que atuam em vários estágios do ciclo de vida do vírus para inibir sinergicamente a replicação do SARS-CoV-2 e reduzir o surgimento de resistência aos medicamentos.


Predição de resíduos catalíticos em enzimas com base na estrutura terciária conhecida, perfil de estabilidade e conservação de sequência

Os resíduos catalíticos ou funcionalmente importantes de uma proteína são conhecidos por existirem em regiões evolutivamente restritas. No entanto, os padrões de conservação de resíduos por si só às vezes não são muito informativos, dependendo das sequências homólogas disponíveis para uma dada proteína query. Aqui, apresentamos um método integrado para localizar os resíduos catalíticos em uma enzima a partir de sua sequência e estrutura. Mutações de resíduos funcionais geralmente diminuem a atividade, mas, ao mesmo tempo, aumentam a estabilidade. Além disso, os resíduos catalíticos tendem a ocupar locais parcialmente enterrados em buracos ou fendas na superfície molecular. Depois de confirmar essas tendências gerais por meio da realização de análises estatísticas em 49 enzimas representativas, esses dados, juntamente com a conservação de aminoácidos, foram avaliados. Este novo método exibiu melhor sensibilidade na precisão das predições do que os métodos tradicionais que consideram apenas a conservação de resíduos. Nós o aplicamos a algumas proteínas chamadas “hipotéticas”, com estruturas conhecidas, mas funções indefinidas. As relações entre os resíduos catalíticos, conservados e desestabilizadores em proteínas enzimáticas são discutidas.


Biologia estrutural e química das proteínas arginina metiltransferases

A proteína arginina metiltransferases (PRMTs), uma classe alvo emergente na descoberta de drogas, pode metilar histonas e outros substratos e pode ser dividida em três subgrupos, com base no padrão de metilação do produto de reação (monometilação, dimetilação simétrica ou assimétrica). Aqui, revisamos o crescente corpo de informações estruturais que caracterizam esta família de proteínas, incluindo estruturas em complexo com inibidores alostéricos e competitivos de substrato. Descrevemos as diferenças estruturais entre as enzimas do tipo I, II e III e propomos um modelo subjacente à especificidade de classe. Analisamos a plasticidade estrutural e a diversidade do substrato, cofator e sítios de ligação alostérica, e propomos que a dinâmica conformacional de PRMTs pode ser explorada para a descoberta de inibidores alostéricos que antagonizariam estados conformacionalmente ativos.

Figuras

Fig. 1. Visão geral estrutural do Tipo I ...

Fig. 1. Visão geral estrutural dos PRMTs Tipo I. (A) Arquitetura de domínio de PRMTs humanos. O…

Fig. 2. Dinâmica estrutural do tipo ...

Fig. 2. Dinâmica estrutural da α-hélice Tipo I. A α-hélice observada no Tipo I ...

Fig. 3. Visão geral estrutural do PRMT5. (UMA)…

Fig. 3. Visão geral estrutural do PRMT5. (A) O núcleo da estrutura do CARM1 é mostrado como ...

Fig. 4. Determinantes estruturais para especificidade do produto ...

Fig. 4. Determinantes estruturais para a especificidade do produto de PRMTs Tipo I, II e III. Modelo…

Fig. 5. Plasticidade estrutural do cofator ...

Fig. 5. Plasticidade estrutural do cofator e sítios de ligação do substrato. A hélice α conformacionalmente dinâmica ...

Fig. 6. Diversidade estrutural do cofator ...

Fig. 6. Diversidade estrutural do cofator e bolsas de ligação ao substrato. (A) Agrupamento de humanos ...

Fig. 7. Inibição alostérica de PRMT3. (UMA…

Fig. 7. Inibição alostérica de PRMT3. (A e B) Um inibidor alostérico de PRMT3 se liga em ...

Fig. 8. O pocketome PRMT. ICMPocketFinder (Molsoft,…

Fig. 8. O pocketome PRMT. ICMPocketFinder (Molsoft, San Diego) foi usado para mapear os bolsos presentes…


Métodos estatísticos para identificar resíduos conservados em alinhamento de sequência múltipla

A avaliação da conservação de resíduos em um alinhamento de múltiplas sequências é uma questão central em bioinformática. Resíduos e regiões conservados são usados ​​para determinar motivos estruturais e funcionais ou relações evolutivas entre as sequências de um alinhamento de sequência múltipla. Por este motivo, a conservação de resíduos é uma medida valiosa para a busca de banco de dados e motivos ou para estimar a qualidade dos alinhamentos. Neste artigo, apresentamos métodos estatísticos para identificar resíduos conservados em alinhamentos de sequência múltipla. Enquanto a maioria dos estudos anteriores examinam a conservação posicional do alinhamento, nos concentramos na detecção de resíduos individuais conservados em uma posição. As principais vantagens dos métodos de comparação múltipla advêm de sua capacidade de selecionar resíduos conservados simultaneamente e de considerar a variabilidade das estimativas de resíduos. Simulações em larga escala foram utilizadas para a análise comparativa dos métodos. O desempenho prático foi estudado comparando os resíduos estrutural e funcionalmente importantes dos domínios de homologia 2 de Src (SH2) com as atribuições dos índices de conservação. A aplicabilidade dos índices também foi comparada em três famílias de proteínas adicionais compreendendo diferentes graus de entropia e variabilidade nas posições de alinhamento. Os resultados indicam que os métodos estatísticos de comparação múltipla são sensíveis e confiáveis ​​na identificação de resíduos conservados.

Diário

Aplicações estatísticas em genética e biologia molecular & ndash de Gruyter


4 DISTINÇÃO DE COVARIAÇÃO DE RNA DE SUBSTITUIÇÕES FILGENÉTICAS INDEPENDENTES

Mesmo as posições que não parecem suportar um par de bases de RNA têm algum MI positivo diferente de zero, conforme ilustrado na Figura 2b. Mesmo os alinhamentos de sequência aleatória mostram algum nível de covariação devido ao ruído estatístico. O que constitui evidência de covariação significativa de uma estrutura de RNA deve ser medido em relação à covariação produzida por outras fontes no contexto do mesmo alinhamento. A filogenia é uma fonte óbvia de covariação de fundo em qualquer alinhamento de sequência conservado. Métodos de covariação tentaram corrigir esse efeito de covariação de fundo (Dutheil, 2012).

A Figura 3 mostra um exemplo de dois alinhamentos de brinquedo que mostram variação semelhante, mas onde apenas um dos casos está associado a um par de bases de RNA conservado. Na Figura 3a, duas substituições independentes produzem por acaso o que parece ser uma mutação dupla compensatória. Na Figura 3b, oito mutações coordenadas como quatro pares compensatórios preservando um par de bases produzem sequências descendentes com exatamente as mesmas frequências de resíduos de pares como na Figura 3a.

Em Rivas et al. (2017), projetamos um teste estatístico para distinguir entre esses dois cenários de covariação diferentes, implementados em um programa denominado R-scape. No teste R-scape, as covariações em um alinhamento são comparadas à distribuição das pontuações das covariâncias observadas em alinhamentos simulados de grau semelhante de divergência e correlação filogenética, mas onde a correlação estrutural foi removida. Os alinhamentos simulados reproduzem o mesmo número de substituições nas mesmas ramificações que o alinhamento real. Mas nos alinhamentos simulados, as substituições para um determinado ramo não ocorrem nas mesmas posições que no alinhamento real, mas em diferentes posições aleatórias selecionadas do conjunto de posições com o mesmo resíduo. Por exemplo, para a história evolutiva na Figura 3b, as duas colunas representadas surgem de uma história evolutiva de quatro pares correlacionados de mutações ocorrendo em quatro ramos diferentes, em apenas duas posições. Nos alinhamentos simulados, essas mutações serão substituídas por oito mutações independentes nos mesmos quatro ramos, mas ocorrendo em posições aleatórias no alinhamento que permitem essas mutações específicas.

Usando muitos alinhamentos simulados, obtemos a distribuição de pontuações de covariação para uma história evolutiva semelhante à do alinhamento de entrada, mas depois de remover qualquer coevolução posicional no alinhamento real. A distribuição empírica para esta hipótese nula de covariação devido apenas à filogenia é usada para estimar o número de falsos positivos esperados devido à filogenia, chamado de valor E, por par de posições. O valor E estima o número esperado de pares relacionados apenas pela filogenia, o que teria uma pontuação pelo menos tão grande quanto o par em questão. Quanto menor o valor E, menos pares esperados relacionados apenas por filogenia que teriam uma pontuação de covariação comparável.

4.1 Co-variação significativa em RNAs estruturais

A Figura 4 mostra como R-scape funciona usando dois exemplos de RNAs estruturais, o riboswitch SAM-I com um comprimento médio de 110 nts e o RNA telomerase de vertebrado mais longo (vTR na legenda da Figura 4) com 445 nts em média. A Figura 4 usa os alinhamentos de sementes Rfam para esses dois RNAs estruturais. A Figura 4a, b mostra as estruturas de consenso fornecidas nos alinhamentos Rfam onde os pares de bases com suporte de covariação significativo (valores E menores que 0,05) foram marcados em verde. A Figura 4a, b mostra que em ambas as moléculas a maioria das hélices tem suporte de covariação para pelo menos um dos pares de bases. A Figura 4c, d mostra em azul a distribuição das pontuações de covariação para os pares de bases na estrutura anotada. Sombreados em azul estão os pares de bases com valor E menor que 0,05, ou seja, aqueles para os quais sua pontuação corresponde a um número esperado de falsos positivos menor que 0,05 sob a distribuição nula (plotado em preto). Para o riboswitch SAM-I, esta análise identifica 30 dos 38 pares de bases anotados como co-variando significativamente, e 27 de 107 para o RNA da telomerase de vertebrado.

A análise R-scape também calcula a significância do suporte de covariação para todos os outros pares possíveis além daqueles na estrutura de consenso fornecida. A Figura 4c, d mostra em vermelho a distribuição das pontuações de covariação para pares não-base. Em vermelho sombreado estão aqueles pares não básicos com uma pontuação que resultaria em um número esperado de falsos positivos inferior a 0,05. Para o riboswitch SAM-I, duas interações terciárias são consideradas significativas (denominadas “sc” para covariação lateral e “xc” para covariação cruzada na Figura 4a). Eles parecem ser correlações indiretas entre os resíduos envolvidos nos pares de bases altamente correlacionados da hélice P4.

4.2 Co-variação significativa em estruturas alternativas de RNA

Riboswitches são exemplos de RNAs com estruturas alternativas com evidência de covariação. A Figura 4a mostra a estrutura do aptâmero riboswitch SAM-I, mas riboswitches têm outro domínio funcional chamado de plataforma de expressão. O aptâmero e as plataformas de expressão se sobrepõem por uma região que pode formar duas hélices alternativas. A Figura 5a mostra a análise de R-scape de alinhamentos incluindo o aptâmero e as plataformas de expressão para o riboswitch SAM-I de Zhu e Meyer (2015) e o riboswitch purina obtido de Ritz et al. (2013). Esses alinhamentos estendidos mostram evidências de covariação nas hélices alternativas do terminador e do anti-terminador.

Outro exemplo de um RNA com estruturas alternativas conservadas é o RNA spliceossômico U2. O Stem-IIa e o Stem-IIc são duas estruturas concorrentes que promovem diferentes etapas de emenda (Perriman & Ares, 2007). Além disso, o branching interacting stem loop (BSL) se reorganiza com Stem-I (Perriman & Ares, 2010). A Figura 5b mostra que há evidência de covariação para as duas alternativas Stem-IIa e Stem-IIb. Stem-I também tem suporte de covariação, mas as sequências que formam o BSL são muito conservadas e não têm covariação.

4.3 Ausência de covariação significativa em lncRNAs conservados

R-scape mostrou que as estruturas propostas para alguns RNAs não codificantes longos (lncRNAs), como o eutherian HOTAIR (Somarowthu et al., 2015), Xist RNA (Fang et al., 2015 Maenner et al., 2010) e ncSRA ( Novikova et al., 2012), embora tenham sido ditos evolutivamente conservados, na verdade não apresentam nenhuma evidência estatisticamente significativa de covariação estrutural (Rivas et al., 2017). As estruturas publicadas propostas para HOTAIR, Xist e ncSRA foram construídas usando sondagem química experimental em combinação com diferentes algoritmos de predição em sequências únicas (Fang et al., 2015 Maenner et al., 2010 Novikova et al., 2012 Somarowthu et al., 2015), ainda alinhamentos de homólogos de vertebrados com a estrutura de consenso proposta não mostram qualquer covariação significativa acima da expectativa filogenética. Esta análise de covariação, no entanto, não distingue se a falta de covariação nesses lncRNAs ocorre apesar da variabilidade suficiente como na Figura 2b ou se é meramente devido à falta de variabilidade como na Figura 2c. O primeiro caso fornece evidências contra a presença de uma estrutura de RNA conservada, enquanto o último não pode descartar a presença de uma estrutura conservada que poderia ser eventualmente inferida e apoiada por um alinhamento mais diverso.


Identificando um resíduo conservado em múltiplas estruturas de PDB - Biologia

Instantâneo de dados experimentais

  • Método: & nbspDIFRAÇÃO DE RAIOS X
  • Resolução: & nbsp2,40 Å
  • Valor R grátis: & nbsp0,236 & nbsp
  • R-Value Work: & nbsp0,179 & nbsp
  • Valor-R observado: & nbsp0,179 & nbsp

Validação wwPDB& nbsp & nbspRelatório 3D & nbspRelatório completo

Estrutura cristalina da família termoestável 5 endocelulase E1 de Acidothermus cellulolyticus em complexo com celotetraose.

(1996) Biochemistry & nbsp35: 10648-10660

  • PubMed: & nbsp8718854 & nbsp Pesquisa no PubMed
  • DOI: & nbsp10.1021 / bi9604439
  • Citação primária de estruturas relacionadas: & nbsp
    1ECE
  • Resumo PubMed: & nbsp

A estrutura cristalina do domínio catalítico da endocelulase E1 termoestável de Acidothermus cellulolyticus em complexo com celotetraose foi resolvida por substituição isomorfa múltipla e refinada em uma resolução de 2,4 A para um fator R de 0,18 (Rfree = 0.

A estrutura cristalina do domínio catalítico da endocelulase E1 termoestável de Acidothermus cellulolyticus em complexo com celotetraose foi resolvida por substituição isomorfa múltipla e refinada em uma resolução de 2,4 A para um fator R de 0,18 (Rfree = 0,24). E1cd é um membro da superfamília 4/7 de hidrolases e, como esperado, sua estrutura é um barril (alfa / beta) 8, que constitui um protótipo para celulases da família 5-subfamília 1. A molécula de celotetraose liga-se de uma maneira consistente com o complexo de Michaelis esperado para a semi-reação de glicosilação e revela que todos os oito resíduos conservados nas enzimas da família 5 estão envolvidos no reconhecimento do grupo glicosil atacado durante a clivagem. Considerando que apenas três resíduos são conservados em toda a superfamília 4/7 (o duo Asn / Glu e o Glu do qual o nome é derivado), as comparações estruturais mostram que todos os oito resíduos conservados na família 5 têm equivalentes funcionais nos outros 4/7 membros da superfamília, reforçando o argumento de que os detalhes mecanicistas são conservados em toda a superfamília. Com base na estrutura, uma sequência detalhada de etapas físicas do mecanismo de clivagem é proposta. Uma abordagem próxima de dois resíduos principais de glutamato fornece um mecanismo elegante para a mudança no pKa do ácido / base para as semi-reações de glicosilação e desglicosilação. Finalmente, comparações com base puramente estrutural são usadas para mostrar que existem diferenças significativas nos escores de similaridade estrutural resultantes de métodos diferentes e sugere que se deve ter cuidado na interpretação de tais resultados em termos de relações evolutivas implícitas.

Afiliação Organizacional: & nbsp

Seção de Bioquímica, Biologia Molecular e Celular, Cornell University, Ithaca, New York 14853, EUA.


Resultados

Determinantes de especificidade da família LacI

Escolhemos a família LacI para nossa análise porque (1) é uma das maiores famílias de fatores de transcrição bacteriana, (2) a disponibilidade de genomas bacterianos completos nos permitiu resolver a ortologia por análise posicional (ver Métodos), e ( 3) as informações experimentais [31, 32, 33] e estruturais [34, 35] disponíveis podem ser usadas para verificar nossas previsões.

A Figura 1 apresenta as informações mútuas eu eu, a informação mútua esperada eu exp e a probabilidade P (I) calculado para a família LacI usando o Model1. O Model2 produz resultados muito semelhantes (consulte as Informações Suplementares). Este gráfico revela várias características importantes: Primeiro, ele mostra alta correlação ρ = 0,97 entre eu eu e . Muito bom acordo entre eu eu e demonstra que o modelo estatístico usado para calcular eu exp conseguiu explicar ρ 2 = 94% da variação na informação mútua e é capaz de reproduzir naturalmente maior informação mútua devido à alta similaridade intrafamiliar dos ortólogos. Em segundo lugar, a grande maioria dos aminoácidos da família LacI exibe fraca associação com a especificidade, conforme indicado por P (I) ≈ 1. Terceiro, muito poucas posições têm ambos baixos P(eu eu) e alto eu eu (mostrado pelas setas na Fig 1). Os aminoácidos nessas posições têm forte associação com agrupamento funcional (mais forte do que as sequências em média), indicando o papel dessas posições na determinação de diferentes especificidades de diferentes grupos de ortólogos.

Observado eu (azul) e a média esperada eu exp (vermelho grosso) informação mútua nos domínios de ligação ao DNA (A) e ligação ao ligante (B) da família LacI. Linhas vermelhas finas mostram eu exp ± 2σ (eu exp ). P (I) é a significância estatística das informações mútuas. Círculos preenchidos indicaram resíduos com eu & gt 1.0. Posições com círculos preenchidos e baixos P (I) são determinantes de especificidade previstos. O número ao longo da sequência está de acordo com a estrutura do 1wet PDB.

A Tabela 1 apresenta os aminoácidos que determinam a especificidade prevista. É importante ressaltar que embora os métodos para estimar a significância estatística sejam muito diferentes, os conjuntos de resíduos encontrados por eles são muito semelhantes. Os determinantes da especificidade são: 15, 16, 50 e 55, no primeiro domínio e 98, 114, 122, 146, 147, 160, 221 e 249 no segundo domínio (aqui e abaixo a numeração está de acordo com PurR o código PDB 1wet).

A Tabela 2 das Informações Suplementares mostra o padrão de conservação dos determinantes da especificidade prevista. Como esperado, a maioria desses resíduos são conservados dentro de grupos ortólogos e são diferentes entre os diferentes grupos. É importante ressaltar que há algumas exceções a essa regra em todas as posições que determinam a especificidade (consulte Discussões).

Para entender melhor o papel dos resíduos determinantes da especificidade, nós os mapeamos nas estruturas dos complexos PurR e LacI-DNA. A Figura 2 apresenta a estrutura do complexo PurR-DNA com resíduos determinantes de especificidade mostrados por modelos atômicos de preenchimento de espaço com átomos de raios de van der Waals. Claramente, esses resíduos formam dois grupos na estrutura: um em torno do DNA e outro em torno do ligante. Este resultado não é nenhuma surpresa, uma vez que as proteínas da família LacI atuam como repressores da transcrição (ativadores) na presença ou ausência de moléculas pequenas específicas (açúcares, nucleotídeos, etc.). Conseqüentemente, as proteínas parálogas diferem na especificidade do reconhecimento do DNA e da molécula pequena (ligante). Os dois clusters espaciais identificados supostamente determinam essa especificidade.

Estrutura do PurR ligado ao DNA. Duas cadeias do dímero são mostradas semitransparentes em verde claro e rosa. Os determinantes da especificidade previstos são mostrados por preenchimento de espaço e coloridos em vermelho na cadeia rosa e verde na cadeia verde clara. O ligante () e o DNA são mostrados em azul. Observe a penetração profunda de alguns resíduos determinantes da especificidade no DNA e a formação da bolsa de ligação ao ligante pela maioria dos outros.

O exame da estrutura nos leva às seguintes conclusões. (1) Os primeiros quatro resíduos determinantes de especificidade em PurR THR15, THR16, VAL50 e LYS55 (TYR17, GLN18, VAL52 e ALA57 em LacI) estão localizados no domínio de ligação ao DNA. Três deles (15, 16 e 55 em PurR 17,18,57 em LacI) estão profundamente enterrados nos sulcos de DNA formando uma rede densa de interações com as bases (ver Fig. 3C, 3D). VAL50 (VAL52 em LacI) forma um contato hidrofóbico com sua contraparte na outra cadeia. (2) Seis outros resíduos determinantes de especificidade (de oito) MET122, ASP146, TRP147, ASP160, PHE221, ILE249 (ASN125, ASP149, VAL150, PHE161, TRP220, GLN248 em LacI) estão localizados no bolso de ligação ao ligante. Cinco deles (MET122, ASP146, ASP160, PHE221, ILE249) estão dentro de 8 UMA do ligante em PurR e dentro de 5 UMA em LacI (ASN125, ASP149, PHE161, TRP220, GLN248) (ver Fig. 3A, 3B). O agrupamento observado dos aminoácidos identificados em torno do ligante é impressionante, uma vez que a estrutura da proteína não foi usada em nossa análise.

Imagem detalhada dos bolsos de ligação do ligante (A, B) e da interface proteína-DNA (C, D) em PurR (esquerda) LacI (direita). Os determinantes da especificidade previstos são mostrados em preenchimento de espaço.

Tal localização estrutural indica que os resíduos identificados estão de fato envolvidos no reconhecimento específico. Enquanto os resíduos de ligação ao DNA determinam os motivos reconhecidos no DNA, os resíduos localizados perto do ligante determinam a especificidade de ligação ao ligante da proteína. Uma vez que diferentes ortólogos têm diferentes ligantes, esses resíduos mudam de subfamília para subfamília, mas permanecem os mesmos na maioria das subfamílias. PHE221 em PurR e TRP220 correspondente em LacI são de especial interesse, pois seus anéis aromáticos interagem diretamente com ligantes aromáticos. Dois outros resíduos (TRP98 e LYS114 em PurR ARG101, GLN117 em LacI) não pertencem a nenhum dos agrupamentos, pois estão localizados longe do DNA e do ligante. Eles são "falsos positivos" ou têm algum papel especial na regulação alostérica [36]. Na verdade, VAL50, TRP98 e LYS114 de uma cadeia interagem fortemente com a outra cadeia, especificamente VAL50 interage com LYS114 da outra cadeia. Esses resíduos podem ser importantes para a dimerização correta e, portanto, exibem a covariação procurada com o agrupamento funcional. Em resumo, a localização estrutural dos resíduos identificados apóia a visão de que eles servem como determinantes da especificidade em proteínas da família LacI. Isso inclui a especificidade do reconhecimento do DNA e a especificidade de ligação ao ligante.


Reconhecimentos

Agradecemos a W. Rice e B. Wang por ajudar na coleta de dados no NYU cryo-EM Shared Resource. Agradecemos ao NYU Microscopy Laboratory por nos ajudar com a microscopia de coloração negativa. Agradecemos ao HPC Core da NYU Langone Health pelo acesso e suporte ao computador. Agradecemos a J.-P. Armache para feedback. Este trabalho no laboratório Armache foi financiado por uma bolsa da David and Lucile Packard Foundation. S.A.-A. é apoiado pela bolsa Molecular Biophysics T32 (5T32GM088118). E.N. e N.V. são apoiados pelo NIH grant R01 GM127267, Blavatnik Family Foundation e pelo Howard Hughes Medical Institute. P.T. e S.H. são apoiados pelo Howard Hughes Medical Institute. Parte desse trabalho foi realizado no Centro de Microscopia Eletrônica Simons e National Resource for Automated Molecular Microscopy localizado no New York Structural Biology Center, apoiado por doações da Simons Foundation (SF349247), NYSTAR e do NIH National Institute of General Medical Sciences ( GM103310), com suporte adicional do Agouron Institute (F00316) e NIH (OD019994 e RR029300).


Fundo

As monooxigenases do citocromo P450 (CYPs) são uma família de proteínas ubíqua, existindo em todos os eucariotos, na maioria dos procariontes e Archae. Essas enzimas contendo heme catalisam a monooxigenação de uma grande variedade de substratos [1]. CYPs têm uma função essencial no metabolismo de drogas, portanto, focada na indústria farmacêutica [2]. Além disso, são de grande interesse para aplicação sintética em biotecnologia como biocatalisadores versáteis [3]. Um conhecimento profundo dos fatores que medeiam a seletividade e a atividade dessas proteínas é um pré-requisito no desenvolvimento de CYPs com propriedades melhoradas. Portanto, percepções mais profundas nas relações entre sequência, estrutura e função são de grande interesse.

De acordo com a classificação de Nelson [4], os CYPs são agrupados em famílias e superfamílias homólogas, predominantemente com base na similaridade de sequência. A identidade de sequência entre proteínas de diferentes superfamílias é extremamente baixa e pode ser inferior a 20% [5]. Apenas três aminoácidos são totalmente conservados, o ácido glutâmico e a arginina do motivo ExxR, que está envolvido na estabilização do núcleo e na ligação ao heme [6], e a cisteína ligada ao heme. No entanto, o número crescente de estruturas cristalinas mostra que, apesar dessa variabilidade incomum, a estrutura geral é altamente conservada: CYPs consiste em módulos estruturais conservados que são essenciais para a estrutura e função, e de regiões variáveis ​​que medeiam as propriedades bioquímicas individuais. As estruturas secundárias conservadas definidas são denominadas αA-L e β1-5 e podem ser identificadas em todas as estruturas CYP e constituem o denominado CYP-fold [7–9].

A maioria dos CYPs requer interação com uma redutase para fornecer elétrons, seja como proteínas separadas ou como proteínas de fusão. Dependendo da natureza de seu parceiro de transferência de elétrons, os CYPs são atribuídos a diferentes classes. Embora nenhum consenso tenha sido alcançado na definição desta classificação, existem vários esquemas propostos que subdividem os CYPs em até nove classes [10–12]. O mais geral, que foi aplicado neste trabalho, discrimina entre duas classes principais de CYPs [13]: classe I, que compreende CYPs mitocondriais e bacterianos e classe II, que compreende CYPs interagindo com um citocromo P450 do tipo redutase (tipo CPR ) FMN / FAD redutase e representa uma simplificação do esquema de classificação amplamente aceito por Kelly et al. em 1]. Além disso, existem CYPs conhecidos que não precisam de uma redutase para sua reação [14]. Proteínas de fusão, como a classe II auto-suficiente CYP 102A1 de Bacillus megaterium (P450 BM-3) que contém um domínio heme e uma redutase, bem como aqueles CYPs que não requerem nenhuma interação com a redutase, aparecem muito raramente na natureza [15]. Portanto, na maioria dos CYPs, a interação com seu parceiro redox apropriado é um pré-requisito para que sua reação ocorra. Muitas isoenzimas CYP diferentes interagem com apenas uma redutase, e é assumido que CYPs da mesma classe são comparáveis ​​em relação aos seus locais de interação com a redutase [16]. Espera-se que haja interações eletrostáticas favoráveis ​​entre CYPs e seu parceiro de transferência de elétrons [17]. Uma estrutura cristalina para um complexo CYP-redutase ainda não está disponível. Mesmo que a cinética na redução de P450 não possa ser generalizada entre diferentes sistemas P450, e os conceitos sobre a influência de uma etapa de limitação de taxa não sejam universais [18], a transferência de elétrons da redutase para o domínio heme é frequentemente lenta e dos aspectos de limitação de taxa em muitos sistemas CYP [19]. However, the interactions between the components of the electron transfer systems still remain unclear. A deeper understanding of the factors determining reductase interaction gained by the analysis of the reductase interaction sites of CYPs will assist in improving interactions and consequently lead to optimized enzymes for biocatalytic applications [20].

Previous analyses of the structure conservation in CYPs showed that all CYPs have a well-conserved heme-binding structural core formed out of αD, αE, αI, and αL and αJ and αK [21]. The β-bulge region which contains the thiolate heme ligand is referred to as Cys-pocket. Between αK and the Cys-pocket, a structurally conserved region is located, the so-called 'meander' loop. It is spanned by 7-10 amino acid residues and is supposed to play a role in heme binding and stabilization of the tertiary structure. The proposed reductase interaction face of CYPs mainly comprises the αJ/αJ' and the insertion following the meander loop [6]. Since the structures of all CYPs are highly similar, but differ in substrate specificity and their electron transfer partners, the different biochemical properties of CYPs are mediated by the diverse regions, which vary in both sequence and structure [8].

Six regions which are involved in recognition and binding of substrates and hence determine substrate specificity were described as SRSs (substrate recognition sites [22]). SRS1 lies in the highly variable loop region between αB and αC (BC-loop), SRS2 is located in the C-terminal end of αF, SRS3 and SRS4 are spanned by the N-terminal regions of αG and αI, β1-4 houses SRS5 and β4-1 SRS6. While the access of the substrate to the binding pocket is limited by flexible regions in the entrance channel, such as αF and αG which undergo strong conformational changes upon substrate binding [23, 24], the regions flanking directly the binding pocket and thus limiting the access of the substrate to the heme, namely αI, the BC-loop region and SRS5, were observed to remain rigid during simulation [25, 26]. In a systematic analysis of SRS5 in more than 6300 sequences, single substrate- and heme-interacting residues could be identified in this region [27]: Thus, a hotspot for regio- and stereoselectivity in one residue in SRS5 and one position in the BC-loop (F87), were previously reported as key residues in determining activity, regio- and stereoselectivity in CYP102A1 [28–30]. Combinations of variants of these two positions were applied to design a minimal mutant library with improved selectivity [31]. Due to the high variability of the BC-loop, the identification of position 87 in CYP102A1 in other CYPs, remains a challenge for sequences without structural information.

To serve as a tool for a comprehensive comparison of protein sequences and structures within the vast and diverse family of CYPs in order to transfer the newly gained insights among the CYP sequences, the Cytochrome P450 Engineering Database (CYPED) [32] has been designed. In its current version 2.02 it contains 8614 sequences [33]. The highly similar structures have been compared in detail to identify the common core and to assign the variable regions. For this purpose a structural alignment was used as a base to generate a reliable structure profile. With this profile all structurally conserved regions (SCR) could be predicted and annotated among all CYPED protein sequence entries, hence allowing a structural navigation in those sequences lacking structural information. Beyond this, the CYPED website provides an interface which allows the prediction of the SCRs for every user-specified CYP sequence.

CYP Structures

A set of 31 PDB structures [34] was extracted from version 1.1 of the CYPED [32] as listed in table 1. The selection includes 16 bacterial structures of class I and 12 CYPs assigned to class II CYPs, comprising CYPs which interact with a CPR-type FMN/FAD reductase. The structures in this class are predominantly of mammalian origin. The only exception is CYP102A1 (P450 BM-3) from Bacillus megaterium, which is a fusion enzyme, consisting of a P450 domain and a FMN/FAD reductase domain [15]. Because of its structural similarity to CYP102A1, the bacterial CYP175A1 isolated from the thermophilic Thermus thermophilus was also assigned to class II [14]. Additionally analyzed crystal structures were: CYP8A (human prostacyclin synthase), which accepts endoperoxides or hydroperoxides as substrates and does not require any electron-transfer partner or molecular oxygen [35] CYP55A2 from Fusarium oxisporum and 152A1 from Bacillus subtilis (P450Bsβ) are representatives for CYPs which obtain electrons directly from NAD(P)H or catalyze a peroxide-dependent reaction. All structures represent the closed form of CYPs since including the open form as available for example for CYP2B4 [36] would worsen the alignment quality. Eleven recently published CYP structures were not included in the alignment but were used to validate the prediction of the structurally conserved regions.

CYP Sequences

The analysis of CYP sequences and structures was performed based on the updated version 2.02 of the CYPED [33]. It integrates sequences of 8614 proteins. The proteins are organized into 249 superfamilies and 619 homologous families according to Nelson [4]. Reliable multisequence alignments are available for each family. The sequences are annotated by automatically extracted GenBank annotations [37], which were manually enriched. Secondary structure information is available as DSSP annotation within the multisequence alignments for those homologous families containing members with existing PDB structures.


Conclusões

We have presented a novel approach that utilizes an as of yet underused source of data. We have shown that the covariation scores are consistent with previous findings from both a large-scale study, and other individual experiments. In addition, we have identified a number of candidate SDRs in a ranked list for future experimental validation. In particular, with the top-scoring pairs from natural PDZ domains and kinase domains both verified in previous work, the SH3 top-scoring pairs are good candidates for testing their roles in determining the binding specificity of SH3 domains.