PAM, acronimo di Point Accepted Mutation o Percent Accepted Mutation, indica un insieme di matrici di sostituzione usate in bioinformatica per l'allineamento di due sequenze di caratteri (nucleotidi o aminoacidi).
Durante la ricerca di un allineamento tra due sequenze è necessario infatti valutare la bontà degli allineamenti trovati. Per fare questo si attribuisce un punteggio ad ogni coppia di caratteri, che permetterà di trovare l'allineamento che massimizza la similarità tra le due sequenze. In questo contesto ci si chiede se le sostituzioni tra caratteri abbiano tutte la stessa importanza e quindi vadano valutate tutte allo stesso modo.
Origini
[modifica | modifica wikitesto]Le matrici PAM sono il risultato di uno studio del 1978 di Margaret Dayhoff.[1] Vennero analizzate 71 famiglie di proteine strettamente correlate tra loro al fine di analizzare la frequenza delle varie sostituzioni di caratteri. Si notò che le sostituzioni non erano casuali, ma alcune occorrevano più facilmente di altre, probabilmente perché non alteravano significativamente la struttura e la funzione della proteina.
Struttura
[modifica | modifica wikitesto]Ogni matrice ha dimensione 20x20 (venti è il numero degli aminoacidi ordinari), ed ogni cella rappresenta la probabilità di sostituzione di un aminoacido con un altro. Per ciascun aminoacido j si contano tutti i cambiamenti in un altro aminoacido k. Si normalizza la frequenza dividendo per il totale dei cambiamenti. Con questo procedimento si ottiene la matrice A delle sostituzioni nei blocchi di sequenze considerati. Viene successivamente costruito un modello probabilistico markoviano per modellizzare le sostituzioni avvenute.[2] La matrice PAM1 di base definisce dunque la probabilità di transizione di un aminoacido in un altro aminoacido che consente di conservare il 99% della sequenza. A partire dalla matrice delle sostituzioni A si deriva:
per
con
Il coefficiente c viene scelto affinché la porzione dei cambiamenti attesi dal modello sia pari all 1%, assumendo come distribuzione iniziale quella osservata nei blocchi iniziali.
Dunque risolvendo
si ottiene il valore di c.
Nella matrice viene inserito il logit delle probabilità di transizione.
Dunque possiamo avere tre casi
- probabile transizione di i in j
- transizione casuale
- transizione improbabile
Se vogliamo considerare percentuali di cambiamento più elevate basta moltiplicare la matrice per sé stessa.
La matrice più usata è PAM250, che accetta un cambiamento complessivo del 250%. A questo livello però le sequenze aminoacidiche mantengono comunque un 20% di similarità (cit.)
Uso
[modifica | modifica wikitesto]La matrice PAM viene quindi usata sia per valutare la bontà di un allineamento globale tra due sequenze aminoacidiche, sia per misurare la distanza tra due sequenze. Esempio: due sequenze S1 ed S2 distano di una unità PAM se S1 può essere trasformata in S2 con una media di una mutazione puntuale ogni 100 aminoacidi.
Note
[modifica | modifica wikitesto]- ^ Dayhoff, M.O., Schwartz, R. and Orcutt, B.C., A model of Evolutionary Change in Proteins, in Atlas of protein sequence and structure, volume 5, supplement 3, Nat. Biomed. Res. Found., 1978, pp. 345–358, ISBN 0-912466-07-3.
- ^ Baldi P, Chauvin Y, Hunkapiller T, McClure MA., Hidden Markov models of biological primary sequence information, in Proc Natl Acad Sci USA, vol. 91, n. 3, 1994, pp. 1059–63, DOI:10.1073/pnas.91.3.1059, PMID 8302831.