Algoritmo Smith -Waterman -Wikipedia、LA Enciclopedia free

before-content-x4

スミスウォーターマンアルゴリズム これは、生物学的配列(DNA、RNA、またはタンパク質)の局所整列を実行するための認識された戦略です。言い換えれば、いくつかのシーケンス間で同様の領域を決定します。

SWアルゴリズムは、1981年にTemple SmithとMichael Watermanによって提案されました。 [ 初め ] これは、動的プログラミングアルゴリズムの使用に基づいているため、使用される特定のスコアシステム(置換マトリックスなど)に関して、局所アライメントが最適であることを確認するという望ましい特性があります。

いくつかのシーケンスを調整するための基本的な代替品は、ローカルアライメントとグローバルアライメントです。

グローバルアライメントは、各シーケンスに各シンボル(または残基)を整列させることを目的としています。この戦略は、整列するシーケンスが非常に類似しており、ほぼ同じサイズである場合に特に役立ちます。対照的に、アライメントするシーケンスに大きな違いがある場合、ローカルアライメントはより有用ですが、類似性の領域があると疑われています。

ショーン

a = a 1a 2a n{displaystyle a = a_ {1} a_ {2} … a_ {n}}

b = b 1b 2b m{displaystyle b = b_ {1} b_ {2} … b_ {m}}

整列する2つの生物学的配列、その長さは

n {displaystyle n}

m {displaystyle m}

それぞれ。 2つの要素間の類似性スコア

a {displaystyle a}

b {displaystyle b}

によって与えられます

s a b )) {displaystyleS(a、b)}

。長さの排除ごとに

k {displaystyle k}

ペナルティが割り当てられます

k{displaystylew_ {k}}

  1. 類似性が非常に高いセグメントをいくつか見つけるには、マトリックスが構築されています
  2. 各値
  3. 最大の類似性でセグメントのペアを回復するために、の逆トラッキングが最大要素から実行されます

アルゴリズムの複雑さ [ 編集します ]

Smith-Watermanアルゴリズムには、一時的な複雑さがあります

o n m 2)) {displaystyle o(nm^{2})}
after-content-x4

の空間的な複雑さ

o n m )) {displaystyle o(nm)}

。これは、ブルートフォースアプローチに関する計算コストの大幅な減少を表しています。

o n 3m 3)) {displaystyle o(n^{3} m^{3})}

それらが存在するからです

(n2){displaystyle {binu {n} {2}}}}

(m2){displaystyle {binom {m} {2}}}

のサブケンス

a {displaystyle a}

b {displaystyle b}

それぞれ。ただし、その複雑さは、Needleman-Wunschアルゴリズムの複雑さと比較して不利な点を表しています。 [ 2 ] それは線形の複雑さを持っています。特にの価値の場合

m {displaystyle m}

非常に大きいです。それが、線形実行時間がある代替案が開発された理由です [ 3 ] [ 4 ] その他は、に関して線形空間的な複雑さを備えています

after-content-x4
n {displaystyle n}

[ 5 ]

[ 編集します ]

ショーン

a {displaystyle a}

:aaggct y

b {displaystyle b}

:AACCCG類似性スコアに合わせて2つのシーケンスは、次の関係によって与えられます。

s a ib j)) = {+1,ai=bj1,aibj{displaystyle s(a_ {i}、b_ {j})= {begin {cases}+1、quad a_ {i} = b_ {j} \ -1、quad a_ {i} neq b_ {j} end {cases}}}}}

スコアマトリックスは初期化されます

0 {displaystyle 0}

最初の列と最前列のすべての要素について。
次に、すべての句読点が間に計算されます

a i{displaystyle a_ {i}}

b j{displaystyle b_ {j}}

、 から始まる

a 1{displaystyle a_ {1}}

b 1{displaystyle b_ {1}}

、次のマトリックスに黄色で示されます。

a a c c c g
0 0 0 0 0 0 0
a 0 初め
a 0
g 0
g 0
c 0
t 0

すべての値が計算されると、緑で示される最大スコアで要素が求められます。

a a c c c g
0 0 0 0 0 0 0
a 0 初め 初め 0 0 0 0
a 0 初め 2 初め 0 0 0
g 0 0 初め 初め 0 0 初め
g 0 0 0 0 0 0 初め
c 0 0 0 初め 初め 初め 0
t 0 0 0 0 0 0 0

最後に、の最適なローカルアライメントを回復するため

a {displaystyle a}

b {displaystyle b}

その要素から、値のある要素に到達するまで追跡が実行されます

0 {displaystyle 0}

a a c c c g
0 0 0 0 0 0 0
a 0 初め 初め 0 0 0 0
a 0 初め 2 初め 0 0 0
g 0 0 初め 初め 0 0 初め
g 0 0 0 0 0 0 初め
c 0 0 0 初め 初め 初め 0
t 0 0 0 0 0 0 0

この例から生じるアライメントは、各シーケンスの最初の2つの要素のみを整列することです。

勝負を受けて立つ
||
勝負を受けて立つ 

ギャップによるペナルティ [ 編集します ]

線形ペナルティ [ 編集します ]

穴のペナルティは、インデルのスコア、つまり挿入または排除を決定するのに役立ちます。 Smith-Watermanアルゴリズムは、ペナルティがあるホールの長さを延長するために線形ペナルティを使用します。

k{displaystylew_ {k}}

長さのみに依存します

k {displaystyle k}

穴とコストの

1{distrastaStyle w_ {1}}

単一のスペースホールの:

k= k 1{displaystyle w_ {k} = kw_ {1}}

関連穴 [ 編集します ]

GOTOHは、ペナルティの変更に構成される関連ホールのモデルを提案しました

k{displaystylew_ {k}}

これが2つのパラメーターの関数であるように:

k= k + {displaystyle w_ {k} = uk+v}

、 どこ

{displaystyleu}

穴を広げることはペナルティです、

{displaystyle v}

それは穴を開始するためのペナルティです

k {displaystyle k}

穴の長さです。このスキームは、場合に線形ペナルティに削減されます

= 0 {displaystyleu = 0}

。このモデルは2つの利点を提供します。操作の数を減らす

o m n )) {displaystyle o(mn)}

穴を延長するよりも、穴を開始するために高いコストを割り当てることができます。最後の特性は、単純な変異がシーケンスのセグメントにいくつかの変化を引き起こす可能性があるため、重要な生物学的意味を持っています。したがって、穴の作成は通常、その長さよりも大きな影響を及ぼします。 GOTOHアルゴリズムの計算コストの減少は、最適なローカルアライメントの1つだけを見つけようとし、最適なアライメントが常に見つけたものをすべて見つけようとするスミスウォーターマンとは異なり、何も見つけることを保証しないという事実によるものです。

GOTOHアルゴリズムは3つの行列を使用します

n × m {displaystyle ntimes m}

これらのマトリックスには、次の初期化があります。

これらのマトリックスの値は、次の再発関係から得られます。

凸状のくぼみ [ 編集します ]

ウォーターマン [ 6 ] 彼は、さらに柔軟なペナルティシステムを提案しました。穴の開始と延長のコストが一定である関連ホールモデルとは異なり、

{displaystyleu}

{displaystyle v}

それぞれ、凸穴のペナルティでは、その長さが増加するにつれて穴を延長するコストが減少します。

k+1kkk1{displaystyle w_ {k+1} -w_ {k} leq w_ {k} -w_ {k-1}}

参照してください [ 編集します ]

参照 [ 編集します ]

外部リンク [ 編集します ]

after-content-x4