遺伝子の予測-Wikipedia、無料百科事典

before-content-x4

DNA鎖における遺伝子の表現。一般に、遺伝子予測は、異なる遺伝子を構成する長いDNA配列、および自動的にヌクレオチドサブセクションを見つけようとします。

のメカニズムまたはプロセス 遺伝子予測 遺伝子予測 英語、または 遺伝子発見 、文字通り遺伝子の発見)は、計算生物学の領域内で、通常はゲノムDNA、および生物学的に機能的な配列断片のアルゴリズムの識別に使用されるものです。これには、特にタンパク質をコードする遺伝子が含まれますが、RNA遺伝子や調節配列などの他の機能的要素も含めることができます。遺伝子の識別は、種のゲノムを理解した後、最初に最も重要なステップの1つです。

バックグラウンド [ 編集します ]

1986年、そしてより単純な生物の遺伝物質のシーケンスの進歩を考慮して、米国エネルギー省。 [ 初め ] このプロジェクトは、小学生のゲノムの最初のシーケンスで約10年前に始まったプロセスを強化しました。その目的は、ヒトDNAの複合体の完全なヌクレオチド配列の知識でした。 2003年に完了しましたが、その成功において、一般的なバイオインフォマティクスと特に生物学的配列の整合のアプリケーションと多くの関係がありました。 [ 2 ] しかし、DNAの完全なシーケンスプロセスと並行して、プロジェクトの終了後(2003年4月に完了した高品質のシーケンスを取得することでマークされた)と、DNAの親密な構造の識別と同じように重要なタスクが、低生物における遺伝物質の遺伝物質のヒトゲノム基本分類の両方で実行されたため、マルチの産物の原因の原因の原因の原因となっていることを抑制することができました。 [ 初め ] 遺伝子の自動発見の方法が持っていて、直接的かつ超越的な用途を持ち続けているのは、この特定の分野(排他的ではありませんが)にあります。ただし、予測と自動化された遺伝子分析のあらゆるタスクにおいて、最終的な参考文献は、この地域の専門的な生物学者によって配置されたものであり、自動発見と遺伝子の究極の注釈を確認、検証、完了する必要があることは注目に値します。

その初期段階では、遺伝子予測は、生細胞と生物に関する面倒な実験に基づいていました。多くの異なる遺伝子の相同組換え比の統計分析は、特定の染色体での順序を決定することができ、そのような実験から得られた情報を組み合わせて遺伝子マップを作成し、既知の遺伝子間の近似相対位置を指定します。少しずつ、そして約20年の間に、一方では相同性によって遺伝子リンクに蓄積された知識、およびエンコードシーケンスの特定の共通特性(機能的信号、パターン、周期性)の識別は、特定のゲノムの自動分析を改善するために(情報治療システムの進歩と一般化とともに)許可されました。今日、研究コミュニティが利用できる強力なコンピューターリソースに加えて、ゲノムの徹底的なシーケンスにより、大部分が計算上の問題として遺伝子予測が再定義されています。

現在、シーケンスの決定 それは機能的です それはの決定と区別する必要があります 関数 遺伝子またはその産物の。後者は、遺伝子の沈黙やその他の実験を通じてin vivoでの実験が必要ですが、バイオインフォマティクス研究の境界は、その配列のみに基づいて遺伝子の機能を述べることがますます可能になりつつあります。

外因性アプローチ [ 編集します ]

エビデンスベースの遺伝子予測システムでは、外部証拠に類似したシーケンスが客観的なゲノムで求められており、これはメッセンジャーRNA(RNA)またはタンパク質産物の既知の配列の形をとっています。 ARNMシーケンスを考えると、転写しなければならなかった単一のゲノムDNA配列を導出することは些細なことです。タンパク質配列を考えると、コードDNA配列の可能性のあるファミリーは、遺伝コードの逆翻訳によって導き出すことができます。 DNA配列が決定されると、合計または部分的、正確または不正確な一致の客観的なゲノムを効率的に検索することは、比較的単純なアルゴリズム問題です。 Blastは、この目的に広く使用されているシステムです。

既知のメッセンジャーRNA、またはタンパク質産物との高度な類似性は、問題のゲノムの領域がタンパク質のコード遺伝子であるという強力な証拠です。ただし、このアプローチを適用するには、mRNAおよびタンパク質産物の徹底的なシーケンスが必要です。これは高価であるだけでなく、複雑な生物では、生物のゲノムのすべての遺伝子のサブセットのみが特定の瞬間に発現します。つまり、多くの遺伝子の外因性証拠は、単一の細胞の作物では簡単にアクセスできません。したがって、複雑な生物の多数派またはすべての遺伝子のこの証拠を収集するには、数百または数千の種類の異なる細胞を研究する必要があり、これは追加の困難を表しています。たとえば、一部のヒト遺伝子は、発達中に胚または胎児としてのみ自分自身を表現でき、倫理的な理由で研究を困難にします。

after-content-x4

これらの困難にもかかわらず、マウスや酵母などの生物学の他の重要なモデル生物の両方に対して、網羅的な転写データベースとタンパク質配列が生成されています。たとえば、RefSeqデータベースには、さまざまな種の転写とタンパク質配列が含まれており、Ensemblシステムはこの証拠を人間や他の十分なゲノムに集中的に投影します。ただし、両方のデータベースが不完全であり、それには小さく、しかしかなりの量の誤ったデータが含まれている可能性があります。

アプローチ 最初から [ 編集します ]

多くの遺伝子の外因性証拠を取得することに固有の費用と困難を考えると、遺伝子予測に頼ることも必要です 最初から 、それがゲノムDNA配列の体系的に、そして排他的に求められている、タンパク質をコードする遺伝子の特定の明らかな兆候。これらの兆候は、一般的に、または 信号 (遺伝子の密接な存在を示す特定のシーケンス)または コンテンツ (コーディングシーケンス自体の統計的特性)。用語 予測 「遺伝子予測」という表現の 最初から 」と疑われる遺伝子が機能的であると結論付けるために外部の証拠が一般的に必要であるため、それはそのように正確に特徴付けられます。

原核生物のゲノムでは、遺伝子は、Pribiewボックスなどの特異的かつ比較的よく知られている促進シーケンス(シグナル)を持っています(シグナル) Pribnow Box )および転写因子の組合部位。これらは体系的に簡単に識別できます。さらに、タンパク質のコーディングシーケンスは、通常、数百または数千ペアを測定するオープンリーディングフレーム(オープンリーディングフレーム、ORF)として提示されます。停止コドンの統計は、その長さの読み取りの開いているフレームを見つけることは実質的に有益な兆候であるようなものです。遺伝コード内の64の可能なコドンのうち3つが停止コドンであるため、ランダムなシーケンスでの20〜25個のコドン、または60〜75個のベースペアごとに停止コドンが予想される可能性があります。さらに、コーディングDNAには確かです 周期性 この長さのシーケンスで簡単に検出できる他の統計的特性。これらの特性は、遺伝子の予測を原核生物に変換し、比較的単純なものに変換し、適切に設計されたシステムは高レベルの精度に到達することができます。

真核生物、特に人間と同じくらい複雑な生物における遺伝子の予測は、いくつかの理由でかなり挑戦的です。第一に、これらのゲノムのプロモーターおよびその他の調節シグナルは、原核生物よりも複雑で理解されていないため、信頼できることを認識するためにより複雑になります。真核生物遺伝子の発見者によって特定されたシグナルの2つの古典的な例は、CPG島とポリイの尾の組合サイトです。

第二に、真核細胞が使用するスプライシングメカニズム(「スプライシング」」、およびいくつかのスペイン文学では、「「スプライシング」」、および「「アユステ」」は、ゲノムの特定のコーディング配列(タンパク質)がさまざまな部分(エクソン)に分割され、非コード配列(イントロン)で分かれていると仮定します。 (スプライシング部位は、それ自体で、その識別が多くの場合真核生物遺伝子の発見者に設計されているための別のシグナルです。)ヒトのコード遺伝子は、長さが200ペア未満の塩基未満の塩基未満で、20ペアまたは30ペアの塩基に分けることができます。したがって、真核生物のDNAをコーディングする周期性またはその他の既知の特性を検出することははるかに困難です。

原核生物と真核生物ゲノムの両方の遺伝子の高度な遺伝子は、Márkovの隠されたモデルなどの複雑な確率モデルを使用して、さまざまな異なる信号と内容の測定から達成された情報を組み合わせます。 Glimmerシステムは、原核生物に広く使用され、非常に正確な遺伝子識別子です。 Genemarkは、もう1つの一般的なアプローチです。比較された遺伝子「ab initio」の遺伝子は、限られた成功しか得られていません。これらの注目すべき例は、GenscanおよびGeneidプログラムです。コントラストなどのいくつかのプログラムは、効果的な遺伝子予測のために、ベクターサポートマシンなどの自動学習アプローチを使用します。

その他の信号 [ 編集します ]

遺伝子予測に使用されるシグナルには、Kメンバー(核またはアミノ酸配列のNゲート)などのサブシーケンスの統計分析に起因する統計があります。 [ 3 ]

シーケンスで直接検出可能なものを除いて、他のシグナルは遺伝子の予測を改善できることが示唆されています。たとえば、規制の動機の識別における二次構造の役割が知らされています。 [ 4 ] また、RNA二次構造の予測が共同部位の予測に役立つことも示唆されています。 [ 5 ] [ 6 ] [ 7 ] [ 8 ]

比較ゲノムアプローチ [ 編集します ]

多くの異なる種の完全なゲノムが配列決定されると、比較ゲノムアプローチでは、遺伝子予測に関する現在の研究において有望な方向になります。これは、自然選択の力が遺伝子や他の機能的要素が、ゲノムの残りの部分で経験したものよりも低い速度で変異を経験するという原理に基づいています。したがって、遺伝子は、リンクされた種のゲノムを比較して、保存のためのこの進化的圧力を検出することによって検出できます。このアプローチは、SLAM、SGP、Twinscan/N-Scanなどのプログラムを使用して、最初にマウスと人間のゲノムに適用されました。

比較遺伝子予測は、あるゲノムから別のゲノムへの高品質の注釈を投影するためにも使用できます。注目すべき例として、GenewiseとGenemapperが見つかりました。現在、これらの手法は、すべてのゲノムの注釈において中心的な役割を果たしています。

参照 [ 編集します ]

  1. a b 米国DPT。エネルギーゲノム研究プログラムの(2006年アゴスト)。 «ゲノミクスと科学と社会への影響» (PDF) 。 2008年にアクセス
  2. 米国DPT。エネルギーゲノム研究プログラム(2007)。 «人間のゲノムプロジェクト情報:バイオインフォマティクス» (HTML) 。 2008年にアクセス
  3. Saeys and、、RouzéP、van de Peer and(2007)。 « 小さなものを探して:脊椎動物、植物、菌類、原生生の短いエクソンの予測の改善 »。 バイオインフォマティクス 23 (4):414-420。 doi 10.1093/bioinformatics/btl639
  4. Hiller M、Pudimat R、Busch A、Backofen R(2006)。 «RNA二次構造を使用して、一本鎖領域に向けてシーケンスモチーフの発見を誘導します»。 核酸res 34 (17):E117。 Entrez PubMed 16987907
  5. Patterson DJ、Yasuhara K、Ruzzo WL(2002)。 «前mRNA二次構造予測エイズスプライス部位予測»。 PAC Symp BioComput :223-234。 Entrez PubMed 11928478
  6. Marashi SA、Goodarzi H、Sadeghi M、Eslahchi C、Pezeshk H(2006)。 «酵母ドナーおよび受容体スプライス部位のニューラルネットワークによる予測のRNA二次構造情報の重要性»。 Comput Biol Chem 30 (1):50-57。 Entrez PubMed 16386465
  7. Marashi SA、Eslahchi C、Pezeshk H、Sadeghi M(2006)。 «ドナーおよびアクセプタースプライス部位の予測に対するRNA構造の影響»。 BMCバイオインフォマティクス 7 :297。 Entrez PubMed 16772025
  8. Rogic、S(2006)。 「 Saccharomyces cerevisiaeの遺伝子スプライシングにおける前mRNA二次構造の役割 アーカイブ 2009年5月30日、ウェイバックマシンで。」 ブリティッシュコロンビア大学博士論文

外部リンク [ 編集します ]

after-content-x4