SubNucPredGA @ 一點希望的小部落格

資料處理流程

資料取得 → 格式轉換 → 分類處理 → SVM/GA

資料描述

全部 : 660 筆

SubNucPred : 330 筆

SubNucPred : 330 – 30 = 300筆 ( 需跑GA )

SubNucPredGA : 330 筆

SubNucPredGA : 330 – 30 = 300 筆 ( 需跑GA )

300 筆 → 6 特徵選取類別

(Cn、Dg、Djx、Xk、AnX5、 NiC)

特徵選取參數

胺基酸組成份 ( Cn )

20種 → 特徵數 : 21

Ex : “SubNucPredGA_C_91”, 特徵數 : 21

Gapped-dipeptide 配對組成份 ( Dg )

特徵數 : 21 * 21 = 441

Ex : “SubNucPredGA_D_91”, 特徵數 : 441

分段胺基酸的組成份 ( Xk )

特徵數 : k * 21

Ex : “SubNucPredGA_X4_91”, 特徵數 : 4 * 21 = 84

依自然的化學特性做為胺基酸分類 ( AnX5 )

依照大項分類分為七大類An( E2,F3,O3,P3,S2,V3,Z3 )，

再將序列都分成五段

特徵數 :胺基酸種類 * n 次方

Ex : “SubNucPredGA_P3X5_91”,
特徵數 : 3 * 3 * 3 * 5 = 135

局部特性整合的胺基酸組成份 ( NiC )

中心點左右各延伸 (i–1)/2 個胺基酸距離，再去計算20種胺基酸的特徵向量→ 特徵數 : 20 * 21 =420

Ex : “SubNucPredGA_N7C_99”, 特徵數 : 420

Gapped-dipeptide 配對組成份 (Djx )

Dg和Djx都是算兩個胺基酸同時出現的數量不過其差別在於Dg是連續的兩個胺基酸， Djx是不連續的，X就是代表中間相隔的胺基酸長度

特徵數 : 21 * 21 = 441

Ex : “SubNucPredGA_ Dj3_98”, 特徵數 : 441

GA SVM 吳姓筆記生物資訊

資工喜憨兒

一點希望的小部落格

資工喜憨兒發表在痞客邦留言(0) 人氣()

E-mail轉寄

一點希望的小部落格

公告版位

SubNucPredGA

留言列表

站方公告

活動快報

痞客邦...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY