close
資料處理流程
資料取得 → 格式轉換 → 分類處理 → SVM/GA
資料描述
全部 : 660 筆
SubNucPred : 330 筆
SubNucPred : 330 – 30 = 300筆 ( 需跑GA )
SubNucPredGA : 330 筆
SubNucPredGA : 330 – 30 = 300 筆 ( 需跑GA )
300 筆 → 6 特徵選取類別
(Cn、Dg、Djx、Xk、AnX5、 NiC)
特徵選取參數
胺基酸組成份 ( Cn )
20種 → 特徵數 : 21
Ex : “SubNucPredGA_C_91”, 特徵數 : 21
Gapped-dipeptide 配對組成份 ( Dg )
特徵數 : 21 * 21 = 441
Ex : “SubNucPredGA_D_91”, 特徵數 : 441
分段胺基酸的組成份 ( Xk )
特徵數 : k * 21
Ex : “SubNucPredGA_X4_91”, 特徵數 : 4 * 21 = 84
依自然的化學特性做為胺基酸分類 ( AnX5 )
依照大項分類分為七大類An( E2,F3,O3,P3,S2,V3,Z3 ),
再將序列都分成五段
特徵數 :胺基酸種類 * n 次方
Ex : “SubNucPredGA_P3X5_91”,
特徵數 : 3 * 3 * 3 * 5 = 135
特徵數 : 3 * 3 * 3 * 5 = 135
局部特性整合的胺基酸組成份 ( NiC )
中心點左右各延伸 (i–1)/2 個胺基酸距離,再去計算20種胺基酸的特徵向量→ 特徵數 : 20 * 21 =420
Ex : “SubNucPredGA_N7C_99”, 特徵數 : 420
Gapped-dipeptide 配對組成份 (Djx )
Dg和Djx都是算兩個胺基酸同時出現的數量不過其差別在於Dg是連續的兩個胺基酸, Djx是不連續的,X就是代表中間相隔的胺基酸長度
特徵數 : 21 * 21 = 441
Ex : “SubNucPredGA_ Dj3_98”, 特徵數 : 441
文章標籤
全站熱搜
留言列表