close
 資料處理流程

資料取得 → 格式轉換 → 分類處理 → SVM/GA

資料描述 

全部  : 660 筆

SubNucPred  : 330 筆

SubNucPred  : 330 – 30 = 300筆 ( 需跑GA )

SubNucPredGA  : 330 

SubNucPredGA  : 330 – 30 = 300 筆 ( 需跑GA )

300 筆 → 6 特徵選取類別

(CnDgDjxXkAnX5 NiC)

特徵選取參數

胺基酸組成份 ( Cn )

—20種 → 特徵數 : 21
—Ex : “SubNucPredGA_C_91”, 特徵數 21

Gapped-dipeptide 配對組成份 ( Dg  )

—特徵數 : 21 * 21 = 441
—Ex : “SubNucPredGA_D_91”, 特徵數 441

分段胺基酸的組成份 ( Xk )

—特徵數 : k * 21
—Ex : “SubNucPredGA_X4_91”, 特徵數 : 4 * 21 = 84

依自然的化學特性做為胺基酸分類 ( AnX5 )

依照大項分類分為七大類An( E2,F3,O3,P3,S2,V3,Z3 )

再將序列都分成五段

—特徵數 :胺基酸種類 * n 次方
—Ex : “SubNucPredGA_P3X5_91”, 
特徵數 : 3 * 3 * 3 * 5 = 135

局部特性整合的胺基酸組成份 NiC )

—中心點左右各延伸 (i–1)/2 個胺基酸距離,再去計算20種胺基酸的特徵向量→ 特徵數 : 20 * 21 =420
—Ex : “SubNucPredGA_N7C_99”, 特徵數 420

Gapped-dipeptide 配對組成份 (Djx )

—DgDjx是算兩個胺基酸同時出現的數量不過其差別在於Dg連續的兩個胺基酸 Djx不連續的X就是代表中間相隔的胺基酸長度
—特徵數 : 21 * 21 = 441
—Ex : “SubNucPredGA_ Dj3_98”, 特徵數 441
 
 
arrow
arrow

    資工喜憨兒 發表在 痞客邦 留言(0) 人氣()