编辑操作定义函数w,它表示“代价(cost)”或“权 重(weight)”。
对字母表中的任意字符a、b,定义
w (a, a) = 0
w (a, b) = 1
a b
w (a, -) = w ( -, b) = 1
也可以使用得分(score)函数来评价编辑操作
p (a, a) = 1 p (a, b) = 0 a b p (a, -) = w ( -, b) = -1
(1)两条长度相近的序列相似 找出序列的差别
(2)判断一条序列的前缀与另一条序列的后缀相似 (3)判断一条序列是否是另一条序列的子序列 (4)判断两条序列中是否有非常相似的子序列
2、编辑距离(Edit Distance)
GCATGACGAATCAG
TATGACAAACAGC
GCATGACGAATCAG
?
反向互补序列
RNA发夹式二级结构
3、通过点矩阵进行序列比较
“矩阵作图法” 或 “对角线作图”
实例
序 列
→ 2→
→ 序列1 →
自我比较
→ 序列1 →
→ 1→
序 列
滑动窗口技术
两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。
滑动窗口技术
• 使用滑动窗口代替一次一个位点的比较是解决这 个问题的有效方法。
Match(C, C)
Match(A, A)
Match(A, A)
Match(C, C)
Match(C, C)
Replace(A, T)
Insert( -, T)
Delete(C, -)
Match(A, A)
Match(A, A)
图3.6 序列AGCACACA和ACACACTA的两种比对结果