给定n个事件的集族: i1, i2, i3, …, in
候选 1-序列: <{i1}>, <{i2}>, <{i3}>, …, <{in}>
候选 2-序列: <{i1, i2}>, <{i1, i3}>, …, <{in-1,in}>, <{i1} {i1}>, <{i1} {i2}>, …, <{in-1} {in}>
候选 3-序列: <{i1, i2 , i3}>, <{i1, i2 , i4}>, …, <{i1, i2} {i1}>, <{i1, i2} {i2}>, …,
<{i1} {i1 , i2}>, <{i1} {i1 , i3}>, …, <{i1} {i1} {i1}>, <{i1} {i1} {i2}>, …
属性离散化的一个关键在于划分每个属性的区间个 数和宽度。然而,确定正确的区间是困难的。
如果支持度阈值=5%,置信度阈值=65%。我们可 以从表中推出年龄和网上聊天隐含强规则:
[16,24) 网上聊天=是(s=8.8%,c=81.5%) [44,60) 网上聊天=否(s=16.8%,c=70%)
设D是包含一个或多个数据序列的数据集:
– 序列s的支持度是包含s的所有数据序列所占的比例。如 果序列s的支持度大于或等于用户指定的阈值minsup, 则称s是一个序列模式(或频繁序列)。
定义7.1 序列模式发现:
– 给定序列数据库D和用户指定的最小支持度阈值minsup ,序列模式发现的任务是找出支持度大于或等于 minsup的所有序列 。