7
基于实例的迁移学习
如果训练数据和测试数据的分布不同,传统的机器学习效果可能会非 常差。正因为如此,我们希望能够设计出一种算法来针对训练数据和 测试数据来自不同的数据源的情况。我们考虑这样的问题:
不同分布
辅助域
目标域
(数据多) (数据少)
同
模型
分 布
测试数据
8
基于实例的迁移学习
基于Boosting的迁移学习算法
19
基于实例的迁移学习
20
பைடு நூலகம்
基于实例的迁移学习
21
基于实例的迁移学习
给出了当只有1%的目标数据是训练数据时,SVM, SVMt,AuxSVM和 TrAdaBoost(SVM)的分类错误率。所有的结果都是随机取10次训练数据后的平均结 果。迭代次数为100
表:当只有1%目标数据是训练数据时的分类错误率
2
迁移学习
传统的机器学习
假设训练数据与测试数据服从相同的数据分布
在许多情况下,由于训练数据过期则不满足同分布的假设情况,我 们不得不去标注新数据,但是标注新数据又非常昂贵。而且舍弃掉 大量的不同分布下的过期数据又是很浪费的,在这种情况下,迁移 学习变得非常重要,因为迁移学习是可以从现有数据中迁移知识, 用来帮助将来的学习。
22
基于实例的迁移学习
TrAdaBoost算法在people vs places数据集上的迭代曲线
23
基于实例的迁移学习
TrAdaBoost算法利用了迁移学习的思想,在解决小数据问题 上具有着良好的效果,根据仿真结果可以看出,在迭代达到五 十代左右的时候,曲线趋近平滑。同时可以看出当目标数据只 有1%的时候,错误率也可以控制在21%左右,即,正确率可 以达到80%。