.
15
语料库 (Corpus-Based)的机译系统
• 不同于基于规则的机译系统由词典和语法规则库 构成翻译知识库,基于语料库的机译系统是以语 料的应用为核心,由经过划分并具有标注的语料 库构成知识库。
• 基于统计(Statistics-based)的方法
• 基于实例(Example-based)的方法
自然语言( natural
language)
• 自然语言通常是指一种自然地随文化演化的语言, 是人类交流和思维的主要工具。
• 英语、汉语、日语为自然语言的例子,而世界语 则为人造语言,即是一种由人蓄意为某些特定目 的而创造的语言。
• 不过,有时所有人类使用的语言(包括上述自然 地随文化演化的语言,以及人造语言)都会被视 为“自然”语言,以相对于如编程语言等为计算机 而设的“人造”语言。这一种用法可见于自然语言 处理一词中。
• 从20世纪50年代开始到20世纪60年代前半期,机 器翻译研究呈不断上升的趋势。
• 这个时期机器翻译虽然刚刚处于开创阶段,但已 经进入了乐观的繁荣期。
.
5
受挫期(1964-1975)
• 1964年,为了对机器翻译的研究进展作出评价,美国 科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC 委员会),开始了为期两年的综合调查分析和测试。
通过数据挖掘技术将计算实例提炼出来,作为一种
知识源参与到设计优化过程中去,将CAE从设计验
证层次提升到设计驱动层次。
.
20
标注 Lebal
• As it is quite time-consuming to label text documents on a large scale, a kind of text classification with a few labeled data is needed.Thus, semi—supervised text classification emerges and develops rapidly.Different from traditional classification, semi—supervised text classification only requires a small set of 1abeled data and a large set of unlabeled data to train a classifier.The small set of labeled data is used to initialize the classification model in most cases. Its rationality will affect the performance of the final classifier.