当前位置:文档之家› 哈工大深圳自然语言处理考试2014年考试内容-NLP

哈工大深圳自然语言处理考试2014年考试内容-NLP

本次考试是在2014年11月22日,A108,上午9;00-11;00

闭卷,英文作答

共有八个大题,每个大题有若干小题

第一题:
(1)对于字符串“自然语言”,有编码S1="****",S2="****",请问:S1和S2哪个是GB2312,哪个是BIG-5?说明理由;
(2)Modified noun compounds,Modified verb compounds,Coordinative compounds,Antonymous compounds ,Verb-object compounds,Verb complement compounds ,Subject-predicate compounds分别给出例子;
(3)Structural Ambiguities
Overlapping (crossing) ambiguity交集型歧义
网球场 美国会
Combinatorial ambiguity组合型歧义
才能 学生会
Mixed type 混合型歧义
太平淡 (too dull), 太平 (peaceful), 平淡
(4)关于缩写
Reduced Abbreviation: 空军政治部 – 空政
Eliminated abbreviation: 清华大学- 清华
Generalized abbreviation:三从 三俗

第二题:信息论
(1)熵是什么意思?联合熵是什么?
(2)给个投硬币的例子,计算它的熵
(3)一个lexical 是 uniform structure .给了3句话,问那句表述正确,哪句表述错误,第一句好像是说该语言有最大的熵,第二句是有最小困惑度,第三句是说很好确定,大约这样吧

第三题:还是解释概念
(1)Homonyms,Antonyms 反义,Hypernymy 上位,Hyponomy 下位,Holonymy整体,当然了,考试是没有给出中文的。
解释他们的意思,并给出例子;(解释的话应该是英文,例子是中文吧)
(2)WordNet是如何识别单词的不同意思的,怎么定义单词不同意思的? the same with the Hownet?

第四题
关于word sense 的假设 给出的是 one sense,per collocation ,另一个猜想是什么?
word sense 数据平滑 和 near什么方法 的区别,
他们是怎么处理 zero-frequence 数据的。

第五题
关于Collocation Extraction的
考察的是:Window-based Statistical Approach
(1)这个算法的idea是什么??
(2)Discriminative features
Features based on lexical co-occurrence frequency significance
Features based on lexical co-occurrence distribution significance
Features based on context
(3)这个算法的2个优点和者3个缺点

第六题:隐马尔科夫模型
(1)DRY的概率是60%,rain的概率是40,同时给了你一个状态转换图,问“DRY”“DRY”“rain”“rain”的概率
(2)有哪三个主要问题?描述一下
(3)维特比算法的思想,是解决上述3个问题的哪个?

第七题:句法分析
她 是 漂亮 女孩,按照自底向上和自顶向下的规则,识别该句子

第八题:K-means聚类,就两类
给你一个示意图,写每步的变化,并做简要描述;
理解了该算法的思想,这个题就很简单了

相关主题
文本预览
相关文档 最新文档