当前位置：文档之家› 哈工大深圳自然语言处理考试2014年考试内容-NLP

哈工大深圳自然语言处理考试2014年考试内容-NLP

本次考试是在2014年11月22日，A108，上午9；00-11；00

闭卷，英文作答

共有八个大题，每个大题有若干小题

第一题：
（1）对于字符串“自然语言”，有编码S1="****",S2="****",请问：S1和S2哪个是GB2312,哪个是BIG-5？说明理由；
（2）Modified noun compounds，Modified verb compounds，Coordinative compounds，Antonymous compounds ，Verb-object compounds，Verb complement compounds ，Subject-predicate compounds分别给出例子；
（3）Structural Ambiguities
Overlapping (crossing) ambiguity交集型歧义
网球场美国会
Combinatorial ambiguity组合型歧义
才能学生会
Mixed type 混合型歧义
太平淡 (too dull), 太平 (peaceful), 平淡
（4）关于缩写
Reduced Abbreviation: 空军政治部 – 空政
Eliminated abbreviation: 清华大学- 清华
Generalized abbreviation：三从三俗

第二题：信息论
（1）熵是什么意思？联合熵是什么？
（2）给个投硬币的例子，计算它的熵
（3）一个lexical 是 uniform structure .给了3句话，问那句表述正确，哪句表述错误，第一句好像是说该语言有最大的熵，第二句是有最小困惑度，第三句是说很好确定，大约这样吧

第三题：还是解释概念
（1）Homonyms，Antonyms 反义，Hypernymy 上位，Hyponomy 下位，Holonymy整体，当然了，考试是没有给出中文的。
解释他们的意思，并给出例子；（解释的话应该是英文，例子是中文吧）
（2）WordNet是如何识别单词的不同意思的,怎么定义单词不同意思的？ the same with the Hownet？

第四题
关于word sense 的假设给出的是 one sense,per collocation ,另一个猜想是什么？
word sense 数据平滑和 near什么方法的区别，
他们是怎么处理 zero-frequence 数据的。

第五题
关于Collocation Extraction的
考察的是：Window-based Statistical Approach
（1）这个算法的idea是什么？？
（2）Discriminative features
Features based on lexical co-occurrence frequency significance
Features based on lexical co-occurrence distribution significance
Features based on context
（3）这个算法的2个优点和者3个缺点

第六题：隐马尔科夫模型
（1）DRY的概率是60%，rain的概率是40，同时给了你一个状态转换图，问“DRY”“DRY”“rain”“rain”的概率
（2）有哪三个主要问题？描述一下
（3）维特比算法的思想，是解决上述3个问题的哪个？

第七题：句法分析
她是漂亮女孩，按照自底向上和自顶向下的规则，识别该句子

第八题：K-means聚类，就两类
给你一个示意图，写每步的变化，并做简要描述；
理解了该算法的思想，这个题就很简单了