《计算语言学》简评
- 格式:doc
- 大小:19.00 KB
- 文档页数:4
计算语言学,隐藏在北语的一座金矿地处“宇宙中心”北京五道口,与清华相邻不远,人称“小联合国”的北京语言大学有两个王牌专业。
一个是名满天下的汉语国际教育(俗称对外汉语教学),还有一个专业知道的人不多,因为它是北语这所文科为主的学校里唯一一个理工专业,该专业学术大拿云集,某些研究领域甚至位列世界前列,它就是隐藏在北语的一座金矿——语言智能与技术(俗称计算语言学)。
计算语言学到底研究啥北语的计算语言学开设于全校唯一理工科学院信息科学学院(简称信科)。
北语信科的历史有三十二年了,前身是计算机科学与技术系,成立于2000年,再之前,是1987年成立的中国第一个以汉语信息处理为主要研究方向的“语言信息处理研究所”。
2014年,北语进行了大部制改革,信科在原有的语言信息处理研究所基础上,成立了另外三个研究所,分别是:大数据与语言教学研究所、语言监测与社会计算研究所(国家语言监测与研究平面媒体中心)和管理科学与工程研究所。
几个研究所基本上都与计算语言学学科直接相关,分别对语言的教学、研究和应用开展深入的研究。
信科的主要任务是培养外语水平出色,具有信息处理基本素养的通用人才,在信息領域开展一些前沿性的研究。
计算语言学就是利用计算机对语言进行计算处理,比如要提出某个语言现象,若没有语言数据的支持,就不能成为一个语言规律。
而发现规律一般有两种方法:一种基于规则,如语法专家经过研究,发现语言规律;另一种基于统计,根据大规模数据提炼规则。
后一种就是计算语言学主要做的事。
在这门融合了计算机科学、语言学和数学的计算语言学中,计算机科学是研究工具,语言学是处理对象,数学是建模工具,此外还会用到物理学等知识。
计算语言学,是从字、词、句、篇章、语音等各个维度去研究语言,比如让计算机自动评判一个留学生写汉字写得对不对、好不好,这项技术的核心是数学曲线在二维平面的变换;再比如研究日本人说汉语,计算机可以判断他们说得对不对、准不准,这项技术就利用了物理学中的声学理论,通过发音的波形进行判断。
第一章绪论:什么是计算语言学詹卫东/doubtfire/提纲引子计算语言学的研究内容 计算语言学的研究方式 计算语言学的应用领域 计算语言学的发展简史0 引子我们可以期待,总有一天机器会同人在所有的智能领域里竞争起来。
但是,如何开始呢?这是一个很难决定的问题。
许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,还有一种办法也应加以考虑,就是为机器配备具有智能的、可用钱买到的意识器官,然后,教这种机器理解并且说英语。
这个过程可以仿效通常小孩子学话的方式进行。
我不能确定到底哪个出发点更好,但应该都值得一试。
——A. M. Turing, Computing Machinery and Intelligence,Mind Vol.59, 1950.阿兰. 图灵(英国数学家)《计算装置与智能》交谈甲:听说吴妈打赢了阿Q。
乙:不错,阿Q确实被吴妈打败了。
甲:这个结果有些出人意料。
乙:阿Q是大意失荆州,怪不得别人。
图灵测试(Turing Test)一个封闭的小屋里面有两间房A B,其中一间房中是人,一间是机器屋外有一个人HH向A,B房内的实体提出各种问题H根据来自A,B的回答判断A,B中谁是计算机,谁是人如果H无法判断,则证明计算机具有人的智能Eliza问答系统(by Joseph Weizenbaum, MIT, early 1960s)Young woman: Men are all alike.Eliza: In what way?Young woman: They're always bugging us about something specific or other. Eliza: Can you think of a specific example?Young woman: Well, my boyfriend made me come here.Eliza: Your boyfriend made you come here?Young woman: He says I'm depressed much of the time.Eliza: I am sorry to hear you are depressed.Young woman: It's true. I'm unhappy.Eliza: Do you think coming here will help you not to be unhappy?Young woman: I need some help, that much seems certain.Eliza: What would it mean to you if you got some help?Young woman: Perhaps I could learn to get along with my mother.Eliza:Tell me more about your family.Young woman:My mother takes care of me.Eliza:Who else in your family takes care of you?Young woman:My father.Eliza:Your father.Young woman:You are like my father in some ways.Eliza:What resemblance do you see?关于语言,可以问些什么?(1)人用来交际的“语言”具有什么样的性质?这些性质又是如何影响交际过程的?(2)人用来交际的“语言”跟机器可以“理解”的语言有什么样的关系?(3)人是如何运用“语言”进行交际的?(4)人运用语言进行交际的过程是否可以描述为一个机械的过程?(5)什么叫做“理解”一种语言?……定义计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。
《牛津计算语言学手册》1导读冯志伟一、 计算语言学的发展历史与现状计算语言学(Computational Linguistics)是当代语言学中的一个新兴学科,在这门学科的发展过程中,曾经在计算机科学、电子工程、语言学、心理学、认知科学等不同的领域分别进行过研究。
之所以出现这种情况,是由于计算语言学包括了一系列性质不同而又彼此交叉的学科。
这里,我们简要介绍计算语言学的萌芽期、发展期、繁荣期,并分析计算语言学当前的一些特点。
计算语言学的萌芽期从20世纪40年代到50年代末这个时期是计算语言学的萌芽期。
在“计算语言学’这个术语出现之前,关于语言与计算的研究早就开始了。
有四项基础性的研究特别值得注意:-- 一项是关于马尔可夫模型的研究,-- 一项是关于可计算性理论和图灵机模型的研究,-- 一项是关于概率和信息论模型的研究,-- 一项是关于形式语言理论的研究。
早在1913年,俄罗斯著名数学家A. Markov(马尔可夫)就注意到俄罗斯诗人普希金的叙事长诗《欧根·奥涅金》(Ougene Onegin)中语言符号出现概率之间的相互影响,他试图以语言符号的出现概率为实例,来研究随机过程的数学理论,提出了马尔可夫链(Markov Chain)的思想,他的这个开创性的成果用法文发表在俄罗斯皇家科学院的通报上2。
后来A. Markov的这一思想发展成为在计算语言学中广为使用的马尔可夫模型(Markov model),是当代计算语言学最重要的理论支柱之一。
在计算机出现以前,英国数学家A. M. Turing(图灵)就预见到未来的计算机将会对自然语言研究提出新的问题。
1936年,Turing向伦敦权威的数学杂志投了一篇论文,题为《论可计算数及其在判定问题中的应用》。
在这篇开创性的论文中,Turing给“可计算性”下了一个严格的数学定义,并提出著名的“图灵机”(Turing Machine)的数学模型。
“图灵机”不是一种具体的机器,而是一种抽象的数学模型,使用这样的数学模型可以制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。
一、计算语言学的起源及其发展从世界上第一台电子计算机诞生至今,计算机的功能已经远远超出了最初的数值计算范围,进入到了更广泛的非数值领域,例如语言处理领域。
而在计算机出现之前,对语言的研究大都是由语言学家来完成的。
利用计算机这一现代计算工具来研究语言,仿佛给计算机赋予了更多的智能化色彩,而“计算语言学”(Computational Linguis-tics,CL)这一语言学和计算机科学的交叉学科此时则应运而生。
当然,在计算语言学的研究过程中,还涉及到数学、认知科学、逻辑学、心理学等许多其他学科。
实际上,“计算语言学”这一术语是伴随着“机器翻译”这一应用而出现的。
传说中,上帝为阻止人类建造通天塔的壮举,故意让不同种族的人讲不同的语言,使人类不能自由交流,无法齐心协力。
为了跨越语言的障碍,远在古希腊时代,就有人提出要用机器来代替人进行不同语言之间的翻译。
1933年,前苏联发明家特罗扬斯基设计了一种用于翻译的机器,但是并没有成功。
事实上,真正的机器翻译研究是在计算机发明之后开始的,1954年,美国Georgetown大学与IBM公司合作开发了世界上第一个机器翻译的原型系统,当时的目的主要是将其用于美俄之间军事情报的翻译工作,该系统首次通过机器将俄语翻译为英文并取得了初步的成功。
这项工作使学者们备受鼓舞,也吸引了政府大量资金的注入,计算语言学的研究也开始了其萌芽时期。
初期的机器翻译系统大都是以词典驱动,直接采用词对词的模式匹配的翻译方式,由于不同的语言之间词法、句法都存在很大差异,显然,这样的翻译结果不会令人满意。
1966年,ALPAC报告中指出,机器翻译的研究在当时的条件下并不具备很好的前景,不宜给予大力支持。
另外,后来有学者认为,虽然“计算语言学”一词之前早已出现,但作为术语第一次正式提出“计算语言学”及其近义术语详解*◇邵艳秋(北京大学)摘要:本文介绍了计算语言学的起源及其发展历史,对该领域的一些相近术语概念及其各概念之间的关系进行了详细的解释,包括计算语言学、自然语言处理、自然语言理解、人类语言技术、语言信息处理、中文信息处理等等。
[转]国外重要语⾔学类期刊⽬录1、ACTA LINGUISTICA HUNGARICA 《匈⽛利科学院语⾔学学报》匈⽛利QuarterlyISSN: 1216-8076AKADEMIAI KIADO, PRIELLE K U 19, BUDAPEST, HUNGARY, H-11172、AMERICAN JOURNAL OF SPEECH-LANGUAGE PATHOLOGY 《美国⾔语病理学杂志》美国QuarterlyISSN: 1058-0360AMER SPEECH-LANGUAGE-HEARING ASSOC, 10801 ROCKVILLE PIKE, ROCKVILLE, USA, MD, 20852-32793、AMERICAN SPEECH 《美国语⾔》美国QuarterlyISSN: 0003-1283DUKE UNIV PRESS, 905 W MAIN ST, STE 18-B, DURHAM, USA, NC, 277014、APPLIED LINGUISTICS 《应⽤语⾔学》英国QuarterlyISSN: 0142-6001OXFORD UNIV PRESS, GREAT CLARENDON ST, OXFORD, ENGLAND, OX2 6DP5、APPLIED PSYCHOLINGUISTICS 《实⽤⼼理语⾔学》美国QuarterlyISSN: 0142-7164CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-24736、BILINGUALISM-LANGUAGE AND COGNITION 《双语:语⾔与认知》美国Tri-annualISSN: 1366-7289CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-24737、BRAIN AND LANGUAGE 《⼤脑与语⾔》美国MonthlyISSN: 0093-934XACADEMIC PRESS INC ELSEVIER SCIENCE, 525 B ST, STE 1900, SAN DIEGO, USA, CA, 92101-44958、CANADIAN MODERN LANGUAGE REVIEW-REVUE CANADIENNE DES LANGUES VIVANTES 《加拿⼤现代语⾔评论》加拿⼤QuarterlyISSN: 0008-4506CANADIAN MODERN LANGUAGE REV, UNIV TORONTO PRESS, JOURNALS DIVISION, 5201 DUFFERIN ST,, N YORK, CANADA, ONTARIO, M3H 5T9、CLINICAL LINGUISTICS & PHONETICS 《临床语⾔学与语⾳学》英国BimonthlyISSN: 0269-9206TAYLOR & FRANCIS LTD, 4 PARK SQUARE, MILTON PARK, ABINGDON, ENGLAND, OXON, OX14 4RN10、COGNITIVE LINGUISTICS 《认知语⾔学》德国QuarterlyISSN: 0936-5907MOUTON DE GRUYTER, GENTHINER STRASSE 13, BERLIN, GERMANY, 1078511、COMPUTATIONAL LINGUISTICS 《计算语⾔学》美国QuarterlyISSN: 0891-2017M I T PRESS, 238 MAIN STREET, STE 500, CAMBRIDGE, USA, MA, 02142-104612、ENGLISH FOR SPECIFIC PURPOSES 《专业英语》英国PERGAMON-ELSEVIER SCIENCE LTD, THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD, ENGLAND, OX5 1GB13、OREIGN LANGUAGE ANNALS 《外国语⾔纪事》美国QuarterlyISSN: 0015-718XAMER COUNCIL TEACHING FOREIGN LANGUAGES, 700 SOUTH WASHINGTON STREET, STE 210, ALEXANDRIA, USA, VA, 2231414、UNCTIONS OF LANGUAGE 《语⾔的功能》荷兰SemiannualISSN: 0929-998XJOHN BENJAMINS B V PUBL, PO BOX 36224 , AMSTERDAM, NETHERLANDS, 1020 ME15、HISPANIA-A JOURNAL DEVOTED TO THE TEACHING OF SPANISH AND PORTUGUESE 《西班⽛》美国QuarterlyISSN: 0018-213316、INTERACTION STUDIES《交互作⽤研究》荷兰Tri-annualISSN: 1572-0373JOHN BENJAMINS B V PUBL, PO BOX 36224 , AMSTERDAM, NETHERLANDS, 1020 ME17、INTERNATIONAL JOURNAL OF BILINGUALISM 《国际双语杂志》英国QuarterlyISSN: 1367-0069KINGSTON PRESS SERVICES LTD, 43, DERWENT RD, WHITTON TWICKENHAM, MIDDLESEX, ENGLAND, TW2 7HQ 18、INTERNATIONAL JOURNAL OF LANGUAGE & COMMUNICATION DISORDERS 《国际语⾔及交流障碍杂志》英国QuarterlyISSN: 1368-2822TAYLOR & FRANCIS LTD, 4 PARK SQUARE, MILTON PARK, ABINGDON, ENGLAND, OXON, OX14 4RN19、INTERNATIONAL JOURNAL OF LEXICOGRAPHY 《国际词汇学杂志》英国QuarterlyISSN: 0950-3846OXFORD UNIV PRESS, GREAT CLARENDON ST, OXFORD, ENGLAND, OX2 6DP20、INTERNATIONAL JOURNAL OF SPEECH LANGUAGE AND THE LAW 《国际⾔语、语⾔和法律杂志》英国SemiannualISSN: 1748-8885EQUINOX PUBL LTD, UNIT SIX, THE VILLAGE, 101 AMIES ST, LONDON, ENGLAND, SW11 2JW21、JOURNAL OF AFRICAN LANGUAGES AND LINGUISTICS《⾮洲语⾔和语⾔学杂志》德国SemiannualISSN: 0167-6164MOUTON DE GRUYTER, GENTHINER STRASSE 13, BERLIN, GERMANY, 1078522、JOURNAL OF CHILD LANGUAGE 《⼉童语⾔杂志》美国Tri-annualISSN: 0305-0009CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-247323、JOURNAL OF CHINESE LINGUISTICS 《中国语⾔学杂志》⾹港SemiannualISSN: 0091-3723JOURNAL CHINESE LINGUISTICS, CHINESE UNIV HONG KONG, CENTRE EAST ASIAN STUDIES, SHATIN, NEW TERRITORIES, PEOPLES R CHINA, HONG KONG, 0000024、JOURNAL OF COMMUNICATION DISORDERS 《语⾔交流障碍杂志》美国ELSEVIER SCIENCE INC, 360 PARK AVE SOUTH, NEW YORK, USA, NY, 10010-171025、JOURNAL OF EAST ASIAN LINGUISTICS 《东亚语⾔学杂志》荷兰QuarterlyISSN: 0925-8558SPRINGER, VAN GODEWIJCKSTRAAT 30, DORDRECHT, NETHERLANDS, 3311 GZ26、JOURNAL OF FLUENCY DISORDERS 《⼝吃病杂志》美国QuarterlyISSN: 0094-730XELSEVIER SCIENCE INC, 360 PARK AVE SOUTH, NEW YORK, USA, NY, 10010-171027、JOURNAL OF HISTORICAL PRAGMATICS 《历史语⽤论杂志》荷兰SemiannualISSN: 1566-5852JOHN BENJAMINS B V PUBL, PO BOX 36224 , AMSTERDAM, NETHERLANDS, 1020 ME28、JOURNAL OF LANGUAGE AND SOCIAL PSYCHOLOGY 《语⾔与社会⼼理学杂志》美国QuarterlyISSN: 0261-927XSAGE PUBLICATIONS INC, 2455 TELLER RD, THOUSAND OAKS, USA, CA, 9132029、JOURNAL OF LINGUISTICS 《语⾔学杂志》美国Tri-annualISSN: 0022-2267CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-247330、JOURNAL OF MEMORY AND LANGUAGE《记忆与语⾔杂志》美国BimonthlyISSN: 0749-596XACADEMIC PRESS INC ELSEVIER SCIENCE, 525 B ST, STE 1900, SAN DIEGO, USA, CA, 92101-449531、JOURNAL OF NEUROLINGUISTICS 《神经语⾔学杂志》英国BimonthlyISSN: 0911-6044PERGAMON-ELSEVIER SCIENCE LTD, THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD, ENGLAND, OX5 1GB32、JOURNAL OF PHONETICS 《语⾳学杂志》英国QuarterlyISSN: 0095-4470ACADEMIC PRESS LTD ELSEVIER SCIENCE LTD, 24-28 OVAL RD, LONDON, ENGLAND, NW1 7DX33、JOURNAL OF PRAGMATICS 《语⾔实⽤学杂志》荷兰MonthlyISSN: 0378-2166ELSEVIER SCIENCE BV, PO BOX 211, AMSTERDAM, NETHERLANDS, 1000 AE34、JOURNAL OF PSYCHOLINGUISTIC RESEARCH 《⼼理语⾔学研究杂志》美国BimonthlyISSN: 0090-6905SPRINGER/PLENUM PUBLISHERS, 233 SPRING ST, NEW YORK, USA, NY, 1001335、JOURNAL OF QUANTITATIVE LINGUISTICS 《定量语⾔学杂志》英国QuarterlyISSN: 0929-6174ROUTLEDGE JOURNALS, TAYLOR & FRANCIS LTD, 4 PARK SQUARE, MILTON PARK, ABINGDON, ENGLAND, OXFORDSHIRE, OX14 4RN36、JOURNAL OF SECOND LANGUAGE WRITING 《第⼆语⾔写作杂志》英国PERGAMON-ELSEVIER SCIENCE LTD, THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD, ENGLAND, OX5 1GB37、JOURNAL OF SOCIOLINGUISTICS 《社会语⾔学杂志》英国QuarterlyISSN: 1360-6441BLACKWELL PUBLISHING, 9600 GARSINGTON RD, OXFORD, ENGLAND, OXON, OX4 2DQ38、JOURNAL OF SPEECH LANGUAGE AND HEARING RESEARCH 《⾔语、语⾔与听觉研究杂志》美国BimonthlyISSN: 1092-4388AMER SPEECH-LANGUAGE-HEARING ASSOC, 10801 ROCKVILLE PIKE, ROCKVILLE, USA, MD, 20852-327939、LANGUAGE 《语⾔》美国QuarterlyISSN: 0097-8507LINGUISTIC SOC AMER, 1325 18TH ST NW, SUITE 211, WASHINGTON, USA, DC, 20036-650140、LANGUAGE & COMMUNICATION 《语⾔与交流》英国QuarterlyISSN: 0271-5309PERGAMON-ELSEVIER SCIENCE LTD, THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD, ENGLAND, OX5 1GB41、LANGUAGE AND COGNITIVE PROCESSES 《语⾔与认知过程》英国BimonthlyISSN: 0169-0965PSYCHOLOGY PRESS, 27 CHURCH RD, HOVE, ENGLAND, EAST SUSSEX, BN3 2FA42、LANGUAGE AND LINGUISTICS 《语⾔与语⾔学研究》英国QuarterlyISSN: 1606-822XINST LINGUISTICS ACAD SINICA, NO 130, SEC 2, ACADEMIA RD, NANKANG, TAIPEI, TAIWAN, 1152943、LANGUAGE AND SPEECH 《语⾔与⼝语》英国QuarterlyISSN: 0023-8309KINGSTON PRESS SERVICES LTD, 43, DERWENT RD, WHITTON TWICKENHAM, MIDDLESEX, ENGLAND, TW2 7HQ 44、LANGUAGE IN SOCIETY 《社会语⾔》美国BimonthlyISSN: 0047-4045CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-247345、LANGUAGE LEARNING 《语⾔学习》英国QuarterlyISSN: 0023-8333BLACKWELL PUBLISHING, 9600 GARSINGTON RD, OXFORD, ENGLAND, OXON, OX4 2DQ46、LANGUAGE LEARNING & TECHNOLOGY 《语⾔学习与技术》美国Tri-annualISSN: 1094-3501UNIV HAWAII, NATL FOREIGN LANGUAGE RESOURCE CENTER, 1859 EAST WEST RD, 106, HONOLULU, USA, HI, 9682247、LANGUAGE SCIENCES 《语⾔科学》英国BimonthlyISSN: 0388-0001ELSEVIER SCI LTD, THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD, ENGLAND, OXON, OX5 1GBAMER SPEECH-LANGUAGE-HEARING ASSOC, 10801 ROCKVILLE PIKE, ROCKVILLE, USA, MD, 20852-327949、LANGUAGE TEACHING RESEARCH 《语⾔教学研究》英国QuarterlyISSN: 1362-1688SAGE PUBLICATIONS LTD, 1 OLIVERS YARD, 55 CITY ROAD, LONDON, ENGLAND, EC1Y 1SP50、LINGUA 《语⾔学》荷兰MonthlyISSN: 0024-3841ELSEVIER SCIENCE BV, PO BOX 211, AMSTERDAM, NETHERLANDS, 1000 AE51、LINGUISTIC INQUIRY 《语⾔学研究》美国QuarterlyISSN: 0024-3892M I T PRESS, 238 MAIN STREET, STE 500, CAMBRIDGE, USA, MA, 02142-104652、LINGUISTICS 《语⾔学》德国BimonthlyISSN: 0024-3949MOUTON DE GRUYTER, GENTHINER STRASSE 13, BERLIN, GERMANY, 1078553、METAPHOR AND SYMBOL 《隐喻与象征》美国QuarterlyISSN: 1092-6488LAWRENCE ERLBAUM ASSOC INC-TAYLOR & FRANCIS, 325 CHESTNUT STREET, STE 800, PHILADELPHIA, USA, PA, 1910654、MIND & LANGUAGE 《思维与语⾔》英国QuarterlyISSN: 0268-1064BLACKWELL PUBLISHING, 9600 GARSINGTON RD, OXFORD, ENGLAND, OXON, OX4 2DQ55、MODERN LANGUAGE JOURNAL 《现代语⾔杂志》英国QuarterlyISSN: 0026-7902BLACKWELL PUBLISHING, 9600 GARSINGTON RD, OXFORD, ENGLAND, OXON, OX4 2DQ56、NARRATIVE INQUIRY 《记叙⽂探究》荷兰SemiannualISSN: 1387-6740JOHN BENJAMINS B V PUBL, PO BOX 36224 , AMSTERDAM, NETHERLANDS, 1020 ME57、NATURAL LANGUAGE & LINGUISTIC THEORY 《⾃然语⾔与语⾔理论》荷兰QuarterlyISSN: 0167-806XSPRINGER, VAN GODEWIJCKSTRAAT 30, DORDRECHT, NETHERLANDS, 3311 GZ58、PHONETICA 《语⾳学》瑞⼠QuarterlyISSN: 0031-8388KARGER, ALLSCHWILERSTRASSE 10, BASEL, SWITZERLAND, CH-400959、RESEARCH ON LANGUAGE AND SOCIAL INTERACTION 《语⾔与社会应对研究》英国QuarterlyISSN: 0835-1813ROUTLEDGE JOURNALS, TAYLOR & FRANCIS LTD, 4 PARK SQUARE, MILTON PARK, ABINGDON, ENGLAND, OXFORDSHIRE, OX14 4RNEDICIONES UNIV VALPARAISO, CASILLA 1415, VALPARAISO, CHILE, 0000061、SECOND LANGUAGE RESEARCH 《第⼆语⾔研究》英国QuarterlyISSN: 0267-6583SAGE PUBLICATIONS LTD, 1 OLIVERS YARD, 55 CITY ROAD, LONDON, ENGLAND, EC1Y 1SP62、SOUTHERN AFRICAN LINGUISTICS AND APPLIED LANGUAGE STUDIES 《南⾮语⾔学与应⽤语⾔研究》南⾮QuarterlyISSN: 1607-3614NISC PTY LTD, 19 WORCESTER ST, P O BOX 377, GRAHAMSTOWN, SOUTH AFRICA, 614063、STUDIES IN SECOND LANGUAGE ACQUISITION 《习得第⼆语⾔研究》美国QuarterlyISSN: 0272-2631CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-247364、SYNTAX AND SEMANTICS 《句法与语义学》美国AnnualISSN: 0092-4563ELSEVIER ACADEMIC PRESS INC, 525 B STREET, SUITE 1900, SAN DIEGO, USA, CA, 92101-449565、TERMINOLOGY 《术语学》荷兰SemiannualISSN: 0929-9971JOHN BENJAMINS B V PUBL, PO BOX 36224 , AMSTERDAM, NETHERLANDS, 1020 ME66、TESOL QUARTERLY 《TESOL季刊》美国QuarterlyISSN: 0039-8322TESOL, 700 SOUTH WASHINGTON ST, STE 200, ALEXANDRIA, USA, VA, 2231467、TEXT & TALK《⽂字和语⾔》德国BimonthlyISSN: 1860-7330MOUTON DE GRUYTER, GENTHINER STRASSE 13, BERLIN, GERMANY, 1078568、TRANSLATOR 《翻译者》英国SemiannualISSN: 1355-6509ST JEROME PUBLISHING, 2 MAPLE ROAD, WEST, BROOKLANDS, MANCHESTER, ENGLAND, M23 9HH69、WORD-JOURNAL OF THE INTERNATIONAL LINGUISTIC ASSOCIATION 《词》美国Tri-annualISSN: 0043-7956INT LINGUISTIC ASSOC, PO BOX 402, WEST HEMPSTEAD, USA, NY, 1155270、ZEITSCHRIFT FUR DIALEKTOLOGIE UND LINGUISTIK 《⽅⾔学与语⾔学杂志》德国Tri-annualISSN: 0044-1449FRANZ STEINER VERLAG GMBH, BIRKENWALDSTRABE 44, STUTTGART, GERMANY, D-70191。
2019年5月May2019天津外国语大学学报Journal of Tianjin Foreign Studies University第26卷第3期Vol.26No.3《应用计算语言学》评介康詰文(天津外国语大学中央文献翻译研究基地)HnKonaeB,H.C.,O.B.MnTpeHnHa&T.M.HaHgo.2017.npnKnagHaa u KoMntroTepHaannHrBncTKKa.MocKBa:URSS.一、背景引述计算语言学是20世纪40年代伴随机器翻译岀现的新型交叉学科,主要通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言的能力(邵艳秋,2009:25-26)。
俄罗斯是世界范围内较早从事机器翻译和计算语言学研究的国家,具有众多经验丰富的科研机构。
其中,圣彼得堡国立大学数理语言学教研室是全俄公认的结构语言学、应用语言学、计算语言学及数理语言学研究中心。
《应用计算语言学》一书是由该教研室编写的一部关于现代语言学技术与应用的专著。
该书由俄罗斯科学文献岀版集团URSS于2016年首次岀版发行,是该领域的一部权威著作。
圣彼得堡国立大学数理语言学教研室成立于1962年,前身为数学系机器翻译实验室。
该教研室目前主要致力于应用语言学、计算语言学和数理语言学三个方向的教学及研究,涉及语义学、句法学、术语学、数学模拟、机器词典编纂、矢量语言学、不同语言(俄语、英语、法语、德语)的自然文本处理和自动文本生成等内容。
教研室为全球知名的Google,^HgeKc,PROMT等机器翻译公司输送了大批人才。
《应用计算语言学》一书是由教研室师生联合撰写而成。
二、内容介绍该书分为理论研究和应用探索两大部分,共14章节。
第一部分阐释了应用计算收稿日期:2019-01-22;修回日期:2019-02-05作者简介:康詰文,博士生,研究方向:语言学、翻译学151天津外国语大学学报2019年第3期语言学的理论构成,包括计算词法(KoMnbBTepHa刃Mop巾onoruH)、计算句法(KoMnbWTepH^iM cuHmaKCuc)、计算语义表征(KoMnbWTepHoe npegcTaBneHne 3HaHeHnn)>言语的识别与合成(Pacno3HaBaHue u cmhtc3pe^u)、语言学领域的机器学习(MamuHHoe oSyneHue b huhebuctukc)、语料库语言学(KopnycHaH nuHrBucTUKa) 6个章节。
计算机语言学来说,全国有几所高校开设了这个方向,一般下设自然语言处理,机器翻译,信息检索等分支。
论实力来说北大,哈工大,复旦大学在这方面有很强的实力,区别在于北大计算语言所侧重语言学资源的构造,比如汉语词典,什么人民日报词性标注语料库等等,要知道研究计算语言学,资源是必不可少的。
哈工大拥有全世界最大的自然语言研究中心(其实就是全国规模最大的,当然就是全世界最大的了,呵呵!)主要以应用为主,资源不及北大,主要是因为北大有北大中文系为依托。
因为计算机语言学会涉及很多语言学的知识,这是工科院校所不具备的。
所以哈工大以应用为主,要知道微软拼音输入法就是由哈工大王晓龙教授研发的,所以在这方面,哈工大实力也是不容小视,只是地理位置上稍稍欠缺一点。
复旦大学有个上海市智能信息处理重点实验室,里面很多牛人,其中有搞自然语言处理的。
其他的开设院校有,中科院计算机所,清华,北语,东北大学,大连理工大学,山西大学等等。
南京大学好像有机器翻译。
基本上就是这些了,每个学校不管名气如何,都是有一两个很厉害的导师做支撑的,比如东北大学,山西大学。
这些教授的相关信息都是可以从网上查得到的。
一学校北京语言大学(国内对外汉语系第一!)南京大学北京大学北京师范大学北京外国语大学上海外国语大学吉林大学黑龙江大学厦门大学暨南大学广东外语外贸大学这几个大学从师资到生源到环境, 一流.北京语言大学,2006年中国大学研究生院文学类A等学校排名13,“对外汉语”教学界的“大哥大”。
顺便提一句,“对外汉语”教学现在还不是一个专业,而仅是一个研究方向,因为到目前为止它仍是一个三级学科,通常都设置在“语言学及应用语言学”这个专业下面,作为它的一个研究方向。
北京语言大学招收属于文学硕士的“对外汉语”教学的研究生和属于教育学硕士的“课程与教学论”专业的“对外汉语”教学的研究生。
考试的内容基本相同,语言学概论,现代汉语,古代汉语。
“课程与教学论”专业要多考一个“对外汉语教学概论”。
《计算语言学基础知识概述》一、引言计算语言学是一门融合了语言学、计算机科学和数学等多学科的交叉领域,旨在利用计算机技术来处理和分析自然语言。
随着信息技术的飞速发展,计算语言学在自然语言处理、机器翻译、语音识别、信息检索等众多领域发挥着至关重要的作用。
本文将对计算语言学的基本概念、核心理论、发展历程、重要实践以及未来趋势进行全面的阐述与分析。
二、基本概念1. 自然语言自然语言是人类日常交流所使用的语言,如汉语、英语、法语等。
它具有复杂性、歧义性和多样性等特点。
与形式语言不同,自然语言的语法和语义规则较为灵活,且存在大量的模糊性和不确定性。
2. 计算语言学计算语言学是研究如何利用计算机技术来处理和分析自然语言的学科。
它涉及自然语言的理解、生成、翻译、检索等多个方面,旨在实现人与计算机之间的自然语言交互。
3. 语言模型语言模型是计算语言学中的一个重要概念,它用于描述自然语言的概率分布。
语言模型可以预测一个句子或文本序列出现的概率,从而为自然语言处理任务提供基础。
常见的语言模型有 n-gram 语言模型、神经网络语言模型等。
三、核心理论1. 形式语言理论形式语言理论是计算语言学的基础理论之一,它主要研究形式语言的语法和语义。
形式语言是一种严格定义的语言,具有明确的语法规则和语义解释。
形式语言理论为自然语言的形式化表示和分析提供了方法和工具。
2. 统计语言模型统计语言模型是基于统计方法的语言模型,它通过对大量文本数据的统计分析来学习语言的概率分布。
统计语言模型在自然语言处理中得到了广泛的应用,如机器翻译、语音识别、信息检索等。
3. 深度学习理论深度学习是近年来发展迅速的一种机器学习方法,它在计算语言学中也取得了显著的成果。
深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等被广泛应用于自然语言处理任务中,如文本分类、情感分析、机器翻译等。
四、发展历程1. 早期阶段计算语言学的早期发展可以追溯到 20 世纪 50 年代,当时人们开始尝试利用计算机来进行自然语言处理。
1. 什么是计算机语言学?发展史?计算语言学:指的是这样一门学科,它通过建立形式化的数学模型来分析,处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到一机器来模拟人的全部或者部分语言能力的目的。
计算语言学是利用电子数字计算机进行的语言分析。
虽然许多其他类型的语言分析也可以运用计算机,计算分析最常用于处理基本的语言数据-例如建立语音、词、词元素的搭配以及统计它们的频率。
计算语言学是语言学的一个研究分支,用计算技术和概念来阐述语言学和语音学问题。
已开发的领域包括自然语言处理,言语识别,自动翻译,语法的检测,以及许多需要统计分析的领域。
发展史:第一个时期是计算语言的萌芽期(1950 -1960年代)第二个时期是计算语言的发展期(1970 -1980年代)第三那个时期是计算语言的繁荣期(1990 -至今)2什么是语言资料库?它与语言知识库有什么区别?语言库在自然语言处理方面有什么应用?答:语料库顾名思义就是存放语言材料的仓库。
它是以电子计算机为载体承载语言知识的基础资源;语料库中存放的是在语言的实际使用中真实出现过的语言材料;真实语料需要经过加工(分析和处理),才能成为有用的资源;语言资料库与语言知识库的区别是:语料库是一种承载自然语言的形式,它的特点是以语言的真实材料为基础来呈现语言知识的。
语言知识库可以说是由专家从大量的实例中提炼、概括出来的系统的语言知识,语料库则基本上是以知识的原始形态表现出来。
在自然语言处理方面的应用如:基于大规模语料库的语音识别;基于大规模语料库的音字转换技术(中文输入);基于大规模语料库的自动文本校对技术;利用语料库训练HMM模型进行分词,词性标注,词义标注等等;基于语料库的句法分析;局域原料库的机器翻译;基于机器学习技术,通过语料库获取语言知识,包括搭配特征,句法规则,等等;基于语料钜的语言模型训练以及语言模型的评价;3. 中文自动分词的重要性;举例说明分词算法中的主要难点有哪些类型?答:中文分词的重要性:首先自动分词是汉语信息处理系统的重要组成部分;其次,自动分词是中文信息处理的基础。
计算语言学和自然语言处理:影响现代人生活的研究领域作者:苏俊铭宋灵青来源:《中国电化教育》2015年第05期编者按:在21世纪现代生活中,知识,即信息,通过语言媒介的传达无所不在。
大众无时无刻在工作场合或私人领域中不断地通过家庭计算机、电视机和移动通讯设备来接收信息、进行传播和网络社交。
我们是如何通过各种不同形式(文字/音频/视频)将传统的静态信息(例如书本与报纸等)转换成动态数据的,而且在任何时间,从任何地点都能取得?过程中有哪些“不可避免”的步骤呢?为了了解实现这些成果的相关研究,我们邀访了左密夏(Michael Zock)博士,请他针对此主题根据他的特长及多年来的研究经验分享见解及看法。
左密夏博士在自然语言处理(Natural Language Processing)和计算语言学(Computational Linguistics)的研究领域已经有3()多年的研究经验。
他在获得实验心理学博士学位后,被聘任为法国国家科学研究中心的终身研究员。
他在巴黎附近的人工智能实验室LIMSI工作了20多年。
自2006年起,在艾克斯马赛大学(Aix-Marseille)基础信息学实验室(Lab. of Fundamental Informatics)的自然语言处理组(NLP Group)工作。
他的研究兴趣主要在于语言生成领域(Language Production),以用户需求与实证研究(心理语言学、神经科学)结果为出发点,进行研发与构建工具来帮助语言学习者获得口语表达和(或)书写的能力。
他目前的研究重点包括:信息规划(Message Planning)、写作大纲规划(Oudine Planning)、词汇存取(Lexical Access)和基础外语口说技能学习(BasiC Speaking Skills Acquisition)。
左密夏博士在自然语言处理研究领域是国际知名学者。
他发表了许多研究成果,其中包含该领域中被认为非常重要的研究。
计算语言学第一节计算语言学概说概念:计算语言学(computational linguistics)是用计算机研究和处理自然语言的一门新兴边缘学科。
涉及语言学、计算机科学、数学等多个领域。
旨在通过建立形式化的数学模型,来分析处理自然语言,并在计算机上用程序来实现分析和处理的过程。
从而实现机器模拟人的部分乃至全部语言能力。
研究对象自然语言&计算机处理(或者简单地说“计算”)自然语言:指日常生活中人们所使用的语言,如汉语、英语、法语等。
自然语言的特性和规则是计算语言学研究的主体。
计算语言学不仅要研究自然语言的书写系统(文字)还要研究自然语言的各级语言单位(音素、音位、语素、词、短语、句子等)的组合规则和这些语言单位与语义产生联系的各种规则【这是我们研究计算语言学的基础,初步工作】(目的:要让计算机能自动理解和产生自然语言)计算机处理:用计算机所能接受的方式来描写和刻画自然语言并把它表示在计算机中。
(计算机是以数值处理的方式来处理信息的,它以二进制数0和1为基本的操作符号,在此基础上建立起一整套形式化处理的方法来进行运转。
因此要让计算机能够理解和生成自然语言,自然语言的特性和每一条规则必须要以形式化的方式表示出来。
自然语言的规则是错综复杂的,而且规则的数量也非常多。
有了自然语言各种规则的形式化表示,并不能保证计算机就能够正确有效地理解和产生自然语言,要想让计算机能够正确有效地处理自然语言,还需要研究自然语言规则之间的关系及其处理策略,并且也要用形式化的方式表示出来。
)有了自然语言和计算机处理的研究基础,人们才能够选择计算机程序设计语言来设计和编写处理自然语言的软件程序,才能最终实现自然语言计算机处理的目的。
整个过程包括四部分:知识挖掘涉及语言学的众多理论问题,首先是语言观问题,然后是语言研究的方法论问题;形式表示算法设计更多涉及语言处理的实际工程问题软件编制知识挖掘即从语言学角度提出自然语言处理的语言问题和理论形式表示即把需要研究的问题在语言学上形式化,使之能以一定的数学形式严密规整地表示出来算法设计即把这种严密而规整的数学形式表示为算法,使之能在计算机上形式化软件编制即根据算法编写计算机程序,使之在计算机上能得以实现计算语言学性质计算语言学是一门交叉性的学科,它是由语言学和计算机科学相互交叉要有语言学的知识,又要有计算机科学的知识。
《牛津计算语言学手册》评介一、引言我从事计算语言学教学和研究已经50多年,在这半个多世纪的漫长岁月中,针对计算语言学的跨学科性质,我在北京大学学习过语言学,在中国科学技术大学研究生院学习过信息科学,在法国格勒诺布尔理科医科大学学习过数学,前后花了将近20年的时间更新自己的知识,成为跨学科背景的计算语言学家。
现在我们已经进入了信息网络时代,以自然语言信息处理作为研究目标的计算语言学正越来越受到语言学家的关注。
然而,由于大多数语言学家仅具有文科背景,他们对于计算语言学中涉及的数学知识和计算机知识了解不多,尽管他们怀着关注计算语言学的强烈愿望,可是一旦看到计算语言学的专业文献、接触到其中的数学和计算机方面的问题,往往望而生畏,敬而远之。
他们精研通达的语言学知识,难以与数学知识和计算机知识融会贯通起来,这是十分可惜的!我常常想,如果有计算语言学家能够用一般语言学家可以理解的方式,深入浅出地阐述计算语言学的原理和方法,一定会吸引更多的语言学家参加到计算语言学的队伍中,更好地推动我国计算语言学的教学和研究。
2004年我在英国伯明翰大学访问时,在伯明翰市中心的一个书店里偶然发现了Ruslan Mitkov主编的《牛津计算语言学手册》,很快就被它简洁明了、深入浅出的写作风格吸引住了。
我觉得这本书就是我多年来梦寐以求的深入浅出的计算语言学著作,非常适合文科背景的语言学家阅读,决心把这本书引进到国内来。
2005年回国之后,我马上找到外语教学与研究出版社的朋友,向他们介绍这本书的价值。
他们被我的诚意感动,很快就决定引进这本书,并且与牛津大学出版社商量,双方一致同意合作在国内出版。
2009年9月,《牛津计算语言学手册》正式在国内发行。
这是一件大快人心的好事!本书由Ruslan Mitkov教授主编,收录了包括语言学家、计算机专家和语言工程人员在内的49位学者撰写的38篇针对计算语言学主要领域的综述性文章,各章的写作风格力求一致,使得全书前后关联、浑然一体、可读性强。
《计算语言学》简评刘金路【期刊名称】《湖北函授大学学报》【年(卷),期】2015(000)013【摘要】Computational linguistics is a marginal cross -disciplinary subject across the linguistics,mathematics and computer putational Linguistics is a new book by professor Liu Ying at Department of Chinese Language and Literature of Tsing Hua University,which systematically explores the related theories and computing method.From the methodological per-spective,it is particularly significant for the development of linguistics or computational linguistics.%计算语言学是一门横跨语言学、数学和计算机科学的边缘性交叉学科。
《计算语言学》是清华大学中国语言文学系刘颖教授的新作,该书系统介绍了计算语言学的相关理论及计算方法。
从方法论视角看,该书对推动语言学或计算语言学学科建设及发展具有重要意义。
【总页数】3页(P122-123,155)【作者】刘金路【作者单位】浙江工商大学外国语学院,浙江杭州 310018【正文语种】中文【中图分类】G642【相关文献】1.计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室 [J], 王厚峰2.MOOC环境下计算语言学教学模式 [J], 闫欣;王磊3.蒙授《计算语言学》一流本科课程建设与研究——以引入探究式教学模式为例[J], 敖敏;达胡白乙拉4.中国计算语言学研究现状与展望 [J], 耿立波;酆格斐;詹卫东;杨亦鸣5.第二十届中国计算语言学大会征稿启事 [J], 本刊因版权原因,仅展示原文概要,查看原文内容请购买。
《计算语言学》简评作者:刘金路来源:《湖北函授大学学报》2015年第13期[摘要]计算语言学是一门横跨语言学、数学和计算机科学的边缘性交叉学科。
《计算语言学》是清华大学中国语言文学系刘颖教授的新作,该书系统介绍了计算语言学的相关理论及计算方法。
从方法论视角看,该书对推动语言学或计算语言学学科建设及发展具有重要意义。
[关键词]计算语言学;计算机科学;交叉学科[中图分类号]G642[文献标识码]A[文章编号]1671-5918(2015)13-0122-03计算语言学(Computational Linguistics)是当代语言学中的一个新兴学科。
《计算语言学》是清华大学中国语言文学系刘颖教授的一部新作,由清华大学出版社于2014年9月出版。
刘颖教授研究计算语言学、自然语言处理和机器翻译多年,已出版著作四部,发表相关专业论文近六十篇。
本书是2002年10月出版的《计算语言学》的修订版本,全书系统介绍了计算语言学的相关理论与计算方法,以及统计语言学与机器翻译的相关理论。
近十几年来,国内对于计算语言学的相关著作尤其是系统性介绍的书籍还是为数不多的,许多对计算语言学感兴趣的研究者们迫切需要这样的一本较为全面性的书籍问世。
相信本书应该会受到计算语言学界学者及研究者的极大关注。
本文首先探讨计算语言学的背景,之后简要介绍该书各章节的主要内容,最后在此基础之上对该书作出简要评价。
一、背景介绍二十世纪四十年代到五十年代末这段时期可谓是计算语言学的萌芽期。
虽然“计算语言学”这个术语概念还未被提出,但是有很多具备先见之明的研究者及学者们就开始从计算的角度来探讨语言现象,揭示语言所具有的数学性。
二十世纪六十年代的中期到八十年代末可以算作是计算语言学的主要发展期。
在此期间,许多的相关学科在相互借鉴,互为补充的基础上取得了不少鼓舞人心的成果。
在二十世纪九十年代的最后五年,计算语言学的研究变化显著,出现了空前繁荣的局面。
这主要表现在以下三个方面:首先,概率与数据驱动方法成了计算语言学的标准方法。
其次,由于计算机速度与其存储量的增加,使得在计算语言学的某些领域,特别是语音合成、语音识别、文字识别、拼写检查、语法检查这些应用领域,有可能进行商品化的开发。
第三,随着网络技术的发展,互联网逐渐变成一个多语言的网络世界,互联网上的机器翻译、信息检索和信息抽取的需要变得更加紧迫。
正是在这样的背景下,国内计算语言学研究也展现出了新的生机活力,刘颖教授的这本《计算语言学》便是很好的说明。
二、内容概述全书共分为十章,第一章为“计算语言学简介”。
本章主要介绍了计算语言学的概念及其与计算机科学、语言学、数理语言学及自然语言的关系。
此外,对计算语言学的主要研究内容作了详细的阐述,并说明了计算语言学理论的主要用途,包括机器翻译、语音自动识别和自动生成、自然语言理解及信息自动检索等。
本章的第四部分介绍了计算语言学研究的基本方法,涉及理性主义与经验主义。
最后,详细的梳理了计算语言学的发展历程,全面阐述了计算语言学以及在应用领域中已经取得的研究成果。
第二章“机器词典”部分主要介绍自然语言处理领域中常用的机器词典,包括《现代汉语语法信息词典》、《同义词词林》、Wordnet、Framenet及《知网》。
其中,详细介绍了每部词典中所包含的内容、词与词形成的关系、词典之间的相互联系与区别以及各种词典的独特应用。
由此,通过不同词典的相互对照,也可以清晰分辨出不同内容的词典及其在自然语言中的不同应用。
第三章“词法分析”对以汉语为代表的分析型语言,以英语为代表的曲折型语言以及以日语为代表的粘着型语言进行了词汇层面处理的相关介绍。
其中,在汉语自动分词部分,本章对汉语中词与自动分词、自动分词的重要性、自动分词方法、汉语切分歧义及其处理等内容作了详细介绍。
英语词法分析部分对词法分析方法、词法分析算法、为何要进行词法分析以及词法分析的程度问题作了具体说明。
最后,对日语词语特征、日语分词的常用方法及切词与词性标注等进行了总结。
尤其是在日语切词与词性标注中,运用了邻接表分析法与配价分析法对日语词法进行了详细对比,总结分析。
第四章为“词性标注”。
本部分首先对词性标注的定义与研究进展进行了概述,并举例说明。
之后,对词性标注集从规范、确定原则、适用范围及词类划分与标记代码四个角度作了系统阐述。
重点介绍了词性标注的三种方法:规则方法,统计方法及基于转换的错误驱动学习方法。
其中,对统计方法作了重点表述,其是基于HMM的词性标注、基于条件随机场的词性标注与基于最大熵模型的词性标注。
第五章为“形式语言理论与自动机”。
主要介绍了形势语言理论,涉及形式语法及其组成、形式语法的定义及特点以及进行形式语法研究的必要性。
在自动机理论部分,分析了进行抽象分析处理的四种演算及机器:图灵机(turning machine)、下推自动机(pushdown automaton)、线性有界自动机与有限自动机(finite automaton)。
最后,分析了乔姆斯基层级和自然语言的有关内容。
第六章“现代句法理论”主要介绍了二十世纪五十年代以后发展起来的计算语言学语法理论,包括乔姆斯基的转换生成语法、广义的短语结构语法、树粘接语法、中心词驱动的短语结构语法、词汇功能文法、范畴语法、依存语法以及链语法。
在转换生成语法部分,论述了经典理论所包含的短语结构、转换结构及形态音位。
之后,也对标准理论及扩充标准理论进行了举例详述。
依存语法部分指出,依存语法又称从属关系语法,其便于计算机对自然语言的有效处理,在信息处理时代特别受到欢迎。
同时,也指出了依存语法的缺点、从属树与短语结构树之间的差异及配价语法在中国汉语语言学中发展的四个方面。
第七章“句法分析”主要介绍了自然语言的句法分析算法,包括厄尔利分析算法、富田胜分析算法、线图分析算法以及CYK算法。
通过对比分析指出,厄尔利分析算法与CYK算法是一种并行的方法,但是前者要比后者更难以理解。
线图分析算法可以利用线图保留所有的分析结果,但是效率没有富田胜分析算法高,相比较而言,富田胜分析算法试着四种算法中最为快捷的算法。
另外,该书也指出CYK算法由于较易实现,易于被人们所理解,因此被广泛应用在基于短语的机器翻译和基于句法的统计器翻译中。
所有的算法本书都给出了详细的举例说明,并列出了计算机处理自然语言的详细过程。
第八章为“语义理论与语义分析”。
该章节主要阐述了有关格语法、语义网络文法、义素分析、优选语义学及蒙塔格语法五个部分。
其中,每个部分都给出了其定义及产生的简要说明,同时列举了具体实例进行了分析。
尤其是在蒙塔格语法部分,对句法、翻译及语义三个部分进行了系统全面的介绍,内容涉及到了树立逻辑,因此部分内容稍显抽象,较难理解。
最后的讨论部分作者也指出,五个理论独立存在,且这种独立也是合理可行的,但是就具体自然语言处理的工程而言,只要有利于计算分析可以解决实际问题的理论都可以拿来使用,而且一定要尽量吸收各种理论的合理成分,进行有机结合。
第九章“统计语言学”主要介绍了统计语言学所需要的基本统计知识和语料库。
指出,大规模的单语或多语语料库是统计的基础,没有它就无法对语言进行处理。
同时,该部分也介绍了n元模型、HMM模型以及HMM模型在语音识别和组块识别中的应用,介绍了随机上下文无关语法及其应用,用于句法和语义消岐的句法评分和语义评分,双语语料库的句子对齐技术,重点介绍了基于长度的句子对齐和基于词汇的句子对齐原理。
另外,也介绍了支持向量机SVM的原理、实现过程以及如何利用SVM进行人声识别,最大熵模型的原理、最大熵模型参数的训练算法及其应用。
最后,针对统计中出现的数据稀疏问题,介绍了常见的数据稀疏处理方法。
第十章“机器翻译”主要介绍了机器翻译的概念,并指出了五种主要的方法:直接翻译法、基于转换的方法、基于统计的方法、基于中间语言的方法以及基于实例的方法,指出了机器翻译的难点及应对策略。
详尽地介绍了统计方法的各种模型,包括基于词的统计翻译、基于短语的统计翻译和基于句法的统计翻译。
最后,该书介绍了有关机器翻译的难点、应用及其评价方法。
三、简要评价本书是一本全面系统介绍计算语言学的著作,既有语言理论的全面梳理也有语言计算实践的深入探讨,尤其是对于计算语言学涉及的算法均给出了举例并进行了详细说明,也给出了语言处理的详细过程。
本书的主要特点在于:首先,正如前文所提到的,这本书为国内致力于计算语言学研究的学者及研究者们提供了很好的参考,拓展了思路,开阔了视野。
其次,本书章节的编排条理清晰,颇具匠心。
本书没有流于对计算语言学的一般性介绍,而是把计算语言学相关理论与真实的语言实例相结合,逐层逐类,按照从小到大,由简到繁的顺序展开,比如,书中按照词法到句法再到语义的逻辑排列,使读者可以循序渐进系统掌握核心内容及其内在关系。
第三,本书中所用实例涉及汉语、英语及日语三种语言,语言范围更加广泛,具备更强的说服力与信服力。
第四,这是一本不仅仅侧重介绍而且详尽阐述计算方法及运算过程的著作,大多数章节的内容与语言均较为浅显易懂,语言理论与计算相关的实践紧密结合。
使用了较多的语言实例及相关数据,使学习者在阅读学习过程中可以置身于计算语言学的真实语境中,从而可以更快,更有效的吸收本书的精华。
尽管如此,本书也有些许不足之处。
首先,书中的许多语言实例多针对英语语料,稍显单一,语言具有差异性,具体理论应用时也会存在较大差异,如果能有更多的汉语实例佐证或许会有更好的效果。
其次,由于本书是一本有关计算的语言学书籍,特别像第九章的统计语言学部分,涉及到的统计概率等数学知识较多,较为抽象,让缺乏数学及计算机系统知识的读者读起来稍显棘手,因此本书在这样的环节设计上可以再进一步斟酌完善。
第三,个别地方有很小的排版问题,如95页图5-4句子“old man and woman”的分析树形图中的and写为了“And”。
(责任编辑:桂杉杉)。