浅议概率统计在语言学上应用
- 格式:doc
- 大小:301.50 KB
- 文档页数:19
统计学中的语言学研究与语音识别统计学在语言学研究和语音识别领域发挥着重要的作用。
通过采集和分析大量的语言和语音数据,统计学可以揭示语言规律和语音特征,并为语音识别技术的发展提供有力支持。
本文将介绍统计学在语言学研究和语音识别中的应用,并探讨其对相关领域的影响。
一、语言学研究中的统计学应用语言学研究借助统计学方法可以帮助我们深入理解语言结构和语言规律。
其中,最基本的应用是频率分析,即统计各种语言单位(音素、词汇、短语)的出现频率和分布情况。
通过对大规模语料库的分析,我们可以研究语言单位的使用频率、搭配规律以及上下文语义关系。
这种频率分析的方法使得我们能够对语言的特征和规律有更全面的认识。
此外,在语言模型和句法分析方面,统计学方法也得到广泛应用。
通过统计语言模型,我们可以根据大规模语料库中的数据预测语言序列的概率分布,从而实现对句子的自动语法纠错和句法分析。
基于统计学的句法分析技术在机器翻译、自然语言处理等领域具有重要意义。
二、语音识别中的统计学应用语音识别是指通过机器识别语言音频信号并将其转化为文字的技术。
统计学在语音识别领域的应用主要包括声学模型和语言模型两方面。
声学模型是语音识别系统的核心模块,它用于将输入的语音信号转化为对应的音素或词汇。
统计学在声学模型中的应用主要是通过训练大量的语音数据,建立语音模型并提取音频特征。
常见的统计学方法包括高斯混合模型(Gaussian Mixture Model, GMM)和隐马尔可夫模型(Hidden Markov model, HMM)。
这些模型可以通过训练和优化,提高语音识别系统的准确性和鲁棒性。
语言模型则用于提高识别结果的准确性和连贯性。
统计学方法可以通过分析大规模的文本语料库,建立语言模型并预测词序列的概率分布。
这样的语言模型可以辅助声学模型对语音信号进行更精确的识别和解码。
总结:统计学在语言学研究和语音识别中的应用是不可忽视的。
通过采用统计学方法,我们可以深入研究语言规律和语音特征,提高语音识别的准确性和鲁棒性。
语言学概率语言学概率指的是在语言使用中某些事件出现的可能性。
这些事件可以是语音、语法、词汇、语用等方面的现象,它们的概率会影响到语言的可理解性和流畅性。
因此,掌握语言学概率有助于人们更好地理解和使用语言。
下面将从几个方面介绍语言学概率。
一、语音概率语音概率指的是某个音素或音节出现在一个特定位置上的概率。
这些位置可以是单词的开始、中间或结束,也可以是不同语音之间的转换点。
例如,在英语中,音素/t/在单词开始时的概率较高,而在单词结束时的概率较低。
同样地,某些连续的音素的出现概率也较高,比如英语中的/thr/和/sk/,这使得它们成为词汇中常见的音素组合。
语法概率指的是语言中某个语法现象出现的概率。
例如,在英语中,名词单数通常与动词单数一致,但有些动词则需要与名词复数一致。
因此,当我们听到一个单数名词时,我们可以根据语法概率推断出它后面的动词是单数还是复数形式。
三、词汇概率词汇概率指的是一个词在语言中出现的概率。
有些词汇是常见的,出现频率较高,例如英语中的“the”、“of”等。
有些词则不太常见,例如名词“hippopotomonstrosesquipedaliophobia”(对长单词的恐惧症),它出现的概率很低。
词汇概率对于理解和使用语言都非常重要,因为常见的词汇在语言中出现的频率高,我们必须掌握它们才能更流利地表达自己。
语用概率是指人们在使用语言时遵循的一些常规或规范。
例如,在面对陌生人时,我们通常会使用礼貌的称呼,而不是直呼对方名字。
类似地,当我们要向对方提出请求时,我们会使用委婉的语言,而不是直接说出要求。
这些语用规则是在特定社交背景和文化环境中形成的,它们的概率基于人们的经验和语言实践,对于有效地交际非常重要。
对语言文本进行建模表达语言的概率统计模型Step1:理解语言文本建模语言文本建模是通过统计语言学的方法来研究和描述自然语言的产生和理解过程。
该模型可以用于预测语言中的词汇、语法和句子结构的概率分布。
在这种模型中,我们可以使用概率统计方法来评估一个句子在给定上下文下的概率,并利用这些概率进行语言相关任务,如语音识别、机器翻译和语音合成等。
Step2:数据预处理在建立语言模型之前,我们需要对语言文本进行数据预处理。
这包括去除标点符号、转换为小写字母、分割句子成单词等。
这样做的目的是将文本转换为适合建模的格式,并减少噪音对模型的影响。
Step3:构建词汇表词汇表是语言模型的基础,它包含了语言文本中出现的所有单词。
我们可以通过遍历语料库或使用现有的词汇表构建一个包含所有单词的列表。
在构建词汇表时,还可以考虑添加特殊标记,如开始标记(<start>)和结束标记(<end>)。
Step4:统计单词频率统计每个单词在语料库中出现的频率是建立语言模型的关键步骤之一。
通过统计单词的频率,我们可以估计一个句子中出现某个单词的概率。
可以通过遍历语料库并计算每个单词的频率来实现这一步骤。
Step5:计算单词条件概率单词的条件概率是指在给定上下文下一个单词出现的概率。
在语言模型中,我们希望能够预测一个句子中下一个单词的概率。
为了计算这个概率,我们可以使用n-gram模型,其中n代表上下文的长度。
通过计算每个n-gram出现的频率并除以前n-1个单词的频率,我们可以得到每个单词的条件概率。
Step6:构建语言模型通过计算单词的频率和条件概率,我们可以构建一个语言模型。
在语言模型中,我们可以使用n-gram模型或更高级的模型,如循环神经网络(RNN)或长短时记忆网络(LSTM)。
这些模型可以根据给定的上下文生成下一个单词的概率分布。
Step7:评估语言模型为了评估语言模型的性能,我们可以使用困惑度(perplexity)作为指标。
《语料库语言学中的统计学——实用指南》评述李虹霏【摘要】统计分析已经成为现代语言学中必需的研究工具,统计学的应用极大提高了语言学研究的科学性和有效性.Vaclav Brezina编著的《语料库语言学中的统计学——实用指南》(Statistics in Corpus Linguistics-A Practical Guide)主要介绍了统计思维的核心原则,对如何在语料库语言学研究中应用统计学进行数据分析提供了详尽指导.本文旨在对该专著进行评述,梳理语言研究中统计学的应用方法,为语料库语言学研究提供借鉴.【期刊名称】《哈尔滨师范大学社会科学学报》【年(卷),期】2019(010)003【总页数】4页(P100-103)【关键词】语料库;语料库语言学;统计学;数据可视化【作者】李虹霏【作者单位】东北大学外国语学院,辽宁沈阳110819【正文语种】中文【中图分类】H08一、引言随着现代语言学研究领域的日渐扩展,其研究的综合性、交叉性和跨学科性不言而喻,这使得语言学的研究方法亟须推陈出新。
语言学家需要对真实发生的语言现象进行描写,对广泛提出的语言理论甄别验证,因此统计学成为语言学分析的重要助力。
《语料库语言学中的统计学——实用指南》(以下简称《指南》)是由兰卡斯特大学学者Vaclav Brezina编著的一本全面介绍统计学原理、方法及在语料库语言学研究中应用的专著。
本书由剑桥出版社于2018年出版,全书共296页,旨在将统计学知识与语料库语言学研究相结合,增强语言学研究的科学性,让读者在无须具备统计知识的情况下掌握统计学核心原则,在语言研究中熟练运用统计分析方法[1]。
二、结构与内容《指南》整体根据语言学研究主题进行编排,全书内容分为三大部分,共8章。
第一部分有1章,为全书的导入部分,通过实例说明了统计思维基本原则在语料库数据分析的应用过程,解释了统计学在语料库语言学研究中的重要性。
第二部分为第二章到第七章,根据语言话题进行编排。
统计学在自然语言处理中的应用自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要子领域,旨在让计算机能够理解、处理和生成人类语言。
统计学是NLP中一种重要的数学工具,通过概率统计的方法分析语言数据,为NLP任务提供支持和解决方案。
一、语言模型语言模型是NLP中一个基础且重要的任务,其目标是估计一句话在语言中出现的概率。
通过统计方法,可以根据给定的文本数据,利用马尔科夫假设、n-gram模型等建立语言模型。
语言模型可以用于自动文本生成、机器翻译、拼写校正等任务中。
二、词法分析词法分析是将自然语言文本转化为有意义的词语序列的过程。
统计学在词法分析中发挥了重要作用,如基于统计的分词方法、词性标注和命名实体识别等。
这些方法通过统计分析大规模的语料库,学习词语和句子的统计特征,从而提高分词、词性标注和命名实体识别的准确性。
三、句法分析句法分析是研究句子结构的任务,其目标是确定句子中各个词语的句法关系,如主谓关系、动宾关系等。
统计学在句法分析中起到了重要的作用,如基于统计的PCFG(Probabilistic Context-Free Grammar)模型、条件随机场(CRF)等。
这些统计模型通过学习大量句子的统计规律,能够自动学习和预测句子的句法结构。
四、语义理解语义理解是研究句子意义的任务,包括词义消歧、语义角色标注、情感分析等。
统计学在语义理解中发挥了重要作用,如基于统计的词向量表示、词义排名算法和情感分类模型等。
这些统计方法通过统计分析大规模的语料库,学习词语和句子的语义特征,从而提高语义理解的准确性。
五、机器翻译机器翻译是将一种语言的文本自动转化为另一种语言的任务,统计学在机器翻译中起到了重要的作用。
基于统计学的机器翻译方法,如基于短语的模型、基于句法的模型和神经网络机器翻译,通过统计分析平行语料库,学习源语言和目标语言之间的统计规律,从而实现自动的机器翻译。
语言研究中的统计学摘要:一、引言1.统计学在语言研究中的应用2.统计学对语言学发展的推动作用二、统计学在语言研究中的应用1.语音学研究a.声学分析b.语音识别2.词汇学研究a.词汇统计b.词汇分布3.语法学研究a.概率语法b.句法分析三、统计学对语言学发展的推动作用1.数据驱动的研究方法2.跨学科研究的发展3.语言资源的挖掘与利用四、我国在语言统计学领域的研究现状及展望1.研究成果与进展2.面临的挑战与机遇3.发展趋势与前景正文:一、引言统计学作为一门研究数据收集、整理、分析与解释的科学方法,广泛应用于各个领域。
近年来,随着大数据时代的到来,统计学在语言研究中也发挥着越来越重要的作用。
本文旨在探讨统计学在语言研究中的应用及对语言学发展的推动作用,以期为我国语言统计学领域的研究提供参考。
二、统计学在语言研究中的应用1.语音学研究在语音学研究中,统计学可以应用于声学分析、语音识别等方面。
通过对大量语音数据进行统计分析,可以揭示语音的规律性特征,为语音识别和合成提供依据。
2.词汇学研究在词汇学研究中,统计学可以应用于词汇统计和词汇分布等方面。
通过对大量语料库进行词汇频率统计,可以了解词汇的使用情况,为词汇教学和词汇研究提供数据支持。
3.语法学研究在语法学研究中,统计学可以应用于概率语法和句法分析等方面。
通过统计语料库中的句子结构和句法关系,可以揭示语法规则的规律性特征,为语法教学和语法研究提供依据。
三、统计学对语言学发展的推动作用1.数据驱动的研究方法统计学为语言学研究提供了数据驱动的研究方法,使得语言学家可以更加客观、科学地研究语言现象。
通过收集和分析大量语言数据,语言学家可以发现语言规律,提高研究的准确性和可靠性。
2.跨学科研究的发展统计学在语言研究中的应用,促进了语言学与其他学科(如计算机科学、数学等)的交叉融合,为语言学研究提供了新的理论、方法和视角。
3.语言资源的挖掘与利用统计学在语言研究中的应用,使得大量语言资源得以有效挖掘与利用。
语言研究中统计学知识应用综述作者:王会英来源:《消费导刊·理论版》2008年第21期随着现代语言研究理念的不断更新,语言研究者越来越重视科研理念的培养及科研能力的快速提高。
众所周知,科研能力发展的关键在于掌握科学的研究方法。
近年来, 我国的语言研究方法正进入多元化时期,研究方法呈现出多样性和规范性,语言研究中统计学知识的应用日益频繁,成为现代语言研究的发展趋势。
因此作为语言研究者了解一定的统计学知识,并将之运用于语言研究,已是刻不容缓。
本文将就语言研究中统计学应用的重要性、应用范畴与方法、应用过程中存在的问题等方面作如下分析。
一、语言研究中统计学知识应用的重要性统计学知识在语言研究中的应用日益凸现其重要性。
主要体现在三个方面:(一)现代语言学研究范围不断扩大。
现代语言学所涉及的已不仅是语言问题,还往往涉及到社会学、心理学、人类学、信息科学、概率论、计算机应用等其他学科,因而现代语言学正在成为一门综合性学科,部分已成为交叉学科和边缘学科,所以它应该从自然科学和社会科学研究方法中汲取营养,以应付日益增加的研究问题的需要。
(二)语言研究方法不断更新。
以往的语言学研究,往往偏重于文献资料的研究,包括对文献资料的综合、总结、分析、分类、对比等等。
但在现代语言学研究中,研究者要建立语言理论体系和探索语言习得与运用的模式,要对实际发生的语言现象进行描写,通过语言学实验对某些理论和假设进行验证,找出规律,所以语言研究者已不再满足对二手资料的研究,而是更多地用到一手材料,并广泛运用科学实验、社会调查、自然观察等方法,其中概率论和统计学是归纳分析数据、进行统计推理的重要工具。
(三)语言学研究的科学性越来越强。
现代语言学比较强调信度和效度,信度主要是指研究的稳定性和可重复性,效度主要是指研究的可解释性和可推广性,缺乏这些特性的研究是不可信或无效的。
而这些特性的检验,也是以统计学应用为基础的。
总之,在语言研究中,描写语言学、应用语言学、语言习得、语言测试、社会语言学等等,无不应用到统计学知识。
概率语言距离(原创实用版)目录1.引言2.概率语言的定义与特点3.语言距离的概念与计算方法4.概率语言在语言距离中的应用5.结论正文1.引言随着全球化的加速推进,跨语言、跨文化的交流越来越频繁。
如何量化地衡量不同语言之间的差异,以便更好地进行跨语言沟通,成为语言学、计算机科学等领域的重要研究课题。
概率语言和语言距离为这一问题提供了有效的解决方法。
2.概率语言的定义与特点概率语言是一种基于概率统计的现代语言学理论。
它认为,自然语言中的每个句子都可以看作是一个概率分布,句子的意义取决于其中词语的概率分布。
概率语言具有以下特点:- 认为语言是一种编码和解码的过程,通过概率分布来描述语言的结构和语义。
- 强调语言的生成性,即语言可以看作是一个无限长的序列,每个句子只是这个序列中的一个样本。
- 认为语言的理解和生成是基于概率统计的,可以通过计算概率分布来实现。
3.语言距离的概念与计算方法语言距离是指两种语言之间的结构和语义差异程度。
常见的语言距离计算方法有:- 词法距离:基于两种语言中词语的形态变化进行计算,如编辑距离、最长公共子序列等。
- 语法距离:基于两种语言中句子的语法结构进行计算,如最短路径、平均句长等。
- 语义距离:基于两种语言中词语的语义信息进行计算,如词义消歧、概念匹配等。
4.概率语言在语言距离中的应用概率语言为语言距离的研究提供了新的视角和方法。
在词法距离、语法距离和语义距离的计算中,都可以应用概率语言的相关理论和技术。
- 在词法距离计算中,可以利用概率语言中的条件随机场、隐马尔可夫模型等方法,更准确地描述词语的形态变化。
- 在语法距离计算中,可以利用概率语言中的句法分析、依存关系等技术,更好地捕捉句子的语法结构。
- 在语义距离计算中,可以利用概率语言中的词义消歧、概念分布等方法,更全面地描述词语的语义信息。
5.结论概率语言和语言距离为跨语言、跨文化交流提供了有效的工具和方法。
数学与语言学探索语言背后的结构在数学与语言学之间存在着紧密的联系,数学可以帮助我们探索语言背后的结构。
本文将探讨数学与语言学之间的关系,以及数学在语言学研究中的应用。
一、数学与语言中的结构语言是人类思维与交流的工具,而数学则是一种用来描述与表达结构的学科。
语言与数学都有层次结构、规则与模式。
1.1 层次结构语言有自己的层次结构,从最基本的音素到构成单词的音节,再到组成句子的短语和从句等。
类似地,数学有自己的层次结构,从最基本的数字、符号和运算,再到构成代数表达式、方程与函数等。
1.2 规则与模式语言和数学都有明确的规则与模式。
语言有语法规则,规定了句子的构成和单词的组合方式。
同样地,数学也有运算规则和公式,使我们能够进行准确的计算和推理。
二、数学在语言学研究中的应用数学作为一门科学方法,可以在语言学研究中提供工具与理论支持。
2.1 统计语言学统计语言学是一种基于数学统计方法来研究语言现象的分支学科。
通过统计模型和概率理论,可以分析语言的频率、分布和规律。
例如,语料库语言学通过建立庞大的语言数据库,利用统计模型分析语言使用的频率、偏好等,从而研究人类语言使用的规律。
2.2 信息论信息论是数学中研究信息传输与存储的学科,也可以应用于语言学的研究。
通过信息论的方法,可以对语言中的信息量、信息熵等进行量化分析。
例如,通过研究不同语言之间的信息传输效率和压缩性,可以比较不同语言的表达能力和信息传递效率。
2.3 自然语言处理自然语言处理是一门将计算机科学与语言学结合的学科,通过数学建模和算法设计来处理和理解人类语言。
例如,通过构建语法树、词向量等数学模型,可以实现自动翻译、语音识别等自然语言处理任务。
数学模型的应用能够提高语言处理的精度和效率。
三、数学与语言学的互补关系数学与语言学的互补关系体现在彼此的方法论和思维方式上。
3.1 数学的精确性与语言学的模糊性数学以其精确的定义和逻辑推理而著称,可以提供一种准确的表达方式。
自然语言处理理论自然语言处理理论是研究和开发计算机与人类语言之间交互的一门学科。
它结合了计算机科学、人工智能和语言学等领域的知识和技术,旨在使计算机能够理解、处理和生成人类自然语言。
自然语言处理(Natural Language Processing,NLP)的发展历程源远流长,涵盖了从语音识别到机器翻译等多个研究方向。
自然语言处理的理论基础主要包括语言学理论、计算机科学理论和概率统计理论等。
语言学理论研究语言的结构、语法规则、语义等,为自然语言处理提供了语言学知识的基础。
计算机科学理论则关注如何构建可用于处理自然语言的算法和数据结构,包括文本预处理、语义分析和机器学习等技术。
概率统计理论则利用统计模型和算法进行自然语言处理任务的建模和推理。
自然语言处理技术的研究和应用范围广泛,包括自动文本分类、信息检索、机器翻译、语音识别、情感分析等。
其中,语音识别是将语音信号转换为文本的过程,常用于语音助手、语音输入和语音导航等应用。
机器翻译则是将一种语言的文本转换为另一种语言的文本,常用于跨语言交流和翻译服务。
情感分析旨在通过计算机对文本中的情感进行识别和分类,用于社交媒体、舆情分析和推荐系统等应用。
在自然语言处理领域,存在着许多重要的理论模型和方法。
其中,基于规则的方法通过定义一系列对应于语言结构和规则的规则来处理自然语言。
这些规则可以包括词法、语法、语义和语用等方面的知识。
然而,由于人类语言的复杂性,基于规则的方法往往需要大量的规则和数据,而且很难覆盖所有情况。
另一种常见的方法是基于统计的方法,它利用大规模的文本语料库进行模型的训练和评估。
这种方法通过统计分析和机器学习算法来学习和推理自然语言的概率模型。
基于统计的方法广泛应用于机器翻译、语言模型、文本分类和信息检索等任务中。
近年来,随着深度学习的发展,神经网络模型在自然语言处理领域取得了显著的成果。
神经网络模型通过多层的神经元和学习参数来模拟人类大脑的计算过程,能够自动地从数据中学习特征和表示。
浅议概率统计在语言学上应用摘要数学作为一门应用性很强的学科,如何将理论与现实问题有效结合起来是一大难题。
而语言学作为一门重要的社会科学,与自然科学的精确性存在很大区别。
研究现实表明数学将可以在语言学等社会学科上得到极大应用。
本文首先介绍数学、语言学和数理语言学之间的关系及其内在联系,然后再从概率论和统计学两个角度分别简述其在语言学上应用。
概率论方面主要介绍语言文字的熵,讨论其信息量,并以汉字为例兼论常见语言的字母熵,从而窥探每个文字背后蕴含的信息量度。
统计学方面主要通过统计方法介绍语言单位的出现频率,计算作家的语言风格,以及计算语言存在的绝对年代和亲属语言分化的年代,并简要介绍齐普夫定律。
关键词:数理语言学;概率论;统计学;熵;齐普夫定律;马尔可夫链;语言年代学ABSTRACTApplied Mathematics, as an application of a strong discipline, has a major problem that how to combine the theory and practical problems effectively. Linguistics as an important social sciences, , has a big difference with natural sciences accuracy. The reality shows that mathematics has been greatly used in linguistics and social sciences. This paper first introduces the relationship between their internal relations of mathematics, linguistics, and mathematical linguistics, and then from two angles of the probability theory and statistics, respectively, outlined its application in linguistics. Probability theory describes the entropy of the language to discuss their information content, and on the entropy of the letters of the common language of Chinese characters, for example, in order to spy on the measure of the information contained in each text behind. In statistics we discuss on the frequency of occurrence of the linguistic unit by statistical methods, the computing language of the writer's style, as well as computing language of absolute age and age of relatives of language differentiation, and then a brief introduction to Zipf's Law.Key words: Mathematical Linguistics; Probability Theory; Statistics; Entropy;Zipf's Law;Markov Chain; Glottochronology目录摘要 (Ⅰ)目录 (Ⅱ)1数学、语言学和数理语言学 (1)1.1数学在语言学上的渗透及其意义 (1)1.2数理语言学及其分支 (2)1.2.1统计语言学 (2)1.2.2 代数语言学 (3)2概率及其在语言学中应用 (3)2.1熵、语言的熵 (3)2.2汉字的熵 (5)2.3汉字的极限熵 (6)3统计及其在语言学中应用 (8)3.1齐普夫定律 (8)3.2语言单位频率统计 (8)3.3计算风格学 (9)3.4语言年代学 (10)结论 (11)致谢 (12)参考文献 (13)浅议概率统计在语言学上应用1 数学、语言学和数理语言学数学和语言学可以说是最古老的两门学科,在人类文明长河中很难找到历史更悠久的学科。
数学是研究形式、结构和数量之间关系的一门学科,它具有统一的符号系统,各国读者均可以方便地进行交流,读法虽然有所差异,但是其意义都是相同的。
而语言是人类社会最重要的交际工具,是人类区别于其它动物的主要特征。
不同的国家、不同的民族有着不同的语言符号系统。
数千年来,数学和语言学之间似乎是风马牛不相及,很少有人想到把二者联系起来研究,找到他们的内在关系。
在人类的文明史上,学者们经过相当漫长时间的探索,才终于认识到这一密切联系。
1.1数学在语言学上的渗透及其意义进入20世纪,数学方法和理论不仅在物理、地理、天文等领域获得了惊人的进展,而且逐渐渗透到人文科学领域。
先是在生物学,而后是在经济学和社会学方面,数学方法取得了一系列成功。
很自然地,数学家们将目光投向了数学的未开垦地——语言学。
学者们的远见卓识,使语言学的发展展现了新机。
1847 年,俄国数学家布里亚柯夫斯基认为可以用概率论方法来进行语法、词源及语言历史比较的研究。
1894 年,瑞士著名语言学家索绪尔指出,“在基本性质方面,语言中的量和量之间的关系可以用数学公式有规律地表达出来”。
1904年,波兰语言学家博杜恩·德·古尔特内认为,语言研究者不仅应该掌握初等数学,更应该高等数学。
他坚信,语言学将日益接近精密科学,语言学将根据数学的模式,更多地扩展量的概念,并将发展新的演绎思想的方法。
这些光辉的思想影响了语言学的历史进程,成为下一代学者努力的方向,并将构思结合到实践研究中去。
1881年,德国学者迪丁贝尔格用统计方法把柏拉图著作的执笔时期分为前期、中期和后期三个阶段。
1887 年,美国学者门登荷尔对不同时期的英国文学作品尤其是莎士比亚的作品进行过统计分析,得出了令人满意的结论。
1898 年,德国学者凯定编制了世界上第一部频度词典《德语频度词典》,用来改进速记的方法。
1913 年,俄国数学家马尔可夫用概率论方法研究了《欧根·奥涅金》中的俄语辅音和元音字母序列生成问题,并以此提出可马尔可夫随机过程这一数学上的重要理论,后来成了数学的一个分支,对现代数学产生了深远的影响。
1935 年,美国语文学家齐普夫发表了齐普夫定律,采用数学方法描述频度词典中单词的序号分布规律,这一规律后来在不同领域得到了广泛应用。
1941 年,英国数学家尤勒发表了《文学词语的统计分布》一书,其中大规模应用了概率和统计方法来研究语言。
以上事例可以大致窥探上个世纪学者们将数学应用于语言研究的情况,究其意义,我们可以看到数学的优势所在。
l、数学表达语言学研究问题和内容的精确性。
数学语言的特点是简明,精确,数学方法具有严密的系统性和逻辑性,用数学符号和公式来表达语言学研究内容将符合现代语言学的要求。
2、数学方法可以对语言现象进行定量和定性,使得分析定量定性分析相得益彰:定性分析以定量分析为依据,定量分析以定性分析为归宿,这样可以尽可能避免对某些语言现象所作出的结论的主观推测性和游移不确定性。
3、数学方法丰富了语言学研究的方法和途径。
以上事例可以看出,语言学的研究可以拓展思路,引入更多的边缘学科帮助,用一种新的视野观察语言学研究和发展。
4、扩展语言学研究领域。
在数学方法被引入前,语言学研究因为研究水平的限制以及研究方式的僵化停滞不前,而数学方法的引入,很大程度上开拓了语言学研究的领域并大大加速了这一学科的发展。
1.2 数理语言学及其分支1.2.1 统计语言学数理语言学的一个分支,又称计量语言学,是应用数理统计、概率论和信息论等方法来研究语言学现象的语言学科。
就其研究领域来看,目前主要包括以下几个方面:1、统计语言单位的出现频率,如对词汇和音位、语素出现的频率进行统计研究。
2、统计作家的用词用词频率频率、词长分布和句长分布,以了解作家运用语言的风格,用这种方法还可判定匿名文章的作者。
3、计算语言存在的绝对年代以及亲属语言从共同原始语分化出来的年代,这方面的研究叫做语言年代学,又称为词源统计分析法。
此外,还可对亲属语言的语法、语音体系进行统计、比较。
4、采用信息论方法研究语言的熵和羡余度。
语言的熵就是在交际过程中语言符号出现的不定度。
不定度的大小与语言的熵的高低一致。
当语言的接收者接收到语言符号之后,不定度被消除,熵等于零,因而在交际过程中,语言接收者所得到的信息量恰恰等于被消除的熵。
语言的羡余度是指语言中超过传递最少需要量的信息量的比例,在一般情况下,人们为了保证对方能够理解,总是提供比实际需要多得多的信息量,因此,不论在书面语还是口语中,语言都有羡余度。
5、探讨语言的一般统计规律。
例如,在按频率递减顺序排列的频率词典中,词的序号越大,词的频率越小,序号与频率之间的关系可以用数学公式描述为一定的统计规律,这个统计规律叫做齐普夫定律,因其研究者之一、美国语文学家齐普夫而得名。
6、运用随机过程论来研究语言,把语言看成彼此联系的字母序列,前一个字母决定后一个字母的出现,于是形成一条字母链,叫做马尔可夫链,因其最早的研究者俄国数学家马尔可夫而得名。
7、研究文章中两个词之间、两个语法范畴之间、两个语义类之间或两个句法类型之间的间距,以揭示文章在句法或语义上的特征。
8、研究语言的词汇与文章长度的关系,以揭示文章中词汇的丰富程度和差异程度。
统计语言学的许多成果,对语言教学、通信技术及自然语言的信息处理有很大价值。
更为重要的是对寻找语言背后的数理规律以及揭示各种语言形成的内在原因起到关键作用。
1.2.2代数语言学数理语言学的一个分支,又叫做形式语言学,是应用数理逻辑、集合论、算法理论。
格论、图论。
模糊数学等离散代数方法研究语言现象的语言学科。
目的是建立起语言的代数模型,把语言学的某些方面建造成类似数学那样的演绎系统,建立语言模型理论,从而为自然语言的信息处理提供理论基础。
就其研究领域来看,目前主要包括以下几个方面:1、建立语言的数学模型,如美国逻辑学家、语言学家乔姆斯基、前苏联数学家.库拉金娜、语言学家巴尔-希列尔分别提出了语言的生成性模型、分析性模型和辨识性模型。