浅谈汉字字频统计方法的改进的策略
- 格式:doc
- 大小:18.50 KB
- 文档页数:6
小学书法教学质量调查和改进策略小学书法教学是培养学生良好书写习惯和提高审美能力的重要环节。
通过对小学书法教学质量进行调查,可以了解教学存在的问题,从而制定改进策略,提高教学质量。
本文将从调查方法和调查结果入手,提出针对性的改进策略。
一、调查方法1.问卷调查可以设计问卷,向学生、家长和老师发放,收集他们对书法教学质量的意见和建议。
问卷设计应包括教学内容、教学态度、教学效果等方面的问题。
可以设置定性和定量问题,以全面了解各方的评价和期望。
2.实地观察通过参观、观摩其他学校或班级的书法教学情况,了解其他学校在教学方面的先进经验,同时也可以互相交流心得,开拓思路。
还可以观察教室环境、教具设施等,了解是否影响了教学质量。
3.个别访谈选择一些典型学生和家长,进行个别访谈,倾听他们的心声。
可以了解学生对书法教学的理解程度、兴趣和学习动力,了解家长对书法教学的评价和期望。
二、调查结果通过以上调查方法收集到的数据,我们可以得到一些常见的书法教学问题,如教学内容单一、教学方法缺乏创新、学生学习兴趣不高等。
通过分析这些问题,制定相应的改进策略。
三、改进策略1.拓宽教学内容结合学生的年龄特点和学习能力,设计多样化的书法教学内容。
可以通过讲解碑帖、赏析名家作品、提供练字字帖等方式,使学生了解书法的发展历程和不同风格,提高学生的艺术鉴赏能力和创作能力。
2.创新教学方法尝试多种教学方法,如小组合作学习、游戏化教学、电子书法教学等。
通过多媒体手段和互动式教学,引起学生的兴趣和注意力,激发他们的学习热情。
教师应注重培养学生的观察能力和想象力,在书法教学中引入创意元素,丰富教学内容。
3.鼓励学生参与开展书法比赛、展览等活动,鼓励学生积极参与。
可以设置不同层次的比赛,激发学生的学习动力,同时给予他们相应的奖励和表彰。
通过展览等方式,展示学生的作品,增强他们的自信心和成就感。
4.加强家校合作家长是学生学习的重要支持者,加强与家长的沟通和合作,能够更好地促进学生的学习。
论汉字字频统计方法的改进的策略【摘要】本文旨在探讨汉字字频统计方法的改进策略,提出了基于深度学习、结合语料库和考虑字频变化趋势的三种改进方法。
首先分析了传统汉字字频统计方法的应用情况和局限性,随后详细介绍了每种改进策略的原理和优势。
基于深度学习的方法可以更准确地处理大规模数据,而结合语料库可以提高统计结果的可靠性。
考虑字频变化趋势的方法可以更好地反映语言发展变化。
本文强调了改进方法的优势,展望了未来研究方向,并总结了本文的研究内容。
通过对不同改进策略的研究和讨论,可以为汉字字频统计方法的改进提供有效的参考和指导。
【关键词】汉字字频统计方法、改进策略、深度学习、语料库、字频变化趋势、优势、研究展望、汉字研究1. 引言1.1 背景介绍汉字作为中国传统的文字表现形式,是中国文化的重要组成部分。
随着社会的发展,汉字的使用范围越来越广泛,对于汉字的研究也变得愈发重要。
汉字字频统计方法是在文化研究、语言学习、信息技术等领域内广泛应用的一项重要技术。
通过统计汉字在文本中出现的频率,可以帮助研究者更好地理解汉字的使用规律,进而深入挖掘汉字所蕴含的丰富文化内涵。
传统的汉字字频统计方法主要是基于统计学原理和语言学规律,通过对大量文本进行统计分析来得出汉字的使用频率。
随着信息技术的发展和研究需求的提升,传统方法在应对一些复杂的语言场景时存在一定的局限性,需要进一步改进和完善。
本文将探讨如何改进汉字字频统计方法,以更准确、高效地描述汉字的使用情况。
通过引入深度学习技术、结合语料库数据和考虑字频变化趋势等策略,旨在提高汉字字频统计方法的准确性和适用性,为汉字研究和应用领域带来新的思路和方法。
1.2 研究意义汉字是中文的基本书写单位,对于汉字的字频统计方法的改进具有重要的研究意义。
传统的汉字字频统计方法存在着一些局限性,无法准确地反映汉字在实际语言环境中的使用情况。
通过改进汉字字频统计方法,可以更准确地掌握汉字的使用规律和语言发展趋势,为社会语言学和计算语言学等领域提供更有力的支持。
中国高考语文汉字考查字频研究
中国的高考语文考试一直以来都与汉字紧密相关,掌握汉字的读写在高考语文考试中发挥着关键作用。
考查高考语文汉字字频,是准备参加高考语文考试的考生和教师们重点考虑的问题。
因此,对高考语文汉字字频进行研究显得尤为重要。
首先,要全面把握几种文字材料,从考查的主要文字内容入手,如《语文课本》和《大学文学》。
把握这些文字材料的特点,确定考查的主要文字内容。
其次,根据把握的特点,分别进行汉字字频的调查。
经过对各种文字材料的统计,便可得出高考汉字字频数据。
此外,要掌握高考汉字字频的特点,从中发现考查的重点和要点。
通过对文字材料汉字字频的统计,可以了解高考汉字考查的重点和把握要点。
并且,可以有针对性地进行汉字字频练习,真实考查高考语文汉字字频。
另外,在掌握高考汉字字频的同时,要全面把握语文的技巧性知识,如文体、语法、语言文化知识等。
根据把握的特点,分别进行汉字技巧性知识的调查,了解相应的文字特点,以高考汉字的字频为基础,把握语文的技巧性知识,做到既掌握文字,又掌握技巧性知识,才能成为一名成绩优异的高考生。
总之,准备参加高考语文考试的考生和教师们,都要重点考虑汉字字频的问题,通过全面地调查和研究,把握高考汉字的字频及技巧性知识,从而有效地提高参加高考语文考试的考生及教师们的应试水平。
关于字数统计的自查报告及整改措施字数统计是文稿编辑过程中的一项重要工作,它能够对作品的篇幅进行准确评估和掌控,并且是写作质量的客观衡量标准之一。
本文将对我们小组在字数统计上存在的问题进行自查报告,并提出相应的整改措施,以确保我们的文稿符合字数要求。
一、自查报告在我们小组进行字数自查工作时,我们发现了一些常见的问题:1. 漏算字数:有时在统计字数时,我们会忽略部分词语、标点符号或数字的计算,导致最终的字数统计不准确。
2. 重复计算:在编辑过程中,我们可能会复制粘贴或多次插入相同的内容,而没有进行相应的去重操作,这样会导致字数统计出现重复计算的情况。
3. 忽略格式影响:有些格式会占用额外的字数,比如表格、图片和代码块等。
在统计字数时,我们没有将这些格式对字数的影响计算在内。
4. 文字转义问题:在进行字数统计时,我们忽略了文字转义的情况,导致实际呈现在文稿中的文字数量与统计的数量不一致。
二、整改措施为了解决上述存在的问题,我们制定了以下的整改措施:1. 严格按照规范统计字数:在进行字数统计时,我们将严格按照规范进行统计,包括正文、标题、副标题、图表、脚注等内容的计算,确保每个部分都被正确计入。
2. 去重处理:在编辑过程中,我们要注意避免重复插入相同的内容,避免多次计算相同的字数。
如果在文稿中存在相同内容的情况,我们将及时进行去重处理。
3. 注意格式对字数的影响:我们将充分考虑不同格式对字数的影响,并在统计过程中将其计算在内。
对于表格、图片、代码块等格式,我们将按照规范的计算方式统计其中的文字数量。
4. 特殊字符转义处理:在字数统计中,我们将注意特殊字符的转义情况,并将其计算在内。
例如,HTML标签、转义字符等都会占用实际的字数,我们将确保这些字符在统计中得以考虑。
通过以上整改措施的实施,我们相信可以确保字数统计的准确性和可靠性。
同时,我们还将定期对字数统计进行自查,及时发现并纠正存在的问题。
只有这样,我们才能保证我们的文稿在字数上符合要求,向读者提供更好的阅读体验。
小学书法教学质量调查和改进策略一、引言书法是中国传统文化的重要组成部分,它不仅是艺术,更是一种文化传承和审美教育。
小学阶段是学生书法基础建设的重要时期,因此小学书法教学质量的提高至关重要。
为了了解小学书法教学的质量现状以及制定改进策略,本文将进行一份小学书法教学质量调查,并提出相应的改进策略。
二、调查内容1. 调查对象:调查针对中国某市小学的全体学生和教师。
2. 调查内容:(1)学生对书法课的满意度调查;(2)学生书法水平自我评价;(3)教师对书法教学质量的评价;(4)学生平时书法作业的完成情况;(5)家长对学生书法教学的反馈意见。
三、调查结果分析1. 学生对书法课的满意度普遍较高,认为老师讲解生动有趣,能够激发他们学习书法的兴趣;2. 学生书法水平自我评价整体较为一般,很多学生认为自己的字写得不够工整,需要提高;3. 教师对书法教学质量的评价较为客观,一些老师表示书法教学有待提高,需要更多的专业培训;4. 学生平时书法作业的完成情况不够令人满意,有相当一部分学生书写敷衍了事;5. 家长对学生书法教学的反馈意见主要集中在希望学校能够加强对学生书法学习的指导和督促。
四、改进策略1. 提高教师书法教学水平。
组织全体书法老师参加相关的书法教学培训,提高他们对书法教学的认识和技能,增强他们的书法教学能力;2. 优化教学内容和方法。
在教学内容上,结合学生的实际情况,进行有针对性的指导,引导学生主动学习。
在教学方法上,采用多种教学手段,如视频教学、实地写字等,让学生在轻松愉快的氛围中学习书法;3. 提高学生书写积极性。
学校应严格督促学生按时按量完成书法作业,同时营造良好的学习氛围,激发学生的学习兴趣;4. 加强学校与家长的沟通。
通过家长会、家校联系册等途径,及时了解家长对学生书法教学的反馈意见,并积极采纳家长的建议,形成学校、学生和家长共同合作的良好局面。
五、总结小学书法教学是学生书法基础建设的重要时期,其质量的好坏直接关系到学生今后书法水平的提高和文化素养的形成。
汉字的词频统计与文字预测汉字是中华文化的瑰宝,也是中文书写的基本单位。
随着科技的发展,我们逐渐借助计算机和人工智能技术来对汉字进行词频统计和文字预测,以便更好地理解和应用汉字。
本文将介绍汉字的词频统计方法,以及如何利用这些统计结果进行文字预测。
一、汉字的词频统计词频统计是通过对大量文本进行分析,统计每个汉字出现的频率,以便了解汉字的使用情况和特点。
这项工作通常需要借助计算机和自然语言处理技术。
首先,我们需要收集大量的中文文本数据,可以是书籍、报纸、网络文章等。
然后,将这些文本数据进行分词处理,将连续的汉字序列切分成一个个词语。
接下来,统计每个汉字出现的次数,并计算其频率。
最后,根据词频排序,我们可以得到一个汉字的词频统计表。
通过词频统计,我们可以了解到哪些汉字是最常用的,哪些汉字是比较罕见的。
这对于学习汉字的人来说,可以帮助他们有针对性地学习常用汉字,提高阅读和写作能力。
二、文字预测的应用文字预测是指根据已有的文本数据和统计结果,通过算法模型来预测下一个可能出现的汉字或词语。
这项技术在输入法、机器翻译等领域有着广泛的应用。
在输入法中,文字预测可以帮助用户快速输入想要的词语,提高输入效率。
通过分析用户的输入习惯和上下文,输入法可以根据词频统计结果预测用户可能要输入的词语,并将其显示在候选框中,用户只需要选择即可。
在机器翻译中,文字预测可以提高翻译的准确性和流畅度。
通过分析源语言和目标语言之间的词频统计结果,机器翻译系统可以预测出最合适的翻译结果,从而提高翻译的质量。
除了输入法和机器翻译,文字预测还可以应用于文本生成、语音识别等领域。
通过分析大量的文本数据和词频统计结果,我们可以训练出更加智能和准确的模型,从而提高各种应用的性能和用户体验。
三、挑战与展望虽然汉字的词频统计和文字预测已经取得了很大的进展,但仍然存在一些挑战和问题。
首先,汉字的组合方式非常多样,一个汉字可以作为一个词语的一部分,也可以独立成词。
小学书法教学质量调查和改进策略随着教育的进步和学生需求的变化,小学书法教学质量逐渐成为教育界和家长关注的焦点。
为了了解小学书法教学质量的现状并提出改进的策略,我们进行了一次调查研究,以下是整理的调查结果和改进策略。
调查结果:1. 学生对书法的兴趣不高:调查显示,多数学生对于书法课程缺乏兴趣,认为书法是一项枯燥的技能,并不重视其学习。
2. 教师水平参差不齐:调查显示,有些学校的书法教师水平参差不齐,教学内容和方法过于简单,无法满足学生的需求。
3. 学生认为书法没有实际应用:调查显示,很多学生认为书法没有实际应用,缺乏对书法的认同感和价值感。
4. 学校缺乏专业书法教学设备:调查显示,很多学校缺乏专业的书法教学设备,无法提供良好的书写环境和条件。
改进策略:1. 激发学生的兴趣:通过创设有趣的书法教学活动,如比赛、展览等,激发学生的学习兴趣。
可以邀请专业书法家进行书法讲座,展示书法的艺术魅力,增强学生对书法的兴趣和热情。
2. 提高教师的专业水平:鼓励教师主动学习书法知识和技能,提高其教学水平。
可以组织教师培训班,邀请专业书法教师进行指导,提升教师的专业能力。
3. 强调书法的实际应用价值:通过举办书法比赛、写作比赛等活动,让学生感受到书法的实际应用价值。
教师可以引导学生了解传统文化和书法的渊源,增加学生对书法的认同感和价值观。
5. 引入现代科技手段:结合现代科技手段,如数字化字帖、电子书法板等,提供更多书法学习资源和方式,满足学生多样化的学习需求。
改进小学书法教学质量需要多方共同努力,包括学校、教师、学生和家长的共同参与。
通过激发学生的兴趣、提高教师的专业水平、强调书法的实际应用价值以及提供专业书法教学设备等改进策略,相信小学书法教学质量将得到有效提升。
小学书法教学质量调查和改进策略导言:书法是中国传统文化中的重要组成部分,也是培养学生的美感和审美能力的重要途径。
在小学书法教学中,由于种种原因,教学质量可能存在不足之处。
为了提高小学书法教学的质量,我们有必要对目前的教学情况进行调查,并根据调查结果制定相应的改进策略。
本文将分析小学书法教学的现状,提出调查方法,并根据调查结果提出改进策略,以促进小学书法教学的持续改进和提高教学质量。
一、小学书法教学的现状1.小学书法教学存在的问题(1)教学内容单一。
目前,小学书法教学内容主要集中在字帖临摹,缺乏对书法艺术及其历史文化的系统性介绍和讲解。
(2)教学方法单一。
大多数小学书法教学以传统的板书和字帖临摹为主,缺乏趣味性和互动性。
(3)教学资源不足。
由于教材和教学资源不足,很多学校无法提供丰富多样的书法教学内容和材料。
2.教学质量不够稳定在小学书法教学中,教学质量的稳定性也是一个问题。
由于师资力量、教学资源等方面的差异,不同学校和不同班级之间的书法教学质量存在较大的差距。
在一些学校和班级中,书法教学水平较高,学生能够掌握一定的书法基础,而在另一些学校和班级中,学生的书法水平较低,甚至出现了学生对书法学习不感兴趣的现象。
3.学生对书法学习的态度和兴趣由于教学内容和方法的单一,很多学生对书法学习缺乏兴趣,甚至出现了对书法学习抵触情绪的现象。
这种情况对于学生的书法学习产生了消极影响,也暗示着书法教学的亟待改进。
为了全面了解小学书法教学的现状,有必要进行调查。
调查的方法可以采用问卷调查、访谈和实地观察相结合的方式。
1.问卷调查通过设计问卷,向全校师生发放,了解他们对小学书法教学的认识和看法,包括教学内容、教学方法、教学效果等方面的评价和建议。
2.访谈选择一些教师和学生,进行深入访谈,了解他们对小学书法教学的真实感受和体会,听取他们对书法教学的意见和建议。
3.实地观察到一些小学教室进行实地观察,了解书法课堂的教学情况,包括教学内容、教学方法、教学资源等方面的情况,从而全面了解小学书法教学的实际情况。
小学书法教学质量调查和改进策略随着国家对教育的要求不断提高,小学书法教学也应该与时俱进,提高教学质量。
本文将从小学书法教学的现状入手,进行调查,并提出改进策略。
我们需要了解小学书法教学的现状。
调查可以通过教师访谈、学生问卷调查等方法进行。
教师访谈可以深入了解教师在书法教学中的教学方法、教学资源等方面的情况;学生问卷调查可以了解学生对于书法教学的满意度、学习兴趣等方面的情况。
调查结果可能显示以下问题:一是教师在书法教学中缺乏教学资源,如书法字帖、传统文化方面的书籍等。
二是教师在教学方法上比较单一,缺乏创新,导致学生对于书法教学产生兴趣缺乏、学习效果不佳。
三是学生对于书法教学的兴趣不高,认为书法是枯燥的、无趣的学科。
接下来,针对以上问题,我们可以提出以下改进策略。
一是教师可以积极寻找书法教学资源。
可以购买一些好的书法字帖,可以利用网络资源,寻找适合学生的书法教学内容。
还可以借助孔子学院等机构的力量,提供更多的书法教学资源。
二是教师需要不断提高自身的教学方法。
可以参加一些书法教学的培训班或研讨会,了解最新的书法教学方法。
教师可以利用多媒体技术,设计一些生动有趣的课堂活动,提高学生的学习兴趣。
教师还应该注重对学生的指导与辅导,激发学生的学习兴趣和学习动力。
三是可以在书法教学中加入一些趣味性和竞争性的元素。
可以组织一些书法比赛或展览,让学生有机会展示自己的作品,增加学习的动力和成就感。
同时可以设置一些书法小组,让学生互相交流、互相学习,提高学习效果。
四是可以加强家校合作,提高家长对于书法教育的重视程度。
可以举办一些家长会,向家长介绍书法教学的重要性,并提供一些家庭作业或活动,让家长和孩子共同参与书法教学。
小学书法教学质量调查和改进策略是一个系统性的工程,需要教师、学生、家长等多方面的参与与努力。
只有我们共同努力,才能提高小学书法教学的质量,培养更多热爱书法、懂得欣赏书法艺术的学生。
汉字的字频统计与信息熵分析汉字是中国文化的瑰宝,也是世界上使用最广泛的文字之一。
汉字的形状独特,每个字都蕴含着丰富的文化内涵。
在现代信息时代,对汉字的研究不仅限于其文化价值,还包括对其使用频率和信息熵的分析。
本文将探讨汉字的字频统计和信息熵分析,以揭示汉字的使用规律和信息传递特征。
一、汉字的字频统计字频统计是指对一定文本范围内的汉字进行统计,并按照出现频率进行排序。
通过字频统计,我们可以了解到不同汉字的使用频率,从而揭示汉字在语言中的重要性和普遍性。
以现代汉字为例,对大规模文本进行字频统计后,我们会发现一些有趣的现象。
例如,“的”、“一”、“是”等常用字的频率非常高,而一些生僻字的频率则非常低。
这反映了汉字在日常生活和文化交流中的重要性差异。
字频统计还可以用于研究不同文本类型中的汉字使用规律。
例如,在新闻报道中,一些特定的政治名词和行业术语的频率会较高,而在文学作品中,一些形象描写和修辞手法所使用的汉字可能更为突出。
通过字频统计,我们可以揭示不同文本类型中汉字的特点和使用规律。
二、汉字的信息熵分析信息熵是信息论中的重要概念,用于衡量信息的不确定性。
在汉字研究中,我们可以将信息熵应用于分析汉字的信息传递特征。
在一个文本中,每个汉字的出现都承载着一定的信息量。
信息熵可以通过计算每个汉字的出现概率和信息量的乘积,并对所有汉字的信息量进行求和得到。
通过信息熵分析,我们可以了解到文本中汉字的信息分布情况和信息传递的特征。
例如,在一篇新闻报道中,一些政治名词和专业术语的信息熵可能较低,因为它们的出现概率较高,信息量较少。
而一些描述事件细节和分析评论的汉字可能具有较高的信息熵,因为它们的出现概率较低,信息量较大。
通过信息熵分析,我们可以了解到不同汉字在信息传递中的重要性和贡献度。
信息熵分析还可以用于比较不同文本类型之间的信息传递特征。
例如,对比新闻报道和文学作品中的汉字信息熵,我们可能发现新闻报道中的汉字信息熵较低,因为其注重准确传递事实信息;而文学作品中的汉字信息熵较高,因为其追求表达情感和艺术效果。
浅谈汉字字频统计方法的改进的策略浅谈汉字字频统计方法的改进的策略一、汉字字频统计的概念在汉语汉字的语境下,汉字字频常常简称为字频,汉字字频是汉字使用的一个重要属性。
冯志伟指出:“传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际过程中,有的汉字使用得多些,有的使用的少些,呈现出一定的统计规律性。
因此,从使用的角度来看,汉字还具有第四个要素——字频。
”?顾名思义,字频就是字的使用频度。
苏培成在《现代汉字学纲要》(增订本)给字频下的定义是:“字频就是汉字的使用频度,是指在一定的历史时期内经抽样取得的文字资料里,每一个汉字的使用次数与抽样资料总字数的比例。
”?他所说的“字频”,就是指汉字字频。
沙宗元在《文字学术语规范研究》中收了“字频”这个词条,他给出的定义是:“某个汉字在一定语料中使用(出现)的次数与样本总字数(又叫样本容量)之比。
”?这个“字频”也指汉字字频。
两家的定义大体不错,但表述不够严密。
第一,用来作为字频统计的文字资料不一定是经抽样取得的,如《史记》的字频统计这类专书字频统计是根据特定目的选取的,而非“经抽样取得”的。
“经抽样取得”不能作为字频统计的必要条件。
第二,“总字数”的说法比较含混,应该改作“总字次”。
第三,“样本总字数”的“样本”表意不明确。
综合学术界的研究,汉字字频可以定义为:个体汉字字符在按特定原则选定的文本中出现的次数与选定文本总字次之比。
对使用中的汉字进行字频统计,并按字频的高低排列汉字的顺序即可以得出汉字的频序,依据频序给汉字分级可以划分出汉字的频级,汉字的频级是对使用中的汉字进行分级的主要依据,对汉字规范、汉字教学及汉字信息处理有重要意义。
汉字字频统计是汉字研究中的一项具有实用意义的重要工作。
二、汉字字频统计的主要成果以往的汉字字频统计与研究取得了重要的研究成果,为汉字的研究与应用作出了重要的贡献。
字频统计一般分综合字频统计及分类字频统计两类。
其代表性成果主要有以下几项:现代汉字综合字频统计的主要成果有:1.《汉字频度表》,此表于1976年月由“七四八”工程查频组完成。
本次字频统计使用的语料时间范围为1973-1975年,语料内容包括科学技术、文学艺术、政治理论和新闻通讯四类,统计方式为手工操作。
备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。
2.《汉字频率表》,此表包含在北京语言学院语言教学研究所编的《现代汉语频率辞典》中,1986年6月由北京语言学院出版社出版。
本次字频统计使用的语料时间范围较多选用20世纪40年代至70年代的作品,语料内容包括报刊政论文章及专着、科普书刊材料、剧本和日常口语材料和各种体裁的文学作品四类,统计方式采用人工和计算机相结合。
选用语料180万字次,统计得出“不同汉字4574个”。
(参考该书“前言”和编纂说明)3.《现代汉语字频统计表》,此表由北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制,于1992年1月由语文出版社出版,出版署名单位是国家语言文字工作委员会和国家标准局。
本次字频统计使用的语料时间范围为1977-1982年,语料内容包括自然科学和社会科学两大类,统计方式完全采用计算机自动统计,选用语料13800万字次,抽取出的统计样本语料11873029字次,统计得出汉字7754个。
(参考该书说明)4.《报纸、广播电视、网络用字总表》,本表收录在“中国语言生活状况报告”课题组编《中国语言生活状况报告(2005)》中,《报告》于2006年9月由商务印书馆出版。
《中国语言生活状况报告(2005)》是由国家语委首次向社会发布的年度语言生活报告,其中的《报纸、广播电视、网络用字总表》是2005年年度用字字频统计表。
该表语料时间范围为2005年,语料介质包括报纸、广播电视和网络,统计手段采用计算机,共选择892034个文本文件,包括732143010字次,统计得出字种数88个。
(该书把字种界定为“这里的字种,指字形不同的汉字。
”?)古代文献使用汉字的综合字频统计成果主要有《古籍汉字字频统计》,该书由北京书同文数字化技术有限公司编写,年7月由商务印书馆出版。
本书统计的语料为电子版《四库全书》和《四部丛刊》,统计方式完全采用计算机自动统计,使用语料8亿字次,统计得出汉字307个。
(在该书收录的“大规模古籍汉字用字统计报告”中“统计结果汇总与初步分析”一节中介绍该书统计出的总字数时说:“1.文渊阁《四库全书》汉字总字数:29088字;2.《四部丛刊》汉字用字总字数:27606字;3.《四库全书》与《四部丛刊》汉字用字合计:307字。
”?但是该书《古籍字频统计表》的顺序号的最后一号是30136,比307多出9个数字。
查《古籍字频统计表》中含有部分空格和非汉字符号,如八卦卦符、古琴书中的指符等,甚至有新式标点和网址符@。
因此,本书给出的总字数并不准确,只是个大致的数字。
)古代文献专书使用汉字字频统计的成果主要有《史记字频研究》,李波着《史记字频研究》,2006年3月由商务印书馆出版。
该书的字频统计以汉代司马迁所撰《史记》一书的全部文字为对象,选择中华书局标点本130卷《史记》三家注本作底本,统计方式采用计算机手段。
全书计572864字次,统计得出4932个字。
上述字频统计的成果在汉字理论研究和现实应用等方面起了重要作用。
理论研究方面,如周有光在字频统计成果的基础上发现了汉字效用递减率?。
王凤阳在字频统计成果的基础上发现了汉字常用字笔画递减率?。
社会应用方面,如1980年由国家标准总局发布,1981年5月1日实施的《信息交换用汉字编码字符集?基本集》是在《汉字频度表》的基础上研制完成的。
1988年1月26日由国家语言文字工作委员会、国家教育委员会联合发布的《现代汉语常用字表》的研制参考了《汉字频度表》(常用字部分4152字)、《社会科学、自然科学综合汉字频度表》(常用字部分3500字)和《汉字频率表》(4574字)?。
1988年3月25日由国家语言文字工作委员会、中华人民共和国新闻出版署联合发布的《现代汉语通用字表》也参考了上述字频统计成果。
这些字频统计的结果和在字频统计成果基础上研制的《字表》对汉字教学、汉字水平测试、汉字识别、汉字信息处理、汉字字典编纂、汉字规范等工作都起到了重要的参考作用。
三、汉字字频统计存在的主要问题尽管汉字字频统计取得了诸多重要的研究成果,但是,由于受汉字自身的复杂性以及汉字信息处理技术的局限性等因素的影响,目前的汉字字频统计还存在很多问题,影响了字频统计的质量。
其问题主要表现在以下几个方面:1.近些年来多数汉字字频统计依据的是电子语料库,这些电子语料库建库目标主要是为语言研究服务的,加之计算机字库收字的限制,在把纸质文本转换成电子文本的过程中未能保持文字使用的原始状态,影响到统计结果的客观性。
比如,1956年1月28日国务院全体会议第23次会议通过了《关于公布〈汉字简化方案〉的决议》,1956年1月31日《人民日报》全文发表了国务院的《关于公布〈汉字简化方案〉的决议》和《汉字简化方案》,在此之前报刊图书主要使用繁体字(偶尔也用简体字)。
1955年月文化部和文改会联合发布了《第一批异体字整理表》(以下简称《一异表》),要求从1956年2月起在全国实施,这之前异体字未经整理。
1977年月20日《人民日报》、《光明日报》、《解放军报》及各省、市、自治区一级报纸发表中国文字改革委员会《第二次汉字简化方案(草案)》,月21日《人民日报》开始试用《第二次汉字简化方案(草案)》第一表的简化字,1978年7月停止试用这批简化字,1977年月21日至1978年7月之间《人民日报》等曾经用过“二简”的字。
而北京语言学院语言教学研究所1986年编的《汉字频率表》使用了1956年1月31日前的资料,如1951年1月31日的《人民日报》、1955年出版的《田汉剧作选》、1954年至1955年在《独幕剧选》上发表的何求的《新局长到来之前》、1952年人民文学出版社出版的茅盾的《子夜》的第五、第十九章、1955年人民文学出版社出版的老舍的《骆驼祥子》第十六章、1953年人民出版社出版的巴金的《家》第一、第三十八章、1955年人民文学出版社出版的巴金的《春》第一章等,却没有出现繁体字?。
使用了1956年2月《一异表》实施前的大量资料,却没有出现异体字。
以1951年1月31日的《人民日报》为例,该日报原版中有繁体字“对”、“装”、“数”、“会”等,而《汉字频率表》有“对(频序60、频次5138)”、“装(频序435、频次841)”、“数(频序286、频次1325)”、“会(频序32、频次7075)”,而没有“对”、“装”、“数”、“会”等。
该日报纸中有《第一批异体字整理表》中被淘汰的异体“游(旧字形)”、“鎻”、“周(旧字形)”、“志”等,而《汉字频率表》有“游”、“周”、“志”等正体,有“鎻”的正体“锁”的简化字“锁”,而没有“游”、“鎻”、“周”、“志”等。
该日报原版中文字有旧字形,而《汉字频率表》中的字均为新字形。
推测《汉字频率表》的研制者在测查文本时按当时的规范修改了原始文本,用规范字替换了不规范的字。
这种测查结果显然不能准确反映社会用字的实际情况。
又,国家语言资源监测与研究中心编《中国语言生活状况报告(2005)》(下编)的《调查报告》中明确指出:“报纸文本是从网络下载的,没有与纸质版本作比较。
”又说:“本次统计不包括以下两种字符:(1)汉字部件。
共有25个,计529字次,主要出现在报纸语料或网络语料中。
包含以下两类情况中:?讲解汉字中用到的偏旁部首,如‘言语的“语”这个字旁边是个“讠”字旁’。
这种部件共出现四个:亻、辶、宀、讠。
?拼字,大部分出现于人名、地名,如‘讲述人刘亻思亻思,14岁,树德试验中学’、‘本市宝坻区林亭口镇帐房瞿阝村农民’、‘广东中山南(艹朗)(上下结构)镇横门港码头彩旗飞扬’、‘20岁的广西姑娘小(崩刂)昨天回广州了’。
(2)乱码和无法显示的字符。
这些字符共出现765个,计23221字符次,占整个语料字符数的0.0026%。
”?根据作者的自述,本次统计不是依据原始的纸质文本,而是依据电子文本,并且电子文本并未与纸质文本校对,因此,电子文本转录错误的未加改正。
受转录者使用的计算机编码字库的限制,字库中没有的字,在电子文本中或用拼字表示,或用替代符号,或根本无法显示,均不能统计。
(举例中出现的偲、、蓈、剻四个字在《报刊、广播电视、网络用字总表》中也都未收录。
)。