搜狗拼音输入法词库导入图解
- 格式:doc
- 大小:452.00 KB
- 文档页数:4
搜狗官方:搜狗输入法的词库是怎样来的作者:搜狗输入法小组词库开发工程师吕杰勇众所周知,搜狗输入法在词库方面具有鲜明的特色,其词库不仅超大全面(大概有35 万左右),而且词条质量也很高.随着搜狗输入法的不断普及,越来越多的用户体验到了搜狗输入法的超级流畅性,但是这样的流畅性是以一个优秀的词库为基础的.作为一个输入法的核心部分,搜狗的超强词库是怎样来的呢?下面和广大关心搜狗输入法的朋友们分享一下词库制作中的艰辛和快乐.搜狗的词条来源词汇是一切中文应用的基础,但是世界上并没有任何一个词典包含了输入法所需要的所有词汇.比如中国汉语大辞典虽然包含了很多词条,但是仍然缺乏很多比较新、比较具体的词,网络的新词又层出不穷,所以搜狗输入法必须自己想办法构造一个适合他自己的词库.由于搜狗是一家搜索引擎公司,自然会有一批自己做文本分析的词库,它包含了常用的基本词汇和部分专业词汇,但是在数量上还是远远不能覆盖用户对词汇的需求空间.经过分析可知,这部分缺少的词中有相当一部分是人名、地名、歌曲、小说、财经、旅游、游戏、体育等.幸运的是,搜狐矩阵蕴含着许多搜狗需要的这些资源,比如地名资源可以从go2map拿到,歌曲资源可以从搜狗的音乐搜索拿到,小说资源可以从搜狐网拿到,游戏词汇可以从17173游戏网拿到……这些资源虽然是内部资源,但是当初也是编辑经过长时间大量的整理维护工作的结晶,并且这涉及到大量部门间的合作,每一个流程下来都会花许多精力.除了搜狐内部资源的整合,我们还为某些事件、场合特别整理了大量的词表.比如在世界杯期间,我们的编辑整理了几乎所有与世界杯相关的词汇,使得球迷们可以更为流畅地交流.对于诗词,我们特别汇总了几乎所有从最早的诗经到毛泽东的所有古诗词(包括宋词),这都成为搜狗词库来源的一部分.在融合搜狗自己的词库和各个兄弟部门提供的资源后,搜狗输入法词库有了较大的完善,但是仍然缺少很多各种各样的词,比如“挖人”、“电荒”等.这些词无法通过寻找资源的方式全部找到,所以不得不自己想办法.幸运的是,互联网网页是个大宝库,里面蕴含着几乎所有我们需要的知识,所以我们的工程师们设计了一套机器学习的算法从这些网页中训练新词,训练的结果是得到了大批的新词汇,但是也引入了大量的噪声,即垃圾词.比如在最初的搜狗输入法版本里,“谢霆锋”这个词的错法就有“谢霆峰”、“谢廷锋”等数种,这对用户的体验和输入法的智能性都造成了损害.搜狗的词频统计输入法离不开词频,词频直接影响着智能组词.搜狗输入法的词频统计是在一个极其大的互联网网页上统计出来的.为了得到一个最优的词频,或者得到某类风格的词频(比如口语化风格),我们不断更换语料库,从网页类型的选取、文章长度的限制、某些特殊的预处理等都做了大量的尝试.每一次尝试都需要重新统计词频,动辄需要几天时间才能完成一轮词库的制作与验证,占用的机器、人力、资源之多不是某些小手工作坊式的输入法小组能够完成的.词库过滤系统的搭建经过前面的资源整理,我们得到了一个非常非常大的词库(约合几百万),这个词库中的词良莠不齐,需要坚决的过滤才能满足输入法的需要.试想,从几百万个词条的集合过滤得到35万左右的词条集合,这注定是一个庞大而又精细的工作.事实上词条出现的频率是词条质量的最重要维度,频率越高则词条是好词的概率越高,并且不同来源的词汇有着不同的可信度.为此我们搭建了一个词库过滤系统,这个系统好比是一个漏斗,可以灵活地对源头的词汇进行过滤,同时输出中间每一步的过滤过程以方便开发人员调整算法.就这样,在不断的过滤、验证、修改参数的循环中,这个系统逐渐趋于稳定,为整个词库的质量做出了重要的保证.这个系统虽然只有几千行代码,但是开发人员对它阈值等参数的调整可谓不计其数.经过这一轮的处理,词条的总体质量有了飞跃般的提升.词库的机器整理在1.0版本发布以后,许多用户抱怨垃圾词太多,于是我们又进入了与剩余垃圾词的战斗,以其进一步提高输入法词库的质量.经过分析我们认为垃圾词可以根据垃圾的类型分为几大类,例如:交叉型垃圾词,比如“量将”;错别字类型垃圾词,如“张亮影”、“张亮颍”,“张亮颖”等.对于这三种垃圾词,我们可谓使出了浑身解数.针对每一种类型的垃圾词,我们结合词性、互信息等理论进行大规模的统计操作,并对每一个阈值下过滤的词进行抽样把关,像淘沙子一样由一位工程师持续过滤了近一个月,过滤了近3万的垃圾词.词库的人工整理机器不是万能的,在机器的铡刀间总会存在无法自动处理的角落.为了再进一步提升词库质量,我们招聘了名校中文系的毕业生来审查我们的词库.由于编辑的辛勤劳动,不断与众多不知名的文字专家探讨垃圾词的标准,并借助技术工程师的力量,通过人工、机器两相配合的方式,又进一步过滤了数以万计的垃圾词.其中我们的编辑特别辛苦,需要对每一个词条进行确认,对于一部分词,还需要查字典确认,仅仅手工查《现代汉语词典》就超过2000次.终于,搜狗词库的混乱状态得到了改观,用户抱怨搜狗词库的声音逐渐平息,输入法的智能性也在不断努力中接连攀升.词库的注音由于普通词条是没有拼音的,所以我们必须对它们注音.注音的难点在于对多音字的处理,为此我们搜集了大量的拼音语料,从中统计出每一个多音字的读音概率,并开发了一套完整的注音程序,从而使每一个词条拥有了读音.但是注音问题也是一个经典的问题,从没有过完美的解决方案,因此我们的注音结果也存在诸多谬误.除此之外,有时甚至还存在一种事理上的矛盾,比如有些词(如模板,正确读音为muban,但很多人读moban)的大众读音是错的,那么到底该不该纠正该读音?像这种物理上谬误的逐步纠正和现实中矛盾的合理处理,都是我们的编辑和工程师不断努力的结果.新词发现除了已有的词库,我们还要不断发现新词.因为人类的词库是不断变化的,而互联网对这种变化相当敏感,所以我们开发了一套从互联网中发现新词的算法和系统.此系统拥有自动流程,每周自动发送新词报告,再由人工过滤确认,从而使搜狗词库保持与互联网同步,与人们的生活同步.词库的验证在输入法词库制作完成以后,我们不会直接发布给用户,而是需要经过严格的准确性评测.准确性评测的方法主要是用机器自动模拟人工在输入法上击键输入,在数万行的中文样本上计算首选词正确的比例,以及不正确情况下翻页找词的次数.每次词库评测都需要测试组工程师花上数天的时间来完成,确保词库制作无误、首选词的准确性达标才能发布出来.所以搜狗输入法的词库凝聚了众多开发工程师、测试工程师、中文编辑长达十几个月的心血.随着输入法小组集体的努力,搜狗的词库错误越来越少,质量越来越高.每当听到用户好的反馈,我们总是十分的高兴与欣慰.然而在词库成绩显著的同时,我们也不能忽视词库中存在的个别问题,如仍有个别错词垃圾词存在,为此我们开通了各种渠道便于用户举报错词;我们也会进一步优化词库相关技术,相信在开发小组和用户的共同努力下,我们能够呈献给大家一款更加完善好用的输入法.。
搜狗五笔输⼊法⾃定义短语使⽤及设置先看看刚安装的搜狗五笔输⼊法的版本及相关信息如下:搜狗五笔输⼊法4.2正式版(4.2.0.2056)拼⾳系统词频: Nov 5 2020五笔系统词频: Nov 17 2020查看⾃定义短语的信息:我的设置- 五笔词库管理-⾃定义短语-直接编辑⽂件:这⾥给出了⾃定义短语的配置及使⽤如下:; 搜狗五笔输⼊法--⾃定义短语配置⽂件; ⾃定义短语说明:; 1、⾃定义短语⽀持多⾏、空格、指定位置。
; 2、每条⾃定义短语最多⽀持300个汉字,总共⽀持100000条⾃定义短语。
; 3、⾃定义短语的格式如下:; 单⾏的格式:; 字符串+英⽂逗号+数字(指定排序位置)=短语; 多⾏的格式:; 字符串+英⽂逗号+数字(指定排序位置)=; 多⾏短语; 具体格式可以参考下⾯的实例。
; ⾃定义短语⽂件名为phrases.ini,存放在⽤户⽂件夹的根⽬录下。
; 4、最多⽀持100000⾏⾃定义短语。
; 5、⾃定义短语的⽤途有:快捷输⼊⼿机号、邮箱、诗词、⼩短⽂等,⼤家可以⾃由发挥。
; 6、时间函数功能。
具体定义格式如下:; 字符串+英⽂逗号+数字(指定排序位置)=#表达式; 注意:表达式以英⽂#开头,后⾯的表达式中的每⼀个函数的前⾯都包含有英⽂$。
; 函数表如下:; 函数含义举例; $year 年(4位) 2006、2008; $year_yy 年(2位) 06、08; $month ⽉ 12、8、3; $month_mm ⽉ 12、08、03; $day ⽇ 3、13、22; $day_dd ⽇ 03、13、22; $weekday 星期 0、1、2、5、6; $fullhour 时(24⼩时制) 02、08、13、23; $halfhour 时(12⼩时制) 02、08、01、11; $ampm AM、PM(英) AM、PM(⼤写); $minute 分 02、08、15、28; $second 秒 02、08、15、28; $year_cn 年(中⽂4位) ⼆〇〇六; $year_yy_cn 年(中⽂2位) 〇六; $month_cn ⽉(中⽂) ⼗⼆、⼋、三; $day_cn ⽇(中⽂) 三、⼗三、⼆⼗⼆; $weekday_cn 星期(中⽂) ⽇、⼀、⼆、五、六; $fullhour_cn 时(中⽂24时制) ⼆、⼋、⼗三、⼆⼗三; $halfhour_cn 时(中⽂12时制) ⼆、⼋、⼀、⼗⼀; $ampm_cn 上午下午(中⽂) 上午、下午; $minute_cn 分(中⽂) 零⼆、零⼋、⼗五、⼆⼗⼋; $second_cn 秒(中⽂) 零⼆、零⼋、⼗五、⼆⼗⼋; ⽰例格式; ldwd,1=复活节; 五笔编码,词序=⾃定义短语; 请注意:⾃定义短语长度不能超过300个中英⽂字符,否则将被输⼊法⾃动截断查看系统⾃定义短语内容:默认进⼊:“C:\Program Files (x86)\SogouWBInput\4.2.0.2056”⽬录打开“phrases.ini”⽂件可以看到如下内容为系统已经定义的短语:kwkw,2=^_^chrdw,2=锄⽲⽇当午,汗滴⽲下⼟。
搜狗输入法打生僻字的方法
搜狗输入法是一款智能输入法,可以通过以下方法打出生僻字:
1. 自定义词库:在搜狗输入法的设置中,可以添加自定义词库。
你可以通过手动输入生僻字及其拼音,并设置对应的快捷输入码,以便在需要时快速输入生僻字。
2. 笔画输入:搜狗输入法支持通过笔画输入汉字的功能。
在输入框中,你可以使用手指或者鼠标在空白区域中写下生僻字的笔画,搜狗输入法会自动识别并给出对应的生僻字。
3. 五笔输入法:搜狗输入法也支持五笔输入法,你可以通过输入生僻字的五笔码来打出。
4. 拼音首字母输入:搜狗输入法支持通过拼音首字母输入汉字的功能。
你可以输入生僻字的拼音首字母,并选择对应的候选字以输入生僻字。
通过以上几种方法,你可以在搜狗输入法中比较方便地打出生僻字。
安装及卸载安装输入法首次安装搜狗手机输入法,请直接按照安装向导提示操作即可。
升级安装的用户,请先通过搜狗手机输入法程序,将输入法切换回系统输入法(打开”搜狗输入”-“恢复系统输入法”);再进行覆盖安装。
(否则有可能引起无法安装)无论采取哪种安装方式,用户词库都将自动备份,安装新版之后即可直接使用输入过的词条。
卸载输入法卸载前需使用搜狗手机输入法程序,将输入法切换成系统自带输入法(打开“搜狗输入”-“恢复系统输入法”),再按常规方式进行卸载。
推荐按如下操作卸载搜狗手机输入法。
S60第二版平台的手机:首先到切换到系统自带输入法,操作方法:打开“搜狗输入”-“恢复系统输入法”;然后在程序管理中找到并删除搜狗手机输入法。
S60 第三版平台的手机:在功能表中找到“搜狗输入”图标,直接按【删除键】删除。
某些手机第一次删除不成功,则需要再次按【删除键】删除返回顶部启用及停用安装成功后,搜狗手机输入法将自动设为默认启用。
如果您希望手动启用及停用,请按如下操作完成。
启用:进入“搜狗输入”主程序界面-“启用搜狗输入法”。
停用:进入“搜狗输入”主程序界面-“恢复系统输入法”。
返回顶部输入状态及切换输入法状态搜狗输入法共提供5种输入状态:输入法状态切换正常切换:短按【#】键,按照:拼、En、AB、ab、12的顺序循环切换。
临时切换:在拼音状态下,长按数字键可激活智能英文状态,同时输入该键作为待输入字符。
返回顶部基本操作拼音输入窗口形式1. 待上屏区:显示用户当前输入的内容;2. 拼音选择区:候选拼音;3. 字词待选区:按照词频排序的候选词组和单字。
输入【C/退格】:还原到前一个状态/删除最后一个输入的内容;【1】:单行符号表;【2-9】:输入拼音;【0】:无输入内容时,短按可以输入空格、回车(换行符)、0。
有输入内容时,输入隔音符号;【*】:短按弹出符号表,长按弹出表情表;【#】:短按切换输入法,长按弹出编辑菜单;【上方向】:激活字词区,上翻页;【下方向】:激活字词区,下翻页;【左方向】:激活字词区,光标左移;【右方向】:激活字词区,光标右移。
搜狗拼音输入法词库导入图解因为需要经常在电脑上使用一些学生及老师姓名,为了避免使用时出现通假字等错误的输入,现从系统中导出现有教师、学生姓名,并导入搜狗输入法词库中(本人使用的是搜狗输入法,其它输入法请自行研究),打字时姓名的每个字只需打出第一个字母即可,如:姓名,只需打出xm即可出现在选择框中。
词库导入方式如下:
1.制作出文本词库,如:名单.txt;
2.在输入法菜单上点右键,在弹出的菜单上选择“设置
属性(P)”;
3.在弹出的对话框中选择“词库”项,并在“用户词库
管理”的“词库操作选择”中选择“导入文本词库”,然后点击“执行该操作”;
4.选择需要导入的词库文件(如:名单.txt),并打开;
4.安装成功后点“确定”。
词库安装成功后输入词库中的姓名时只需输入姓名的首字母就可以选择正确的姓名,对一些姓名中存在的生僻字就不用辛苦的寻找了。
拼音输入法技巧◆搜狗拼音输入法搜狗拼音输入法是搜狗()推出的一款基于搜索引擎技术的、特别适合网民使用的、新一代的输入法产品。
一、入门图解二、输入技巧1、V模式中文数字(包括金额大写)v模式中文数字是一个功能组合,包括多种中文数字的功能。
只能在全拼状态下使用:a),中文数字金额大小写:输入【v424.52】,输出【肆佰贰拾肆元伍角贰分】;b),罗马数字:输入99以内的数字例如【v12】,输出【XII】;c),年份自动转换:输入【v2008.8.8】或【v2008-8-8】或【v2008/8/8】,输出【2008年8月8日】;d),年份快捷输入:输入【v2006n12y25r】,输出【2006年12月25日】;2、拆字辅助码拆字辅助码让你快速的定位到一个单字,使用方法如下:想输入一个汉字【娴】,但是非常靠后,找不到,那么输入【xian】,然后按下【tab】键,在输入【娴】的两部分【女】【闲】的首字母nx,就可以看到只剩下【娴】字了。
输入的顺序为xian+tab+nx。
独体字由于不能被拆成两部分,所以独体字是没有拆字辅助码的。
3、以词定字当你想输入某个字,但是这个字很靠后时,用以词定字功能可以很快输入该字。
例如:你想输入“济”字,你输入“经济”时不要敲空格,而按下你设置的键,例如“[]”中的“]”即可输入“济”字。
由于此功能使用人数较少,所以输入法默认是关闭的,如果你使用,可以选中打开这个功能。
◆智能ABC输入法目前各种各样的汉字输入法可谓是琳琅满目,一时让人挑花了眼,其实Windows自带的智能ABC输入法使用起来就很方便,由北京大学的朱守涛先生发明。
它简单易学、快速灵活,受到用户的青睐。
它混合了全拼、简拼、混拼、笔形、音形、双打等输入法。
通过本课的学习,你也许从此对它会“爱不释手”。
一、多种输入方式1、全拼输入法:如果你使用汉语拼音比较熟练,可以使用全拼输入法。
按规范的汉语拼音输入,输入过程和书写汉语拼音的过程完全一致。
搜狗五笔使用技巧搜狗五笔是一种中文输入法,它的特点是速度快、准确度高,是广大用户首选的输入方式之一。
使用搜狗五笔输入法可以大大提高输入效率,使我们在日常文字输入中更加便捷。
下面将介绍一些搜狗五笔的使用技巧,帮助大家更好地使用该输入法。
1. 学习常用词组和高频词汇:在输入法的词库中,搜狗五笔已经预设了大量的常见词组和高频词汇,使用者可以通过学习这些词组和词汇,提高输入速度和准确度。
2. 自定义词库:搜狗五笔允许用户自定义词库,把一些常用的个人或行业专用词汇加入到词库中,以方便后续快速输入。
在设置中选择自定义词库,可以手动添加、删除以及修改个人词汇。
3. 拼音输入配合使用:搜狗五笔支持汉字拼音输入,用户可以通过拼音先输入部分汉字,然后通过“.”或“#”进行五笔码的补全,以提高输入速度。
例如,输入“zhong.g”,系统会自动补全为“中国”。
4. 使用符号和特殊字符:搜狗五笔支持特殊字符和符号的输入,用户可以通过按“shift”键加上对应五笔码的方式输入各类符号。
例如,按下“shift”键加上“xss”可以输入“×”,按下“shift”键加上“scb”可以输入“(”,按下“shift”键加上“xcb”可以输入“)”。
5. 使用热键功能:搜狗五笔支持一些快捷键的使用,节省了操作时间。
例如,按下“Ctrl”和“Shift”键可以在输入法菜单栏中切换输入法模式和词库设置。
6. 设置快捷短语:对于一些常用的短语、口头禅或者常见回复,我们可以通过设置自定义短语来快速输入。
在输入法设置中选择“热键和短语”,然后点击“新建”自定义短语,输入需要设置的短语即可。
例如,我们可以设置“zkssb”为“这款手机实在太棒了”。
7. 运用搜狗五笔的扩展功能:搜狗五笔还提供了一些拓展功能,如停用词设置、云词库同步、皮肤更换等。
通过设置停用词,可以屏蔽掉一些常见但不需要的特定词汇;通过云词库同步,可以实现在不同设备上的词库互通;更换皮肤可以让输入法界面更加个性化。
深蓝词库转换2.9发布——⽀持Gboard词库的导⼊导出在很早之前,GitHub的issue中,就有⼈在讨论Google最新的⼿机输⼊法Gboard。
这个输⼊法是⼀个多语⾔输⼊法,⼲净整洁,有不少粉丝。
最新的Gboard已经⽀持简体中⽂词库的导⼊导出,于是我根据⽹友的讨论,在代码中进⾏了实现,使⽤深蓝词库转换可以直接⽣成Gboard⽀持的词库⽂件,然后复制到⼿机上后就可以直接导⼊了,⽽不需要再调整格式,压缩⽂件之类的。
操作步骤:以电脑上使⽤搜狗拼⾳的我,在⼿机上想试⽤Gboard为例,我只需要进⾏以下操作:1.在电脑上的搜狗拼⾳输⼊法中备份⽤户词库成bin⽂件到本地。
2.打开深蓝词库转换2.9版,选定备份的⽂件,选择源词库是搜狗备份词库,⽽⽬标词库选择Gboard:3.由于我的源词库内容很多,有些是⼀个字的,有些是只使⽤过⼀次的,所以通过使⽤“⾼级设置”中的“词条过滤”设置,将词条的单字和输⼊次数⼩于10的都过滤掉:4.点击 “转换”按钮,完成Gboard词库的⽣成。
⽣成的是⼀个“Gboard词库.zip”⽂件,和当前运⾏的深蓝词库转换.exe在同⼀个⽂件夹。
5.通过USB或者微信之类的⼿段,将⽣成的词库zip⽂件传到⼿机上。
6.在⼿机上打开Gboard设置界⾯,依次选择:字典->个⼈字典->中⽂(简体),在右上⾓就有导⼊导出菜单选项。
7.选择“导⼊”菜单选项,然后选择刚才我们传到⼿机上的词库zip⽂件。
⼀会⼉后,Gboard词库就导⼊成功了。
这⾥可能会等⼏分钟,甚⾄⿊屏,这取决与我们词库的词条数量。
如果我们词条过滤没设置好,保留了⼤量的词条,那么可能导⼊就会很慢。
导⼊成功后,我们的Gboard就将导⼊的词条显⽰在界⾯上了。
总结:Gboard词库的导⼊导出还算⽐较简单,其实也是⽂本词库的导⼊导出,只是做了⼀个zip的压缩解压缩⽽已。
Gboard对词库的⽀持,感觉更像是⾃定义短语的⽀持,⽽不是拼⾳的⽀持,所以我们以后可以进⼀步升级,在上⾯⽀持我们习惯的双拼词库,其他输⼊法的词库。
搜狗拼音输入法词库导入图解因为需要经常在电脑上使用一些学生及老师姓名,为了避免使用时出现通假字等错误的输入,现从系统中导出现有教师、学生姓名,并导入搜狗输入法词库中(本人使用的是搜狗输入法,其它输入法请自行研究),打字时姓名的每个字只需打出第一个字母即可,如:姓名,只需打出xm即可出现在选择框中。
词库导入方式如下:
1.制作出文本词库,如:名单.txt;
2.在输入法菜单上点右键,在弹出的菜单上选择“设置
属性(P)”;
3.在弹出的对话框中选择“词库”项,并在“用户词库
管理”的“词库操作选择”中选择“导入文本词库”,然后点击“执行该操作”;
4.选择需要导入的词库文件(如:名单.txt),并打开;
4.安装成功后点“确定”。
词库安装成功后输入词库中的姓名时只需输入姓名的首字母就可以选择正确的姓名,对一些姓名中存在的生僻字就不用辛苦的寻找了。