基于规则的中文地址要素解析方法
- 格式:pdf
- 大小:695.08 KB
- 文档页数:8
A coding rule-based cleaning approach to Chinese
address
作者: 郭文龙 卓琳
作者机构: 福建江夏学院电子信息科学学院,福建福州350108
出版物刊名: 闽江学院学报
页码: 66-69页
年卷期: 2013年 第5期
主题词: 中文地址 规则 编码 译码 清洗
摘要:由于中文地址命名的不规范性和中文的书写特点,造成中文地址的清洗工作异常困难.中文地址是由地址元素和特征字两部分构成的,在对中文地址预处理的基础上,通过制定中文地址字符编码规则,提出对中文地址字符进行编码,在地址元素后添加特征字代码,利用编码规则对地址代码进行清洗,最后根据编码结果对代码进行译码,达到清洗的目的.利用某常住人口地址进行验证,实验结果证明清洗效果良好.。
基于统计的中文地址位置语义解析方法研究作者:谢婷婷严柯来源:《软件导刊》2017年第10期摘要:为获取中文自然地址描述语句中的位置信息,提出一种不依赖于词典的中文地址分词方法。
首先根据地址语料库中字串共现的统计规律统计词频,然后对地名地址串进行正则表达式预处理,再对地址串进行全切分处理。
通过互信息和信息熵得到最优粗分结果,通过置信度对粗分结果进行过滤得到最优分词结果。
实验结果表明,该方法在不依赖词典的情况下能有效实现对地名地址串的拆分,正确率和召回率分别达到了80.03%和89.28%。
关键词:中文分词;地名地址分词;互信息;信息熵DOIDOI:10.11907/rjdk.172069中图分类号:TP301文献标识码:A文章编号:16727800(2017)0100019030引言互联网是信息传播交流的重要平台。
网络空间中存在海量的中文地址数据,蕴含着丰富的空间信息。
但是与传统的地理信息或数据相比,文本中的地理信息是非结构化的,只有在形式化处理后才能进行分析和挖掘。
文本中的空间信息形式包括中文地址分词、空间关系提取、事件提取等。
地名地址分词作为空间信息形式化最基础的工作,其准确性将直接影响到后续工作的有效性和准确性。
地名地址分词是中文分词在地名地址中的应用,它将地名地址串拆分成若干地理要素[1]。
中文分词算法大体分为3类:基于词库的分词算法、基于统计的分词算法、基于理解的分词算法[2]。
基于词库的方法将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串则匹配成功。
这类方法简单、分词效率较高。
但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本分词处理。
基于统计的方法将相邻字间的信息、词频及相应的共现信息等应用于分词。
由于这些信息是通过真实语料取得的,因而基于统计的分词方法具有较好的实用性。
基于理解的方法是试图通过计算机模拟人对文字的理解过程来进行分词,但目前尚不成熟,实际应用中无法直接使用该算法。
专利名称:基于规则和统计模型的中文地址复合分词技术专利类型:发明专利
发明人:沈启明,密铁宾
申请号:CN201510230116.9
申请日:20150508
公开号:CN104850538A
公开日:
20150819
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于规则和统计模型的中文地址复合分词技术,其综合运用条件随机场模型和经过规则优化的最大匹配算法对地址进行分词处理;运用条件随机场模型需要抽取地址信息内部的关联特征,用预处理阶段创建的训练数据集对模型进行训练,使其具备自动切分地址信息和识别地址要素的能力。
条件随机场模型具有强大的模式识别能力,能够成功识别数据库遗漏的小区,同时具有良好的歧义地址辨别能力,有助于成功区分地址要素。
MMSEG算法在有良好的字典数据支持的情况下具有速度快、精度高等特点。
本发明将两种算法结合使用能够使其互相补充,互相验证,有效提高地址匹配准确率,在保证效率的前提下提高分词准确性。
申请人:裴克铭管理咨询(上海)有限公司
地址:200125 上海市浦东新区东方路3601号6号楼3层
国籍:CN
更多信息请下载全文后查看。
2022年职业考证-软考-信息安全工程师考试全真模拟易错、难点剖析B卷(带答案)一.综合题(共15题)1.单选题当防火墙在网络层实现信息过滤与控制时,主要针对TCP/IP协议中的数据包头制定规则匹配条件并实施过滤,该规则的匹配条件不包括()。
问题1选项A.IP源地址B.源端口C.IP目的地址D.协议【答案】B【解析】本题考查防火墙相关知识。
当防火墙在网络层实现信息过滤与控制时,主要是针对 TCP/IP 协议中的IP数据包头部制定规则的匹配条件并实施过滤,其规则的匹配条件包括以下内容: IP 源地址,IP 数据包的发送主机地址; IP 目的地址,IP 数据包的接收主机地址;协议,IP 数据包中封装的协议类型,包括 TCP、UDP 或 ICMP包等。
故本题选B。
2.单选题互联网上通信双方不仅需要知道对方的地址,也需要知道通信程序的端口号。
以下关于端口的描述中,不正确的是()。
问题1选项A.端口可以泄露网络信息B.端口不能复用C.端口是标识服务的地址D.端口是网络套接字的重要组成部分【答案】B【解析】本题考查通信端口相关知识。
端口是表示服务的地址,是网络套接字的重要组成部分,端口可以泄露网络信息。
端口是信息系统中设备与外界进行信息交互的出口,互联网上通信双方不仅需要知道对方的地址,也需要知道通信程序的端口号。
故本题选B。
点播:我们知道,一台拥有IP地址的主机可以提供许多服务,比如Web服务、FTP服务、SMTP服务等,这些服务完全可以通过1个IP地址来实现。
那么,主机是怎样区分不同的网络服务呢?显然不能只靠IP 地址,因为IP 地址与网络服务的关系是一对多的关系。
实际上是通过“IP地址+端口号”来区分不同的服务的。
3.单选题为了保护用户的隐私,需要了解用户所关注的隐私数据。
当前,个人隐私信息分为一般属性、标识属性和敏感属性,以下属于敏感属性的是()。
问题1选项A.姓名B.年龄C.肖像D.财物收入【答案】D【解析】本题考查用户隐私方面的基础的知识。
基于规则的中文地址分词与匹配方法
规则基于地址格式的中文地址分词和匹配方法,采用一种基于结构地
址格式匹配的方法,对中文地址进行分词,从中提取出省份、城市、区县、乡镇、街道、村等信息。
1、根据中国省市行政架构,将中文地址按照固定格式来进行分词;
2、使用字典匹配法,将中文地址中的关键字提取出来,进而将关键
字与中国省市行政架构划分为省、市、县、乡等;
3、由地址中的关键信息进行模式匹配,以提取出详细的地址信息。
模式匹配的方法通常采用正则表达式、结构化地址方法或其他方法;
4、将中文地址分出关键字信息后,针对每一个关键字进行精确的定位,得到每一个关键字的详细地址信息;
5、对分词后的中文地址进行校对和细节调整,将被识别的地址信息
进行融合,最终得到正确的地址信息。
专利名称:面向地址编码的中文地址语义解析方法专利类型:发明专利
发明人:张雪英,申琪君,李伯秋,陈文君
申请号:CN200810156588.4
申请日:20081007
公开号:CN101393544A
公开日:
20090325
专利内容由知识产权出版社提供
摘要:本发明公开了一种面向地址编码的中文地址语义解析方法,其步骤如下:第一步:根据样本数据,构建地址特征字库;a.建立样本数据;b.筛选特征字;c.筛选附属特征字;所筛选的特征字和附属特征字构成了特征字库;第二步:根据特征字库,按照地址表示规则,将中文地址转换为数字形式的字符串;第三步:构建地址解析规则库;第四步:语义解析,包括:地址表示,将原始地址转换为数字表示、地址解析,将数字表示的地址拆分为地址要素;地址还原,将数字表示的解析结果还原为与原始地址对应的字符串。
申请人:南京师范大学
地址:210046 江苏省南京市仙林新城文苑路1号
国籍:CN
代理机构:南京知识律师事务所
代理人:程化铭
更多信息请下载全文后查看。
第12卷第1期2010年2月地球信息科学学报JOURNAL OF GE O 2I N F OR MATI O N SC I E NCE Vol 112,No 11Feb 1,2010收稿日期:2009-09-21;修回日期:2010-01-08.基金项目:“863”项目(2007AA12Z221);国家自然科学基金项目(40971231);南京师范大学重点科研基金资助项目(2006105XG Q0051)。
作者简介:张雪英(1970-),女,博士,教授,汉族,四川人,主要从事地理信息的智能处理与应用研究。
E 2mail:zhangsnowy@1631com基于规则的中文地址要素解析方法张雪英,闾国年,李伯秋,陈文君(南京师范大学虚拟地理环境教育部重点实验室,南京 210046)摘要:在日常生产与生活中,地址是最常见的使用自然语言描述地理位置的参考系统之一。
地址地理编码技术被认为是大量业务数据的GI S 实现可视化定位和空间分析的桥梁,在房地产管理、土地管理、城市规划、公安、邮政、税收、电讯和公共卫生等领域中具有十分重要的应用前景。
地址要素解析是中文地址编码的核心技术之一。
它是将自然语言描述的地址拆分为在某一限定区域内,可以指定某一地理范围的地址要素的过程。
实际上,这个过程可以被看作是一种特定的中文分词任务。
由于语言和文化的原因,中文地址描述采用连续的字符串,而且普遍存在不规范现象。
目前,采用的地址解析方法在较大程度上受限于词典的更新维护和规则的不完备问题。
本文以大规模地名词典和地址数据库为数据源,通过系统分析地址要素的构词特征和句法模式,构建了各类地址要素的特征字库,提出了中文地址的数字表达方法,设计了RBA I 中文地址要素解析算法,开发了相应的原型系统。
实验结果准确率达到92%以上,处理效率达2800条/秒。
这表明该方法符合大规模数据处理的应用需求,具有重要的推广应用价值。
关键词:中文地址;语义解析;地址编码;地址表示1 引言地理信息系统(GI S )通过对地理数据的集成、存储、检索、操作和分析,生成并输出各种地理信息,从而为土地利用、资源评价与管理、环境监测、交通运输、经济建设、城市规划以及政府部门行政管理等提供新的知识,为工程设计和规划、管理决策服务[1]。
地理编码(Geocoding ),将地理对象在确定的参考系中按一定的规则赋予唯一和可识别的代码,建立地理对象与地址的映射,以及地理对象与坐标系统的映射,从而将地理位置信息转换成可以被用于GI S 的地理坐标[2]。
地址是当前各类业务系统中运用自然语言描述空间位置的最常用手段。
地址编码,又称地址匹配(addressing matching )或者地址地理编码(address Geocoding ),可以看作是狭义的地理编码,是指将自然语言描述的地址信息,根据地址模型和编码规则进行智能语义解析,通过与数据库中匹配,建立与对应的空间坐标信息和地理编码关联的过程。
地址编码需要解决地址模型、地址解析和地址匹配等三项关键技术。
利用地址编码技术可以使大量的原来已经存在于管理信息系统(M I S )中的数据能够具有空间定位的性质,而且能够使分散在各个部门的数据通过空间参照系联系起来,从而大大促进GI S 技术的应用。
因此,地址编码技术被认为是大量业务数据的GI S 实现可视化定位和空间分析的桥梁,在房地产管理、土地管理、城市规划、公安、邮政、税收、电讯和公共卫生等领域具有很好的应用前景[3-5]。
2 国内外地址地理编码的研究进展20世纪60年代中期,美国国情普查局开发的“双重独立地图编码系统”(D I M E ),在GI S 技术的发展史上具有里程碑的意义。
之后,D I M E 系统发展为著名的地址地理编码与参照系统(TI GER ),成为美国地址地理编码的标准[4]。
在地址地理编码技术的发展过程中,工业界的推动起到了很大的作用。
国外几大GI S软件产商都在软件产品中加入了地址地理编码模块,比如,A rcGI S的Geoc2 oding和Map I nf o的Mapmaker。
国际标准化组织开放地理信息系统协会(OGC)制定了一系列的规范,定义了地址地理编码的整体框架,基于X ML的地址地理编码服务、地址地理编码请求、服务接口,以及地名与地理坐标的转换服务等等[5-7]。
随着人们对地址地理编码重要性的逐步认识,越来越多的国家和研究机构开始研制地址地理编码系统,并将其与各种应用结合起来。
Goldberg阐述了地址地理编码概念及其基本流程,探讨了相关过程中存在的误差、不确定性和评测标准等问题[8]。
澳大利亚以高质量的全国地址地理编码库为基础,构建了基于隐马尔可夫的地址要素解析器和基于规则的地址匹配器,开发了较为实用的地址地理编码系统[9]。
目前,网络被普遍认为是一个巨大的地理数据源仓库[10-14]。
FE BRL是一个新的数据结合系统,采用了能够随机产生人名及其地址的记录数据集产生器[15]。
Sengar研制了一种能够处理不同数据格式的地理查询系统,利用文本相似性和空间一致性对文本查询进行解译,然后将空间实体数据库中的属性与文本相联系[16]。
随着全球定位系统和移动电话的普及,住宅以及商业所需的地理参考坐标都可以通过无线地址服务获得,这将在很大程度上改变现有的地址地理编码方法。
随着三维GI S的发展,地址地理编码也将往三维方面发展[8]。
在发展中国家里,高质量地址地理编码的最大障碍在于缺乏参考数据。
变化频繁的居民区、无法定位的街道数据、地址编码方案的不一致性等因素,严重阻碍了标准参考数据集的发展。
为了解决这一问题,很多人提出建立一个标准的地址系统,并且鼓励公众的参与,以使得这个标准能被大众所接受并且得到推广。
但是,这些措施对于经济资源有限的地区都是很昂贵的,就是在发达国家要得到精确的地址地理编码结果也是困难的。
运用面向对象的地学建模方法,能够建立一个对不同国家的各种地址变化形式、不同详细程度的地址表达均适用的参考地址概念模型,从而摆脱英美国家商用地址地理编码系统对地址格式的限制,为地址模型的建立提供参考[12]。
应用基于词典的分词和隐马尔可夫方法对复杂地址数据格式进行预处理,是比采用规则的方法更好的选择[17]。
与欧美国家相比,我国在地址编码方面的研究起步较晚。
1988年,北京市城市规划设计研究院信息所开展了“北京市城市地理编码”的研究。
1993年国家标准“城市地理要素-城市道路、道路交叉口、街坊、市政工程管线编码结构规则”(G B/T14395-93)颁布,但是地址地理编码未能与空间数据进行有效的连接[18]。
在20世纪90年代中期,北京市交通委员会制定了道路的编码方法,北京市测绘设计研究院开展了“城市地理信息系统地址地理编码规则”的研究。
香港特别行政区的地理编码数据库精确度可达到街道门牌及建筑物层面,台湾省精确度可达到街道及主要景点层面。
大陆地区精确度只能达到省市层面,还没有统一的精确度可达到街道门牌及建筑物层面的地理编码数据库。
大连市空间资源研究中心与区域地理信息服务商合作建立了大连市地理编码系统[19]。
上海市提出将编码内容与地理要素的地理位置相关联的网格化城市基础地理要素编码方法[20]。
由于城市地理信息资源的分类没有标准,也没有统一的地址代码,编码的范围仅局限于行业内部[21]。
2004年颁布的“城市基础地理信息系统技术规范”,规定了城市地名、城市门楼牌等数据的采集原则。
江洲等探讨了地址地理编码标准化工作,但是没有提出具体的解决方案[2]。
采用模糊定位和地址分级拆分方法解决数据标准化问题,只适合在对空间数据精度要求较低的应用领域[22]。
有些学者提出城市地理空间字典的研究,并将自动机理论和动态规划算法应用到地理编码系统中,形成较为完善的基本技术框架[23-24]。
王凌云等提出了栅格影像的地理编码数据库建设方法、国内城市地址地理编码模型和地址地理编码标准的制定原则,设计了地址地理编码工具和地址匹配软件,并以北京市为例给出技术思路的具体实现方案[2]。
李军等提出最小地址要素的概念,并用随机无意唯一码对地址进行编码[24]。
北京信息资源管理中心建设了北京市地址数据库,建立了标准的地址模型和地址数据的采集工艺[25]。
郭会等提出了包括地址标准化、地址匹配、地理编码量化等的地址地理编码方案,在GI S软件中实现了中英文地理编码功能[26]。
王秀明提出了基于O racleSpatial的地址自动匹配算法[27]。
张林曼等设计了一种全文检索引擎包Lucene的地址匹配引01地球信息科学学报 2010年擎[28]。
在建立标准地址数据库的基础上,通过对地址数据的预处理、分解和归类,利用空间插值方法,可以将地址数据匹配到地图上[29],采用分词的地址匹配技术,可以解决绝大多数非空间坐标地址的匹配问题,但是,对非标准地址、方位词、未登陆地址要素或其他词的识别率很低[30-31]。
面对地址地理编码服务巨大的市场需求,国内许多公司推出了地址匹配软件,比较著名的有北大方正的“Map Searcher”,北京长地计算机公司的“寻址神”,朝夕科技的“北京地理编码数据库系统及标准地址匹配引擎”等等。
综上所述,国内外在地址地理编码理论与应用研究方面,已开展了大量的工作。
总体上来看,国外基本上采用先地址标准化,并有建立详细的地址模型和数据模型的技术思路。
由于汉语言文字自身的特点,中文地址不仅没有分隔符,而且地址管理和和使用混乱,缺乏相应的地址地理编码规范。
中文地址地理编码,目前尚未出现较为成熟的解决方案。
在地址自动解析方面,中文地址通常运用自然语言进行描述,各个词之间不存在自然的分隔符,而且中文地址描述手段多样化,存在人名、地名和机构名等的多层嵌套现象。
中文地址的要素解析问题,已成为中文地址地理编码的最大障碍之一。
3 地址要素解析方法311 地址要素特征字中文地址基本上按照地址要素的地理区域范围由大到小排列,包括四个构成部分:(1)行政区划:由乡镇以上的行政区域由大到小排序。
按照“中华人民共和国行政区代码”(G B2260-1995),行政区划划分为四级:第一级为省、自治区、直辖市和特别行政区;第二级为市、地区、自治州、盟及国家直辖市所属市辖区和县;第三级为县、市辖区、县级市、旗;第四级为乡、镇、村。
一般说来,一个地址中往往包含多个不同级别的行政区划名称。
例如“南京市鼓楼区宁海路122号”中包括“南京市”(第二级)和“鼓楼区”(第三级)两个不同级别的行政区划名称。
(2)街道:主要指路名和街道名等。
(3)门楼牌号:主要指门牌号、楼牌号、楼名和房间号等。
(4)补充信息:是指门楼牌号之后加上的机构名称或者表示空间关系的词汇,比如“南京市鼓楼区江东北路301号滨江市场”中的“滨江市场”就是一个机构名称,“南京市江浦县永宁镇西葛街西”中的“西”就是一个表示空间方向关系的词汇。