【CN109948018A】一种Web结构化数据快速提取方法及系统【专利】
- 格式:pdf
- 大小:432.71 KB
- 文档页数:9
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910129532.8(22)申请日 2019.02.21(71)申请人 中国海洋大学地址 266100 山东省青岛市崂山区松岭路238号(72)发明人 杨永全 翟世平 魏志强 尹垄钧 (74)专利代理机构 北京工信联合知识产权代理有限公司 11266代理人 姜丽楼(51)Int.Cl.G06F 16/957(2019.01)G06F 16/955(2019.01)G06F 16/33(2019.01)(54)发明名称一种提取网页正文的方法及装置(57)摘要本发明公开了一种提取网页正文的方法,包括:提取网页源代码中HTML DOM树中包含网页正文的元素;将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq 2Seq 框架中;根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;将所述网页正文的元素名称通过Jsoup技术,输出网页正文。
解决了网页正文的判断准确率低,后续无相应的算法来确保正文信息节点的正确性和可靠性,以及提取过程的效率低的问题。
权利要求书2页 说明书5页 附图5页CN 109948089 A 2019.06.28C N 109948089A权 利 要 求 书1/2页CN 109948089 A1.一种提取网页正文的方法,其特征在于,包括:提取网页源代码中HTML DOM树中包含网页正文的元素;将所述包含网页正文的元素构成一个列表,并将网页正文的元素名称映射入一个多维的词向量空间,将所述多维的词向量空间构成的多维词向量矩阵放入Seq2Seq框架中;根据Attention机制,将输入的词向量通过Seq2Seq框架的编码器编码为抽象的上下文向量;根据输入的每一个向量分配的权重与对齐方式对所述抽象的上下文向量进行解码,输出预测的网页正文的元素名称;将所述网页正文的元素名称通过Jsoup技术,根据预先设定的阈值对网页正文属性的相关度进行判断,输出网页正文。
专利名称:网页结构化数据的抓取方法及系统
专利类型:发明专利
发明人:林晨,陈文极,林震宇,徐立宇,林智泓,陈艺辉,陶峥申请号:CN201910515145.8
申请日:20190614
公开号:CN110309394A
公开日:
20191008
专利内容由知识产权出版社提供
摘要:本发明提供一种网页结构化数据的抓取方法及系统。
该网页结构化数据的抓取方法包括:依次对每列网页数据执行如下处理:获取第一条数据的标签链作为第一标签链;当第一标签链中存在表格元素时:获取存在表格元素的全部子标签以构成标签合集;提取标签合集中包括表格文字标签的文本以组织列结构化数据;当第一标签链中不存在表格元素时:获取第二条数据的标签链作为第二标签链;根据第一标签链和第二标签链获取总开头标签;将存在总开头标签的其余数据的标签链放入子节点合集中;提取子节点合集中的全部文本标签以组织列结构化数据;根据每列网页数据对应的列结构化数据组成网页结构化数据,以保留抓取数据的原有结构,方便后续的数据处理。
申请人:中国建设银行股份有限公司,建信金融科技有限责任公司
地址:100033 北京市西城区金融大街25号
国籍:CN
代理机构:北京三友知识产权代理有限公司
更多信息请下载全文后查看。
专利名称:一种Web结构化数据快速提取方法及系统专利类型:发明专利
发明人:刘芳作,陈薇,王腾蛟,李强,邱镇,崔迎宝
申请号:CN201910021939.9
申请日:20190110
公开号:CN109948018A
公开日:
20190628
专利内容由知识产权出版社提供
摘要:本发明是一种Web结构化数据快速提取方法,步骤包括:层次遍历目标网站页面当中的网址链接,并以列表形式记录所有网站的网址和对应的网址跳转顺序;从上述列表中识别目标网页的网址,并记录对应的网址跳转顺序,按目标网站到目标网页访问的先后顺序进行网址拼接,生成访问目标网页的网址跳转顺序;根据贪心随机自适应搜索算法找出访问目标网页的最优网址跳转顺序;根据上述最优网址跳转顺序访问目标网页,层次遍历目标页面的所有数据项标签,找到所有目标数据项标签;从上述所有目标数据项标签中找出最短标签路径;根据上述最优网址跳转顺序和最短路径爬取目标网页的目标数据。
本发明还提供一种Web结构化数据快速提取系统。
申请人:北京大学,国网信息通信产业集团有限公司,国家电网有限公司,国网浙江省电力有限公司地址:100871 北京市海淀区颐和园路5号北京大学
国籍:CN
代理机构:北京君尚知识产权代理事务所(普通合伙)
代理人:余长江
更多信息请下载全文后查看。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010991878.1(22)申请日 2020.09.21(71)申请人 国网辽宁省电力有限公司电力科学研究院地址 110055 辽宁省沈阳市和平区四平街39-7号申请人 福建亿榕信息技术有限公司 南京南瑞信息通信科技有限公司 国家电网有限公司(72)发明人 胡博 李钊 李伟 王丽霞 王大维 雷振江 田小蕾 杨超 顾海林 胡楠 刘晓强 齐俊 高强 庄莉 梁懿 陈新梅 刘鹏宇 曹国强 (51)Int.Cl.G06F 40/216(2020.01)G06F 40/284(2020.01)G06F 40/289(2020.01) (54)发明名称一种从非结构化文本数据中提取结构化数据的方法及系统(57)摘要一种从非结构化文本数据中提取结构化数据的方法及系统属于数据处理技术领域,尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。
本发明提供一种从非结构化文本数据中提取结构化数据的方法及系统。
本发明包括以下步骤:1.在样本中标注要提取的信息在标注操作界面中建立要提取的字段,并在文本数据中标注字段对应的内容,标注完成系统会记录字段名称及其内容在文本中的起止位置。
2.分词、标注词性。
通过常用分词工具对步骤1中标注好的文本数据逐篇进行分词及词性标注,具体步骤包含:首先根据标注内容在文本中起止位置对文本进行分割,得到数个文本段,然后对这些文本段进行分词和词性标注。
权利要求书1页 说明书3页 附图2页CN 112101007 A 2020.12.18C N 112101007A1.一种从非结构化文本数据中提取结构化数据的方法及系统,其特征在于包括以下步骤:1)在样本中标注要提取的信息在标注操作界面中建立要提取的字段,并在文本数据中标注字段对应的内容,标注完成系统会记录字段名称及其内容在文本中的起止位置;2)分词、标注词性通过常用分词工具对步骤 1 中标注好的文本数据逐篇进行分词及词性标注,具体步骤包含:首先根据标注内容在文本中起止位置对文本进行分割,得到数个文本段,然后对这些文本段进行分词和词性标注,这样可以防止分词时将标注内容割裂,影响后续模型训练效果;3)生成正则对步骤 1 中标注好的文本数据通过其标注内容生成正则匹配表达式,并可对生成的正则表达式进行必要调整,提高其匹配效果;4)生成 CRF 训练特征数据CRF (条件随机场)是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型,假设 X,Y 分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量,那么条件随机场 (X ,Y) 就是一个以观察序列 X 为条件的无向图模型,条件随机场的目标是在给定需要标记的观察序列的条件下,使标记序列的联合概率达到最优;本方案中的观察序列就是文本数据经过步骤 2 后的分词序列;对步骤 2 中完成分词和词性标注的文本数据生成 CRF 训练特征数据,对文本数据中任意一个词其特征包括:当前词及其前后两个词的内容、词性;5)训练并评估 CRF 模型对步骤 4 生成的 CRF 训练特征数据,首先按 8:2 的比例切分训练集和测试集,然后进行 CRF 模型训练;使用测试集数据对训练好的模型进行测试,根据评估指标(括准确率和召回率)评估模型效果;若模型效果不理想可重新从步骤 1 开始调整标注内容;6)结合正则和 CRF 模型进行结构化信息提取结合步骤 3 生成并调整后的正则和步骤 5 训练出的 CRF 模型对输入的文本数据分别进行基于正则的结构化信息提取和基于 CRF 的结构化信息提取,得到二者对应的提取结果后进行合并处理,得到最终的结构化信息提取结果。
专利名称:一种自动化采集网页数据的系统及方法专利类型:发明专利
发明人:李沁,李娜
申请号:CN201910757991.0
申请日:20190816
公开号:CN110489698A
公开日:
20191122
专利内容由知识产权出版社提供
摘要:本发明提供一种自动化采集网页数据的系统及方法,该系统包括嵌入式浏览器、API接口、脚本引擎模块和流程控制模块,结合脚本引擎模块和流程控制模块共同实现对指定网页的访问和指定数据采集。
脚本引擎模块使得本发明的自动化采集网页数据的系统具有在当前页面的内存地址中执行自定义的JS函数的能力,在网页加载完成后能够获取当前页面的内存地址,并利用JS脚本模拟用户的各种点击操作,流程控制模块可以定制具体页面上的采集内容,适用于对具体网页的数据进行精确处理或者是针对具体网页进行特殊处理,特别是对于税务网站的数据能够进行精确采集;可以实现采集流程自定义、采集内容自定义。
申请人:南京云帐房网络科技有限公司
地址:210000 江苏省南京市雨花台区绿地之窗D-1幢10层
国籍:CN
代理机构:南京科知维创知识产权代理有限责任公司
代理人:杜依民
更多信息请下载全文后查看。
专利名称:一种数据抽取方法和系统以及云平台专利类型:发明专利
发明人:徐正礼,魏金雷,臧勇真,赵明超
申请号:CN201510086831.X
申请日:20150225
公开号:CN104639558A
公开日:
20150520
专利内容由知识产权出版社提供
摘要:本发明提供一种数据抽取方法和系统及云平台。
该方法包括:接收用户发来的申请使用kettle工具的请求;在hbase表中记录用户对应的kettle连接权限;为用户创建kerberos认证的配置文件;将所述kerberos认证的配置文件打包在kettle工具中发送给用户;接收用户通过kettle工具并基于所述kerberos认证的配置文件,发起的kerberos认证请求;认证通过后,根据所述hbase 表中记录的kettle连接权限,接收用户通过kettle工具从本地系统抽取到云平台的数据。
本方案能够提高数据抽取的安全性。
申请人:浪潮集团有限公司
地址:250100 山东省济南市高新区浪潮路1036号
国籍:CN
代理机构:济南信达专利事务所有限公司
代理人:李世喆
更多信息请下载全文后查看。
Computer Tech no l ogy and Its Applicati o ns一种自适应网页结构化信息提取方法淮晓永,韩晓东,高若辰,高焕新(华北计算机系统工程研究所,北京100083)摘要:面向互联网信息采集挖掘应用,针对传统的网站信息整页采集方式存在采集信息混杂、无法直接使用,而人工结构化采集方式成本高、工作效率低的问题,研究提出了一种自适应网页结构化信息提取方法,实现了网页分类算法、基于子树的标题项、内容项的结构化信息提取算法。
基于典型网站网页分类标注数据集进行分类模型的学习建模,可以自适应不同网站的差异,对网页进行分类,按照网页分类分别提取出网页中的列表项结构化信息、内容项结构化信息。
该技术对提高网站信息结构化采集处理的自动化水平及处理效率具有重要作用。
关键词:信息提取;结构化信息;分类模型;自适应中图分类号:TN919.5;TP391.1文献标识码:A DOI:10.16157/j.issn.0258-7998.200160中文引用格式:淮晓永,韩晓东,高若辰,等.一种自适应网页结构化信息提取方法[J].电子技术应用,2020,46(12):97-102.英文弓丨用格式:Huai Xiaoyong,Han Xiaodong,Gao Ruochen,et al.An adaptive method for extracting structured information from web pages[J].Application of Electronic Technique,2020,46(12):97—102.An adaptive method for extracting structured information from web pagesHuai Xiaoyong,Han Xiaodong,Gao Ruochen,Gao Huanxin(National Computer System Engineering Research Institute of China,Beijing100083,China)Abstract:In order to meet the needs of Internet infonnation collection and mining,aiming at the problems of traditional web site infbnnation collection methods,such as mixed collection infonnation,unable to be used directly,and the high cost and low efficiency of manual structured collection method,this paper proposes an adaptive method for extracting structured information from web pages. We implement web page classification algorithm,subtree based title item and content item structured information extraction algorithm.Based on the classification annotated dataset of typical website pages,the classification model can adapt to the differences of various web sites,classify the web pages,and extract the list structured information and content structured information in the web pages according to the web page classification.This technology plays an important role in improving the automation level and processing efficiency of website structured information collection and processing.Key words:information extraction;structured information;classification model;adaptive0引言在互联网大数据时代,互联网信息呈现爆炸式增长,其中蕴藏着很多有价值的重要信息需要处理与利用。
一种提取方法的专利有最近,在专利领域中,一种提取方法的专利引起了广泛关注。
该方法通过其独特的技术和创新的思路,解决了在特定领域内提取的难题。
本文将详细介绍该专利的技术特点、应用领域以及其对相关行业的影响。
该提取方法的专利利用了一种新型的算法和数据处理技术,通过对特定领域的数据进行深入分析和处理,能够从中提取出有价值的信息。
这种方法的创新之处在于其能够在大数据环境下高效地提取信息,并能够快速适应不同的数据源和数据形式。
该方法的核心技术包括数据预处理、特征提取、模式识别和结果解释等关键步骤。
首先,对原始数据进行预处理,包括数据清洗、去噪和归一化等操作,以提高后续特征提取和模式识别的准确性和稳定性。
然后,利用特征提取算法,从经过预处理的数据中提取出具有代表性的特征,以代表数据的本质特性。
接下来,通过模式识别算法,对具有代表性的特征进行分析和分类,以寻找出关键模式和规律。
最后,将提取的结果进行解释和展示,以便用户更好地理解和应用这些信息。
该方法的应用领域非常广泛,包括金融、医疗、物联网、智能制造等诸多领域。
在金融领域,该方法可用于分析股票、期货、外汇市场等不同金融市场的数据,从中发现市场趋势、交易信号和投资机会。
在医疗领域,该方法可用于医学图像分析、疾病预测和诊断等方面,提高医疗效果和诊断准确性。
在物联网领域,该方法可用于对大量传感器数据进行分析和挖掘,以发现数据之间的关联性和规律性。
在智能制造领域,该方法可用于工艺优化、质量控制和故障预测等方面,提高生产效率和产品质量。
该提取方法的专利对相关行业具有重要的影响。
首先,它能够有效解决目前大数据环境下面临的数据处理和信息提取难题,提高数据的价值和利用率。
其次,该方法的创新性和高效性,为相关行业带来了新的发展机遇和竞争优势。
再次,它对行业的发展方向和创新路径提供了有力的引导和支持,推动了行业的创新和进步。
总之,该提取方法的专利通过独特的技术和创新的思路解决了在特定领域内提取的难题,其核心技术包括数据预处理、特征提取、模式识别和结果解释等关键步骤。