专利文本分类的基础问题研究_屈鹏
- 格式:pdf
- 大小:601.95 KB
- 文档页数:7
专利名称:一种文本分类方法以及装置专利类型:发明专利
发明人:王李鹏
申请号:CN201910234804.0
申请日:20190326
公开号:CN109992667A
公开日:
20190709
专利内容由知识产权出版社提供
摘要:本申请提供了一种文本分类方法以及装置,其中,该方法包括:获取待分类文本,确定样本词汇集中每个样本词汇出现在待分类文本中的次数;根据多个文本分类子模型分别使用的样本词汇,将样本词汇分成多个分组;其中,每个分组对应一个文本分类子模型,不同分组中的样本词汇不完全相同;将每个分组中的样本词汇在待分类文本中出现的次数,输入至与各个分组分别对应的文本分类子模型中,得到各个分组对应的子分类结果;基于各个分组对应的子分类结果,确定待分类文本的分类结果。
本申请实施例在对文本进行分类时,具有更高的分类精度,满足较高精度的分类需求,进而基于该分类结果进行后续处理时,效率更高。
申请人:新华三大数据技术有限公司
地址:450000 河南省郑州市高新技术产业开发区杜英街166号总部大观B18号楼
国籍:CN
代理机构:北京超成律师事务所
代理人:刘静
更多信息请下载全文后查看。
基于专利文本的技术领域分析与研究随着科技的不断发展和进步,各行各业都在不断地进行技术创新和研发。
在技术创新中,专利是重要的标志和财富。
而专利文本则是专利的基础和精华,通过对专利文本的分析和研究,可以揭示出技术的演变和发展趋势,为技术创新提供有力的支持和指引。
一、基于专利文本的技术领域分析技术领域分析是指对特定技术领域内的专利文本进行系统和综合的分析,从而获得该领域内的技术发展趋势、技术演变路径、技术关键点等信息。
具体来说,技术领域分析包括以下步骤:1.建立技术领域内的专利数据集专利数据集是技术领域分析的基础,它是根据专利检索式所得到的专利集合。
专利检索式可以根据需求的不同进行调整,以便获取到更加精准的专利数据。
2.利用NLP技术进行专利文本预处理专利文本预处理是指对专利文本进行清洗、分词、词频统计等处理,以便后续的数据分析。
在预处理中,可以利用自然语言处理(NLP)技术进行自动化处理,如分词、词性标注、实体识别等,以提高处理的效率和准确性。
3.应用文本挖掘技术进行技术关键词提取文本挖掘技术是指从大量的文本数据中自动提取有用的信息和知识,并进行可视化和整合。
在技术领域分析中,可以应用文本挖掘技术进行技术关键词提取,以发现领域内的技术热点和趋势。
4.基于专利文本进行技术演化分析在技术领域分析中,可以基于专利文本进行技术演化分析,以揭示出该领域内的技术演变路径和趋势。
技术演化分析可以通过网络图、演化树等方式进行可视化展示,以便更好地理解和分析演化过程。
5.应用模型和算法进行技术预测和分析在技术领域分析中,可以应用机器学习、数据挖掘等模型和算法进行技术预测和分析,以发现领域内的技术未来发展趋势和潜在机会。
这些模型和算法可以通过对专利数据集的训练和建模来实现。
二、基于专利文本的技术领域研究除了技术领域分析外,专利文本还可以用于技术领域研究。
技术领域研究是指在对技术领域分析的基础上,深入分析和研究特定的技术问题或领域现象,以得到深层次的认识和洞察。
文本分类技术在专利数据分析中的应用与发展随着科技的发展和创新的推动,专利数据分析在法律、商业和科技领域中扮演着越来越重要的角色。
专利数据中蕴含着宝贵的信息,通过对专利数据进行分析和理解,可以帮助我们了解技术、市场和竞争状况。
而在这个过程中,文本分类技术的应用和发展对于专利数据的分析起着关键的作用。
文本分类技术是一种自然语言处理(NLP)技术,它旨在将文本按照其内容的主题或类别进行分类。
随着文本数量的不断增加,传统的人工分类已经无法满足效率和准确性的要求。
而文本分类技术的应用,则可以提高分类的速度和准确性,从而实现对大规模专利数据的快速分析。
在专利数据分析中,文本分类技术主要应用于以下几个方面:1. 技术领域的标签化:专利数据一般包含大量的文本描述和附图,研究人员需要将其进行分类。
通过文本分类技术,可以将专利文本按照其所属的技术领域进行自动标签化。
这样一来,研究人员可根据不同的技术领域对专利文本进行组织和分析,更好地理解和研究相关的技术。
2. 专利检索:在进行专利检索时,文本分类技术可以对专利文本进行自动分类,将其归入不同的类别,使得研究人员可以更加准确地获取与自己研究领域相关的专利文本。
这有助于提高专利检索的效率和准确性。
3. 技术趋势分析:通过对专利数据进行文本分类,可以帮助研究人员分析不同技术领域的发展趋势。
通过分析特定技术领域的专利数量和类别分布,可以了解该领域的热点和趋势,从而为技术研发投入和商业决策提供依据。
4. 竞争对手分析:专利数据中还包括了竞争对手的专利信息,通过对这些专利文本进行分类,可以辨别不同竞争对手的技术优势和创新方向。
这对于企业竞争战略的制定和市场定位具有重要意义。
除了在应用方面,文本分类技术在专利数据分析中还面临着一些发展的挑战和机遇。
下面我们来简要讨论一下:1. 多语言处理:专利文本来自于不同国家和地区,语言种类繁多。
对于文本分类技术来说,多语言处理是一个重要的挑战。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910376447.1(22)申请日 2019.05.07(71)申请人 北京地平线机器人技术研发有限公司地址 100080 北京市海淀区中关村大街1号3层318(72)发明人 冷婷 (74)专利代理机构 北京思源智汇知识产权代理有限公司 11657代理人 毛丽琴(51)Int.Cl.G06F 16/35(2019.01)G06F 17/27(2006.01)(54)发明名称文本分类方法和装置(57)摘要本公开实施例公开了一种文本分类方法和装置,其中,文本分类方法包括:确定待分类的第一文本中的具有命名实体标记的词汇,其中,命名实体标记是对第一文本进行命名实体标注后得到的;基于具有命名实体标记的词汇,对第一文本进行转换,得到第二文本;对第二文本进行分词,得到词汇集合;基于词汇集合确定第一文本的类别信息。
本公开实施例中,由于第二文本是基于命名实体标记得到的,因此,对第二文本进行分词时可以减少各种文字对分词结果的影响,从而提高了利用词汇集合确定第一文本的类别信息的准确性。
权利要求书2页 说明书11页 附图4页CN 110209812 A 2019.09.06C N 110209812A权 利 要 求 书1/2页CN 110209812 A1.一种文本分类方法,包括:确定待分类的第一文本中的具有命名实体标记的词汇,其中,所述命名实体标记是对所述第一文本进行命名实体标注后得到的;基于所述具有命名实体标记的词汇,对所述第一文本进行转换,得到第二文本;对所述第二文本进行分词,得到词汇集合;基于所述词汇集合确定所述第一文本的类别信息。
2.根据权利要求1所述的方法,其中,所述确定待分类的第一文本中的具有命名实体标记的词汇,包括:将所述第一文本输入预先训练的命名实体标注模型,得到命名实体标记,其中,所述命名实体标记对应于所述第一文本包括的词汇,其中,所述命名实体标注模型是基于预设的命名实体词汇数据库包括的命名实体词汇和与命名实体词汇对应的命名实体标记得到的。
基于图神经网络的专利文本分类研究
魏雯婕;张更平
【期刊名称】《竞争情报》
【年(卷),期】2024(20)2
【摘要】传统专利分类由专家逐件审阅,随着大数据、人工智能和自然语言处理技术的快速发展,专利文本自动分类正在成为学界、业界的重要研究方向之一。
文本分类技术可以用于判断专利申请是否获得授权,帮助审查员自动化处理和分析专利申请文件,从而提高工作效率。
针对海量专利的英文文本,提出一种基于图神经网络模型的专利文本自动分类方法,用于测度专利申请是否可获得授权。
使用深度学习算法TextGCN对专利摘要语料进行学习和训练,利用图结构数据的邻居信息和节点特征,通过神经网络产生专利文本的表示向量,进而实现专利授权与否的预测。
实验结果表明,本文采用的深度学习算法能够得到较好的分类效果,并且与Doc2vec和TFIDF表示方法相比,该模型在精确度、召回率、准确率及F1方面均有所提高,可为专利授权与否的自动预测提供可靠的研究依据。
【总页数】11页(P24-34)
【作者】魏雯婕;张更平
【作者单位】同济大学图书馆
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于卷积神经网络与随机森林算法的专利文本分类模型
2.一种基于多维度图神经网络的短文本分类方法
3.基于注意力门控图神经网络的文本分类
4.基于双图神经网络信息融合的文本分类方法
5.基于预训练模型和图神经网络的藏文文本分类研究
因版权原因,仅展示原文概要,查看原文内容请购买。