当前位置:文档之家› 基于数据挖掘技术的专利情报分析方法及实证研究

基于数据挖掘技术的专利情报分析方法及实证研究

基于数据挖掘技术的专利情报分析方法及实证研究Analysis of Patent Intelligence B ased on Data Mining T echnology

袁 冰 朱东华 任智军

(北京理工大学管理与经济学院 北京 100081)

摘 要 专利情报具有重要的经济价值。阐述了借助数据挖掘技术进行专利情报分析的优点,以及具体的分析过程,并以中关村科技园区专利情报实证分析证实了此种方法的可行性和有效性,为专利情报分析的发展开拓新的方向。关键词 专利情报 数据挖掘 专利分析

随着科学技术的迅速发展,国内外企业之间的竞争日趋激烈。企业要想在竞争中立于不败之地,就一定要具备技术能力,要参与抢先开发新技术、抢先获取和利用新技术的竞争。而专利是世界上最大的技术信息源,据实证统计,专利包含了世界全部科技信息的90%~95%。但如此巨大的信息资源却远未被人们充分利用。因此,只要通过对专利情报进行细致、严密、综合、相关的分析,就可以从专利文献中得到大量有用信息,而使公众的专利资料为我所用,从而实现其特有的经济价值[1]。

在技术革命的今天,专利情报分析方法也由过去的原文分析法、简单统计分析,发展到了运用先进的计算机技术,从海量、异构、分散的专利文献数据中以近乎智能化的操作方式深入分析其中隐含的规律,为企业发展及技术创新提供可靠的情报保障和决策依据。

1 基于数据挖掘技术的专利情报分析方法研究

 1.1 数据挖掘的定义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程[2]。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括多层含义:数据源一定是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海而皆准的知识,仅支持特定问题。

 1.2 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析方法(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用三个特征[3]:a.“先未知”性是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。b.“有效”性指的是数据挖掘是面向海量数据的,而任何传统的统计、分析方法对此则是束手无策的,因此可以说数据挖掘技术为解决“数据爆炸但知识贫乏”的问题提供了出路。c.“可实用”性是指数据挖掘技术已经不再是“实验室里的玩具”。电讯公司和信用卡公司成为利用数据挖掘监测欺诈行为的先行者;保险公司和证券公司也开始采用数据挖掘来减少欺诈;医疗、销售、基因研究等产业运用数据挖掘技术的前景更是广阔。可以说,数据挖掘是传统分析方法的延伸和扩展。因为它利用现代的软件技术和计算机技术,对于普通用户来说是高深复杂的技术封装起来;并且可以利用多种技术的结合实现传统分析方法所不能完成的内容;具有方便快捷、可视化程度高的优点[4]。

 1.3 数据挖掘与专利情报分析 基于数据挖掘技术的专利情报分析即以专利数据以及期刊文献为研究对象,将专利情报的技术内容集成化、数据化,然后进行加工和分析,识别有效的、新颖的、潜在有用的,以及最终可理解的知识的过程。

用此方法处理专利情报,易于综合地把握大量专利信息。实际应用中,大量的应用数据挖掘技术的目的是搜集、分析特定技术或产品的专利情报,掌握该专利领域中不同公司的专利技术研究情况,并把每个单一的情报综合起来,然后采取统计分析、技术群组、文本挖掘、组合理论、专利地图等技术,对其进行情报分析,并以统计图谱、关联图谱和报告等形式展现出来[5]。

 1.4 具体的分析流程和步骤 如图1所示,基于数据挖掘的专利分析过程包括专利申请数据的获取、数据预处理、数据重构,以及数据分析。

1.4.1 数据获取。我们以中国知识产权局公布的自1985年10月至今的所有专利申请数据作为数据源,利用信息提取技术从相关Web页面中抽取属于中关村七大科技示范园区的专利申请作为原始数据。然后将1985年以来公布的全部中关村专利申请信息9443条下载到本地机。

1.4.2 数据预处理。a.数据清理。数据清理是数据挖掘的必要环节。由于数据在传输过程中极易受到造势数据、空缺数据和不一致数据的侵扰,若不进行数据清理则建立的数据库的可用性将大大降低,而以此数据库进行的数据挖掘得到的分析结果质量将难以保障[1]。b.中文分词。中文是以字为单位,句子中所有的字连起来才能描述一个意思。通过中文分词技术把中文的汉字序列切分成有意义的词,就是中文分词[6]。c.数据转变。最后通过各种转换方法将数据转换成有效形式,为今后的数据挖掘做好准备工作。同时,通过数据转变,可以对数据做简单的泛化处理。

1.4.3 数据重构。传统的分析只注重数据的检索效益,主

作者简介:袁 冰,女,1983年生,硕士研究生,研究方向为专利分析、数据挖掘、信息管理与信息系统。

要从统计的角度看待数据。数据挖掘方法中,不仅仅运用统计的方法,还要求得到技术的研究主题、概念间的联系、技术发展趋势预测等更深入的分析结构。数据重构为这种深入分析提供了一个阶梯,在一个重新构建的、最合时宜的、可说明的数据基础上,再对数据进行分析,得到的结果的分析层次将大大提高,相应地,

对于数据分析算法也可以起到简化和提高效率的作用。

图1 专利数据的基本挖掘过程和主要步骤

数据重构就是将在数据挖掘过程中获取的海量数据经过融合和集成,形成一个庞大而又复杂的本地数据库,在对数据进行分析之前存在一个中间过程。此中间过程即为根据分析需求,通过概念理解,生成规则,方法选取,最后是算法实现,将原始数据重构或者提炼一个数据全面、准确而又合乎分析需求的数据库的过程[7~8]。

1.4.4 基于文本挖掘技术的专利分析项目。a.专

利申请类型分析。我国的专利申请有发明专利、实用新型、外观设计专利三种类型。对这三种不同类型的专利申请所占的份额加以比较,可以帮助判断该领域技术的发展情况。b.专利申请量分析。专利申请量在一定程度上讲是市场需求的表现,针对申请量的逐年变化情况进行统计分析,对了解技术的发展和市场需求情况均有裨益。c.技术构成分析。通过分析专利涉及的所有IPC 分类号,以及这些IPC 分类号下分别包括的专利数量,就能够获知整个区域的技术构成情况,以及该区域内市场经营主体关注的技术热点。d.时间趋势分析。是在上述技术构成分析的基础上加入了时间维度所形成的一种分析方法,即考察不同IPC 分类号下或不同技术分类、技术效果等领域内的专

利数量随时间的分布情况,由此绘出的专利地图可以直观地判断技术发展的潮流趋势和发展状况[9]。e.关联分析。目的是找出专利情报中隐藏的有趣的关联网,描述一组专利之间的密切度。具体操作方法包括关联矩阵和基于距离测度理论的关联图[10~11]。

1.4.5 知识表示。将分析结果以用户容易理解的方式(关

联图和统计表)把挖掘到的知识呈现出来,使用户可洞察最前沿的科研动态,迅速把握特定技术发展的方向,准确预测未来技术创新的趋势[12]。

2 基于数据挖掘技术的专利情报分析方法的应用

 2.1 研究问题来源 素有“中国硅谷”之称的中关村,经过20年来的发展,已经成为全国最大的科技园区,汇聚着丰富的科技资源、人力资源。但中关村科技园区的知识产权,尤其是专利工作基础还比较薄弱。表现为缺乏以中关村科技园区为统计分析口径的专利状况的基本数据,以及中关村科技园区专利情报分析目前仍处于一片空白。为解决以上问题,北京中关村知识产权促进局委托北京理工大学知识发现与数据分析实验室开展了《中关村知识产权数字图》研究项目。

 2.2 项目概述 本次研究的主要任务就是将研究对象定位于中关村七大科技园区的专利申请。本论文所研究的内容是如何利用数据挖掘技术进行专利情报的研究,也就是通过对中关村七大科技园区专利申请的数据挖掘进行分析,为企业提供知识产权战略决策的相关信息,为政府部门管理提供依据。3 实证分析

 3.1 中关村科技园区专利申请类型分析 

(见表1和图2)表1 中关村科技园区企业3种专利申请量对比

专利数量

发明专利实用新型外观专利总 计海淀园3018265713267001电子城50015795752德胜园28022137538丰台园183********亦庄2397439352昌平园11515431300健翔园111113总计4336349415929422所占比例(%)

46102

37108

1619

100

图2 中关村科技园区企业3种专利申请量构成

从表1可以看出:中关村七大科技示范园区所申请的专利以发明专利为主,占到了全部中关村科技园区专利申请的46.02%;

实用新型专利的比例也相当高,占到37.08%;而外观专利所占比例仅为16.9%。一方面说明整个中关村的科学技术正处于迅猛发展阶段,表现为发明专利的大量涌现,发展空间还很大;另一方面,整个中关村地区的实用新型专利申请量排在第二位,这代表着新技术的应用与扩展,推演活动蓬勃发展,即新型技术在研发成功后投入生产的比例很大。

而从表1和图2中则可以看到各个专利类型的专利申请中的构成,即海淀园贡献最多,专利申请总量总计7001项;其次是电子城和德胜园;而健翔园的专利申请最少。这是因为海淀园的企业数量最多,健翔园的三种类型专利申请仅有13项,其管辖区内的企业总量也只有37家。而值得说明的是,德胜园尽管只有较少的156家企业,申请的专利数多达到538项,这说明德胜园内的企业技术创新以及知识产权保护工作做的比较突出,值得借鉴和学习。

 3.2 中关村科技园区专利申请量分析(见表2)

表2 中关村七大科技园区历年专利申请量

园区

海淀园电子城德胜园丰台园亦庄昌平园健翔园总计1985101200001319861012100014198772140000231988501720002419898013600027199010027601044199120010410035199225112500043199335012201050199485115201110519955721130017419968081330111061997671177021951998123424170701751999290743296110386200053822173217100636200187539553934290106820021702591137747850207920031934241961191138602577200410503591410511861917142005

99

6

1

7

16

5

134

图3 各个科技园区专利申请量趋势图

从1985年到2005年9月份(根据国家知识产权局网站公布的专利数据,由于2004年和2005年的专利数据尚未完全公布,图表中数据量小于实际申请量)来看,近20年来中关村科技园区历年的专利申请量呈现逐年增长的趋势,其中从1985年到1998年期间的专利申请量变化不大,曲线趋于缓和。近年来,由于国家对知识产权保护的重视度逐步加强,专利申请量从1999年开始逐年剧增。七个科技园区中属海淀园专利申请量的增长最为显著,2003年峰值达到1934件,占2003年中关村各个科技园区专利申请量的75.4%。

 3.3 中关村科技园区专利申请技术构成分析 表3是按照各个IPC 部类的专利申请数量排序后科技园区与IPC 部类的关联矩阵。从中可以清楚看出,在中关村科技园区专利申请量最多的10个IPC 部类的专利申请情况,其中,海淀园在这10个领域都有

建树,但重点致力于以G 06F (计算、推算、计数)方面研发,并在该领域具有绝对的优势。电子城科技园区主要精力集中于H04Q (开关、继电器、选择器、电子开关)和H04M (电话通讯),丰台和亦

庄则在A61K (医用、牙科用或梳妆用的配制品)专利申请颇多,相比之下,德胜园、昌平园和健翔园则没有在任何IPC 部类的专利申请中形成优势。

表3 科技园区专利申请与IPC 关联矩阵

科技园区G 06F H04L A61K H04Q H04M H04N G 01N H04B B01D F24F 海淀园109340518318715420111711911996电子城362471131323074301德胜园10100030081丰台园1047441010194亦庄7110501453020昌平园40501125122健翔园

2

 3.4 中关村企业专利申请关联分析 图4是7大科技园区中申请量最多的20家企业的专利申请主题的关联示意图。其中联想(北京)有限公司的申请量最多,且其与其他多家公司的专利申

请相互关联最为紧密,是整个中关村科技园区进行科研的中心。其余公司又形成一些较小的科研群体,分别有各自的研究中心。4 结束语

本文将数据挖掘技术(如关联分析方法、数据可视化技术等)引入到对专利竞争情报的分析中来,初步建立了基于数据挖掘技术的专利竞争性情报分析的方法,它很好地解决了目前专利分析手段不够先进,无法处理海量数据以及深入、智能分析的难题,可以帮助那些从事专利信息研究的相关人员的工作。

但是任何一种方法都不可能解决所有问题,基于数据挖掘技术的专利竞争性情报分析的方法还有待于进一步研究。随着数据挖掘技术的发展变化,更多的新的技术以及新思想、新理念都可以为专利情报分析所吸纳、利用。此外,由于数据挖掘作为一大类学科,它的研究成果有其特点,不能盲目套用,因此在进行专利分析时

还要进行具体的情况分析,这些问题都还有待于探讨。

(下转第104页)

户的消费特点与个人爱好,来制定面向该客户的产品服务组合和提供相应的企业关怀,并据此来制定服务于不同客户的相应策略。

31112 市场竞争的演变。营销理论认为,企业的市场竞争已经发生了根本性的变化。随着生产力的发展,同类企业的工业技术水平日趋接近,产品自身的特性越来越相似,想单纯依靠产品的差异性来占有并扩大市场越来越艰难。市场竞争的变化,使企业的注意力开始从产品转移到客户,要想在市场占有一席之地,在物流供应链领域里的企业必须充分挖掘并利用客户资源,通过留住老客户,开发新客户,提高客户满意度和忠诚度来打造企业核心竞争力。

31113 信息、技术的推动。管理方法和理论的演进是与新技术尤其是信息技术紧密联系在一起的。工作人员的工作场所和工作方式因为信息技术的应用而实现了自动化处理,他们与管理者的工作内容开始趋同———以企业信息资源的开发与管理为主要内容。这样,供应链内传统的客户信息管理也开始演变成由CRM系统主导的客户信息资源管理。

 3.2 供应链管理的企业级CRM需求及其特征 在大型企业中,信息管理系统是非常复杂的,客户关系系统不是一个独立运作的系统,而是与ERP系统、供应链系统及其它系统相互结合的。市场分析需要有足够充分的客户数据,在企业的其它系统中,极有可能隐含着重要的情报信息,如果这些系统相互孤立,就很难充分发挥各系统的功能[9]。因此,不同系统之间

,降低系统运作成本,挖掘企业的信息资源,提高企业的运作效率。作为在物流供应链领域里,企业级客户信息有其特点,需求特征在于:a.精简性和综合性。企业级客户信息需求最突出的特征就是精简性和综合性,企业最高管理者需要的不是客户原始的纷繁芜杂的情报资料,而是经过运营层提炼后的客户信息资源,以便支持决策系统。b.条理性。在经过运营层处理后的信息是分类有序的,大大方便了客户信息资源的查询和检索,这也正是企业最高层所需要的。c.随机性。企业领导层对客户信息的需求是随机的,它会随着所做决策的不同而随时发生变化,这就要求客户信息资源必须准确而全面,随时可以被管理者从数据库中调出来使用,否则它将无法适应企业级客户信息资源随机性的需求。

参考文献

1 蓝伯雄,郑晓娜,徐 心.电子商务时代的供应链管理.中国管理科学, 2000;(3)

2 谢 烨,叶 丹等.面向动态联盟组织建立的群体决策支持系统.计算机集成制造系统,1999;(4)

3 PhondaR,Lummus,Robert,Vokurka,K arenL.Strate gic Supply Chain Plan2 ning.Production And Inventory Management Journal,1998;(1)

4 马费成.信息资源开发与管理.北京:电子工业出版社,2004

5 杨玉凤.基于分析型客户关系管理的决策支持系统研究

.广东工业大学硕士

论文,2004

6 Senge P M.The Fifth Discipline:The Art and Practice of the Learnin g Organi2

zation.New Y ork:Doubleday,1990

7 Chen J,Xu L J.Coordination of the Su pply Chain of Seasonal Products.IEEE

Transactions on Systems,Manand Cybernetics:Part A,2001;(6)

8 陈佳贵.现代企业的竞争模式.广州:广东经济出版社,2000

9 邓福建.供应链管理下的物流管理.物流与供应链,2004;(5)

(责编:勃亦愚)

(上接第101页)

图4 专利申请人的申请主题关联图

参考文献

1 包昌火,谢新洲.竞争情报与企业竞争力.华夏出版社,2001

2 Jiawei Han Micheline K amber.数据挖掘:概念与技术.北京:机械工业出版

社,2001

3 吕安民,林宗坚,李成名.数据挖掘和知识发现的技术方

法.测绘科学,2000;(6)

4 邹雪梅.专利文献计算机量化分析方法.石化技术,

1998;(2)

5 Donghua Zhu,Alan L Porter.Automated extraction and vi2

sualization of information for technological intelligence and

forecasting.Technological Forecasting&Social Change,2002;

(69)

6 V K Gupta,N B Pangannaya.Carbon nanotubes:bibliomet2

ric analysis of patents.World Patent Information,2000

7 Small H.Update on science ma pping:creating large docu2

ment s paces.Scientometrics,1997;38(2)

8 曹 雷.面向专利战略的专利信息分析研究.科技管理

研究,2005;(3)

9 杨桂荣.通过专利文献的统计分析,探索发达国家的技

术发展动向.科技情报工作,1984;(8)

10 朱东华,荆 雷,徐建国.计算机前沿科技在科技管理

领域的应用研究.科技进步与对策,2003;(8)

11 暴海龙,朱东华.专利情报分析方法综述.北京理工大

学学报,2002;(4)

12 朱东华,袁军鹏.基于数据挖掘的科技监测方法研究.管理工程学报,2004;

(4)(责编:枰钧)

相关主题
文本预览
相关文档 最新文档