行业创业活跃度的投影寻踪聚类研究_基于山西省2007_2011年数据的实证分析.caj
- 格式:pdf
- 大小:29.69 KB
- 文档页数:2
投影寻踪方法及应用内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。
最后结合上市公司的股价进行实证分析,并给出结论和建议。
关键词:投影寻踪投影寻踪聚类模型遗传算法一、简介(一)产生背景随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。
多元分析方法是解决高维数据这类问题的有力工具。
但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。
不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。
但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。
第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。
对于核估计,近邻估计之类的非参数法很难使用。
第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。
另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。
这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。
其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。
它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。
针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。
(二)发展简史PP最早由Kruskal于70年初建议和试验。
他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。
1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。
改革开放四十年山西省城镇化研究脉络与热点——基于CiteSpace图谱量化分析张昱; 郭文炯【期刊名称】《《生产力研究》》【年(卷),期】2019(000)010【总页数】6页(P13-18)【关键词】山西; 城镇化; CiteSpace; 研究热点【作者】张昱; 郭文炯【作者单位】太原师范学院/山西省城乡统筹协同创新中心山西晋中030619【正文语种】中文【中图分类】F299.21城镇化的本质是一个全球性的经济社会演进的过程[1]。
伴随着改革开放的进程,山西省经济建设和社会事业进入了城镇化快速发展的新时期。
1995 年城镇化率首次超过30%,2015 年4 月,山西省人民政府颁布了《山西省新型城镇化规划(2015—2020 年)》,标志着山西城镇化发展实现新的飞跃。
2018 年城镇化率达到58.41%。
作为煤炭资源型地区,山西城镇化涌现出大量的研究成果,如小城镇的发展[2]、人口城镇化[3]、资源型城市工业化与城市化协调发展[4]、新型城镇化质量评价[5]等研究。
本文基于CNKI 数据库,运用可视化工具,并结合常规统计方法,对有关山西城镇化领域的文献进行知识图谱量化分析,力求更为客观地揭示改革开放以来山西城镇化研究的发展脉络与趋势。
一、数据来源与研究方法为保证原始数据全面准确,并具有较高的解释度、真实度和可信度,本文选取文献数量最多、覆盖面最广的中国知网CNKI 和CSSCI 数据库作为样本数据源,以“城镇化”“城镇体系”为检索词,以“山西”为附加检索词,以“主题”为检索途径,文献检索时间设定为1978—2018 年,共获得数据616 条。
对检索结果进一步去重、整理,剔除会议、书评、征稿通知、新闻报道等无效数据,筛选后得到有效数据461 条。
所有文献均以refworks格式导出到Citespace 软件进行处理。
Citespace 是一款集科学计量、数据挖掘、信息可视化于一体的分析工具,CiteSpace 软件对文献进行可视化分析是当前研究的热点[5]。
投影寻踪动态聚类模型及其在地下水分类中的应用倪长健;王顺久;崔鹏【期刊名称】《四川大学学报(工程科学版)》【年(卷),期】2006(038)006【摘要】针对投影寻踪聚类模型的不足,结合动态聚类方法对投影寻踪聚类模型进行了改进,建立了投影寻踪动态聚类模型.首先,利用投影技术将多因素(高维)问题投影到一维线性空间,以达到在一维空间研究高维数据的目标;其次,以动态聚类方法构造新的投影指标,对投影到线性空间的反映高维数据结构或特征的投影特征值序列进行聚类分析,进而完成多因素样本聚类分析.投影寻踪动态聚类模型是高维数据样本聚类分析的一种有效的统计方法,模型在整个运算过程中毋需人为给定参数,聚类结果合理、客观.投影寻踪动态聚类模型在地下水分类中的成功应用表明,投影寻踪动态聚类模型具有稳定性好、分类结果明确、操作简便等特点,为多因素聚类分析提供了一种新方法,有着广阔的应用前景.【总页数】5页(P29-33)【作者】倪长健;王顺久;崔鹏【作者单位】中国科学院水利部,成都山地灾害与环境研究所,四川,成都,610041;成都信息工程学院,四川,成都,610041;中国气象局,成都高原气象研究所,四川,成都,610071;中国科学院水利部,成都山地灾害与环境研究所,四川,成都,610041【正文语种】中文【中图分类】TV213【相关文献】1.基于免疫进化算法的投影寻踪聚类及其在地下水动态分类中的应用 [J], 舒栋才;樊明兰;林三益2.投影寻踪动态聚类模型在房地产投资环境评价中的应用 [J], 周勇;龚海东3.投影寻踪模型在地下水水质评价中的应用 [J], 张鹏4.基于投影寻踪原理的动态聚类模型及其在气候区划中的应用 [J], 王顺久;李跃清5.投影寻踪动态聚类模型及其在天然草地分类中的应用 [J], 倪长健;王顺久;崔鹏因版权原因,仅展示原文概要,查看原文内容请购买。
2013年 第12期 物流工程与管理第35卷 总第234期 LOGISTICS ENGINEERING AND MANAGEMENT 【收稿日期】2013-11-28 【作者简介】卢丽娜,(1989-),女,山西大同人,山西财经大学管理科学与工程学院技术经济及管理硕士研究生,研究方向:技术创新与战略管理。
经济与管理doi:10.3969/j.issn.1674-4993.2013.12.079行业创业活跃度的投影寻踪聚类研究——基于山西省2007-2011年数据的实证分析□ 卢丽娜(山西财经大学 管理科学与工程学院,山西 太原 030006)【摘 要】创业者的行业选择不仅关涉创业活动的成败,而且也会影响到区域的产业成长性。
在对测量区域行业创业活跃度的两个指数IPEEI 和IIEEI 进行定义基础上,测算了山西2007-2011年间19个行业的行业创业活跃度指数。
同时运用投影寻踪聚类方法,将山西19个行业创业活跃度划分为5类。
【关键词】行业创业;创业活跃度;投影寻踪聚类【中图分类号】F402.3 【文献标识码】 B 【文章编号】 1674-4993(2013)12-0190-02Study on Projection Pursuit Clustering Industry Entrepreneurial Activity— Based on 2007-2011 Data Shanxi Empirical Analysis□ LU Li-na(Shanxi University of Finance and Economics Management Science and Engineering,Taiyuan 030006, China) 【Abstract 】The choice made by entrepreneurs not only concerns the success or failure itself, it may also affect the industry growth in an area. This thesis defines IPEEI and IIEEI which are two indexes used to measure the regional activity level of industry entrepreneur, and calculates the index of 19 industries during 2007 to 2011. By using the projection pursuit clustering method, these figures are divided into 5 categories.【Key words 】industry entrepreneur; entrepreneurial activity level; projection pursuit clustering1 引言创业活动一方面能够促进经济增长,另一方面是创造就业岗位的强大引擎,是解决就业问题最有效的途径之一。
然而,创业活动在不同的行业有着不一样的表现,同一行业在不同时期的创业活跃度表现也各异。
清华大学中国企业研究中心指出,不同年代,创业企业所属的行业差异较大。
[1]。
全球创业观察(global entrepreneurship monitor,GEM)指出,发展中国家与发达国家的创业行业也不同 [2]。
从目前看,学术界提出的创业活动测度指标有创业活跃度[3]、新增企业数[4]等。
创业活跃度是指在一定时期内,参与社会经济活动的新增企业法人主体的数量(翟庆华等,2012) [3]。
而且,对创业活跃度的研究多数集中于地区创业活动活跃度的差异分析方面,彭学兵等(2007)实证研究了我国30个省市自治区的技术创业活跃度[5],刘宗让(2008)实证研究了全国31个省市自治区的创业活跃程度 [8]。
创业者的行业选择是创业成功与发展的重要基础之一 [6],对创业活动的成败有重要的影响影响。
基于行业创业分析创业活动活跃度,对各地区培育特色产业与支柱产业具有一定的指导作用。
本文尝试进行区域的行业创业活跃度分析,并用2007-2011年的数据对山西19个行业的创业活跃度进行投影寻踪聚类,分析不同行业的创业活跃度表现,以为政府决策者的产业培育政策制定、个体创业者的行业选择提供一定的借鉴。
2 行业创业活跃度指标构建目前学术界没有统一认可的测量创业活动活跃度的指标。
国外学者Reynolds采用成人中创业者数测量美国地区的创业活跃程度 [7] ;全球创业研究协会提出了全员创业活动指数测量创业活跃度,全员创业活动指数是指区域参与创业活动的成年人数占区域成年人总数的比例;国内大多数学者以中国私营企业创业指数和个体经济创业指数作为测量创业活动活跃程度的指标。
前者是指某地区每万成年人中拥有的在过去 3年里新增的私营企业数量,后者的含义是某区域每万成年人中拥有的在过去连续 3 年里累计新增的个体户数量。
它们的计算公式分别为:中国私营企业创业指数=区域过去3年里新创企业个数/ 区域成年人数(万人);个体经济创业指数=区域过去3年里新增个体户数量/区域成年人数(万人)。
本文主要研究行业的个体创业活动,借鉴中国私营企业创业指数、个体经济创业指数的计算公式及其含义,定义测量区域行业创业活跃度的指标为行业私营企业创业指数第12期 卢丽娜:行业创业活跃度的投影寻踪聚类研究 191 (Industry Private Enterprise Entrepreneurship Index, IPEEI)和行业个体经济创业指数(Industry Individual Economic Entrepreneurship Index,IIEEI),其中,IPEEI=区域行业3年内新创私营企业个数/区域成年人数( 万人), 其含义是某地区每万成年人中拥有的某行业在过去 3年里累计新增的私营企业数量;IIEEI=行业3年内新增个体户数量/区域成年人数( 万人),其含义是某区域每万成年人中拥有的某行业在过去连续 3 年里累计新增的个体户数量。
3 投影寻踪聚类模型分析投影寻踪分类法是一种有效的聚类分析方法,其特点通过把高维数据投影到低维子空间上,构造投影指标函数来衡量投影反应数据特征的可能性大小,计算出最优的投影函数值,然后根据该投影值来分析高维数据的结构特征。
根据《中国统计年鉴》的人口统计资料,将成年人划定为15~64岁,选取《山西统计年鉴》中个体工商业和私营企业普查数据,测算2007~2011年山西省各行业的IPEEI 和IIEEI。
将数据导入DPS 软件中,选择“数据规格化”功能,对数据进行规格化处理,其次选择“其他—投影寻踪综合评价法”功能,测算出山西19个行业的创业活跃度投影寻踪综合评估值,并按要求导入DPS 软件中,选用“多元分析—聚类分析—系统聚类”功能,得出山西省19个行业创业活跃度的聚类结果,将其划分为5类,见图。
图 山西省19个行业创业活跃度聚类注:纵坐标表示行业序号,横坐标表示聚类距离。
第一类:农林牧渔业;租赁和商务服务业(高,低)。
该类行业中IPEEI 指数都高,而IIEEI 指数低。
两指标取值差异较大。
说明农林牧渔业、租赁和商务服务业的私营企业创业活跃度高,而个体工商业创业活跃度低。
第二类:采矿业;交通运输、仓储和邮政业;其他;信息传输、计算机服务和软件业;房地产业;电力、燃气及水的生产和供应业;金融业;水利环境和公共设施管理业;卫生、社会保障和社会福利事业;教育;文化、体育和娱乐业;科学研究技术员服务和地质勘察业;建筑业(很低,很低)。
该类行业IPEEI 指数和IIEEI 指数都很低,是属于创业不活跃的行业。
第三类:制造业(较高,较低)。
该行业IPEEI 指数为0.5628,虽然远远低于批发和零售业的值,但相比其他行业,属于创业活跃的行业。
IIEEI 指数为0.1253, 仅为IPEEI 指数的22.23%。
由于进入该行业在资金、技术、设备等方面都有一定的要求,所以个体工商业的创业活动活跃度不及私营企业创业活动活跃度高。
第四类:住宿和餐饮业;居民服务和其他服务业(低,高)。
该类行业IPEEI 指数低,IIEEI 指数高,该类行业个体经济创业活跃度高于私营企业创业活跃度,而且相对于其他行业IIEEI 指数,该类行业IIEEI 指数较高,属于个体经济创业活跃的行业,但与批发和零售业相比,仍有很大的差距。
第五类:批发和零售业(很高,很高)。
不论是从IPEEI 指数还是IIEEI 指数来看,批发和零售业是创业活跃度最高的一个行业,属于高活跃度行业。
创业者进入这两个行业的门槛比较低,资金需求量少,这两个行业资金回笼比较快,这样一来,又进一步促进创业活动。
4 结论与展望本文定义了测量区域行业创业活跃度的两个指数,具体测算了山西省19个行业在2007-2011窗口期间的创业活跃度。
并进一步运用投影寻踪聚类研究方法对山西省19个行业的创业活跃度进行了聚类,将19个行业的创业活跃度情况分为了5类。
从整体上来说,近些年来山西省的行业创业活动有一定的发展,但不论是从私营企业创业指数还是个体经济创业指数来看,19个行业的创业活跃度差异较大。
创业活跃的行业比较少,IPEEI 取值和IIEEI 取值都很高的只有批发和零售业,该行业在一个地区经济发展中的影响力日渐提升,但也反映出一个区域的创业活动处于初级阶段的特征;信息传输、计算机服务和软件业这样的高科技行业的创业指数相对较低,可能是因为以技术为背景的公司开发新技术并运用到市场上的周期较长,需要较多的资金支持。
文化、体育和娱乐业作为新兴产业,山西省的IPEEI 指数和IIEEI 指数都很低,说明该行业的创业活跃度还比较低。
[参考文献][1] 2006-2007 各行业创业规律分析报告[R].清华大学中国创业研究中心,2007.[2] 王飞绒,池仁勇.发达国家与发展中国家创业环境比较研究[J]外国经济与管理,2005,(11).[3] 翟庆华,叶明海,苏靖. 创业活跃程度与经济增长的双螺旋模型及实证研究[J]科技进步与对策,2012,(07). [4] 刘刚,李强治. 创业活动与中国经济增长的区域差异分析[J].中共天津市委党校学报,2012,(01).[5] 彭学兵,张刚. 地区技术创业活跃程度评价-对我国30个省市自治区的实证研究[J].科学学研究,2007,(12). [6] 刘宗让.区域创业活动活跃度及实证研究[J].经济论坛,2008,(02).[7] Reynolds P D. National panel study of U. S. business startups:background and methodology[J].Advances in Entrepreneurship, Firm Emergence and Growth, 2000.。