向量空间模型中特征加权的研究
- 格式:pdf
- 大小:896.60 KB
- 文档页数:4
大规模MIMO-NOMA下行系统可达吞吐量研究朱翠涛;鲁经纬【摘要】非正交多址系统的可达吞吐量与用户分簇策略、预编码方法、功率分配算法等有关.为了提高系统可达吞吐量,提出了一种改进的k-means用户分簇算法,该算法利用空间相关性对用户进行分簇,从而降低簇间干扰;然后利用块对角化预编码对发送给各簇的信息进行预处理,使得每簇的预编码向量与其它簇等效信道向量近似正交,进一步消除簇间干扰;同时构建最优功率分配优化问题,并利用Karush-Kuhn-Tucker(KKT)条件求得簇内每个用户的最佳功率分配系数,降低簇内用户间的干扰.实验结果表明:所提出的方法能有效提高系统的可达吞吐量.【期刊名称】《中南民族大学学报(自然科学版)》【年(卷),期】2019(038)001【总页数】7页(P81-87)【关键词】非正交多址;大规模MIMO;吞吐量;用户分簇;预编码【作者】朱翠涛;鲁经纬【作者单位】中南民族大学电子信息工程学院,武汉430074;中南民族大学电子信息工程学院,武汉430074【正文语种】中文【中图分类】TN911非正交多址接入(NOMA)技术相比于传统的正交多址接入(OMA)技术,能够显著提高系统的频谱效率,是第5代移动通信(5G)关键技术之一.然而,由于NOMA系统中多个用户可共享同一资源块,会产生更多的干扰因素而导致NOMA系统性能下降.为了提高NOMA系统的性能,人们做了大量研究工作.文献[1]证明了在用户随机分布的5G系统中,针对不同用户选取合适传输速率和功率分配因子,NOMA可以获得比传统正交多址更大的系统容量;文献[2]提出了一种基于相关性的用户聚簇算法,分析了迫零预编码和随机预编码在NOMA中的性能,并结合簇内功率分配算法提高了系统和速率;文献[3]和[4]分析并比较了NOMA系统中固定功率分配算法和分数阶发射功率分配算法性能:固定功率分配算法按照固定的比例来分配功率,计算复杂度较低,分数阶发射功率分配考虑了用户信道条件及用户的公平性具有较好的系统性能;文献[5]通过求解NOMA系统总吞吐量最大化问题,分别得出上行和下行的低复杂度用户分簇方案和簇内用户最优功率的闭式解,证明合理的用户分簇和功率分配方法能够提高系统吞吐量;文献[6]基于FDD的大规模MIMO-NOMA系统,先利用统计信道信息对用户分簇,再进行选择构成NOMA用户组,有效降低了簇间和簇内干扰;文献[7]提出一种新型的MIMO-NOMA系统模型,即簇间使用OMA方式,簇内采用NOMA方式,提出一种低复杂度用户分簇算法,然后利用每簇的等效信道增益提出一种新的迫零预编码以消除簇间干扰,并分两步进行功率分配;簇内各用户功率采用文献[5]下行最优功率的闭式解求得,提高了系统的频谱效率.大规模MIMO与NOMA相结合能进一步提高系统的容量,但随着基站发射天线数的增加,会加剧簇间干扰,从而影响系统的性能.为此,本文针对大规模MIMO -NOMA下行系统的可达吞吐量开展相应研究工作.首先,利用空间相关性提出一种改进的k-means用户分簇算法,将空间相关性较大的用户分为一簇,降低簇间干扰.然后,采用块对角化预编码使各簇之间信道近似正交,进一步消除簇间干扰,并形成了功率约束下的系统可达吞吐量的优化问题模型,通过求解得到最优的用户功率分配系数,提高接收端连续干扰消除(SIC)的可靠性,达到降低簇内用户间干扰的目的.1 系统与信号模型单基站多用户FDD下行系统中,设基站配置由N根天线组成的均匀线性阵列,服务K个单天线用户,N>K,将所有用户分为G簇,每簇中有L个用户分布在同一个单散射环内,且同簇用户的信道增益有较大差异,小区内采用基于功率域的非正交多址方式,系统模型如图1所示.图1 系统模型Fig.1 System model第g(g∈{1,…,G})簇中用户l(l∈{1,2,…,L})表示为ug,l,其信道向量Hg,l∈1×N 可分解为:(1)其中,Ag,l表示大尺度衰落矩阵,其主对角元素包含大尺度衰落系数为用户ug,l 到基站的距离,且用户到基站的距离各不相同:dg,1<dg,2<…<dg,L,γ为路径损耗指数,c为参考距离下的路径损耗.为小尺度衰落矩阵,其各元素间满足独立同分布,且服从均值为零,方差为1的复高斯分布.Rg,l为ug,l用户在基站侧的信道协方差矩阵.假设基站配置大规模均匀线性阵列,并采用单环散射模型,用户ug,l 的信道协方差矩阵Rg,l,可由下式计算得到[8]:(2)式(2)中,[Rg,l]a,b表示天线a,b间的相关性,g簇方位角为θg,角度扩展为Δg,Ω为相邻天线间的距离,λ是载波波长,φ表示波束的到达角.同一簇内用户属于同一散射环,由于散射环境相同,故信道协方差矩阵大致相同,统一表示成Rg,可分解为是Rg的非零特征值对应的特征向量矩阵,∑g是Rg非零特征值组成的对角矩阵.假设第g簇预编码向量为vg,基站发射总的信号为簇用户总的信号为:分别表示用户ug,l的功率分配系数和传输信号,αg,l∈[0,1],Pg为第g簇总功率,用户ug,l接收信号为:yg,l=Hg,lχ+zg,l=(3)式(3)中,zg,l为高斯噪声,均值为0,方差为由(3)式可知用户接收的信号中除有用信号外,还包括簇间干扰,簇内用户间干扰及高斯噪声.用户ug,l的信干噪比SINRg,l为:SINRg,l=(4)用Wg,l表示归一化的信道增益,且:(5)式(5)中,B表示每个发送波束的带宽,则(4)式可简化为:(6)用户ug,l可达吞吐量为:(7)则系统可达吞吐量表示为:(8)由(8)式可知,系统可达吞吐量主要与最优用户分簇方法、预编码以及功率分配方法有关,本文将分别从这三个方面进行研究.2 联合空间相关性的用户分簇根据(6)-(8)式可知在一定范围内系统的吞吐量随SINR的增大而增大,合理的用户分簇方法能有效降低簇间干扰,提高用户的SINR.本文提出了一种改进的k-means分簇算法,利用空间相关性对用户分簇.算法的改进包括初始簇中心的选取和迭代分簇两个部分.基本思想为:先采用最大距离法从K个用户中找出G个用户作为初始中心点,然后再采用加权似然准则进行迭代分簇,直到算法达到终止条件.根据用户的空间相关性来划分用户,度量用户之间信道特性相似程度的准则如下:准则1 欧氏距离,欧氏距离函数表达式如下[8]:(9)式(9)中,Ug,l是用户ug,l的特征矩阵,Vg为第g个用户簇中心点对应的特征矩阵,D(Ug,l,Vg)≥0,仅当Ug,l=Vg时D(Ug,l,Vg)=0,此时,用户ug,l为第g簇的中心点,‖·‖F表示Frobemius范数.簇用户的中心特征子空间为:(10)式(10)中,eig{·}表示求解矩阵的主要特征矢量的运算,每簇传输的数据流数目为Kg.准则2 加权似然函数[9]加权似然函数利用各用户的特征向量在各簇中心点的特征向量空间中的投影,将用户划分到不同簇,加权似然值表示为:(11)由(11)式可知,如果用户ug,l离簇的中心比较近,则Ug,l≈Vg,根据酉矩阵的性质,的值较大;如果用户ug,l离簇中心比较远,由于酉矩阵的正交性,的值比较小.簇中心点计算公式为:(12)总的似然值计算式为:改进的k-means算法具体步骤如下:第一步:找出K个用户中距离最远的两个用户,作为初始用户的中心点:此时用户簇个数g=2;第二步:以为初始中心点,将所有用户分为g=2个簇;第三步:从已分好的每个簇中分别找出与各自中心点相似性最弱的一个用户(即距离最大的点),然后依次计算这些用户中每个用户与各簇中心点距离之和,将距离之和最大的用户确定为第g+1个簇的初始中心点.接着,将所有用户重新划分成g+1个簇.第四步:判断当前簇的个数g+1是否大于等于G,满足则执行第五步,否则重复执行第三步;第五步:按照公式(11)计算每个用户到各簇中心点的加权似然相似度系数将每个用户分配到相似度系数最大的簇中,n为迭代次数;第六步:按照公式(12)更新第七步:若(ε值是控制分簇算法收敛的阈值)成立,分簇完成,执行第八步;否则令n=n+1,返回第五步继续执行;第八步:得到分簇结果.3 簇间预编码为了进一步消除簇间干扰本文采用块对角化预编码,通过SVD分解,获得每簇相对于其它簇干扰为零的正交基.第g簇总的信道矩阵为Hg=[Hg,1,Hg,2,…,Hg,L],预编码向量vg需要满足:Hμvg=0,μ∈{1,2,…,G}且μ≠g,(13)要实现(13)式的条件,vg应该在其它所有簇的联合信道矩阵的零空间内,即:(14)(15)为求矩阵的零空间,要对其进行SVD分解:(16)式(16)中,是的前个右奇异向量矩阵,为剩余右奇异向量构成的矩阵,构成了零空间的一个标准正交基,因此:(17)即∀μ≠g.(18)通过信道矩阵Hg在零空间的投影得到投影后的信道矩阵,在投影后的协方差矩阵的主特征值方向上进行波束成型.对g簇的投影信道及进行SVD分解,为的个主特征向量;最终得到的预编码矩阵为:(19)4 最优簇内功率分配本系统模型涉及簇间和簇内两层功率分配.由于各簇用户数目相等,为方便计算,簇间采用等功率分配,若基站发射总功率为Pt,则每簇的总功率为Pt/G.为了保证SIC的性能,降低簇内用户间干扰,最优的簇内功率分配是必要的.第g簇总功率Pg=Pt/G,簇内各用户离基站的距离满足dg,1<dg,2<…<dg,L,由(1)和(5)式可知离基站近的用户信道条件优于离基站远的用户,归一化信道增益满足:Wg,1>Wg,2>…>Wg,L,根据NOMA功率分配原则,信道条件好的用户应分配较低的功率,信道条件差的分配较高的功率,因此簇内各用户的功率分配系数需要满足αg,1<αg,2<…<αg,L.此外,各用户功率之间还需满足保证接收端SIC 性能的约束条件[5]:(20)对(20)式整理得:为用户功率间需满足的最小差值,为保证服务质量,用户的最小传输速率为r0,令τ=ptol/Pg,τ为常数.根据系统模型构建簇内功率分配系数的优化问题模型如下:(21)式(21)中,第一个约束条件是指簇内功率分配系数之和不大于1,第二个约束条件表示每个用户的传输速率必须大于最低速率r0,此外,簇内各用户功率之间要存在一定的差值,即要满足第三个约束条件.分析上述优化问题可知,该优化问题为非凸问题,本文利用KKT条件进行求解.由拉格朗日函数可得:(22)式(22)中,为拉格朗日乘子,ρ=r0/B为常量,根据KKT条件可得:(23)(24)(25)(26)若拉格朗日乘子的集合依次表示成:且每簇用户数不少于2个,则拉格朗日函数的解Ψ是由这三个集合中的元素所构成的集合,例如每簇2个用户时,满足KKT条件的解有2种,为:每簇3个用户时,有4种:以此类推.假设簇内用户均满足最小速率条件,当每簇L个用户时,设满足条件的一种解为,则:(27)(28)(29)(30)根据(27)-(28)式解得当每簇用户数目分别为2,3,4时簇内用户的功率分配系数,如表1所示,得到的功率分配系数需要满足式(29)-(30).表1 每簇用户数为2,3,4时对应的最优功率分配系数Tab.1 Optimal transmission power allocation coefficient for 2-,3-,and 4-users in each cluster每簇用户数目最优功率分配系数L=2αg,1=12-τ2Wg,lαg,2=12+τ2Wg,lL=3αg,1=14-τ2Wg,1+τ4Wg,2()αg,2=14+τ2Wg,1-τ4Wg,2αg,3=12+τ2Wg,1L=4αg,1=18-τ2Wg,1-τ4Wg,2-τ8Wg,3αg,2=18+τ2Wg,1-τ4Wg,2-τ8Wg,3αg,3=14+τ2Wg,2-τ4Wg,3αg,4=12+τ2Wg,3当簇内有L个用户时,由数学归纳法得到各用户的功率分配系数为:求解得到的最优解必须满足KKT条件,以每簇4个用户的情况为例,验证解集为时,是否满足条件,令(23)式等于0,经整理得:(31)由等式(31)两边同类项系数对应相等可得:ζl-1Wg,l-2, l=3,4,而Wg,l-1>Wg,l,所以都大于零,因此解Ψ={δ,ζ2,ζ3,ζ4}满足KKT条件,其它解可同理进行验证.分析优化问题的约束方程及求解过程可知,每簇有L个用户时,求解时有2L个拉格朗日乘子,满足KKT条件的组合方式有22L种,但是本文的优化变量为用户的功率分配系数满足αg,l∈[0,1],l∈{1,2,…,L},当有L个优化变量时,只需L个方程来求解,所以22L种组合方式不必全部验证,通过对每簇2,3,4个用户的情况求解可知,KKT条件个数依次为2,4,8个,由数学归纳法可得簇内L个用户的组合方式为2L-1种.5 实验与分析本系统模型中基站配置均匀线性天线阵列,天线间距为,用户天线数为1,用户均匀分布在的扇区内,单环散射模型的角度扩展为,其它参数设置如下表2:表2 仿真参数配置Tab.2 Simulation parameters参数取值基站最大发射功率46dBm簇内用户之间功率差10dBm系统带宽8MHz每簇带宽B180kHz基站天线数N128高斯白噪声功率0.1W比较改进k-means算法与传统k-means的收敛性能,阈值ε=0.01,K=15,G=3,中心角依次为θ1=-45°,θ2=0° ,θ3=45°,角度扩展Δ=10°,假设簇与簇之间不重叠,当前后两次迭代总的似然值之差DΓtot小于阈值时,算法收敛.两种分簇算法的收敛性能如图2所示,横坐标为迭代次数,纵坐标为DΓtot的值,两种算法都能快速达到收敛,但改进k-means算法收敛更快,只需6次迭代就达到收敛,传统k-means需要16次才能收敛.另外,改进的k-means算法选取的各簇中心点之间距离较远,使得用户簇之间相关性更弱,更有利于降低簇间干扰.图2 收敛性能比较Fig.2 Comparison of convergence performance对本文分簇算法与随机分簇、按用户信道状态排序分簇算法[5]进行性能仿真和比较.当总用户数为15,使用不同算法将用户分为3个簇,簇间使用块对角化预编码,接收端采用SIC接收信号.系统可达吞吐量随信噪比变化规律如图3所示.所提算法减弱了簇间的相关性,降低了簇间干扰,从图3中可以看出,系统可达吞吐量性能最优,而且低信噪比时吞吐量性能较好,其次是按用户信道状态排序分簇算法,分簇时利用了用户间信道条件的差异,但未充分考虑簇间的相关性,随机分簇系统性能最差,主要原因是随机分簇没有考虑用户自身的信道条件,具有随机性,系统的吞吐量得不到保证.图3 不同分簇算法下系统可达吞吐量比较Fig.3 Comparison of achievable throughput by different clustering algorithm versus SNR为研究簇内功率分配对系统可达吞吐量的影响,将本文最优功率分配算法与固定功率分配、分数阶发射功率分配进行仿真和比较.先用改进k-means算法分簇,并用块对角化对发送信息做预处理,接收端采用SIC.设固定功率分配因子为0.1,分数阶发射功率分配因子为0.7,仿真结果如图4所示.图4 不同功率分配方法对系统可达吞吐量的性能比较Fig.4 Comparison ofachievable throughput by different power allocation algorithm versus SNR 低信噪比时本文算法吞吐量性能与分数发射阶功率分配很接近,前者略高,随着信噪比的增大,本文算法优于分数阶发射功率分配算法,而固定功率分配系统可达吞吐量较低.由此看出,固定功率分配算法虽实现复杂度低,但系统吞吐量性能较差,分数阶发射功率分配相比于固定功率分配吞吐量性能更好,本文的功率分配算法满足最小传输速率和SIC性能约束条件,能有效保证每个用户的服务质量,并且降低用户间干扰,提高低信干噪比用户的信号质量,从而提高系统的吞吐量,在三种方法中性能最优.6 结语为了提高大规模MIMO-NOMA下行系统的可达吞吐量,本文依据空间相关性提出改进的k-means算法对用户分簇以降低簇间干扰,然后采用块对角化预编码对各簇信息进行预处理,进而消除簇间干扰,并利用KKT条件求解簇内最优功率分配问题,得到簇内各用户最优功率分配系数,提高了接收端SIC性能,降低簇内用户间干扰,仿真结果表明本文的方法提高了系统的可达吞吐量.但是,随着用户数的增加,k-means分簇算法的复杂度也会随之增大,下一步研究将对分簇算法进一步优化.参考文献【相关文献】[1] DING Z, YANG Z, FFAN P, et al. On the performance of non-orthogonal multiple access in 5G systems with randomly deployed users [J]. IEEE Signal Processing Letters, 2014,21(12):1501-1505.[2] KIM B, LIM S, KIM H, et al. Non-orthogonal multiple access in a downlink multiuser beamforming system[C]// IEEE. Military Communications Conference. San Diego: IEEE,2014:1278-1283.[3] BENJEBBOUR A, LI A, SAITO Y, et al. System-level performance of downlink NOMA for future LTE enhancements[C]// IEEE .GLOBECOM Workshops. Atlanta: IEEE, 2014:66-70. [4] SAITO Y, BENJEBBOUR A, KISHIYAMA Y, et al. System-level performance evaluation of downlink non-orthogonal multiple access (NOMA)[C]//IEEE.International Symposium on Personal Indoor and Mobile Radio Communications. London:IEEE,2013:611-615.[5] ALI M S,TabASSUM H, HOSSAIN E. Dynamic user clustering and power allocation for uplink and downlink non-orthogonal multiple access (NOMA) systems [J]. IEEE Access, 2017,4:6325-6343.[6] YONG I C, LEE J W, RIM M, et al. On the performance of beam division non-orthogonal multiple access for FDD-based large-scale multi-user MIMO systems [J]. IEEE Transactions on Wireless Communications, 2017, 16(8):5077-5789.[7] ALI M S, HOSSAIN E, DONG I K. Non-orthogonal multiple access (NOMA) for downlink multiuser MIMO systems: user clustering, beamforming, and power allocation [J]. IEEE Access, 2016, 5:565-577.[8] ADHIKARY A, CAIRE G. Joint spatial division and multiplexing: opportunistic beamforming and user grouping [J]. IEEE Transactions on Information Theory, 2013,59(10):6441-6463.[9] XU Y, YUE G, PRASAD N, et al. User grouping and scheduling for large scale MIMO systems with two-stage precoding[C]//IEEE International Conference on Communications. Sydney: IEEE, 2014:5197-5202。
arcgis中加权叠加赋值和权重概述说明1. 引言1.1 概述在地理信息系统(GIS) 中,加权叠加赋值和权重是一种常用的空间分析方法。
该方法通过对不同属性或者空间数据进行加权处理,将多个图层叠加到一起,并根据各属性的重要性或者空间特征的影响程度,给予不同权重值进行综合评价或者分析。
通过加权叠加赋值和权重分析,我们可以对地理现象进行深入研究,提取有用的信息并做出合理的决策。
1.2 文章结构本文将从以下几个方面来介绍ArcGIS中的加权叠加赋值和权重分析方法。
首先,在第2节中我们会详细讲解加权叠加赋值的定义以及如何使用ArcGIS中的工具进行操作。
其次,在第3节中我们将介绍基于属性数据和基于空间数据两种不同的加权叠加赋值方法,并探讨选择合适的权重分析方法应用于不同场景的指导原则。
然后,在第4节中我们会借助实例和案例研究来展示应用实践过程,并探讨在土地利用规划、环境风险评估以及城市规划等领域中如何应用加权叠加赋值和权重分析方法。
最后,在第5节中我们将对全文进行总结,归纳主要发现结果,并展望未来的研究方向和发展趋势。
1.3 目的本文的目的是介绍ArcGIS中加权叠加赋值和权重分析方法,探讨该方法在地理信息系统应用中的意义和作用。
通过本文的阐述,读者将能够了解到加权叠加赋值的概念、ArcGIS工具的使用以及权重在分析过程中的重要性。
同时,本文还旨在帮助读者理解基于属性数据和基于空间数据两种不同的加权叠加赋值方法,并引导读者选择合适的权重分析方法以应用于不同场景。
最后,通过实例应用与案例研究,本文将进一步展示加权叠加赋值和权重分析方法在土地利用规划、环境风险评估以及城市规划等领域中的具体应用价值。
2. 加权叠加赋值和权重2.1 加权叠加赋值的定义在地理信息系统(GIS)中,加权叠加赋值是一种用于分析多个输入数据层的方法。
它通过为每个输入数据层分配一个权重,并根据这些权重对不同输入数据的像元进行组合,生成最终的输出结果。
答案******************************* 一 ********************************************填空1.数值型文字型(字符)语音型图像型2.原料成品3.信息4.自然人为5.数据文本声音图像6.语义差异传递载体7.外表整体内容8.收集传输加工储存(存储)9.信息形式信息内容10.内在的信息需要外在刺激11.标题词单元词叙词关键词12.线性结构非线性结构树形结构网状结构13.数据预处理索引生成查询处理检索14.信息需求信息集合15.出发点依据16.人工赋予自动生成名词解释1.数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。
2.信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。
3.信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。
4.检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。
5.信息检索:可以从广义和狭义两个角度理解。
广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。
狭义的信息检索仅指信息查找过程。
6.信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。
7.检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。
简答题1.简述了解用户信息需求的作用答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。
了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。
特征融合方法特征融合方法是指将来自不同数据源或者不同特征提取方法的特征进行有效的整合和融合,以提高模型的性能和泛化能力。
在机器学习和模式识别领域,特征融合方法起着至关重要的作用,它可以帮助我们更好地利用数据信息,提高模型的准确性和稳定性。
本文将介绍几种常见的特征融合方法,并对它们进行简要的分析和比较。
首先,特征级融合是指将来自不同特征提取方法的特征进行直接拼接或加权求和。
例如,假设我们有两种特征提取方法分别提取出了100维的特征向量,那么特征级融合就是将这两个100维的特征向量直接拼接成一个200维的特征向量。
另外一种常见的特征级融合方法是加权求和,即对不同特征的权重进行学习或者手动设定,然后将它们加权求和得到最终的特征向量。
特征级融合方法简单直接,易于实现,但它忽略了不同特征之间的相关性和依赖关系。
其次,模型级融合是指将来自不同模型的特征进行整合和融合。
在集成学习中,模型级融合是非常重要的一环,它可以帮助我们充分利用不同模型的优势,提高整体模型的性能。
常见的模型级融合方法包括Stacking、Bagging和Boosting等。
Stacking是一种将不同模型的输出作为新特征输入到另一个模型中的方法,它可以有效地整合不同模型的预测结果,提高模型的泛化能力。
Bagging和Boosting则是通过对训练数据进行不同的采样和权重调整,得到不同的基模型,然后将它们整合得到最终的模型。
模型级融合方法可以充分挖掘不同模型的优势,提高模型的性能,但它需要更多的计算资源和时间成本。
最后,特征选择和降维是特征融合的重要环节。
在特征融合之前,我们需要对原始特征进行选择和降维,以减少特征之间的冗余信息和噪声,提高特征的表达能力和稳定性。
常见的特征选择和降维方法包括PCA、LDA、特征过滤、特征包裹和特征嵌入等。
这些方法可以帮助我们选择最具代表性的特征,并且降低特征空间的维度,提高模型的训练效率和泛化能力。
综上所述,特征融合方法是机器学习和模式识别领域中非常重要的一环,它可以帮助我们更好地利用数据信息,提高模型的性能和泛化能力。
支持向量机支持向量机模型选择研究摘要: 统计学习理论为系统地研究有限样本情况下的机器学习问题提供了一套比较完整的理论体系。
支持向量机(suPportvectorMachine,SVM) 是在该理论体系下产生的一种新的机器学习方法它能较好地解决小样本、非线性、维数灾难和局部极小等问题, 具有很强的泛化能力。
支持向量机目前已经广泛地应用于模式识别、回归估计、概率密度估计等各个领域。
不仅如此, 支持向量机的出现推动了基于核的学习方法(Kernel-based Learning Methods)的迅速发展, 该方法使得研究人员能够高效地分析非线性关系, 而这种高效率原先只有线性算法才能得到。
目前, 以支持向量机为主要代表的核方法是机器学习领域研究的焦点课题之一。
众所周知, 支持向量机的性能主要取决于两个因素:(1) 核函数的选择;(2) 惩罚系数(正则化参数)C的选择。
对于具体的问题,如何确定SVM中的核函数与惩罚系数就是所谓的模型选择问题。
模型选择,尤其是核函数的选择是支持向量机研究的中心内容之一。
本文针对模型选择问题,特别是核函数的选择问题进行了较为深入的研究。
其中主要的内容如下:1. 系统地归纳总结了统计学习理论、核函数特征空间和支持向量机的有关理论与算法。
2. 研究了SVM参数的基本语义,指出数据集中的不同特征和不同样本对分类结果的影响可以分别由核参数和惩罚系数来刻画,从而样木重要性和特征重要性的考察可以归结到SVM的模型选择问题来研究。
在对样本加权svM莫型(例如模糊SVM分析的基础上,运用了特征加权svM莫型, 即FWSVM本质上就是SVM与特征加权的结合。
3,在系统归纳总结SVM莫型选择。
尤其是核函数参数选择的常用方法(例如交叉验证技术、最小化LOO M差及其上界、优化核评估标准)。
关键词:机器学习;莫式分类;支持向量机;莫型选择;核函数; 核函数评估支持向量机基础引言机器学习的科学基础之一是统计学。
基于机器学习的情绪分析研究——智能模型设计和实现摘要互联网技术的迅速发展使得社交平台逐渐成为热点事件中社会情感的枢纽。
社会热点事件的舆论监管的其中一个重要环节就是能够准确分析民众的社会情绪。
本文旨在探索可以基于文本大数据彻底分析民众对热点事件的社会情绪的模型和方法。
先是从社交平台上借助文本大数据、对数据进行提前处理以及用python自然语言处理包等方法建立能够分析社会情绪的模型,其次找到最佳的机器学习算法,再次用机器学习的方法对模型进行训练,获得一个情感分类器。
最后用热点事件“冠状病毒”的真实数据在情感分类器上进行社会情绪分析验证,证明了模型和方法的有效性。
关键词:网络文本大数据;机器学习;情绪分类器;社会情绪分析;1前言:1.1设计目的及意义近来,社交媒体和电子商务平台发展迅速,Twitter、微博、MSN、微信等社交网络正逐渐地改变着人们的生活,越来越多的人习惯于通过网络平台表达自己的态度和情感,这些网络文本是客户流露的真实情感。
对网络文本大数据热门事件的情绪进行分析可以使人们获得更多关于内心世界的知识,因此,从这些文本信息中自动准确的识别客户的情感类别,对政府舆情监控、企业管理与决策来说是一个很大的支持,它也成为学术界近来持续关注的研究热点,同时极大地促进了情绪分析技术的发展。
1.2本课题国内外现状及存在问题文本情感分析也可以说是挖掘文本意见的方法。
简而言之,它是分析,处理,总结和推断具有情感色彩的主观文本的过程[1]。
目前海内外关于文本情绪分析研究的方向主要有两个:一个是判断主观信息的细粒度,另一个是判断文本的主客观性。
前者强调将情感词作为中心去分析文本级的情绪倾向,而文本的情绪倾向是通过贬值情感词的线性加权值来实现的。
熊德兰等人[2]基于How Net语义词典中词汇语义相似度的计算方法。
意在基于语义词典,充分想到词语组成在一起之后语义可能改变,直接影响到情感褒贬判断的偏向结果,于是用各个词语义进行权重计算结果来判断从而避免受影响。
特征加权融合的方法
特征加权融合是一种常见的机器学习方法,它可以将多个特征有效地组合在一起,提高模型的性能。
在特征加权融合中,不同的特征被赋予不同的权重,根据它们在模型中的重要性来计算。
这个过程被称为特征加权,通常采用统计方法或机器学习算法来完成。
在特征加权完成后,不同的特征被组合在一起,形成一个新的特征向量,用于训练和预测。
特征加权融合的方法有很多种,其中一种常见的方法是基于线性模型的特征加权融合。
这种方法使用线性回归或逻辑回归等线性模型来对特征进行加权并融合。
在这种方法中,权重可以通过正则化方法进行优化,以防止过拟合。
另一种特征加权融合的方法是基于非线性模型的特征加权融合。
这种方法使用支持向量机、决策树等非线性模型来对特征进行加权并融合。
在这种方法中,通常需要进行特征的转换或降维,以便模型能够更好地处理它们。
除了上述方法,还有一些其他的特征加权融合的方法,例如基于神经网络的特征加权融合、基于遗传算法的特征加权融合等等。
这些方法在不同的应用场景下都表现出不同的优势和劣势,需要根据实际情况进行选择和调整。
总之,特征加权融合是一种有效的机器学习方法,可以提高模型的性能和精度。
在实际应用中,需要根据特定的任务和数据集选择合适的方法和参数,以获得最佳的结果。
㊀第52卷第1期郑州大学学报(理学版)Vol.52No.1㊀2020年3月J.Zhengzhou Univ.(Nat.Sci.Ed.)Mar.2020收稿日期:2019-05-09基金项目:河北省自然科学基金项目(F2018511002);河北大学高层次创新人才科研启动经费项目;河北省高等学校科学技术研究项目(QN2018251,QN2018084,Z2019037);中央司法警官学院项目(XYZ201602);河北省高等学校科学技术研究项目(Z2019037);首都医科大学基础-临床科研合作基金(17JL86)㊂作者简介:朱杰(1982 ),男,河北保定人,副教授,主要从事机器学习㊁机器视觉研究,E-mail:arthurzhujie@;通信作者:吴树芳(1980 ),女,河北邯郸人,副教授,主要从事机器学习㊁信息检索研究,E-mail:shufang_44@㊂基于深度特征加权的图像表示方法朱㊀杰1,㊀赵相坤2,㊀谢博鋆3,4,㊀吴树芳5(1.中央司法警官学院信息管理系㊀河北保定071000;2.首都医科大学生物医学工程学院㊀北京100069;3.河北省机器学习与计算智能重点实验室㊀河北保定071002;4.河北大学数学与信息科学学院㊀河北保定071002;5.河北大学管理学院㊀河北保定071002)摘要:卷积神经网络可以在图像检索中为图像内容提供有效的表示,基于该理论提出一种基于深度特征加权的图像表示方法,此方法通过对深度特征加权,突出图像表示中对象的内容,并降低背景信息的影响㊂首先,通过预训练卷积神经网络提取出图像的特征映射,然后根据不同特征映射的特点,计算出深度特征的位置重要性㊁区域重要性和通道重要性,并根据3种重要性对深度特征进行加权,最后通过池化与深度特征聚合的方式生成图像表示㊂实验结果表明,与其他图像表示方法相比,提出的方法在Holiday㊁Oxford 和Paris 图像库中取得了更好的检索效果㊂关键词:卷积神经网络;图像检索;特征加权;池化中图分类号:TP391㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2020)01-0047-07DOI :10.13705/j.issn.1671-6841.20191640㊀引言随着计算机网络技术的发展,图像信息在网络中占据的比例日趋增大㊂如何有效组织㊁管理和检索图像资源已经成为当前的一个热点问题[1]㊂为提高图像检索的综合性能,研究者多从图像表示的有效性入手,将特征描述与特征聚合的方法作为突破口进行研究㊂一些图像检索方法采用尺度不变特征变换(scale-invariant feature transform,SIFT)描述子[2]或费希尔矢量(fisher vector,FV)[3]等底层特征描述子描述图像局部特征,然后利用词袋(bag of words,BOW)模型对图像进行编码,实现图像表示,用于检索任务㊂为了在图像表示中融合语义信息,文献[4]以一些特殊的颜色㊁形状和材料等为基本元素,将图像表示为这些基本元素的集合,但是这种方法不能准确地描述所有物体的特征㊂卷积神经网络(convolutional neural networks,CNNs)凭借其接近于语义的图像内容描述能力,逐渐成为图像分类㊁检索等领域的主流算法[5-7]㊂传统的CNNs 模型主要用于图像分类,包含卷积层㊁池化层和两个全连接层,最后一层为输出层,用softmax 的方式输出属于所有类别的概率㊂现实中的图像检索有别于图像分类,无法对神经网络进行训练,所以,多采用从预训练CNNs 的不同层次提取出的卷积特征,即深度特征对图像进行表示,然后通过计算查询图像与其他图像的相似度,生成检索排序结果㊂如何对深度特征合理加权从而突出对象内容,并将加权特征进行聚合生成图像表示是目前的研究重点之一㊂文献[8-9]最早提出通过聚合不同响应的方式进行图像表示,通过合理利用最大池化㊁归一化与白化方法,聚合不同通道特征映射的响应,用于产生低维度的图像表示㊂文献[10]通过将不同通道中局部区域的最大激活值进行聚合,从而生成突出对象内容的图像表示㊂文献[11]提出的SPoC 方法通过给图像中间区域赋予高权值的方法和池化的策略来表示图像内容,从而提高检索准确率㊂文献[12]通过聚合空间响应和计算通道的稀疏性来计算空间权重和通道权重,然后通过池化方式对每个通道上的描述子进行聚合㊂文献[13]通过对不同层次的深度特征进行聚类生成字典,然后采用局部聚合描述子向量(vector locally郑州大学学报(理学版)aggregated descriptors,VLAD)的方式进行编码,能够生成更加合理的特征表示㊂但是,用聚类生成的字典作为特征表示,容易忽略不同特征的内在差异,且聚类结果的不稳定性会直接影响特征表示的准确性㊂此外,聚类产生的字典无法在图像表示中突出对象内容并且弱化背景内容㊂图像检索中普遍采用将最后一层的深度特征的池化结果用于生成图像表示[10,12]㊂文献[14]将特征映射累加求和生成激活映射,并且将激活映射中大于阈值的位置认为是对象区域㊂但是,阈值通常被设定为激活映射中响应的平均值,这种根据经验阈值来判断对象区域的方法也无法准确突出对象内容㊂为此,在文献[12,14]的基础上,本文提出了一种全局化的深度特征加权(deep feature weighting,DFW)图像表示方法,DFW 利用预训练CNNs,通过计算图像卷积层深度特征的位置重要性㊁区域重要性和通道重要性,给深度特征加权,并通过聚合㊁池化的方法生成图像表示㊂图1㊀图像表示流程Figure 1㊀Flowchart of image representation 1㊀基于深度特征加权的图像表示本文提出的DFW 图像表示方法流程如图1所示,对于任意输入图像,首先提取出最后一个池化层的所有特征映射,然后通过计算特征映射的空间权重㊁区域权重和通道权重对深度特征进行加权,并通过特征聚合生成图像表示㊂本文提出的方法主要有以下优点:给深度特征加权能够突出对象内容,从而进行更有针对性的图像表示;特征池化的方法能够保证生成低维度的图像表示㊂在提出的DFW 图像表示方法中,令x ɪR (K ˑW ˑH )为网络中第l 层生成的3维特征张量,K 代表通道的数量,H 和W 分别代表该层特征映射的空间维度,即特征映射的长和宽㊂x 中第k 个通道的特征映射,在p (i ,j )位置的响应值用x kij 来表示,用C (k )表示x 中通道k 的特征映射矩阵,C (k )ij=x kij ,x 的加权特征表示为x ᶄ,计算方法为xᶄkij=αij βij γk x kij ,其中α㊁β㊁γ分别代表位置权重㊁区域权重和通道权重㊂1.1㊀位置权重卷积特征映射的响应聚合对发现对象区域有着重要的作用[14],令S ᶄɪR (WˑH )为同层所有通道中每个位置的空间特征聚合之后产生的激活映射,所用公式为S ᶄ=ðk C (k )㊂文献[11]根据图像库中对象位置普遍存在于图像几何中心的特点,提出了一种中心优先的特征加权方式,这种方式给临近几何中心的特征赋予较高的权值,而给远离几何中心的区域赋予较小的权值㊂但是,通常情况下对象出现在图像中某一个或多个连续区域,并且分布于图像的不同位置,所以物体应该有多个中心㊂特征聚合之后的特征映射中,响应值越高的位置,越有可能是对象所在的位置㊂为此,我们将响应值最高的前m 个位置认为是中心点,假设一个中心点为c (c x ,c y ),图像中任意位置p (i ,j )相对于c 的位置权重为αc x c y ij =exp{-((i -c x )2+(j -c y )2)/(2σ2)},参数σ与特征映射的长和宽有关[11],σ=1/3㊃min(W ,H )㊂通过计算位置p 相对于所有中心点的位置权重,选择出其中的最大值作为p 的位置权重αij ㊂将通过高权值位置感受野的对比,验证中心点比SPoC 的中心优先方法能够更准确地发现对象区域㊂图2㊀不同区域的采样Figure 2㊀Sampling in different areas 1.2㊀区域权重S ᶄ中的任意位置对应着原图像中的某个部分,发现S ᶄ中表示对象内容的粗略区域,对于图像表示中的特征合理加权有着重要意义㊂对象区域可以依靠从S ᶄ中选择的一些大小相同的区域进行表示㊂首先,在S ᶄ中进行l 尺度上的密采样,将S ᶄ划分成不同的区域,采样点之间间隔的像素间隔为l /2,采样得到的区域边长为4l ,1ɤl ɤmin(W ,H )㊂采样过程如图2所示,采样区域的矩形边长为l ,星型为采样中心㊂不同的区域对于描述对象特征有着不同的重要性,同时相同区域内的深度特征对于描述图像特征有着相同的重要性㊂区域内响应的重要性决84朱㊀杰,等:基于深度特征加权的图像表示方法定着区域的重要性,区域R的区域权重计算公式为βR=((1/n㊃ðpɪR Sᶄp)/(ðpᶄɪΩSᶄpᶄ)1/a)1/b,其中:n为区域R中的响应个数;Ω代表特征映射中所有位置的集合;a=0.5;b=2㊂区域重要性分析中将每个区域认为是一个整体,即区域R中每个位置响应的区域重要性都为βR㊂由于每个位置可能会包含在多个区域当中,所以Sᶄ中任意位置p(i,j)的区域重要性βij为包含此位置的所有区域的重要性的平均值㊂1.3㊀通道权重通道重要性即同一个层次中,不同通道的响应在图像表示时的重要性㊂通道中非0元素所占比例越高,对于对象的描述能力越弱[12]㊂对于任意通道k,用Q k代表该通道特征映射中非0元素的比例㊂特征映射中的0元素表示对卷积核无响应,Q k越小则通道k对于某类特征的描述越精确,其计算公式为Q k =ðij M ij/(W k㊃H k),M ij=1if x ijȡλk0if x ij<λk{,其中:x ij为位置(i,j)的响应值;M ij为x ij通过与阈值λk比较之后生成的布尔值㊂2倍的平均响应值在图像显著性分析中经常被用于区分对象与背景,为此,我们将2倍的平均响应值λk=2㊃ðij x ij/(W k㊃H k)作为是否为0元素的判断标准㊂如果响应值小于阈值即为0元素,反之即为非0元素㊂对比单纯的按照响应值是否为0的判断方式,通过阈值判断并用于统计非0元素的方法,更能体现当前位置在本通道反映对象内容的作用㊂最终,通过不同通道非0元素的统计计算通道权重,其计算公式为γk=exp(-ðK i=1Q i/Q k)㊂2㊀实验2.1㊀数据集数据集1是INRIA Holiday图像集[15](Holiday),包含1491幅图像,其中500幅用于查询,并且每一幅图像对应着一个组,剩下的991幅图像用于测试检索结果㊂数据集2是Oxford Buildings图像集[16](Oxford5K),图像集中包含了从Flicker中收集的5062幅牛津地标性建筑的图像㊂这些图像可以分为11类,每个类别中的5幅图像用于查询㊂数据集3是Oxford Buildings100K[17](Oxford100K),在Oxford5K的基础上增加的100K图像组成㊂图像库4是Oxford Paris[17](Paris),包含了6412幅从Flicker上收集的巴黎地标的图像,共包括了埃菲尔铁塔等12个种类的查询㊂2.2㊀实验设计在Oxford5K㊁Oxford100K和Paris图像库中,我们将整幅图像作为卷积神经网络的输入㊂使用无监督图像检索方法[10-12],采用平均精度均值(mean average precision,MAP)来衡量检索的效果㊂该指标是针对查询集合的平均正确率的均值,MAP值越高,系统检索出来的相关文档越靠前㊂为了与文献[10]提出的方法进行比较,本文采用与该文献一样的网络结构与参数,即预训练卷积神经网络VGG16[18]㊂由于深层次的卷积和池化特征能够包含更多的语义信息,所以我们将Pool5层的深度特征作为基础,生成DWF图像表示㊂位置权重中的m越大,特征映射中不同位置的位置权重越相似,m越小则越能够突出不同位置的重要性,因此实验中我们设置m=3㊂区域权重计算过程中,尺度l的取值分别为3㊁4㊁5㊂算法采用余弦相似度衡量查询图像与图像库中其他图像之间的相似性,并按照相似性从高到低的顺序排列查询结果㊂查询扩展(query expansion,QE)能够有效提高检索性能,我们将前5个查询到的图像表示进行平均池化与L2归一化,进行二次查询与排序㊂我们的算法在图像表示的时候不需要改变图像的比例,在实验中保持了图像的原有特性㊂此外,由于Pool5层的特征映射维度为256,生成的图像表示也为256㊂2.3㊀检索性能分析如表1所示,DFW和DFW+QE两种方法与其他图像表示方法的MAP比较㊂Tr.Embedding[19]方法的MAP值最低,原因在于该方法采用人工特征SIFT作为局部描述子,通过局部特征聚合生成图像表示,而其他算法与此不同,均采用深度特征用于图像内容的描述,能够生成更接近语义的图像表示㊂与DFW相同,94郑州大学学报(理学版)Neural Codes [8]采用预训练网络提取图像特征,但由于没有给不同位置的特征加权,所以,检索性能要低于DFW㊂R-MAC [10]通过多尺度采样的方式将图像划分为若干区域,并选择一些区域进行特征聚合生成图像表示,这种方法可以认为是一种特殊的特征加权方法,即被选择的区域权重为1,其他区域权重为0㊂背景信息在图像检索中也有一定意义,DFW 给所有深度特征加权,并没有去掉背景信息,所以,有更强的图像全局表示能力㊂Spatial Pooling [20]将特征映射平均划分为若干细胞单元(cell),在不同细胞单元内通过最大池化的方法提取特征,该方法类似于DFW 中的中心点计算方法,但Spatial Pooling 的方法中,每个中心点必须在不同细胞单元之内,而DFW 则没有此限制,可以更加灵活地发现中心点㊂此外,SPoC [11]采用了中心特征赋予较高权值的方法,这种方法在一定程度上突出了中心区域的特征,但是由于对象可能出现在图像的任意位置,中心加权的方式在处理某些图像的时候会给背景赋予较大权值㊂DFW 采用了多中心的特征加权方式,以最大响应位置为中心,同时通过与中心的距离关系计算位置重要性,能够更加准确地发现对象区域㊂为了体现出本文位置重要性的优势,实验中将本文的位置重要性代替了SPoC 中的高斯加权方式,发现SPoC 的MAP 在数据集Oxford 和Holiday 中提高了3%左右㊂表1㊀DFW 与其他算法的MAP 比较Table 1㊀The comparison of MAP values between DFW and other methods算法维度MAP Paris Oxford 5K Oxford 5K +Oxford 100K Holiday Tr.Embedding [19]512 0.700Neural Codes [8]512 0.4350.329 R-MAC [10]5120.8300.6690.616 Spatial Pooling [20]2560.6700.533 0.742SPoC [11]256 0.6570.6420.784SSDH [21]5120.8390.638 RVD-W [22]512 0.675 0.845Radenovic ᶄ[23]5120.7550.6770.6060.837CroW [12]2560.7650.6840.6370.851CroW +QE5120.8480.7490.706 DFW 5120.8230.7510.7360.876DFW +QE 5120.8670.7760.7480.887㊀㊀CroW [12]在特征加权的时候考虑到了位置重要性和通道重要性,其中位置重要性主要由激活映射来决定,并没有考虑到不同响应之间的位置关系,以及相邻响应之间在对象区域发现中的相关性,DFW 考虑到近邻响应在图像区域位置的表示时应该有相似的作用,并在位置重要性的基础上加入了区域重要性,使得近邻位置响应的加权更加合理㊂此外,CroW 在计算通道权重的时候将响应值是否为0作为稀疏性的判断标准,与此类似,在显著性图的显著区域发现问题中,通常将2倍的平均显著性值作为0元素判断标准,DFW 将2倍的响应平均值作为0元素判断标准,能够更加准确地给对象区域赋予较高权值㊂通过实验比对可以发现,DFW 的MAP 值比CroW 高出了2%㊂当将DFW 的通道权重代替CroW 通道权重时,CroW 的MAP 则提高了1%左右,此结果说明本文的通道权重能够更好地识别对象特征㊂通常情况下,图像表示维度越高,对于图像内容的刻画越准确㊂从表1可以发现,DFW 在维度为256的时候,MAP 值要高于Spatial Pooling 和SPoC㊁CroW 等㊂当采用Conv5-3层提取深度特征的时候,DFW 的维度为512,MAP 有了进一步的提升㊂查询扩展可以为查询提供更加准确的描述,实验中将首次查询结果的前5幅图像特征表示平均池化与归一化后,将结果与原图像进行合并㊂从表1中可以发现CroW 和DFW 算法在添加了查询扩展之后,MAP 都有了显著提升㊂表1中有监督的图像检索方法如SSDH [21]㊁RVD-W [22]和Radenovic ᶄ[23]将图像集中的一部分作为训练集,通过设计损失结合反向传播算法,对网络参数进行更新,从而达到更好的检索性能㊂但是通过实验结果比对可以发现,我们的算法在维度相同的情况下,检索性能仍然优于这些算法㊂2.4㊀对象可视化分析图3为DFW +QE 的图像检索结果,图中最左边一列的图像为查询图像,其中红色框标识出的区域为标05朱㊀杰,等:基于深度特征加权的图像表示方法准查询中提供的对象所在位置,其余为检索结果为前5的图像㊂从查询结果可以发现,该方法对于光照和对象的角度有着比较好的鲁棒性㊂此外还可以发现,检索结果中图像的背景特征不一致,该方法对不同背景信息有着较好的鲁棒性㊂其原因主要在于DFW 将图像表示中对象的特征赋予了较高的权值,而背景特征赋予了较低的权值,所以在和池化的特征聚合过程中,对象的特征占据了主导因素,使得图像表示更加有针对性㊂图3㊀DFW +QE 的检索结果Figure 3㊀Retrieval results of DFW +QE图4㊀SPoC 与DFW 位置重要性对比Figure 4㊀Comparison of position importance between SPoC and DFWSPoC 依据图像库中的普遍规律给图像中心区域赋予较高权值,而边缘区域赋予较低权值㊂而DFW 则通过发现聚合特征映射中的高响应区域判断对象位置㊂图4展示了SPoC 与DFW 位置重要性在发现对象区域上的区别,图中4(a)为原始图像,4(b )第一行与第二行分别为SPoC 与DFW 位置重要性高权值部分对应的感受野㊂两种算法在特征映射权重最高的前20个位置中随机选择了5个位置,并显示出这些位置对应的感受野㊂通过对比可以发现,由于原始图像中对象的位置均没有处于图像的中心位置,SPoC 将高权值赋予了背景上的特征,而DFW 的位置重要性则赋予了对象区域㊂区域权重计算的本质是根据对象出现的连续性特点,判断不同区域对于表示对象内容的重要性㊂如果l 过大,会导致特征映射中采样区域对应原始图像中的范围过大,不利于对象区域的发现,如果l 过小,赋权值的过程中不能体现出区域的整体性㊂实验中,我们对l 的取值进行了3组测试,即{1,2,3}㊁{3,4,5}与{5,6,7},并发现当取值为{3,4,5}的时候取得了最好的检索效果㊂1525郑州大学学报(理学版)3 结束语本文提出的DFW图像表示方法,同时考虑到深度特征的位置重要性㊁区域重要性和通道重要性,使得生成的图像表示能够准确地体现对象的特征㊂DFW利用预训练卷积神经网络提取图像特征,利用特征映射的特点,加权并生成了低维度的图像表示㊂在图像检索的任务中,DFW的MAP比其他的算法高出2%左右㊂在未来的研究中,我们将研究如何构造基于深度加权特征的图像哈希算法,用于提高检索速度,并将其应用于司法领域㊂参考文献:[1]㊀王杰,刘向晴.彩色图像分割的FCM预分类核极限学习机方法[J].郑州大学学报(理学版),2018,50(2):75-80.WANG J,LIU X Q.FCM pre-classification kernel extreme learning machine algorithm of color image segmentation[J].Journal of Zhengzhou university(natural science edition),2018,50(2):75-80.[2]㊀LOWE D G.Distinctive image features from scale-invariant keypoints[J].International journal of computer vision,2004,60(2):91-110.[3]㊀KARAKASIS E G,AMANATIADIS A,GASTERATOS A,et al.Image moment invariants as local features for content based im-age retrieval using the bag-of-visual-words model[J].Pattern recognition letters,2015,55:22-27.[4]㊀SU Y,JURIE F.Improving image classification using semantic attributes[J].International journal of computer vision,2012,100(1):59-77.[5]㊀KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Com-munications of the ACM,2017,60(6):84-90.[6]㊀ZHANG M M,LI W,DU Q.Diverse region-based CNN for hyperspectral image classification[J].IEEE transactions on imageprocessing,2018,27(6):2623-2634.[7]㊀ZHENG L,YANG Y,TIAN Q.SIFT meets CNN:a decade survey of instance retrieval[J].IEEE transactions on pattern analy-sis and machine intelligence,2018,40(5):1224-1244.[8]㊀BABENKO A,SLESAREV A,CHIGORIN A,et al.Neural codes for image retrieval[M].Switzerlaned:Springer InternationalPublishing,2014:584-599.[9]㊀RAZAVIAN A S,AZIZPOUR H,SULLIVAN J,et N features off-the-shelf:an astounding baseline for recognition[C]ʊIEEE Conference on Computer Vision and Pattern Recognition Workshops.Columbus,2014:806-813.[10]TOLIAS G,SICRE R,JÉGOU H.Particular object retrieval with integral max-pooling of CNN activations[EB/OL].[2015-11-18].https:ʊ/abs/1511.05879.[11]YANDEX A B,LEMPITSKY V.Aggregating local deep features for image retrieval[C]ʊIEEE International Conference onComputer Vision.Santiago,2015:1269-1277.[12]KALANTIDIS Y,MELLINA C,OSINDERO S.Cross-dimensional weighting for aggregated deep convolutional features[M].Switzerlaned:Springer International Publishing,2016:685-701.[13]NG J Y H,YANG F,DAVIS L S.Exploiting local features from deep networks for image retrieval[C]ʊIEEE Conference onComputer Vision and Pattern Recognition Workshops.Boston,2015:53-61.[14]WEI X S,LUO J H,WU J X,et al.Selective convolutional descriptor aggregation for fine-grained image retrieval[J].IEEEtransactions on image processing,2017,26(6):2868-2881.[15]JEGOU H,DOUZE M,SCHMID C.Hamming embedding and weak geometric consistency for large scale image search[M].Berlin:Springer,2008:304-317.[16]PHILBIN J,CHUM O,ISARD M,et al.Object retrieval with large vocabularies and fast spatial matching[C]ʊInternationalConference on Computer Vision and Pattern Recognition.Minneapolis,2007.[17]PHILBIN J,CHUM O,ISARD M,et al.Lost in quantization:improving particular object retrieval in large scale image databas-es[C]ʊIEEE Conference on Computer Vision and Pattern Recognition:Anchorage,2008.[18]SIMONYAN K,ZISSERMAN A.SIMONYAN K,et al.Very deep convolutional networks for large-scale image recognition[EB/OL].[2014-09-04].https:ʊ/abs/1409.1556.[19]JEGOU H,ZISSERMAN A.Triangulation embedding and democratic aggregation for image search[C]ʊIEEE Conference on35朱㊀杰,等:基于深度特征加权的图像表示方法Computer Vision and Pattern Recognition.Columbus,2014:3310-3317.[20]RAZAVIAN A S,SULLIVAN J,CARLSSON S,et al.Visual instance retrieval with deep convolutional networks[J].ITE trans-actions on media technology and applications,2016,4(3):251-258.[21]YANG H F,LIN K,CHEN C S.Supervised learning of semantics-preserving hash via deep convolutional neural networks[J].IEEE transactions on pattern analysis and machine intelligence,2018,40(2):437-451.[22]HUSAIN S S,BOBER M.Improving large-scale image retrieval through robust aggregation of local descriptors[J].IEEE trans-actions on pattern analysis and machine intelligence,2017,39(9):1783-1796.[23]RADENOVICᶄF,TOLIAS G,CHUM O.Fine-tuning CNN image retrieval with No human annotation[J].IEEE transactions onpattern analysis and machine intelligence,2019,41(7):1655-1668.Deep Feature Weighting Based Image RepresentationZHU Jie1,ZHAO Xiangkun2,XIE Bojun3,4,WU Shufang5(1.Department of Information Management,the National Police University for Criminal Justice,Baoding 071000,China;2.School of Biomedical Engineering,Capital Medical University,Beijing100069China;3.Hebei Key Laboratory of Machine Learning and Computational Intelligence,Baoding071002,China;4.College of Mathematics and Information Science,Hebei University,Baoding071002,China;5.College of Management,Hebei University,Baoding071002,China) Abstract:Convolutional Neural Networks could provide effective representations for image contents in im-age retrieval.A deep feature weighting based image representation method was proposed,which could highlight the content of objects and reduce the impact of background information by weighting the deep features.Firstly,the feature maps were extracted by a pre-trained Convolutional Neural Network.Then, according to the characteristics of these features maps,the position weight,region weight and channel weight were computed and used to weight the deep features.Finally,the image representation was gener-ated by pooling and aggregation of the weighted deep features.Experiments demonstrated that compared with some state-of-the-art image representation methods,the proposed method could achieve better re-trieval results in the Holiday,Oxford and Paris image databases.Key words:convolutional neural networks;image retrieval;feature weighting;pooling(责任编辑:方惠敏)。
2023年11月第26卷第21期中国管理信息化China Management InformationizationNov.,2023Vol.26,No.21数字化时代高校网络舆情主题分类研究——以新浪微博为例贾隆嘉(东北师范大学 信息科学与技术学院,长春 130024)[摘 要]通过一种文本表示策略解决新浪微博主题分类研究所面临的特征权重表示不准确、模型解释性不强的问题。
【方法/过程】采取“选择前预测”构建特征加权向量,在训练集上通过交叉验证方式对特征加权向量的成效进行评价,选择最好评估结果对应的特征加权向量作为测试集的特征加权向量。
【结果/结论】对比传统W-Max、D-Max和D-TMax三种方法,本文提出的方法在微平均F1方面分别提升4.25%、5.03%和7.10%。
在网络舆情主题分类中,该方法可以为数据集构建更明确的特征加权向量,并增强模型的可解释性,同时提升分类性能。
[关键词]网络舆情;主题分类;文本表示策略;机器学习doi:10.3969/j.issn.1673-0194.2023.21.047[中图分类号]TP391;G647 [文献标识码]A [文章编号]1673-0194(2023)21-0158-070 引 言随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,成为思想文化信息的集散地和舆论的放大器。
高校学生是网民中对社会热点现象反映最积极、最活跃、最敏感的群体,极易通过互联网表达自己对社会热点问题的看法。
在某些情况下,他们的意见和建议得不到重视或延误解决,就可能在网上形成炒作,个体情绪可能传染到群体,演变为群体的不满情绪,激化矛盾,爆发形成网络舆情。
高校学生群体既有较强的公民责任感,又具备组织行动的天然优势,遇到某些敏感热门话题,一经煽动,极易激发他们的社会责任感和民族情怀,进而引发大规模的网络舆情。
高校网络舆情作为社会舆情的一个组成部分,在一定程度上反映并影响社会舆情的生成与发展。
向量的线性组合与线性相关性在线性代数中,向量的线性组合是指将多个向量按照一定的比例进行加权相加的运算。
线性相关性则是指一组向量之间是否存在线性关系,即其中一个向量是否可以表示成其他向量的线性组合。
在本文中,我们将探讨向量的线性组合与线性相关性之间的关系及其在实际问题中的应用。
一、向量的线性组合在二维空间中,考虑两个向量u=(u1,u2)和v=(v1,v2)。
那么它们的线性组合可以表示为:au + bv = (au1 + bv1, au2 + bv2)其中a和b为任意实数。
同样地,在三维空间中,考虑两个向量u=(u1,u2,u3)和v=(v1,v2,v3)。
那么它们的线性组合可以表示为:au + bv = (au1 + bv1, au2 + bv2, au3 + bv3)其中a和b为任意实数。
这种线性组合的概念可以进一步推广到n维空间中的任意向量。
二、线性相关性当一个向量可以表示成其他向量的线性组合时,这组向量被称为线性相关的。
具体地,对于一组向量v_1, v_2, ..., v_n,如果存在不全为零的实数x_1, x_2, ..., x_n,使得线性组合x_1v_1 + x_2v_2 + ... +x_nv_n = 0成立,则这组向量是线性相关的。
根据线性相关性的定义可以得出以下结论:1. 如果一组向量中存在一个零向量,则这组向量是线性相关的;2. 如果一组向量中至少有一个向量可以表示成其他向量的线性组合,则这组向量是线性相关的;3. 如果一组向量中的向量个数大于向量的维数,则这组向量是线性相关的。
三、线性相关性与线性方程组线性相关性与线性方程组的解之间存在着密切的联系。
对于n个未知数和m个方程的线性方程组,可以将其表示为矩阵形式AX = 0,其中A是一个m×n的矩阵,X是一个n×1的向量,0为全零向量。
当线性方程组有非零解时,即存在一组非零解向量X,使得AX = 0成立时,可以得出结论:矩阵A的列向量是线性相关的。
基于互信息的文本特征加权方法樊小超;张重阳;邓雄伟【摘要】特征加权是文本分类中的重要环节,通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。
为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法。
实验结果表明,该方法比传统的特征加权方法具有更好的分类性能。
%Feature weighting is an important part of the procedure of text categorization, by examining the traditional feature selection function, it finds that the method of mutual information in feature weighting process performs particularly promi-nent. In order to improve the performance of the method of mutual information in feature weighting, the paper adds the term frequency information, document frequency information and categories correlation factor, and proposes a feature weighted based on mutual information method. The experiments show that this method has better classification perfor-mance than the traditional feature weighting method.【期刊名称】《计算机工程与应用》【年(卷),期】2015(000)013【总页数】5页(P145-148,190)【关键词】文本分类;特征选择;特征加权;互信息【作者】樊小超;张重阳;邓雄伟【作者单位】南京理工大学计算机科学与工程学院,南京 210018; 新疆师范大学计算机科学技术学院,乌鲁木齐 830054;南京理工大学计算机科学与工程学院,南京 210018;南京理工大学计算机科学与工程学院,南京 210018【正文语种】中文【中图分类】TP3911 引言随着计算机技术、网络技术、数据库技术的快速发展与普及应用,网络成为人们获取信息最大的资源库。
答案******************************* 一 ********************************************填空1.数值型文字型(字符)语音型图像型2.原料成品3.信息4.自然人为5.数据文本声音图像6.语义差异传递载体7.外表整体内容8.收集传输加工储存(存储)9.信息形式信息内容10.内在的信息需要外在刺激11.标题词单元词叙词关键词12.线性结构非线性结构树形结构网状结构13.数据预处理索引生成查询处理检索14.信息需求信息集合15.出发点依据16.人工赋予自动生成名词解释1.数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。
2.信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。
3.信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。
4.检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。
5.信息检索:可以从广义和狭义两个角度理解。
广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。
狭义的信息检索仅指信息查找过程。
6.信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。
7.检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。
简答题1.简述了解用户信息需求的作用答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。
了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。
特征加权方法1.布尔函数布尔模型是建立在经典的集合论和布尔代数的基础上的一种简单检索模型,它的特点是查找那些于某个查询词返回为“真”的文档。
在该模型中,一个查询词就是一个布尔表达式,包括关键词以及逻辑运算符。
通过布尔表达式,可以表达用户希望文档所具有的特征。
由于集合的定义是非常直观的,Boolean模型提供了一个信息检索系统用户容易掌握的框架。
查询串通常以语义精确的布尔表达式的方式输入。
根据每个词在一篇文档中是否出现,对应权值为0或1,文档检索也是由布尔逻辑运算来决定的。
优点:具有清楚和简单的形式缺点:第一,它的检索策略是基于二元判定标准(binary decision criterion)(例如,对于检索来说一篇文档只有相关和不相关两中状态),缺乏文档分级(文档分级的概念,用一个例子说明:对于一个文档是否属于某一类,我们说,它是属于的,只是属于的程度不同,根据它的定义和该类的定义,如果它完全符合这一类的概念,那么它就是100%属于这一类,如果只有30%符合那就30%属于这类,如果它的定义完全不符合该类的定义,那么,它就0%属于该类。
)的概念,限制了检索功能。
第二,虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求转换为布尔表达式,实际上大多数检索用户发现在把他们所需的查询信息转换为布尔时并不是那么容易。
2.TF-IDF算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
算法思想:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。
举例:有很多不同的数学公式可以用来计算TF-IDF。
这边的例子以上述的数学公式来计算。
基于向量空间模型的文本分类研究随着互联网的快速发展,每天都会涌现出海量的文本数据,这些数据需要被有效地处理和管理。
文本分类作为一种重要的文本处理技术,在信息检索、舆情分析、情感分析、文本挖掘等领域都有着广泛的应用。
基于向量空间模型的文本分类是一种广泛应用的方法,它将文本转化为向量形式,利用向量之间的距离计算相似性,从而实现文本分类。
本文将介绍基于向量空间模型的文本分类研究,包括向量空间模型、文本表示方法、特征选择和分类器选择等方面的内容。
一、向量空间模型向量空间模型主要指的是将文本表示为向量形式的方法。
在向量空间模型中,每个文档表示为一个向量,每个向量的元素表示一个词语在文档中的权重。
通过计算这些向量之间的相似性来实现文本分类。
向量空间模型的优点是容易理解和实现,但也存在一些缺陷,比如词语之间可能存在歧义,在计算相似性时会出现误差。
因此,在实际应用中,需要使用其他技术来进一步提高文本分类的准确性。
二、文本表示方法文本表示方法主要指的是将文本转化为向量的具体方法。
常见的文本表示方法包括tf-idf、Word2Vec、Doc2Vec等。
其中,tf-idf是一种简单而有效的表示方法,它将每个词语的重要性表示为其在文本中的出现次数与在语料库中的出现频率的乘积。
Word2Vec和Doc2Vec是一种基于神经网络的表示方法,它可以将每个词语表示为一个向量形式,从而实现更加准确的文本表示。
三、特征选择特征选择指的是从所有特征中挑选出最有用的特征。
在文本分类中,特征选择非常重要,因为不同的特征对分类结果的影响不同。
一般来说,特征选择可以分为三个步骤:特征提取、特征筛选和特征加权。
特征提取指的是将文本转化为向量;特征筛选是将所有特征按照重要性进行排序,并选择其中最有用的特征;特征加权是为每个特征分配一个权重,以提高其在分类中的作用。
四、分类器选择分类器选择指的是选择合适的分类器来对文本进行分类。
常见的分类器包括朴素贝叶斯、支持向量机、决策树、神经网络等。
基金项目:国家自然科学基金资助(编号:60673089)。
作者简介:林永民,女,1972年生,硕士,讲师,研究方向为文本分类与机器学习;吕震宇,男,1976年生,硕士,讲师,研究方向为数据挖掘和模式识别;赵 爽,女,1982年生,硕士,研究方向为信息检索;朱卫东,男,1960年生,副教授,研究方向为数据挖掘和信息处理。
向量空间模型中特征加权的研究*Research on Feature Weighting in VS M林永民1 吕震宇1 赵 爽1 朱卫东2(1.河北理工大学经济管理学院 唐山 063009;2.北京交通大学计算机与信息技术学院 北京 100044)摘 要 随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。
常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用T F I DF 方法对特征加权。
但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降。
针对T F IDF 方法存在的问题,提出了一种基于特征基尼指数的特征加权方法T F G IN I 。
实验结果显示,这种加权方法具有很好的分类性能。
关键词 文本分类 特征选择 基尼指数 特征加权 向量空间模型 自动文本分类是一个有监督的学习任务,通过对已分配好类标签的训练文档集的学习,为新文档分配类标签。
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。
现有的特征选择方法主要是基于统计理论和机器学习方法,比较著名的有信息增益(Information G ain)、期望交叉熵(Expected Cross Entroy)、文本证据权(the Weight o f Evidence of T ext)、 2统计等,很多研究者都已经通过实验证明它们是很好的文本特征选择方法。
特征选择后最常用向量空间模型来表示文本,将文本看作特征空间的一个向量,其坐标系所采用的测度主要使用Saltond 在1988年提出的T F IDF 值,词频T F 为单词在该文档中出现的次数,逆文本频数I DF=log (N /N t ),其中t 代表单词,N 代表训练集中文本总数,N t 代表出现t 的文档数。
以词频T F 和逆文本频数IDF 的乘积作为特征的加权方案,具有简单直观、处理速度快等优点,因此在文本分类中被广泛使用。
但由于T F IDF [1-3]这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,这种简单的结构使它不可能很好地反映单词的有用程度,从而导致分类准确率下降。
本文研究的重点不是特征选择,而是特征选择后应如何对特征进行加权。
T F IDF 特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑,提出了一种基于基尼指数的特征加权方案T F GI NI ,根据含有特征样本的类分布概率,计算特征的基尼指数G IN I,以词频T F 与特征的基尼指数GIN I 的乘积作为特征的权重,在没有增加计算复杂度的情况下,充分考虑了特征区别不同类别的能力。
通过在Reuters-21578文档集和复旦大学计算机与信息技术国际数据库中心提供的中文语料集上与T F IDF 方法的对比实验,结果显示采用T F G IN I 方法的分类性能超过T F IDF ,且并没有增加算法的时间复杂度。
1 TF IDF 加权方法的分析向量空间模型是目前最简便高效的文本表示模型之一。
其基本思想是:给定一自然语言文档D =D (t 1,w 1;t 2,w 2; ;t N ,w N ),其中t i 是从文档D 中选出的特征项,w i 是特征项的权重,1 i N 。
为了简化分析,通常不考虑t k 在文档中的先后顺序并要求t k 互异(即没有重复)。
这时可以把t 1,t 2, ,t N 看成一个N 维的坐标系,而w 1,w 2, ,w N 为相应的坐标值,因而D (w 1,w 2, ,w N )被看成是N 维空间中的一个向量。
其坐标系的测度主要采用Salton 在1988年提出的T F I DF,词频T F 为单词在该文本中出现的次数,而逆文本频数IDF=log (N /N t ),其中t 代表此单词,N 代表训练集中文本总数,N t 代表出现t 的文档数。
陆玉昌等在文献[3]中分析了T F IDF 思想的两条基本假设:a.在一个文本中出现次数很多的单词,在另一个同类文本中出现的次数也很多,反之亦然。
所以取词频T F 作为测度的一部分来体现同类样本的特点。
这条假设是可以接受。
b.一个单词出现的文本频数越少,它区别不同类别的能力就越大。
所以引入逆文本频数IDF 的概念,以T F 和IDF 的乘积作为特征空间坐标系的测度。
文献[3]从单词加权和向量旋转的角度,解释了I DF的简单结构不可能很好地反映单词的有用程度。
提出了采用去掉信息增益、文本证据权等公式中的P(W)后,对单词加权,并通过实验验证了改进的有效性。
T horsten在文献[2]中运用概率理论分析了T F IDF的乘积作为特征空间坐标系测度不一定能得到高的分类精度,并成功地提出了一种介于传统T F IDF法和朴素贝叶斯模型之间的一种分类模型。
我们从特征对分类的有用程度角度出发,发现T F IDF 加权可能会将大权重赋给稀有词,而不管它的类分布特征如何。
这些稀有词可能导致无效的分类。
可以通过一个简单的实例来分析T F IDF的缺陷。
考虑如下情况:训练文档集中的文档总数为300篇,其中属于A类的文档数为100,属于B 类的文档数为200,单词t1与t2当且仅当出现在B类文档中,且N t1=200,N t2=100,文档D B类,单词t1与t2都出现在文档D中,且T F(t1)=T F(t2)。
使用T F IDF方法对两个单词加权后得到,T F(t1)*log(N/N t1)< T F(t2)*log(N/N t2),词t1因为稀有而具有较高的T F IDF。
但是在这种情况下,t2显然具有更强的类别区分能力,对分类的贡献更大。
T F IDF简单地采用倒文本频数对特征进行加权,而没有考虑特征的类分布,是导致加权后分类精度低的主要原因。
2 基于基尼指数的文本特征加权方法基尼指数是一种不纯度分裂方法,它能适用于类别、二进制、连续数值等类型的字段,是Br eiman等人于1984年提出的,被广泛应用在CART算法、SL IQ算法、SPR INT算法和Intelligent M iner(IBM公司的数据挖掘工具)的决策树算法中,并获得了非常好的分类精度。
2.1 基尼指数原理 具体算法思想:假设S是s个数据样本的集合,其类标号属性具有m个不同值,定义m个不同类(C i,i=1,...,m)。
根据类标号属性值的不同可将S划分为m个子集(S i,i=1,...,m),设S i是属于类C i的样本集,s i 是集合S i中的样本数。
则集合S的基尼指数为:Gini(S)=1- m i=1P2i(1)其中P i是任意样本属于C i的概率,并用s i/s估计。
当G ini(S)最小为0时,即在此集合处所有记录都属于同一类别,表示能得到最大的有用信息;当此集合中的所有样本对于类别字段来讲均匀分布时,Gini(S)最大,表示能得到最小的有用信息。
基尼指数的最初形式是测量属性对于分类来说的 杂度 ,数值越小,即 杂度 越小,属性越好;如果采用Gini(S)= m i=1P2i(2)则是测量属性对于分类的 纯度 ,数值越大,即 纯度 越大,属性越好。
2.2 基于基尼指数的文本特征加权方案 基尼指数是一个用于集合纯度评测的优秀测度。
特征对于分类的有用程度可以用特征的纯度来度量,特征应尽可能是纯的。
一个特征是纯的,出现这个特征的所有文档都属于同一个类别[4]。
因此我们采用特征的纯度来代替倒文档频数,提出T F GIN I加权方法。
具体方法是在文本特征选择之后,先求出现特征t 的文档集中每个类的发生概率P(C i|t),然后根据(3)式计算特征的基尼指数G ini(S)= m i=1P(C i|t)2(3)采用T F GIN I为特征t k加权并进行归一化的公式如下:w ik=tf ik gini(t k)mj=1[tf jk gini(t k)]2(4)其中w ik表示词条t k在文档D i中的权重;tf ik表示词条t k 在文档D i中的出现频数。
Shankar等在文献[5]中也讨论了应用基尼指数原理进行文本特征选择及权值调整的问题,即首先根据T F-IDF从原始特征空间的所有的词中形成类中心向量,再根据所有的类中心向量计算所有特征的基尼指数,最后根据预定的数目选择基尼指数大的特征。
并且讨论的范围仅限于质心法分类。
但我们在本文中所用的方法与其完全不同,我们重点讨论的是在特征选择之后,对特征的加权,且加权方案不仅适合质心法分类,而且适合于已有其他的文本分类器。
3 实验结果与分析为了进一步考察算法的效果,我们采用了V C++6.0实现本算法,部分源代码采用了复旦大学计算机与信息技术系李荣陆提供的文本分类器源代码。
3.1 数据集 在实验中我们使用了两个语料集:一个是公认的英文标准分类语料R euters-21578;另一个是来自复旦大学计算机信息与技术系国际数据库中心提供的中文语料集。
Reuter新闻语料集是在文本分类研究中被最广泛使用的语料集,1987年修订的R euters-21578共有21578个文档。
在实验中我们使用了其中最普通的10个类,训练集7951个文档,测试集2726个文档,词根还原和去停用词后有23281个单词。
实验集中类的分布是不均匀的,属于最大类的文档有2875个,占总训练文档数的40.762%;属于最小类的文档有170个,仅占总训练文档数的2.41%。
实验采用的第二个数据集是来自复旦大学计算机信息与技术系国际数据库中心提供的中文语料集。
共有19637篇文档,分为20个类。
取其中的10类,训练文集中共有1882篇文档,测试集900篇,经分词且去停用词后共获得35028个词。
训练集中类分布相对不均匀,其中政冶类文档338篇,占到了训练文档集的17.96%,而环境类的文档134篇,仅占到文档集的7.12%。
3.2 分类器 分类器采用fkN N,其判别函数采用我们在文献[6]提出的F SW F规则:j(X)= k i=1 j(X i)sim(X,X i)(1-sim(X,X i))2/(b-1)/k i=11(1-sim(X,X i))2/(b-1)(5)其中j=1,2,...,c, j(X i)sim(X,X i)为已知样本X对第j类的隶属度值,如果样本X属于j类则 j(X i)为1,否则为0。