当前位置:文档之家› 基于改进词向量模型的深度学习文本主题分类

基于改进词向量模型的深度学习文本主题分类

基于改进词向量模型的深度学习文本主题分类
基于改进词向量模型的深度学习文本主题分类

设计文件编制深度

景观设计文件编制深度 1.总则 1.1.为了加强景观工程设计文件编制工作的管理,保证各阶段设计文件的质量和完整性,我司特参考建设部2003年颁发的《建筑工程设计文件编制深度的规定》并且结合景观设计工作的实际情况制定本规定。 1.2.本规定适用于环境景观设计的土建专业、植物专业、给排水专业与电气专业的设计文件的编制。 1.3.设计文件的编制必须贯彻执行国家有关工程建设的政策和法令,符合国家现行的建设工程建设标准、设计规范。 1.4.本规定从2006年10月1起开始执行。 初步设计文件编制深度 1.一般规定 1.1.初步设计应以已批准的方案设计为依据进行编制,并满足方案设计要求。内容以图纸为主,应包括:封面、目录、设计说明、图纸。 1.2.初步设计文件的深度应满足下列要求: a.应满足编制施工图设计文件的需要。 b.能编制工程概算书。 c.应包含主要的设备或材料表。 2.设计深度细则 2.1.封面:包含项目名称、编制单位、编制年月。 2.2.设计总说明 a.工程概况:包含工程名称、建设地点、主要经济技术指标。 b.设计主要依据。 设计中贯彻的国家和地方相关法规政策 建设单位批准确认的方案设计文件 建设单位提供的基础资料 采用的相关设计规范 c.技术措施。包含土建,植物,水电等各专业总说明。 d.其他说明:特别情况的说明或对图纸文件及制图标准的补充与说明。 景观土建 2.3.※总平面图(当工程场地复杂,地形变化大,涉及到场地内地形地物可能

会保留或者加以利用的时候必须作此图) a.保留原地形地物,场地四邻原有及规划道路的位置、名称及关键标高。 b.建设用地红线。 c.建筑物,构筑物(人防工程、地下车库、贮水池、化粪池等隐蔽工程) 的位置、名称、层数。建筑物室内外标高值,重要点坐标值。 d.景区、景点、场地的划分;景观建筑、小品、设施、水体、道路、停车 场、挡墙的平面布置;景区、景点和景物的名称。 e.主干道路中心线及标高值和坐标值。 f.主要场地标高。 g.指北针或风玫瑰图。 h.绿地表示:除有特殊意境(树阵,林荫大道, 景观大树等)的用植物图 例表示以外,其他绿地一律填充成草地。 i.表示出主要场地的铺装大致分割。 j.重要技术经济指标。 k.总平面图例:建筑、道路、水体、绿地等 2.4.景观总平面布置图 a.以突出景观设计内容为主要目的。 b.场地四邻原有及规划道路的位置。 c.建设用地红线。 d.建筑物,构筑物(人防工程、地下车库、贮水池、化粪池等隐蔽工程虚线表示)的位置、名称、层数。建筑物室内外正负零标高值。 e.景区、景点、场地的划分;景观建筑、小品、设施、水体、道路、停车场、挡墙的平面布置;景区、景点和景物的名称。 f.主干道路中心线及标高值。主要场地标高。 g.绿地表示:除有特殊意境(树阵,林荫大道, 景观大树等)的用植物图例表示以外,其他绿地一律填充成草地。 h.表示出主要场地的铺装大致分割。 i.指北针或风玫瑰图。 j.当无2.3条规定的总平面图的时候,本图中必须加重要技术经济指标。 k.总平面图例:建筑、道路、水体、绿地等 2.5.总平面图索引图(或分区图) a.以清晰表现图纸分区为主要目的。 b.在景观总平面图基础上加分区索引。

深度学习综述

深度学习综述 摘要:深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示。这些方法在许多方面都带来了显著的改善,包括最先进的语音识别、视觉对象识别、对象检测和许多其它领域,例如药物发现和基因组学等。深度学习能够发现大数据中的复杂结构。它是利用BP算法来完成这个发现过程的。BP算法能够指导机器如何从前一层获取误差而改变本层的内部参数,这些内部参数可以用于计算表示。深度卷积网络在处理图像、视频、语音和音频方面带来了突破,而递归网络在处理序列数据,比如文本和语音方面表现出了闪亮的一面。 Review of Deep learning Abstract: Deep learning allows computational models that are composed of multiple processing layers to learn representations of data with multiple levels of abstraction. These methods have dramatically improved the state-of-the-art in speech recognition, visual object recognition, object detection and many other domains such as drug discovery and genomics. Deep learning discovers intricate structure in large data sets by using the backpropagation algorithm to indicate how a machine should change its internal parameters that are used to compute the representation in each layer from the representation in the previous layer. Deep convolutional nets have brought about breakthroughs in processing images, video, speech and audio, whereas recurrent nets have shone light on sequential data such as text and speech. 1 引言 机器学习技术在现代社会的各个方面表现出了强大的功能:从Web搜索到社会网络内容过滤,再到电子商务网站上的商品推荐都有涉足。并且它越来越多地出现在消费品中,比如相机和智能手机。 机器学习系统被用来识别图片中的目标,将语音转换成文本,匹配新闻元素,根据用户兴趣提供职位或产品,选择相关的搜索结果。逐渐地,这些应用使用一种叫深度学习的技术。传统的机器学习技术在处理未加工过的数据时,体现出来的能力是有限的。几十年来,想要构建一个模式识别系统或者机器学习系统,需要一个精致的引擎和相当专业的知识来设计一个特征提取器,把原始数据(如图像的像素值)转换成一个适当的内部特征表示或特征向量,子学习系统,通常是一个分类器,对输入的样本进行检测或分类。特征表示学习是一套给机器灌入原始数据,然后能自动发现需要进行检测和分类的表达的方法。深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层次的,更加抽象的表达。通过足够多的转换的组合,非常复杂的函数也可以被学习。对于分类任务,高层次的表达能够强化输入数据的区分能力方面,同时削弱不相关因素。比如,一副图像的原始格式是一个像素数组,那么在第一层上的学习特征表达通常指的是在图像的特定位置和方向上有没有边的存在。第二层通常会根据那些边的某些排放而来检测图案,这时候会忽略掉一些边上的一些小的干扰。第三层或许会把那些图案进行组合,从而使其对应于熟悉目标的某部分。随后的一些层会将这些部分再组合,从而构成待检测目标。深度学习的核心方面是,上述各层的特征都不是利用人工工程来设计的,而是使用一种通用的学习过程从数据中学到的。 深度学习正在取得重大进展,解决了人工智能界的尽最大努力很多年仍没有进展的问题。它已经被证明,它能够擅长发现高维数据中的复杂结构,因此它能够被应用于科学、商业和政府等领域。除了在图像识别、语音识别等领域打破了纪录,它还在另外的领域击败了其他机器学习技术,包括预测潜在的药物分子的活性、分析粒子加速器数据、重建大脑回路、

基于深度学习的图像字幕生成方法研究

基于深度学习的图像字幕生成方法研究 发表时间:2019-02-28T15:08:21.577Z 来源:《基层建设》2018年第36期作者:王珊珊 [导读] 摘要:几年之前,由于计算能力的不足以及大规模图像字幕数据集的缺少,这就导致了国外很少有人做这方面的研究,其所得到的结果也让人不尽满意,在国内更是鲜有人涉及这个方向。 华风气象影视技术中心北京 100000 摘要:几年之前,由于计算能力的不足以及大规模图像字幕数据集的缺少,这就导致了国外很少有人做这方面的研究,其所得到的结果也让人不尽满意,在国内更是鲜有人涉及这个方向。不过,随着近两年计算机运算能力的提高、深度学习(DL)的发展以及众多大规模图像字幕数据集的出现,这才使得这项任务重新回归到人们的视野并逐渐成为了计算机视觉与自然语言处理领域中的一个研究热点。本文就图像字幕生成任务中所涉及的深度学习算法,在总结前人提出的各种网络及其成效的基础上,研究适合图像字幕生成任务的深度学习模型,为该研究方向提供一定的指导意义。 关键词:深度学习;图像字幕;生成方法 1图像字幕生成概述 图像字幕生成是继图像识别、目标定位、图像分割后又一新型计算机视觉任务。在计算机视觉发展的初期,研究者们尝试利用计算机程序来模拟人类视觉系统,并让其告诉我们它看到了什么,这也就是最基本的图像识别。继图像识别之后,人们又提出更高的要求,即在识别的基础上确定目标在图像中的位置或将其从图像中分割出来。但是,上述任务都是将图像划分到一个或者多个离散的标签中去,它既没有描述出图像中各个对象的关系,也没有给出图像中正在发生的事情。为此,图像字幕生成应运而生,图像字幕生成方法也开始逐渐产生、发展并不断成熟起来。上个世纪七十年代,研究者们认为要让计算机理解它所看到的是什么东西时,必须像人眼一样具有立体视觉。在这种认知的情况下,研究者们希望把物体的三维结构从图像中恢复出来,并在此基础上再让计算机理解和判断。到了八九十年代,研究人员发现要让计算机理解图像,不一定要先恢复物体的三维结构,而是靠物体所具有的一些表面或局部特征。例如,当计算机识别一个苹果时,假设计算机事先知道苹果的形状纹理等特征,并且建立了这样一个先验知识库,那么计算机就可以将看到的物体的特征与先验知识库中的特征进行匹配。如果能够匹配,计算机就可以被认为理解了这个物体。随后,研究者们又利用这些特征,设计各种分类器来达到理解图像的目的。在计算机理解图像的基础上,研究者们又设计不同的算法来实现目标定位、图像分割、简单的图像字幕生成。其中,传统的图像字幕生成方法就是在得到图像里面的不同物体的基础上,采用自然语言处理技术通过一些检索的方法生成对应的字幕描述。 2基于深度学习的图像字幕生成方法研究 深度学习是机器学习(ML)领域中的一个新的研究方向,它的概念来源于人工神经网络(ANN)的研究,其实质就是通过构建机器学习模型和利用海量的训练数据,来逐层变化特征,以提升分类或者预测的准确性。同传统的机器学习方法一样,深度学习也有监督学习和无监督学习之分,不同学习框架下建立的学习模型也是不同的。 2.1基于卷积与循环神经网络的图像字幕生成 2.1.1基于卷积神经网络的图像特征提取 图像特征提取是指计算机经过一系列算法将一幅原始RGB图像转化成一个特征向量或一个特征矩阵,该向量或矩阵就在其空间中代表了这幅图像。图像特征一般包括低级特征和高级特征。常见的低级特征包括颜色特征、纹理特征、形状特征、空间关系特征。低级特征的优点是计算简单直接,缺点是对图像敏感,不能反映图像本身所包含的对象信息。图像的高级特征是指该特征包含了一定的语义信息,利用该特征可以更加容易地识别该图像所包含的内容。本文将利用最先进的卷积神经网络结构进行图像特征提取,常见的有AlexNet、VGG、GoogleNet、ResNet等,这些网络在ImageNet图像分类比赛(ImageNet是由美国斯坦福大学计算机视觉实验室建立的,目前世界上最大的图像识别数据库)中可以达到与人类相媲美的优异结果。本文同大多数计算机视觉应用一样,将采用在ImageNet数据集上预训练好的卷积神经网络,然后通过迁移学习的方法将其用于图像字幕生成任务。对于上述任何一个卷积神经网络可以将其简化成如下图的结构: 2.1.2基于循环神经网络的语言建模与生成 图像可以通过卷积神经网络转变成含有高级语义信息的特征向量。类似的,对于句子也要将其转换成向量才能方便后续处理。一般的,句子往往是由很多个单词组成,将每个单词转变成成一个有意义的词向量比向量化整个句子处理起来更加灵活。有了词向量以后,句子则可以通过一系列按顺序排列的词向量表示。为了能表示出所有字幕,本章将字幕集出现过的所有单词组成一个集合,并将该集合形象化地称为“字典(V ocabulary)”。对于字典里的所有单词,可以将其按顺序排列,并将其序号作为其唯一索引。假设字典的大小为V,即字典共包含V个单词。对于每一个单词,为了方便可以将其进行独热(One-hot)编码,即用长度为V的向量S表示,该向量除了单词对应的索引位为1以外其余全部为0。one-hot编码只是给出了单词的唯一索引信息,想要将其应用在其他任务中就必须将其特征向量化,即word2vec (Word to Vector)。常见的word2vec模型有CBoW(Continuous Bag of Words)模型、Skip-grams模型,采用这些模型就必须单独将其在语料库上训练,这同样会导致模型不能进行端到端训练。近些年,研究证明循环神经网络是一种非常适合该任务的时序模型,它不仅可以根据语句的上下文信息完成word2vec,还可以非常方便地生成新的句子。 2.2基于注意力机制模型的图像字幕生成 2.2.1图像特征提取 上一节的图像字幕生成模型所提取的图像特征是来自卷积神经网络最后的全连接层,它是一个一维向量。因此,它只包含了图像全局的语义信息,而丢失了图像内容之间的位置信息。对于图像的卷积运算来说,它有一个很好的特点,就是卷积的结果能够保留输入图像大致的位置信息。因此,不含有全连接网络的卷积神经网络同样具有这个性质。根据上述思想,为了将每个特征向量与二维图像内容的位置

概念性方案设计文件编制及深度要求

概念性方案设计文件编制及深度要求 第一部分概述 按照管理本部的设计管理流程要求,概念性方案设计是承接项目和产品的设 计阶段,概念性方案设计在概念性方案设计任务书和项目产品建议问题总结的基 础上,设计思路应具有延续性、探索性、独创性和挑战性。 1.方案设计文件编制的目的和特点 a)概念性方案阶段的任务包括以下两大方面: i.根据项目的实际情况,确定设计管理模式,起主要工作成果体现在 设计任务分解清单和设计费用预算、项目设计总体控制计划以及设 计单位的筛选;有关项目设计总体控制计划的编制要求可以参照《项 目规划设计分析成果标准》相关章节执行; ii.通常意义上的概念性方案设计。对概念性方案设计本身的要求可以参照本文执行; b)概念性方案可以根据需要结合当地政府报批所需的修建性详规设计,概 念性方案深度以修建性详规深度为参照依据。设计内容在体现概念性方 案设计任务书的基础上,应围绕修建性详规、场地分析和住宅单体选型 的要求进行,表现手法可根据报批或者项目具体需要灵活确定。 c)概念性方案设计文件包括设计单位或分公司规划设计部提供的: i.设计单位提供的概念性方案设计文件应以构思分析草图、场地分析 草图、住宅单体风格以及户型选型示意图和总平面设计构思图纸为 主,辅以对整体概念构思的的简要设计说明; d)概念性方案设计文件以说明如何实现甲方策划意图和设计的整体构思为 主,结合政府报批要求及公司内部要求可以采用灵活的表现手法,为充 分展示设计意图、特征和创新之处,可以有分析图草图、总平面及单体 建筑图、透视图,还可根据项目需要增加模型、电脑动画、幻灯片等。

2.概念性方案设计文件的内容与编排 概念性方案设计应包含以下两大组成部分,分别由设计单位和分公司规划设计部提供。 a)设计方应该提供概念性方案构思说明书、设计图纸、透视图三部分,编 排顺序为: i.封面:写明方案名称、设计单位、设计年月; ii.扉页:注明方案编制单位的行政和技术负责人、设计总负责人、概念性方案设计人,并经上述人员签署或授权盖章;以上人员需加注 专业技术职称,本部分必要时需附透视图或者模型照片; iii.概念性方案设计文件目录; iv.概念性方案构思说明:由总说明和各专业构思说明组成;具体要求可参照国家修建性详细规划的设计说明格式,并应考虑增加结合项 目实际情况的设计内容说明; v.主要技术经济指标:主要指总建筑面积、容积率、各分类建筑面积、各类住宅每户单元建筑面积等;设计单位应该完成《概念设计任务 书》中的各类统计表格。同时,分公司规划设计部负责人应该审核 上述数据的真实性; vi.设计图纸:主要由规划总平面图、以及道路、竖向、管线、绿化景观、土方平衡等总图类图纸,以及建筑专业图纸组成,可参见第二 部分概念性方案图纸目录; b)分公司设计部应对概念性方案做出完整的书面评估意见; c)如设计合同以及设计任务书中有特别的约定,其设计文件的编制,应按 照招标的规定和要求执行。 3.概念性方案设计文件的规格与装订 概念性方案设计文件主要是公司内部根据本规定或者设计任务书的约定制作,以下为主要编制原则: a)一般项目应按设计说明书、主要技术经济指标、设计图纸、分析说明, 共四部分。复杂项目每部分可以独立分册装订;

用社会化方法计算社会-学者网

同时,网络社会的虚拟性、用户匿名性、信息海量性、事件发展复杂性为虚拟数字社会的管理带来极大的挑战。特别是我国现处在经济转轨时期,各种事件频发,加强虚拟社会管理成为我国政府和社会管理的当务之急。 基于上述分析,社会计算出现的背景可以归纳为两方面,一是以用户为中心的Web2.0的思想得到广泛推广,逐渐产生了从个体行为到群体智能的社会化思维模式;二是许多虚拟社会网络的出现逐步形成了一种新型的数字化社会形态。 概念框架 社会计算作为一个新兴的跨学科研究领域,目前还没有一个公认的定义。但也许我们可以从社会计算出现的背景去剖析它的概念。基于这个认识,社会计算实际上可以简单地概括为“用社会化方法计算社会”,具体包含两层意思,即“为社会计算”和“用社会化方法计算”。如图2所示。 “为社会计算”反映了社会计算研究与服务的对象是社会,包括虚拟网络和现实社会,以及从中抽象出来的人工社会。从这个角度来说,通过信息技术方法对社会数字轨迹进行分析,了解社会已经发生、正在发生、将要发生的事情,准确地了解社会的动态特征和运行规律,预测政策实施的可行性,为虚拟网络社会的科学管理和政府决策提供参考。 “社会化方法”是一种以草根用户为中心、 引言 随着互联网的迅猛发展,特别是Web2.0理念的逐渐深入,越来越多的虚拟社会网络出现了,如微博(Twitter 、新浪微博)、社交网(Facebook 、人人网)、社会标注系统(Delicious 、Flickr )、论坛(BBS )、维基(Wiki )等,这些虚拟社会网络聚集了大量用户。据2010年2月资料显示,全球最大的社会网络Facebook 注册的用户已达4亿多,成为排在中国和印度之后的全球人口第三大社会[1],如图1所示。虚拟社会网络已经成为一种新形态的数字社会[2]。 虚拟社会网络不但聚集了大量的用户,而且用户参与网络活动的深度和广度都得到了空前的提高。网络用户不再仅是信息浏览和接受者,也是互联网信息资源的提供和传播者。虚拟网络已成为继报纸、广播、电视之后的“第四媒体”。这种由大众创造的社会媒体(social media )详细地记录了用户的思想和行为轨迹,这使得利用计算技术观察和研究社会成为可能。 用社会化方法计算社会 关键词:社会计算 Web2.0 社会网络 概念框架 孟小峰 余 力 中国人民大学 图1 Facebook 成为全球第三大社会

规划申报方案内容和深度要求

规划申报方案内容和深度要求 申报方案主要包括规划说明书,现状图,总平面规划图,道路交通及竖向规划图,地下建筑平、剖面图,日照分析报告,根据项目的位置和重要程度可增加透视图,模型或动画。 1、说明书:说明项目背景和基地及其周边的现状情况,包括土地权属情 况,历史遗存和灾害影响等情况;分析研究相关规划控制要求以及项 目存在的问题,明确规划方案的主导思想和设计目标;阐述规划方案 的总体构思和规划布局。附表:“规划用地平衡表”“主要技术经济指 标表”“停车场(库)统计表”“公共配套设施统计表”“绿地明细表” 以及“建筑信息表”。 2、现状图:在现状地形图上标明规划用地范围界限,建设用地产权界限, 城市道路红线,宽度及名称,现状建筑的用途、层数等。 3、总平面规划图:要求普通纸质彩图。在现状地形图(图纸上淡化地形 地物线条,删除不必要的地形信息)上标明建筑、绿地、道路、广场、 停车场等的平面布局;表明各类建筑的平面轮廓、建筑信息、建筑标 高;标注建筑间距、尺寸,建筑退让各类控制线、组团级以上道路及 地界的距离;标明规划用地范围、绿地边界范围;标明道路红线、交 叉口控制范围、河道、绿地、高压线走廊、文物古迹保护范围等规划 控制线;标明地面停车场范围及车位布置方式,地下停车库等地下空 间的范围、层数以及出入口等。附“规划用地平衡表”“主要技术经济 指标表”“停车场(库)统计表”“公共配套设施统计表”“绿地明细表”。 4、道路交通及竖向规划图:图纸复杂时,该图可分为道路交通分析图和 竖向设计图。标明规划地块的人流、车流主要出入口,标注出入口距 城市道路交叉口距离;标明各类交通设施的用地范围及平面形式,各 级道路的宽度;标明人流,车流交通流线;标明道路等级结构;标明 周边城市道路主要控制点高程,标明规划道路中线交叉点和主要变坡 点和平曲线拐点的控制高程;标明台阶、挡土墙的位置和控制高程 5、地下建筑平、剖面图:标明地下建筑外轮廓线、基础轮廓线,地下建 筑分类用途及各类建筑面积;地下停车车位数量、交通流线;标注覆 土深度、建筑底板标高、顶板标高。 6、日照分析报告:需采用正版经认证的软件编制。应详细标明项目概况、 日照分析的基础参数及日照标准、日照分析所依据的资料,标明现状、 规划或模拟建筑的性质、建筑层数、高度、标高、采样点情况,标明 建设前后的比较分析结果、公共绿地的日照遮挡情况、详细的日照分 析结论等。报告同时应附日照分析范围图和日照分析图。 7、透视图、模型或动画:视项目所处位置和重要程度的不同,可制作能 够表达规划范围内及周边建筑和空间关系的透视图、模型或动画。需 要市建委主任规划专题会议和市政府城建专题会议审查的项目,必须 制作透视图。 规划报批成果内容和深度要求 1、现状图:内容同报审方案 2、总平面规划图:内容基本同报审方案,不在标注建筑间距、尺寸、退

深度文本匹配综述_庞亮

网络出版时间:2016-09-20 21:04:43 网络出版地址:https://www.doczj.com/doc/4d3915389.html,/kcms/detail/11.1826.TP.20160920.2104.006.html 第39卷计算机学报Vol. 39 深度文本匹配综述 庞亮1),2)3)兰艳艳1)2) 徐君1)2) 郭嘉丰1)2) 万圣贤1),2)3) 程学旗1)2) 1)(中国科学院网络数据科学与技术重点实验室北京 100190) 2)(中国科学院计算技术研究所,北京 100190) 3)(中国科学院大学,北京100190) 摘要自然语言理解的许多任务,例如信息检索、自动问答、机器翻译、对话系统、复述问题等等,都可以抽象成文本匹配问题。过去研究文本匹配主要集中在人工定义特征之上的关系学习,模型的效果很依赖特征的设计。最近深度学习自动从原始数据学习特征的思想也影响着文本匹配领域,大量基于深度学习的文本匹配方法被提出,我们称这类模型为深度文本匹配模型。相比于传统方法,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,更精细地描述文本匹配问题。根据特征提取的不同结构,深度文本匹配模型可以分为三类:基于单语义文档表达的深度学习模型、基于多语义文档表达的深度学习模型和直接建模匹配模式的深度学习模型。从文本交互的角度,这三类模型具有递进的关系,并且对于不同的应用,具有各自性能上的优缺点。本文在复述问题、自动问答和信息检索三个任务上的经典数据集上对深度文本匹配模型进行了实验,比较并详细分析了各类模型的优缺点。最后本文对深度文本模型未来发展的若干问题进行了讨论和分析。 关键词文本匹配;深度学习;自然语言处理;卷积神经网络;循环神经网络 中图法分类号TP18 论文引用格式: 庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗,深度文本匹配综述,2016,V ol.39,在线出版号No. 128 Pang Liang,Lan Yanyan,Xu Jun,Guo Jiafeng,Wan Shengxian ,Cheng Xueqi,A Survey on Deep Text Matching,2016,V ol.39,Online Publishing No.128 A Survey on Deep Text Matching Pang Liang 1),2)3)Lan Yanyan 1)2) Xu Jun 1)2) Guo Jiafeng 1)2)Wan Shengxian 1),2)3) Cheng Xueqi 1)2) 1)(CAS Key Lab of Network Data Science and Technology, Beijing100190) 2)(Institute of Computing Technology, Chinese Academy of Sciences, Beijing100190) 3)(University of Chinese Academy of Sciences, Beijing 100190) Abstract Many problems in natural language processing, such as information retrieval, question answering, machine translation, dialog system, paraphrase identification and so on, can be treated as a problem of text ——————————————— 本课题得到国家重点基础研究发展计划(973)(No. 2014CB340401, 2013CB329606)、国家自然科学基金重点项目(No.61232010, 61472401, 61425016, 61203298)、中国科学院青年创新促进会(No. 20144310,2016102)资助.庞亮(通讯作者),男,1990年生,博士,学生,计算机学会(CCF)学生会员(59709G),主要研究领域为深度学习与文本挖掘.E-mail: pangliang@https://www.doczj.com/doc/4d3915389.html,.兰艳艳,女,1982年生,博士,副研究员,计算机学会(CCF)会员(28478M),主要研究领域为统计机器学习、排序学习和信息检索.E-mail: lanyanyan@https://www.doczj.com/doc/4d3915389.html,.徐君,男,1979年生,博士,研究员,计算机学会(CCF)会员, 主要研究领域为信息检索与数据挖掘.E-mail: junxu@https://www.doczj.com/doc/4d3915389.html,.郭嘉丰,男,1980年生,博士,副研究员,计算机学会(CCF)会员, 主要研究领域为信息检索与数据挖掘.E-mail: guojiafeng@https://www.doczj.com/doc/4d3915389.html,.万圣贤,男,1989年生,博士,学生,主要研究领域为深度学习与文本挖掘.E-mail: wanshengxian@https://www.doczj.com/doc/4d3915389.html,.程学旗,男,1971年生,博士,研究员,计算机学会(CCF)会员, 主要研究领域为网络科学、互联网搜索与挖掘和信息安全等.E-mail: cxq@https://www.doczj.com/doc/4d3915389.html,.

【CN109933661A】一种基于深度生成模型的半监督问答对归纳方法和系统【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910266295.X (22)申请日 2019.04.03 (71)申请人 上海乐言信息科技有限公司 地址 200030 上海市徐汇区番禺路1028号 数娱大厦8楼 (72)发明人 褚善博 沈李斌  (51)Int.Cl. G06F 16/332(2019.01) (54)发明名称 一种基于深度生成模型的半监督问答对归 纳方法和系统 (57)摘要 本发明公开了一种基于深度生成模型的半 监督问答对归纳方法和系统,该方法包括以下步 骤:通过候选问答对生成方法从输入的对话数据 中整理出候选问答对;通过采用基于深度生成模 型的问答对评价方法对所述候选问答对打分;根 据所述候选问答对打分结果利用问答对筛选方 法得到高质量问答对;通过半监督学习方式对所 述深度生成模型进行预先训练后再应用到所述 问答对评价方法中。通过以上方式能够进行自动 化的问答对归纳,极大减少了人工参与并获取高 质量的问答对。权利要求书4页 说明书13页 附图3页CN 109933661 A 2019.06.25 C N 109933661 A

权 利 要 求 书1/4页CN 109933661 A 1.一种问答对归纳方法,其特征在于,问答对归纳的自动化方法包括以下步骤: 通过候选问答对生成方法从输入的对话数据中整理出候选问答对; 通过采用基于深度生成模型的问答对评价方法对所述候选问答对打分; 根据所述候选问答对打分结果利用问答对筛选方法得到高质量问答对; 通过半监督学习方式对所述深度生成模型进行预先训练后再应用到所述问答对评价方法中。 2.一种问答对归纳方法,其特征在于,问答对归纳的自动化方法包括以下步骤: 通过候选问答对生成方法从输入的对话数据中整理出候选问答对; 通过采用基于深度生成模型的问答对评价方法对所述候选问答对打分; 根据所述候选问答对打分结果利用问答对筛选方法得到高质量问答对; 通过半监督学习方式对所述深度生成模型进行预先训练后再应用到所述问答对评价方法中。 3.根据权利要求1所述的问答对归纳方法,其特征在于,所述问答对评价方法使用的半监督学习方式训练的深度生成模型可采用序列到序列(Sequence to Sequence)的深度生成模型,如,基于Transformer的Sequence to Sequence模型,和基于LSTM和GRU等的 encoder、decoder的sequence to sequence模型,还可采用统计机器翻译中用到的生成模型。 4.根据权利要求3所述的问答对归纳方法,其特征在于,所述基于Transformer的Sequence to Sequence模型参数设置为:multi-head的数量设置为8,encoder和decoder中layer为6,进一步地,所述模型的输入端使用预训练的字向量拼接所述字的位置向量,进一步地,使用word2vec训练字向量,字向量维度设置为100。 5.根据权利要求3所述的问答对归纳方法,其特征在于,所述半监督学习方式训练的深度生成模型采用的可采用自学习(Self Learning)的半监督方法、基于EM(Expectation Maximization)算法的生成式半监督方法以及基于图的半监督学习等。 6.根据权利要求5所述的问答对归纳方法,其特征在于,所述采用自学习方式训练的基于Transformer的Sequence to Sequence模型训练步骤进一步包括: 通过问答对生成方法从训练用对话数据中获得训练数据,进一步,从中采样,其中,采样部分数据标记为“未审阅有效问答对”,生成数据集De,剩余部分标记为“未审阅问答对”,生成数据集Dw; 通过人工审阅过程对所述“未审阅有效问答对”数据集De进行审核,得到高质量的问答对数据集Dc; 使用所述数据集Dc与所述数据集Dw作为训练数据,采用所述自学习方式对所述基于Transformer的Sequence to Sequence模型进行训练。 7.根据权利要求6所述的问答对归纳方法,其特征在于,所述问答对生成方法可通过基于启发式规则实现,执行步骤进一步包括: 将训练用对话数据中问题语句和回复语句按照长度过滤,筛选出满足长度条件的对话语句; 按照位置顺序,分别判断每个回复语句在所述对话语句中是否位于两个问题语句之间,或者是否紧接最后一个问题语句且位于所述对话语句的结束句处,若是,寻找对应回复 2

基于主题模型的文本情感和话题建模的研究

基于主题模型的文本情感和话题建模的研究随着互联网的快速发展以及社交媒体的崛起,用户生成的大量文 本等数据日积月累,其中,包含篇幅较长的新闻文本、篇幅不一的评论文本以及篇幅较短的社交媒体文本,例如,微博、推特文本。新闻文本之类的文本一般描述重大事件、科学发现等内容,虽然单一文档中包 含信息量大,但是文档涉及话题比较固定。评论文本中包含大量用户 对评价对象的主观评价,虽然文本长度不一,但是包含的信息相对丰富。不同于新闻之类的文本和评论数据,虽然单条微博文本长度较短 且信息量少,但是更新速度快,数据规模大,涉及领域广。这些海量的 文本数据中包含大量有实用价值的信息。但是如何挖掘这些文本中隐藏的语义结构信息是目前自然语言处理和文本检索领域的一大研究 难点。主题模型是一种比较热门且有效的方法,该方法通过词语之间 在文档中的高阶共现模式挖掘文本中的语义结构信息。主题模型的技术已经应用到各个研究领域并且取得了不错的成果。本文以新闻文本、评论文本、微博文本三种不同的文本为实际应用背景,对于话题建模 以及情感相关的话题建模展开了研究。因为新闻文本中一般包含客观的话题信息,而评论文本和微博文本中包含大量的情感信息,因此,本 文针对新闻文本只建模话题信息(不考虑文本的情感信息),而针对评 论数据和微博文本则建模话题和情感两种信息。本文的工作主要基于生成式主题模型,用改进的生成主题模型抽取文本的话题或者情感相 关的话题。其中,现有的针对新闻文本的主题模型和针对评论文本的 情感主题模型,并没有合理地考虑文本中词语或者实体之间包含的语

义知识。同时,现有的工作并没有针对短文本的情感和话题建模提出有效的模型。为了解决上述的问题,本文重点研究话题建模或者情感相关的话题建模中的三个重要的问题:融合知识库中的语义知识建模新闻文本的话题,融合词语之间的语义知识建模评论数据中的情感和话题以及融合用户和时间信息建模微博短文本的情感和话题。具体研究内容如下:(1)本文分析现有的话题建模方法在新闻文本中的不足,即单纯依靠语料中词语之间的高阶共现模式建模话题。当语料中的有些词语没有充分的共现模式,主题模型不能很好地挖掘它们的语义信息。为了克服这一问题,本文研究一种融合维基百科知识到新闻文本中的主题模型,也就是利用外界知识库中的概念和分类知识弥补文本中词语共现模式不足的问题。本文提出一种维基百科知识主题模型(WCM-LDA)。WCM-LDA模型同时建模文本中的词语和实体,并且引入了实体在知识库中对应的概念和分类知识,因此WCM-LDA模型可以缓解建模话题时词语共现模式不足的问题。另外,WCM-LDA模型输出每个话题的词语、概念和分类,可以更加直观地展示每个话题。(2)在评论数据中词语之间的先验语义关系对于情感相关的话题建模同样尤为重要,但是现有的情感主题模型只能通过共现模式挖掘词语之间的语义关系,有些词语在小规模的数据集中没有充分的共现模式同样会导致情感和话题建模的质量不佳。不同于前面的新闻文本中包含了大量实体,可以引入实体对应的知识。评论数据中更多的是评论对象的属性词或者评价词,建模评论文本的情感和话题时,更需要引入的知识是属性词或者评论词语之间的语义关系。因此,本文研究一种引入外

初步设计文件内容和深度要求

初步设计文件内容和深度要求 初步设计文件应由有相应资质的设计单位提供,若为多家设计单位联合设计的,应由总包设计单位负责汇总设计资料。初步设计文件包括说明、资料和图纸等部分。文件须装订成A3文本图册(大图可折成A3规格),并加盖建设方、设计方、报建人、注册建筑师、注册结构工程师图章。设计文件上签字、盖章应符合《中华人民共和国注册建筑师条例实施细则》、《中华人民共和国注册结构工程师实施细则》的有关规定。 文件应按:透视效果图、设计单位技术负责人、设计人员名单(签名、盖章)、市城市规划管理部门对项目的历次批文复印件、设计总说明、分专业说明、分专业图纸等顺序装订(含设计概算)。各专业图纸须签字齐全。 文件的质量、内容和深度要符合国家和省、市的有关规定和要求。建筑工程除按建设部《关于批准<建筑工程设计文件编制深度的要求>通知》(建设〔1992〕102号)规定外,还应满足以下要求: (一)设计说明部分应包括:总说明及建筑篇、结构篇、给水排水篇、电气篇(强电、弱电)、空调与通风篇、消防篇、人防篇、环境设计与保护篇、劳动安全篇、概算篇等各专业篇章说明。 l、设计总说明应包括:设计依据(各种文件、法规、地理、气候条件)、工程概况、工程设计的范围及规模、设计的特点及指导思想、交通组织及停车、园林绿化布置及指标、消防、环保、劳动保护、职业卫生、人防、建筑设计的原则和标准、室内外装修标准、设备、电气系统标准及用量组成、外部市政条件、节水节电等措施、生产工艺流程及特点、结构选型及特点、抗震设防、存在的问题、总指标(主要技术经济指标、总概算投资额,水、电、建材消耗量)等。 2、建筑篇说明内容包括:设计依据、工程概况、场地条件及总平面设计、竖向设计、交通环境设计、功能布局、水平及垂直交通设计、单位平面、立面、剖面设计,地下室及屋面防水措施、门窗表、主要技术经济指标(总用地面积、总建筑面积、地上建筑面积、地下建筑面积、地面建筑基底面积、覆盖率、容积率、绿地率等)。 3、结构篇说明内容包括:设计依据、工程概况、工程地质概况、荷载取值、抗震设防烈度、结构安全等级及抗震等级、材料选用、结构设计(结构选型、基础

建筑工程设计文件编制深度规定(2016年版)

建筑工程设计文件编制深度规定

2016年11月 前言 本规定依据《建设工程质量管理条例》(国务院第279号令)和《建设工程勘察设计管理条例》(国务院第662号令),在《建筑工程设计文件编制深度规定》(2008年版)基础上修编而成。本规定与2008年版规定相比主要变化如下: ——新增绿色建筑技术应用的内容。 ——新增装配式建筑设计内容。 ——新增建筑设备控制相关规定。 ——新增建筑节能设计要求,包括各相关专业的设计文件和计算书深度要求。 ——新增结构工程超限设计可行性论证报告内容。 ——新增建筑幕墙、基坑支护及建筑智能化专项设计内容。 ——根据建筑工程项目在审批、施工等方面对设计文件深度要求的变化,对原规定中部分条文作了修改,使之更加适用于目前的工程项目设计,尤其是民用建筑工程项目设计。 本规定由住房和城乡建设部批准。 本规定的主编单位为中南建筑设计院股份有限公司,参编单位为中国建筑西北设计研究院有限公司、华东建筑设计研究院有限公司、中国建筑西南设计研究院有限公司、中国建筑东北设计研究院有限公司、北京市建筑设计研究院有限公司、广东省建筑设计研究院、中国建筑业协会智能建筑分会、中建科技集团有限公司。 本规定主要起草人: 总负责人:李霆 总则、一般要求部分:刘炳清 建筑、总平面部分:翁皓、党春红、李春舫、林莉 结构部分:李霆、徐厚军、郑瑾

建筑电气部分:杜毅威、熊江 给水排水部分:金鹏、涂正纯 供暖通风与空气调节、热能动力部分:郑小梅、杨允立、吴光林、马友才 技术经济部分:张变兰、聂钢 建筑幕墙部分:王书华 基坑工程部分:陈义平 建筑智能化部分:耿望阳 装配式建筑部分:叶浩文、樊则森、李文、孙占琦、蒋杰、马涛、王炜、张沂 目录 1 总则 (1) 2 方案设计 (2) 2.1 一般要求 (2) 2.2 设计说明书 (2) 2.3 设计图纸 (6) 3 初步设计 (8) 3.1 一般要求 (8) 3.2 设计总说明 (8) 3.3 总平面 (9) 3.4 建筑 (11) 3.5 结构 (14) 3.6 建筑电气 (17) 3.7 给水排水 (20) 3.8 供暖通风与空气调节 (24) 3.9 热能动力 (26) 3.10 概算 (28) 4 施工图设计 (30) 4.1 一般要求 (30) 4.2 总平面 (30) 4.3 建筑 (32) 4.4 结构 (36) 4.5 建筑电气 (43) 4.6 给水排水 (46) 4.7 供暖通风与空气调节 (50)

建筑设计方案报建文本深度要求

(一)、基本规定 一、文本制做应采用统一格式,一般为A 3。" 二、建筑方案设计文件编排顺序: 1 .封面: 标明项目名称、编制日期、建设单位及设计单位名称。 2、菲页: 设计单位资质章、设计人员签名、设计单位企业法人营业执照(复印件)和工程设计证书(复印件)等。 3.设计文件目录 4 .设计说明 5 .设计图纸: 总平面图(或用地规划图)、方案一建筑效果图及建筑设计图(平、立、剖)、方案二建筑效果图及建筑设计图(平、立、剖)。其它方案顺延。 6 .技术分析图: 根据项目特点提供相应的功能分析图、交通分析图、环境绿化景观分析图、日照分析图、内部流线分析图等 三、所有图纸和图板都应按比例绘制或制作。图板应注明建设单位、设计单位、工程名称和图名。 四、文字说明部分应采用WORD文挡格式。 (二)、设计说明内容要求 一、设计依据和设计要求

二、建筑设计说明: 建筑构思说明,概述场地现状和周边环境;规划场地内原有建筑的利用和保护,古树、名木、植被保护方案;道路布置、交通分析、停车场地设置、消防措施等。 建筑平面布局交通组织和功能分析;建筑的空间构成及立面设计;当地形较复杂时应做竖向设计说明; 三、主要技术经济指标 第二区 建筑设计方案要求 关于建筑设计方案文本要求 1.封面 要求: 必须注明建设项目、建设单位、设计单位、方案完成日期,并加盖建设单位公章及设计单位资质章。 2.方案设计说明及指标明细表 要求: 说明书按照规划、建筑、绿化、供电、供水、排水、电讯、人防、消防、环保、暖通、节能等顺序;指标明细表需按照申报的建筑设计方案实际设计面积进行核算。 3.现状分析图及照片 要求: 标明建设用地现状自然地形地貌、道路、绿化、工程管线及各类用地内建筑的范围、性质、层数、质量、单位名称,以及规划四至范围影响范围内的建

景观设计深度 施工图设计文件深度要求

1、目的 保证设计质量和设计深度,结合本公司专业的设置情况,对园林与建筑工程设计文件编制深度的规定作适当补充和调整,特制定本规定。2、范围 适用于公司开发项目的景观施工图设计。 3、职责 吉林公司设计部负责本公司开发项目的景观施工图设计。 4、园林专业施工图设计文件编制深度规定 4.1封面 图幅与2#图纸同。 4.2 设计总说明 (a)该项目工程量概述; (b)对照总体规划说明书提出全面技术分析和技术处理措施; (c)各专业设计配合关系中关键部位的控制要点; (d)材料、设备、造型、色彩选择的原则; (e)各分项工程需详加说明的分列于各分项图纸上; 4.3 总平面图 (a)总平面图应套在原地形图上绘制,准确表明道路、硬地、水体、山石、建筑、绿地、园灯、陈设的平面形状、位置、相 互关系; (b)有准确的放样依据,关键定位点的地形坐标值,必要时可用方格网表示具体定点尺寸,方格网为2m X 2m—10mX10m, 方格网应与测量地形图的坐标格在方向上一致。以建筑为主 的庭院空间,方格网应与建筑主要轴线在方向上一致; (c)庭院或小型绿地要详细标出放样尺寸 (d)建筑设施名称,面积列表。 (e)指北针,详图索引,图纸比例1/200~1/500,庭院1/100,根据具体项目情况选择。 (f)根据项目具体情况,上述内容亦可分别出图。 4.4 竖向设计 (a)绘出原有地形地貌及现状标高; (b)准确绘出园路、硬地、水体、山石、建筑、绿地的平面形状、位置、相互关系; (c)用等高线绘出地形改造后的起伏情况,注出各高程点的原有及设

计标高; (d)标出建筑物室内外设计标高; (e)标出构筑物标高,挡土墙上下标高,水体驳岸的岸顶标高,常水位标高,池底标高; (f)硬地标出中心及四周标高; (g)道路起止点、交叉点、变坡点、转弯点标高,纵向每10-30m 标出标高; (h)用箭头标出道路、硬地、绿地的排水坡向,用暗管排水时,标明雨水口位置; (i)土石方挖填范围,注出原地面标高,设计标高,填挖高度,填挖分界线,土方量调配平衡表; (j)指北针、图纸比例与总平面图同; (k)重点地段,地形变化复杂地段增加剖面图说明,标出关键部位标高。 4.5 道路广场设计 (a)硬地外轮廓,道路宽度线型控制尺寸均在总平面图上标明,如总图比例较小,每块硬地外轮廓可另行放大画出,注明总尺 寸及细部尺寸; (b)道路、硬地标高在竖向设计平面图上标明,考虑无障碍设计; (c)横剖面设计,标明道路,硬地从表层至基础层的具体做法; (d)局部设计,标明园路、硬地面层形式,具体尺寸; (e)标明不同宽度,不同形式路面交接点处理,道路与硬地交接点处理; (f)标明伸缩缝做法; (g)列出园路、硬地工程量总表; (h)作法说明,例如图中未详需加以说明的要点,如铺装缝允许尺寸,铺装地与道牙的衔接处理,规则形铺装地折点、转弯 处做法。 4.6 绿化种植设计 (a)图纸比例一般为1/200,简单工程1/500,庭院及配植精细的1/100; (b)图纸规格按国标CBJ1-86执行,图幅过大的,可分张分块绘制,图幅分块应以完整绿地为单位,并绘出周围的园路建筑等设 施,以便于衔接,并方便施工;

相关主题
文本预览
相关文档 最新文档