当前位置：文档之家› AI机器学习及其应用长尾数据深度视觉识别研究报告

AI机器学习及其应用长尾数据深度视觉识别研究报告

AI机器学习及其应用长尾数据深度视觉识

别研究报告

摘要

本文介绍了目前国内外关于长尾数据分布下深度视觉识别的研究进展，主要从常用数据集及应用、经典机器学习解决方案和深度学习解决方案三个维度进行梳理和分析，并针对长尾数据分布的深度视觉识别的未来方向进行了探讨。

关键字

长尾数据分布；深度学习；机器学习；视觉识别；计算机视觉

0 前言

在机器学习及其在视觉识别的应用中，我们处理的标准数据通常都有一个基本假设，即该数据集各类别对应的样本数量是近似服从均匀分布的，即类别平衡。但现实生活中的数据往往呈现较极端的不平衡现象，如日常生活经常看到云朵和狗等物体，却鲜见概念车甚至传说中的“外星生物”，这样的自然规律使得真实数据的分布通常呈现出“长尾”分布的形态，如图1所示。

可以看到常见（但少量）的物体类别在视觉识别的图像中出现的频次占主导地位，而罕见（却大量）的物体类别出现的频次占比微乎其微。在机器学习和视觉识别的实际应用过程中，长尾分布在某种程度上可以说

是比正态分布更加广泛存在的一种自然分布，现实中主要表现在少量个体做出大量贡献（少量类别的样本数占据大量样本比例），人们经常提到的“二八定律”（Pareto法则）就是长尾分布的形象概括。

图1 长尾数据分布示意图

长尾分布数据的极度不平衡，给机器学习和视觉识别带来了巨大挑战。类别的极度不平衡导致模型学习非常容易被“头部”类别主导而产生过拟合；同时模型对于“尾部”数据的建模能力极其有限，从而在模型测试阶段表现出对长尾数据（尤其“尾部”数据）预测精度不理想的缺陷。特别是在借助深度学习模型进行的视觉识别应用中，尾部数据的数量缺失还使得深度模型的训练难以充分进行，导致特征学习很难达到理想程度，进而影响整个深度模型的泛化表现。

此外，深度模型基于batch的训练特性带来的模型“遗忘” 问题，在长尾数据分布情况下尤为突出，愈加影响了特征学习的整体质量。

近年来，针对长尾数据分布的深度视觉识别逐渐成为机器学习、计算机视觉和模式识别领域的热门研究课题，在诸多视觉感知任务，如细粒度图像识别、人脸识别、安防监控、车辆识别、商品识别等均有广泛应用。

本文主要以长尾数据分布下的深度视觉识别为主题，重点探讨其常用数据集及应用、经典机器学习解决方案和深度学习解决方案，下面分别从这三方面介绍长尾数据分布下深度视觉识别的研究进展。

1 常用数据集及应用

长尾分布下的视觉识别领域最为著名和常用的数据集为iNaturalist 系列，其中iNaturalist 2017和iNaturalist 2018最为令人熟知。iNaturalist系列数据集是美国加州理工、康奈尔大学和Google等机构联合构建的，以植物、鸟类、昆虫和菌类等13个自然生物大类下属的上千种物种细分类类别组成的细粒度级别图像数据集（fine-grained dataset），图像量多达近百万张。以iNaturalist 2017为例，该数据集共计5089类细粒度物体，其中样本数最多的头部类别含2101张样例图像，样本数最少的尾部类别仅有4张样本（见图2），其数据分布呈现显著的长尾分布状态。

而iNaturalist 2018则多达8142类细粒度类别，样本最多的头部类别样本数多达2917张，最少者仅有一张图像，呈现出更为极端的长尾现象。这两个著名的标准数据集，一方面验证了长尾分布的现实意义；另一方面其数据复杂性和显著的长尾分布特性，使得它成为长尾分布视觉识别研究中的标准测试“演武场”。此外，围绕iNaturalist，相关组织者基本

每年都在CVPR上组织全球视觉识别挑战赛，值得一提的是，我们的团队获得了2019届iNaturalist旗舰赛事的世界冠军。

除天然的iNaturalist外，在人脸识别、通用物体识别和场景分类等应用中均有对应的长尾分布形态数据集。例如，针对人脸识别长尾分布问题构造的MS1M-LT（2万余类别），针对通用物体识别长尾分布问题构造的ImageNet-LT（1000类）、CIFAR-10-LT（10类）、CIFAR-100-LT （100类），以及针对场景分类长尾分布问题构造的Places-LT （365类）等。各数据集的详细对照信息如表1所示。

表1 数据集的详细对照信息

体育用品市场研究报告范本

Record the situation and lessons learned, find out the existing problems and form future countermeasures. 姓名：___________________ 单位：___________________ 时间：___________________ 体育用品市场研究报告

编号：FS-DY-20452 体育用品市场研究报告报告综述报告以庞大的体育用品行业数据库为基础，采用定性和定量两种统计分析方法，以数据报告的形式，客观、准确的对行业发展概况、行业市场饱和度、供应商议价能力、行业竞争激烈程度以及行业投资价值经济指标进行了分析，并列出了体育用品行业最具投资价值的50家企业。使用户对于投资该行业所需资本、所要承担的风险以及预期收益有了全面准确的认识，从而帮助用户规避投资风险，使得投资收益最大化。一、我国体育用品业发展现状体育用品业在我国是一个新兴产业，既没有形成支柱产业，也没有成为主导产业，但这是一个市场潜力很大，特别是社会功能较强，还有可能成为我国主要出口创汇的产业之一。一般讲，体育用品业的发展依靠两个条件，一是本国体

育事业的发展，二是该国经济繁荣和人民生活水平的提高。近代体育发展至今已有百年历史，而体育在我国的真正兴起不过是50多年。在贫穷落后的旧中国，体育是极少数富人娱乐的“专利”，所以在全国没有一家像样的体育用品器材厂，体育用品根本谈不上形成行业。新中国成立后，在党和各级政府的关心支持下，我国体育用品业随着体育事业的发展发生了质的飞跃，到了70年代中期，我国京、津、沪、穗、黑五大体育用品近百家的生产基地基本形成，北京、天津、上海、广州四大体育用品供给系统日臻完善，这对满足全国体育事业发展的需要、对促进我国体育事业快速发展起到了积极作用。党的十一届三中全会以后，我国体育工作者紧紧围绕党的经济工作这条主线，与相关部门一道在体育用品的研制、开发、生产、销售等以及培育市场、促进行业发展等一系列问题上开始新的实践和探索。（一）成立中国体育用品联合会，逐步改变行业管理体制从建国初期到党的十一届三中全会，在近30年里，我国体育用品企业大多是隶属轻工系统的小厂。随着市场经济的

2018年B端信息化科技行业分析报告

2018年B端信息化科技行业分析报告 2018年7月

目录一、B端信息化崛起有时代背景和产业基础 (4) 1、人力成本上升和供给侧改革的因素带动信息化提升效率需求 (4) 2、云平台基础设设施为SaaS服务商飞跃提供支撑 (7) 3、移动互联网的普及让企业决策者和用户更习惯信息化的办公方式 (10) 二、企业客户的长尾和头部市场有各自机会 (11) 1、“小而美”的SaaS应用更容易切入市场 (11) 2、长尾客户是巨头争夺的红海市场 (13) 3、大B端客户有强付费能力和高护城河，行业云有望成就本土IT巨头 (15) （1）广联达：造价云化提升价值，BIM产品打开空间 (16) （2）石基信息：支付佣金变现零售流水，酒店云化拓展全球空间 (18) （3）汉得信息：持续成长且潜力巨大的IT服务龙头，云时代承担更多角色 (21) （4）恒生电子：金融科技和监管科技推动成长，潜力巨大连接百万亿 (26) （5）卫宁健康：医疗科技龙头，布局未来健康大数据市场 (31) 4、通用产品争夺中端市场和垂直功能 (35) 三、去杠杆和贸易战让政府的信息化支出回归理性 (37) 1、安防市场仍然是需求景气、技术革新的市场 (37) 2、自主可控需要关注核心技术领域 (39) 3、信息安全有市场集中的趋势，龙头公司有望拿到更大份额 (41) 4、系统集成公司在云时代都在转型 (44)

B端产品崛起具备时代背景和产业基础。IT产品和服务最重要的需求就是提升企业生产和运营效率，而且很多情况下可以节省人工，在中国人力成本持续提升的情况下，IT行业在企业的需求在持续增加。中国政府推进的供给侧让IT行业的下游发生了结构型的变化，下游行业集中度提升，淘汰落后产能；IT行业对应的很多下游行业盈利提升，而且盈利改善之后的政策性要求对于信息化建设也在提速，让中国的IT行业需求提速。云计算基础设施的完善让中国的SaaS公司存在技术基础，云时代叠加IT需求提升将推动国内的IT行业升级。移动互联网的普及让企业的决策者和最终用户更习惯信息化办公，是B端IT产品崛起的终端用户基础。云时代有望诞生本土IT巨头。参照美国SaaS市场的发展历程，小而美的SaaS产品更容易切入市场，无论是Salesforce、ServiceNow、Workday等云时代的新公司，还是微软、Oracle、SAP做传统软件巨头云转型，都是以单一功能的产品为主。中国市场上，长尾企业更可能是巨头的市场，目前阿里钉钉已经在协同办公市场做到700万企业客户、1亿注册用户，微信企业版等产品也在跟进。而大企业客户的 IT产品和服务具备更高的业务壁垒、更强的客户付费能力，传统上领先的软件公司更有可能在SaaS上做到领先。上市公司广联达的建筑造价云、石基信息的酒店云、恒生电子的金融云、卫宁健康的健康云都有机会成为本土的IT巨头。IT服务商汉得信息也机会在云时代成为IT 服务本土巨头。通用管理软件公司金蝶国际等在中型企业市场和大型客户的特色产品上更有优势。

2017年中端酒店行业深度分析报告

目录酒店行业新格局带来新机遇 (6) 行业概述：多层次品牌构筑中国酒店业格局 (6) 行业周期：经济企稳酒店行业长期向好 (9) 行业现状：酒店业供需改善，经济型仍占主导 (14) 发展趋势：中端酒店正崛起，品牌连锁成趋势 (19) 华住酒店（HTHT）：华丽转型剑指中端酒店龙头 (23) 中国连锁酒店领军集团 (23) 中端盈利能力较强，加盟模式表现亮眼 (27) 坚定转型升级战略，重视会员体系建设 (30) 首旅酒店（600258）：收购如家加快全国布局 (34) 首旅如家跻身国内三大酒店集团 (34) 如家：顺势而为发展中端和加盟店 (37) 首旅：背靠北京市国资委，酒店业务是核心 (39) 首旅如家：提高中端占比，加盟扩张提速 (41) 锦江股份（600754）：并购整合跻身行业龙头 (44) 资产并购造就中国酒店行业霸主 (44) 经济型酒店企稳，中高端及海外布局提速 (47) 酒店业务向中高端倾斜，食品业务未来保持稳定 (51) 图表目录图1：中国现代酒店行业发展历程 (6) 图2：酒店行业分类标准体系 (7) 图3：不同类型酒店特点及定位不同 (7) 图4：中国经济型酒店过去20年快速扩张 (7) 图5：国内前五大经济型酒店品牌客房数及门店数（截至2016年底） (8) 图6：国内经济型酒店品牌CR5达到51%（截至2016年底） (8) 图7：中端酒店最近10年开始蓬勃发展 (8) 图8：国内前五大中端酒店品牌客房数及门店数（截至2016年底） (9) 图9：国内中端酒店品牌CR5达到50%（截至2016年底） (9) 图10：中国星级饭店目前处于萧条期末期 (9) 图11：中端酒店和度假酒店是未来具备发展潜力的子领域 (10) 图12：美国住宿业发展与经济周期密切相关 (10) 图13：中国星级饭店营收增速与GDP增速相关性强 (11) 图14：中国星级饭店营收增速与居民收入增速相关性强 (11) 图15：国内建筑业总产值增速自2011年以来持续放缓 (11)

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识㈠De Novo测序也叫从头测序，是首次对一个物种的基因组进行测序，用生物信息学的分析方法对测序所得序列进行组装，从而获得该物种的基因组序列图谱。目前国际上通用的基因组De Novo测序方法有三种： 1. 用Illumina Solexa GA IIx 测序仪直接测序； 2. 用Roche GS FLX Titanium直接完成全基因组测序； 3. 用ABI 3730 或Roche GS FLX Titanium测序，搭建骨架，再用Illumina Solexa GA IIx 进行深度测序，完成基因组拼接。采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件，并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究，为后续的相关研究奠定基础。实验流程：公司服务内容 1.基本服务：DNA样品检测；测序文库构建；高通量测序；数据基本分析（Base calling，去接头，去污染）；序列组装达到精细图标准 2.定制服务：基因组注释及功能注释；比较基因组及分子进化分析，数据库搭建；基因组信息展示平台搭建 1.基因组De Novo测序对DNA样品有什么要求？

(1) 对于细菌真菌，样品来源一定要单一菌落无污染，否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上)， OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；每次样品制备需要10 μg样品，如果需要多次制备样品，则需要样品总量=制备样品次数*10 μg。 (2) 对于植物，样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品，最好为纯合或单倍体。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (3) 对于动物，样品来源应选用肌肉，血等脂肪含量少的部位，同一个体取样，最好为纯合。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证，用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式目前3种测序技术 Roche 454，Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中，Roche 454的单端测序读长可以达到400 bp，经常用于基因组骨架的组装，而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例，对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在flow cell上生成DNA簇，上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序(图2)。图1 Single-read文库构建方法图2 Paired-end文库构建方法

全基因组重测序数据分析

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变，结构变异-SNV，包括重排突变（deletioin, duplication 以及copy number variation）以及SNP的座位；针对重排突变和SNP的功能性进行综合分析；我们将分析基因功能（包括miRNA），重组率（Recombination）情况，杂合性缺失（LOH）以及进化选择与mutation之间的关系；以及这些关系将怎样使得在disease（cancer）genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学，群体遗传学综合层面上深入探索疾病基因组和癌症基因组。实验设计与样本（1）Case-Control 对照组设计；（2）家庭成员组设计：父母-子女组（4人、3人组或多人）；初级数据分析 1．数据量产出：总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计，测序深度分析。 2．一致性序列组装：与参考基因组序列（Reference genome sequence）的比对分析，利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型，并组装出该个体基因组的一致序列。3．SNP检测及在基因组中的分布：提取全基因组中所有多态性位点，结合质量值、测序深度、重复性等因素作进一步的过滤筛选，最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4．InDel检测及在基因组的分布: 在进行mapping的过程中，进行容gap的比对并检测可信的short InDel。在检测过程中，gap的长度为1~5个碱基。对于每个InDel的检测，至少需要3个Paired-End序列的支持。 5．Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有：插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果，检测全基因组水平的结构变异并对检测到的变异进行注释。

【完整版】2019-2025年中国酒店行业市场发展战略研究报告

（二零一二年十二月） 2019-2025年中国酒店行业市场发展战略研究报告可落地执行的实战解决方案让每个人都能成为战略专家管理专家行业专家 ……

报告目录第一章企业市场发展战略研究概述 (8) 第一节研究报告简介 (8) 第二节研究原则与方法 (8) 一、研究原则 (8) 二、研究方法 (9) 第三节企业市场发展战略的作用、特征及与企业的关系 (11) 一、企业市场发展战略的作用 (11) 二、市场发展战略的特征 (12) 三、市场发展战略与企业战略的关系 (13) 第四节研究企业市场发展战略的重要性及意义 (14) 一、重要性 (14) 二、研究意义 (14) 第二章市场调研：2018-2019年中国酒店行业市场深度调研 (15) 第一节酒店概述 (15) 第二节我国酒店行业监管体制与发展特征 (16) 一、行业主管部门 (16) 二、行业自律组织 (17) 三、行业法律法规 (18) 四、行业相关政策 (19) 五、行业进入壁垒 (21) （1）资金壁垒 (21) （2）品牌壁垒 (21) （3）管理与技术壁垒 (21) （4）人才壁垒 (21) 六、行业基本风险特征 (22) （1）宏观经济环境风险 (22) （2）行业竞争风险 (22) （3）营运成本上升风险 (22) （4）消费者需求变化和服务质量稳定性的风险 (22) （5）管理人才不足风险 (22) （6）在线预订市场挤占行业利润空间 (23) 第三节2018-2019年中国酒店行业发展情况分析 (23) 一、酒店行业的整体概况 (23) 二、2018年中国酒店行业布局：中端酒店布局决定中长期酒店集团发展 (23) 三、四五星比重增加国内酒店市场趋向高端化 (28) 四、中国酒店企业加速全球布局 (29) 五、中国酒店业投资回归理性 (30) 六、2019年酒店迈入5G智慧时代 (31) 七、多管齐下推动绿色酒店规模化发展 (33) 第四节2018-2019年中国国际酒店集团在中国发展情况分析 (36) 一、新一轮扩张和竞争中如何掘金？ (36)

2018年体育行业新三板深度研究报告

２０１８年体育行业新三板深度研究报告

目录行业空间巨大，追赶时机已至 (5) 对比国外：体育产业落后，空间巨大 (5) 多维度对比，总量差距大 (5) 产业内部分解：结构待优化 (6) 时机已至：消费升级驱动，政策催化 (7) 回望美国：消费升级大势所趋 (7) 对比日本：文体娱机遇正好 (8) 政策催化：明确2020年五万亿目标 (9) 对比影视行业：发展路径有所不同 (11) IP属性不同，体育发展速度更慢 (11) 供需：体育IP垄断，影视渠道占优 (11) 产业链：体育产业链长，赛事运营尤其重要 (12) 线上线下关系：体育以线下为主导 (12) 资本布局的差异性 (14) 体育资本布局：海外俱乐部与媒体版权 (14) 行业属性与国内现状下，重点关注赛事运营公司 (14) 赛事运营的投资价值与对比分析 (15) 行业掘金，当选赛事运营 (15) “赛事运营+”：从单一环节切入全产业链 (16) 体育之窗（834358）：掌握顶级资源的体育运营平台 (16) 欧迅体育（430617）：体育赞助翘楚，发力IP运营 (18) 博克森（832338）：体育传播龙头，集团覆盖全产业 (20) 梅珑体育（835282）：冰雪赛事运营龙头，拓展精品小众赛事 (21) “+赛事运营”：赛事级别低，辅助体育用品宣传 (23) 凯路仕（430759）：运动休闲自行车提供商，赛事广告效应强 (23) 中源欧佳（832604）：渔具提供商龙头，发展钓鲫巡回赛 (24) 图表目录图1：世界主要国家体育产业增加值占GDP比重 (5) 图2：2006-2015年体育产业增加值及在GDP占比变动（亿元） (5)

高通量测序NGS数据分析中的质控

高通量测序错误总结一、生信分析部分 1）Q20/Q30 碱基质量分数与错误率是衡量测序质量的重要指标，质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是99.9%，错误率为0.1%。同时我们也可以理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是99%，错误率为1%。对于整个数据来说，我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中，背景颜色沿y-轴将坐标图分为3个区：最上面的绿色是碱基质量很好的区，Q值在30以上。中间的橘色是碱基质量在一些分析中可以接受的区，Q值在20-30之间。最下面红色的是碱基质量很差的区。在一些生信分析中，比如以检查差异表达为目的的RNA-seq分析，一般要求碱基质量在Q在Q20以上就可以了。但以检查变异为目的的数据分析中，一般要求碱基质量要在Q30以上。一般来说，测序质量分数的分布有两个特点： 1.测序质量分数会随着测序循环的进行而降低。 2.有时每条序列前几个碱基的位置测序错误率较高，质量值相对较低。在图中这个例子里，左边的数据碱基质量很好，而右边的数据碱基质量就比较差，需要做剪切（trimming），根据生信分析的目的不同，要将质量低于Q20或者低于Q30的碱基剪切掉。 2）序列的平均质量这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值，纵坐标代表序列数量。通过序列的平均质量报告，我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说，当绝大部分碱基序列的平均质量值的峰值大于30，可以判断序列质量较好。如这里左边的图，我们可以判断样品里没有显着数量的低质量序列。但如果曲线如右边的图所示，在质量较低的坐标位置出现另外一个或者多个峰，说明测序数据中有一部分序列质量较差，需要过滤掉。 3）GC含量分布这个是GC含量分布报告图。GC含量分布检查是检测每一条序列的GC含量。将样品序列的GC 含量和理论的GC含量分布图进行比较，用来检测样品数据是否有污染等问题。理论上，GC含量大致是正态分布，正态分布曲线的峰值对应基因组的GC含量。如果样品的GC含量分布图不是正态分布，如右图出现两个或者多个峰值，表明测序数据里可能有其他来源的DNA序列污染，或者有接头序列的二聚体污染。这种情况下，需要进一步确认这些污染序列的来源，然后将污染清除。 4）序列碱基含量

DNA测序结果分析比对(实例)

DNA测序结果分析比对（实例）关键词：dna测序结果2013-08-22 11:59来源：互联网点击次数：14423 从测序公司得到的一份DNA测序结果通常包含.seq格式的测序结果序列文本和.ab1格式的测序图两个文件，下面是一份测序结果的实例： CYP3A4-E1-1-1(E1B).ab1 CYP3A4-E1-1-1(E1B).seq .seq文件可以用系统自带的记事本程序打开，.ab1文件需要用专门的软件打开。软件名称：Chromas 软件Chromas下载 .seq文件打开后如下图： .ab1文件打开后如下图：通常一份测序结果图由红、黑、绿和蓝色测序峰组成，代表不同的碱基序列。测序图的两端（下图原图的后半段被剪切掉了）大约50个碱

基的测序图部分通常杂质的干扰较大，无法判读，这是正常现象。这也提醒我们在做引物设计时，要避免将所研究的位点离PCR序列的两端太近（通常要大于50个碱基距离），以免测序后难以分析比对。我的课题是研究基因多态性的，因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。实际上，要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。一般认为等位基因位点假如在测序图上出现像套叠的两个峰，就是杂合子位点。实际比对后才知道，情况并非那么简单，下面测序图中标出的两个套峰均不是杂合子位点，如图并说明如下：

说明：第一组套峰，两峰的轴线并不在同一位置，左侧的T峰是干扰峰；第二组套峰，虽两峰轴线位置相同，但两峰的位置太靠近了，不是杂合子峰，蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成，此处的序列被机器误判为“C”，实际的序列应为“A”，通常一个高大碱基峰的前面 1~2个位点很容易产生一个相同碱基的干扰峰，峰的高度大约是高大碱基峰的1/2，离得越近受干扰越大。一个摸索出来的规律是：主峰通常在干扰峰的右侧，干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较；一个位点的多个样本相比较；你得出的该位点的突变率与权威文献或数据库中的突变率相比较。通常，对于一个疑似突变位点来说，即使是国际上权威组织大样本的测序结果中都没有报道的话，那么单纯通过测序结果就判定它是突变点，是并不严谨的，因一份 PCR产物中各个碱基的实际含量并不相同，很难避免不产生误差的。对于一个未知突变位点的发现，通常还需要用到更精确的酶切技术。 (责任编辑：大汉昆仑王)

关于酒店市场调研报告

关于酒店市场调研报告酒店需要经常做一些市场调查报告才能明白客户的需求是什么，以下是小编为大家收集的酒店市场调查报告。感兴趣的朋友一起来看看吧。酒店市场调查报告1通过几家同行酒店的走访，针对当前本市的酒店行情，本人总结以下几点：一、同行竞争对手 1、XX国际大酒店 XX酒店业界的老牌子，10多年来的经营已稳定了一定的客源及知名度，20XX年重新装修后，已达到现代星级酒店的规模，而且是本市乃至崇左首家挂牌四星级酒店，旁边靠近出入境办证大厅，其品牌、口碑已得到市民消费者的广泛认可。劣势：缺乏高楼层，房间数量少，无夜总会，西餐厅，购物中心。 2、XX大酒店号称“XX第一楼”，在区内旅游媒体已有一定的知名度，而且面对越南新清市场，观光效果好，旁边有出境口岸、红木市场、物流市场、客商密集、该酒店还针对会议团和旅游团开设几个宴会大厅（300平米有柱）、5楼设中心空中花园、桑拿房带有干、湿蒸，地下室有电玩城，12楼开设夜总会，大型购物中心，集团化管理，拥有一定的浙商客户群，在接待浦寨、越南客商和旅游团、会议观光团占据一定的优势。

二、其它酒店夜XX、下XX、城市XX、教育XX均为连锁店，房间整洁，舒适，装修简约、时尚，有其资源共享的优势。 XX国际大酒店已稳定了部分XX红木家具商和旅游团客源，XX 饭店在本市餐饮界有一定的人气，并和区内、越南旅行社长期合作，而其薄利多销。怡景大酒楼环境不错，出品可以，海鲜品种较齐全。以上几家酒店、酒楼为中、低档消费，会分流部分价格型的客人。三、个人建议充分发挥国际酒店管理公司的优势，结合配套服务设施完善、借助地标以及有利位置，加大市场营销力度，做高端客户市场，做到“我独有我专有”，树立良好品牌形象。酒店市场调查报告2宾馆酒店行业市场调查报告是运用科学的方法，有目的地、有系统地搜集、记录、整理有关宾馆酒店行业市场信息和资料，分析宾馆酒店行业市场情况，了解宾馆酒店行业市场的现状及其发展趋势，为宾馆酒店行业投资决策或营销决策提供客观的、正确的资料。宾馆酒店行业市场调查报告包含的内容有：宾馆酒店行业市场环境调查，包括政策环境、经济环境、社会文化环境的调查；宾馆酒店行业市场基本状况的调查，主要包括市场规范，总体需求量，市场的动向，同行业的市场分布占有率等；有销售可能性调查，包括现有和潜在用户的人数及需求量，市场需求变化趋势，本企业竞争对手的产品在市场上的占有率，扩大销售的可能性和具体途径等；还包括对宾

汉得信息2019年财务分析详细报告

汉得信息2019年财务分析详细报告一、资产结构分析 1.资产构成基本情况汉得信息2019年资产总额为419,298.94万元，其中流动资产为304,730.08万元，主要分布在应收账款、货币资金、应收票据等环节，分别占企业流动资产合计的59.16%、35.98%和2.37%。非流动资产为114,568.86万元，主要分布在无形资产和固定资产，分别占企业非流动资产的33.97%、25.68%。资产构成表项目名称 2019年2018年2017年数值百分比(%) 数值百分比(%) 数值百分比(%) 总资产419,298.94 100.00 381,846.29 100.00 314,662.26 100.00 流动资产304,730.08 72.68 283,055.34 74.13 242,160.6 76.96 长期投资12,832.42 3.06 23,235.39 6.09 12,664.84 4.02 固定资产29,422.77 7.02 30,214.04 7.91 31,895.57 10.14 其他72,313.67 17.25 45,341.52 11.87 27,941.25 8.88 2.流动资产构成特点企业流动资产中被别人占用的、应当收回的资产数额较大，约占企业

流动资产的60.33%，应当加强应收款项管理，关注应收款项的质量。企业持有的货币性资产数额较大，约占流动资产的38.35%，表明企业的支付能力和应变能力较强。但应当关注货币资金的投向。流动资产构成表项目名称 2019年2018年2017年数值百分比(%) 数值百分比(%) 数值百分比(%) 流动资产304,730.08 100.00 283,055.34 100.00 242,160.6 100.00 存货 6.45 0.00 1.64 0.00 74.63 0.03 应收账款180,293.03 59.16 174,501.09 61.65 141,744.26 58.53 其他应收款3,542.39 1.16 3,975.84 1.40 5,860.64 2.42 交易性金融资产0 0.00 0 0.00 0 0.00 应收票据7,233.59 2.37 6,382.62 2.25 11,728.73 4.84 货币资金109,632.29 35.98 86,607.1 30.60 69,578.04 28.73 其他4,022.32 1.32 11,587.05 4.09 13,174.3 5.44 3.资产的增减变化 2019年总资产为419,298.94万元，与2018年的381,846.29万元相比有所增长，增长9.81%。

2019年教育行业深度研究报告

２０１９年教育行业深度研究报告

前言关于整个国家对于教育的投入，大多数人都有较强的感性认知，知道体量是巨大的，但是没有量化的概念——总体量到底有多大？其中有多少来源于财政投入，有多少来源于其他渠道投入（社会资本等）？国家对于不同教育阶段的投入有何差异？不同省份对于教育的投入有何差异？本篇报告将从数据的维度对这些问题进行一一解析。本篇报告的三个核心结论是—— ①总量角度：教育经费多渠道筹集需求凸显，社会投入占比有望提升。整个社会对于教育的投入持续增长，自2012年以来，我国教育经费总投入占GDP比重均在5%以上，2018年达4.6万亿元。国家财政性教育经费占GDP比重均在4%以上，2018年达3.7万亿元，预计短期内该比重会相对稳定。我国教育经费中80%以上来源于国家财政性教育经费，国家财政性教育经费中地方财政性教育经费占比超90%，地方财政教育支出是整个社会对于教育投入的主力来源。地方公共财政教育支出在2012年对于地方财政的压力达到高点（占地方财政收入/支出比重分别为33.0%/18.8%），且目前该现状未有明显缓解，我们认为这可能是2012年之后相关政策出台的重要引发原因之一（2013年上海和温州两地开始营利性学校试点），加大民办教育力量投入需求突出，非财政的教育经费占比有望提升。 ②分阶段角度：义务教育阶段的财政支出占比近半，职业教育、幼儿园和高中占比略有提升，高等教育占比有所下降，预计结构性优化仍会继续进行。2016年幼儿园/义务教育/高中/高等占比分别为 3.8%/46.6%/9.6%/10.8%，幼儿园的财政投入远低于其他阶段，与其 17%的总人数占比不匹配，未来幼儿园公办化、普惠化是大趋势，而高等教育占比略有下降，伴随未来财政更多向低龄阶段倾斜，占比可能会有所调整，而这一趋势为民办高校的发展带来机会。2017年民办幼儿园/小学/初中/普高/中职/高等渗透率分别为 56%/8%/13%/13%/14%/24%，相较2004年分别增加 28/5/8/5/6/19pct，幼儿园民办渗透率极高，民办高等教育渗透率提升较快。“生均公共财政预算教育事业费”这一指标可以更加直观体现不同阶段的生均财政投入之间差距。根据最新数据，除幼儿园仍然低于 3000元/人以外，其他阶段均超过10000元/人，普通高等更是超过了 20000元/人。1997-2017二十年间我国经历了优先发展小学，之后是初中的过程，目前是处于加强稳固对于义务教育的投入，并加速发展学前、高中及高等教育的时期。 ③分地区角度：建议关注地方公共财政教育支出压力较大，教育资源相对不足的地区。结合6个指标的排名和赋值，我们对于各省市进行了综合排名，我们把得分大于等于3分的称为优势地区（18个），小于3分的称为非优势地区（13个）。我们认为该评分从财政角度出发，对民办学校的地理位置选择上有一定参考价值，得分越高，排名越靠前的省市，我们认为更需要民办学校的投入，对于民办学校的态度也更加欢迎，也有更大的概率在政策上给予高于平均的优惠力度，以此对于民办学校的投资地域给出一些建议。细分来看：5分的为一类优势地区（5个），包括广东、山东、河北、浙江、湖北；4分的为二类优势地区（8个），包括河南，广西，云南，江西，江苏，湖南，福建，上海；3分的为三类优势地区（5个），包括四川，安徽，贵州，山西，北京。在进行具体分析之前，我们先介绍在本文中会使用到的几个容易混淆的概念，：“教育经费”可以理解为“整个社会对于教育的投入总额”（最大口径），“国家财政性教育经费”可以理解为“国家财政对于教育的支出总额” （第二大口径），“财政性教育经费占教育经费的比重”可以理解为“整个社会对于教育的投入中财政的贡献程度”。“公共财政教育支出”可以理解为“一般公共财政对于教育的支出总额”（第三大口径）。

2018年酒店行业深度研究报告

２０１８年酒店行业深度研究报告

报告正文 1、海外成熟国家酒店行业供给小幅波动，景气度与GDP增长高度相关，RevPAR上升周期一般在3年以上 1.1海外成熟经济体酒店总体数量保持小幅增长，内部结构变化巨大根据美国酒店及住宿协会（AHLA）数据显示，截止2015年末，美国酒店总量达到55,372家，同比增长3.63%，创下历史新高，也是首次突破911前的高点；从门店地理特征来看，其中郊区和高速公路点占比最高，分别为33.59%和14.14%；顾客结构方面，商旅客占比44%，度假客占比56%；酒店类型方面，豪华（Luxury）、超高档(Upper upscale)、高档(upscale)、中高档（Upper midscale）、中档（Midscale）、经济型（Economy）酒店，此外，还有长期居住型酒店。酒店等级比例方面，85美元以上54%；60至85美元26%；60美元以下30%。图1：美国酒店门店分布情况（按区域，截止2014年）图2：美国酒店客房分布情况（按区域，截止2014年）资料来源：AHLA，兴业证券经济与金融研究院整理资料来源：AHLA，兴业证券经济与金融研究院整理根据美国酒店及住宿协会（AHLA）数据，1987-2015年29年间，酒店数量由44,500 家增加至55,372家，仅增加9,700家，增长了21.8%。期间，在2,000年酒店数量达到顶峰53,500家，直至2015年才突破当初顶峰水平，2001年酒店数量大幅下降22.63%主要因911恐怖袭击影响，次年取得25年间最大增幅13.64%，反映出了酒店行业较强的消费属性和弹性。从客房数量来看，呈现稳步向上的增长趋势， 29年间，由270万间增长至500万间，接近1倍增幅，远高于酒店数量的增长，我们认为这主要得益于美国酒店业连锁化的发展以及销售水平提升，中高端酒店市场的持续增长。

高通量基因组测序中测序深度,覆盖度

高通量基因组测序中，什么是测序深度和覆盖度？ 1G=1024M 测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。(测序深度=总数据量20M/基因组大小2M=10X) 覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。 1、全基因组重测序是对已知基因组序列的物种进行不同个体的基因序的个体，通过序列比对，可以找到大量的单核苷酸多态性位点(SNP)，插入缺失位点(InDel，Insertion/Deletion)、结构变异位点(SV，技术路线提取基因组DNA，利用Covaris进行随机打断，电泳回收所需长度的DNA片段(0.2~5Kb)，加上接头, 进行cluster制备(Solexa)或E-PCR (SOLiD)，最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行重测序。图1-1，以SOLiD为例，说明整个实验方案。

也称目标外显子组捕获，是指利用序列捕获技术将全基因组外显子区域DNA 捕捉并富集后进行高通量测序的基因组分析方法。是一种选择基因组的编码序列的高效策略，外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel 等具有较大的优势。外显子(expressed region)是真核生物基因的一部分，它在剪接(Splicing)后仍会被保存下来，并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列，又称表达序列。既存在于最初的转录产物中，也存在于成熟的RNA分子中的核苷酸序列。在人类基因中大约有180,000外显子，占人类基因组的1%，约30MB。

2019年ERP行业龙头汉得信息研究：智能制造快速推进,PLM、MES空间广阔

2019年ERP行业龙头汉得信息研究：智能制造快速推进，PLM、MES空间广阔

目录 1.公司简介：高端ERP实施行业龙头 (7) 1.1中国本土最早ERP咨询实施服务商 (7) 1.2业绩持续增长，未来有望提速 (8) 1.3不断扩大的技术团队为客户服务质量提供保障 (9) 2.信息化助力制造业转型升级，ERP需求回暖 (10) 2.1中国制造业发展迅速，但人口红利逐渐消失 (10) 2.2信息化助力制造业转型升级，ERP软件行业复苏 (11) 2.3本土ERP软件实施第一品牌地位确立 (12) 2.3.1公司实施经验丰富，是众软件厂商的重要合作伙伴 (12) 2.3.2国内ERP行业集中度高，公司实施份额持续提升 (14) 2.3.3ERP运维外包服务增强用户粘性 (16) 2.3.4云化时代，传统实施厂商面临新机遇 (17) 3.智能制造快速推进，PLM、MES空间广阔 (18) 4.1布局PLM，协同效应显著 (19) 4.2智能制造推动MES需求高涨 (21) 4.云服务需求高涨，“自有云+第三方云”值得期待 (22) 4.1优质合作伙伴提升企业在数字化领域的竞争力 (23) 4.2自有云产品落地加速，未来发展可期 (25) 4.2.1一站式商旅及费用管理平台——汇联易 (25) 4.2.2打造敏捷、高效的供应链体系——云SRM (27) 5.投资建议 (29)

图目录图1：汉得信息股权结构 (7) 图2：公司近十年营业收入情况 (8) 图3：公司近十年归母净利润情况 (8) 图4：2018年半年报公司收入结构 (8) 图5：近十年公司收入结构变化情况 (8) 图6：近十年公司利润率变化情况 (9) 图7：近十年公司期间费用率变化情况 (9) 图8：公司技术人员人数及占比 (10) 图9：可比公司员工人数对比 (10) 图10：中国制造业增加值增长率 (10) 图11：中国制造业人均增值（元） (10) 图12：中国劳动年龄（16-59岁）人口走势 (11) 图13：中国制造业就业人员平均工资 (11) 图14：中美制造业人均信息化费用对比 (12) 图15：部分国家ERP普及率 (12) 图16：中国管理软件市场规模及增速 (12) 图17：中国ERP软件市场规模及增速 (12) 图18：汉得信息部分标杆客户 (13) 图19：中国ERP行业发展综述 (14) 图20：2017年中国整体ERP市场格局 (15) 图21：2017年中国高端ERP市场格局 (15) 图22：汉得信息ERP实施市场份额 (15) 图23：汉得信息与Oracle等营收增速对比 (16) 图24：汉得信息与赛意信息营收对比 (16) 图25：2013-2015年中国IT运维和运维外包市场规模（亿元） (16) 图26：SAP云业务收入及增速 (18) 图27：Oracle云业务收入及增速 (18) 图28：2015-2022年中国智能制造装备行业市场规模及预测 (19) 图29：中国主流PLM市场规模 (20) 图30：中国规模以上工业企业数量 (22) 图31：中国MES市场规模 (22) 图32：汉得SaaS产品 (23) 图33：百度云ABC战略 (24) 图34：汇联易业务介绍 (26) 图35：汇联易部分客户 (26) 图36：汉得SRM功能 (27) 图37：汉得SRM应用行业 (28) 图38：汉得供应链金融业务模式 (28)

测序结果分析教学文案

测序结果的判读测序结果为.abi格式，可用软件chrosmas打开，一种颜色的峰代表一个碱基，峰的高低表信号的强弱。一个正常的N表示机器没法判读是哪种碱基，原因是：杂峰的信号高于机器默认的值，机器会认为该处有两个峰，因此不能判断确定是哪个峰，需要人工判读。以下三种情况会出现N：有杂合子，有杂峰，反应已结束。

原因：测序产物纯化不够注意：染料峰位于序列的前100 碱基以内;酒精峰位于序列的220 ~ 320 碱基之间

产生的原因是样品或毛细管内有灰尘等固体小颗粒原因：测序反应失败。解决办法：改进条件，重做反应。注意两个关键因素：引物与模板之间的比例：3.2 pmol: 200 ng。模板DNA 的纯度和用量：1.6 ~ 2.0

原因：残余的Dye 太多，纯化不够。有测序反应，但效率低下信号太弱解决办法：纯化充分。避开引物峰，确定新的分析起点 1、PCR产物测序时出现重叠峰问题图1(模板中有碱基缺失，往往是单一位点(1-1)或两个位点(1-2)碱基缺失导致测序结果移码) 解决方法：将PCR产物克隆到质粒(如T载体)中挑单克隆测序，或将PCR产物进行PAGE 纯化(至少琼脂糖充分电泳后切胶纯化)后再进行测序。问题图2(PCR产物不纯，含部分序列一致的两种以上的片段，长度不一)

解决方法：主要原因是PCR产物没有纯化，含有部分序列一致的两种以上长度不一的片段，将PCR产物进行PAGE纯化(至少琼脂糖充分电泳后切胶纯化)后再进行测序，便可解决。问题图3(测序引物有碱基缺失) 测序引物有碱基缺失(一般是引物的5'端缺失)，和模板的碱基缺失即图1有些类似，所不同的是模板碱基缺失一般是在一段正常测序序列后才出现移码，而引物碱基缺失的话，则从测序一开始就出现移码，表面在图形上便是一开始就是严重的峰形重叠。解决方法：重新合成引物，或将引物进行PAGE纯化 2、克隆测序时出现峰形重叠

汉得信息2019年财务状况报告

汉得信息2019年财务状况报告一、资产构成 1、资产构成基本情况汉得信息2019年资产总额为419,298.94万元，其中流动资产为304,730.08万元，主要分布在应收账款、货币资金、应收票据等环节，分别占企业流动资产合计的59.16%、35.98%和2.37%。非流动资产为114,568.86万元，主要分布在无形资产和固定资产，分别占企业非流动资产的33.97%、25.68%。资产构成表项目名称 2019年2018年2017年数值百分比(%) 数值百分比(%) 数值百分比(%) 总资产419,298.94 100.00 381,846.29 100.00 314,662.26 100.00 流动资产304,730.08 72.68 283,055.34 74.13 242,160.6 76.96 长期投资12,832.42 3.06 23,235.39 6.09 12,664.84 4.02 固定资产29,422.77 7.02 30,214.04 7.91 31,895.57 10.14 其他72,313.67 17.25 45,341.52 11.87 27,941.25 8.88 2、流动资产构成特点企业流动资产中被别人占用的、应当收回的资产数额较大，约占企业流动资产的60.33%，应当加强应收款项管理，关注应收款项的质量。企业持有的货币性资产数额较大，约占流动资产的38.35%，表明企业的支付能力和应变能力较强。但应当关注货币资金的投向。

流动资产构成表项目名称 2019年2018年2017年数值百分比(%) 数值百分比(%) 数值百分比(%) 流动资产304,730.08 100.00 283,055.34 100.00 242,160.6 100.00 存货 6.45 0.00 1.64 0.00 74.63 0.03 应收账款180,293.03 59.16 174,501.09 61.65 141,744.26 58.53 其他应收款3,542.39 1.16 3,975.84 1.40 5,860.64 2.42 交易性金融资产0 0.00 0 0.00 0 0.00 应收票据7,233.59 2.37 6,382.62 2.25 11,728.73 4.84 货币资金109,632.29 35.98 86,607.1 30.60 69,578.04 28.73 其他4,022.32 1.32 11,587.05 4.09 13,174.3 5.44 3、资产的增减变化 2019年总资产为419,298.94万元，与2018年的381,846.29万元相比有所增长，增长9.81%。 4、资产的增减变化原因以下项目的变动使资产总额增加：货币资金增加23,025.2万元，无形资产增加20,479.04万元，应收账款增加5,791.94万元，递延所得税资产增加2,132.07万元，应收票据增加850.97万元，长期待摊费用增加29.76万元，存货增加4.81万元，共计增加52,313.78万元；以下项目的变动使资产总额减少：一年内到期的非流动资产减少122.3万元，其他非流动资产减少

文档之家