样本类型无关的多类特征基因选择方法_杨俊丽
- 格式:pdf
- 大小:125.99 KB
- 文档页数:5
利用家族系谱图判定遗传病类型
杨静利;张莉
【期刊名称】《沧州师范学院学报》
【年(卷),期】2004(020)002
【摘要】优生的措施之一是进行遗传咨询,而在了解家庭病史的基础上,利用家族系谱图对遗传病类型作出界定,是遗传咨询的关键,下列判定方法简单快捷,作为交流,介绍如下:
【总页数】1页(P59)
【作者】杨静利;张莉
【作者单位】沧州师范专科学校,河北,沧州,061001;沧州师范专科学校,河北,沧州,061001
【正文语种】中文
【中图分类】R394
【相关文献】
1.如何解“系谱图遗传病”类型题 [J], 李玉华
2.用“三步法”判定系谱图中遗传病的遗传方式 [J], 张爱泉
3.人类遗传病系谱图类型判别的原则与方法 [J], 刘元;张迎春
4.单基因遗传病类型判定 [J], 霍建华
5.利用家族系谱图判定遗传病类型 [J], 杨静利;张莉
因版权原因,仅展示原文概要,查看原文内容请购买。
毕业论文中的样本选择技巧在毕业论文中进行样本选择是研究的一个关键步骤。
合理选择样本可以确保研究结果的准确性和可靠性。
本文将介绍一些毕业论文中的样本选择技巧,并对其进行详细解析。
一、样本选择的重要性样本选择是毕业论文研究中至关重要的一步。
一个好的样本可以提高研究的可靠性和代表性,确保研究结果的准确性。
如果样本选择不当,可能导致研究结果的偏差,甚至影响论文的科学性和可信度。
二、样本选择的原则1.代表性原则:样本应当能够代表目标总体的主要特征和分布情况,以保证研究结果的泛化能力。
2.随机性原则:样本应当通过随机抽样的方法获取,以排除主观因素对样本选择的影响,减少选择偏差。
3.有效性原则:样本应当能够有效回答研究问题,并能够充分反映变量之间的关系。
三、常用的样本选择方法1.简单随机抽样:根据目标总体的特点,使用随机数表或随机数生成软件进行抽样,保证每一个个体被选中的概率相等。
2.整群抽样:将目标总体分成若干个互不重叠的群组,然后从每个群组中随机抽取样本。
3.分层抽样:根据目标总体的特点,将总体划分为若干个层次,然后在每个层次中使用简单随机抽样或系统抽样的方法进行样本选择。
4.多阶段抽样:先从总体中随机选择若干个样本单元,然后再对每个样本单元内进行个体的抽样。
四、样本选择中的常见问题1.样本量不足:样本量过小可能导致研究结果的不准确,因此在进行样本选择时应该考虑样本量的大小。
2.样本偏差:样本选择时往往存在一定的偏差,比如抽样过程中因为主观原因而忽略某些特定群体,从而影响到样本的代表性。
3.非随机性抽样:一些研究者可能因为方便或者效率等因素而选择非随机抽样方法,这将影响到研究结果的科学性和可靠性。
五、样本选择技巧1.合理规划样本选择过程,确保样本能够代表目标总体的主要特征。
2.根据研究问题和目标总体的特点,选择合适的抽样方法。
3.合理控制样本量,确保样本量能够满足研究的要求。
4.遵循样本选择的原则,如代表性原则、随机性原则和有效性原则。
基因组学数据分析中的差异表达基因筛选方法研究差异表达基因(Differentially Expressed Genes,DEGs)是在不同条件下基因表达水平发生显著差异的基因。
在基因组学数据分析中,筛选差异表达基因是研究基因功能、疾病机制等的重要步骤。
本文将探讨基因组学数据分析中的差异表达基因筛选方法,包括常见的统计分析方法以及机器学习方法。
常见的统计分析方法包括T检验、方差分析(ANOVA)和德沃夏检验(DESeq)。
T检验适用于两个样本情况,可以通过比较两个条件下基因表达平均水平的差异来筛选差异表达基因。
ANOVA适用于三个或者更多个样本情况,通过检验不同条件下基因表达的方差差异来筛选差异表达基因。
DESeq是一种基于负二项分布的差异表达分析方法,主要用于RNA-seq数据分析。
它可以根据基因表达的 |fold change| 和调整的 p-value 来筛选差异表达基因。
机器学习方法在差异表达基因筛选中也发挥着重要的作用。
主要有支持向量机(Support Vector Machine,SVM),随机森林(Random Forest,RF)和神经网络(Neural Networks,NN)等。
SVM是一种监督学习方法,通过构建一个高维特征空间来将不同类别的样本分开,从而实现对差异表达基因的筛选。
RF是一种集成学习方法,通过构建多个决策树来进行分类,根据特征重要性来筛选差异表达基因。
NN是一种模仿神经系统的学习算法,通过权重调整和非线性映射来提取特征并进行分类。
除了上述方法外,还有一些新兴的差异表达基因筛选方法被提出。
如基于网络拓扑的筛选方法(TNA),它利用基因网络的拓扑结构来评估基因的重要性和表达差异程度,从而筛选差异表达基因。
另外,基于组学特征的筛选方法(OMICSFeature)结合了多组学数据(如基因表达、甲基化、蛋白质组等)的特征,通过机器学习模型对差异表达基因进行筛选。
在进行差异表达基因筛选时,需要注意以下几点。
奇异数据筛选法在玉米籽粒蛋白质近红外光谱检测中的应用梁秀英;李小昱;杨万能【摘要】As the classical chemical analysis of protein content in maize kernel was slow and destructive,and the exist- n<br> ence of the outliers in the near infrared (NIR)spectra would affect the accuracy and stability of the NIR models,we ap-plied outlier detection methods for measuring protein content in maize kernel based on near infrared spectroscopy.3 out-lier screening methods,leverage method,resampling by half-mean method (RHM),leverage method,and monte-carlo sampling method (MCS),were compared to detect outliers in the protein spectra and the least squares support vector machine (LS-SVM)models were built with using partial least squares regression (PLSR)method to extract the optimal component scores and using niche ant colony algorithm (NACA)to optimize the parameters (γand σ2 )of the LS-SVM model.The results showed that the performances of the LS-SVM models with those samples removed the outliers were better than the LS-SVM model with all samples.The prediction results of the validation set also showed that the MCS method was optimal for detecting outliers in the spectra of the protein of the whole maize kernel based on NIRS.%相对于传统生化测定方法,基于近红外光谱(Near infrared spectroscopy,NIRS)玉米籽粒蛋白质含量检测是一种快速、非破坏、且适用于多组分同时检测的新方法。
眼睑基底细胞癌差异基因的筛选和分析杨俭伟;宋丽华;王娟;张璐璐;肖丽;张宏彬;刘立民;刘延东【期刊名称】《眼科新进展》【年(卷),期】2024(44)6【摘要】目的采用RNA测序技术对眼睑基底细胞癌差异基因进行筛选和分析。
方法选取2021年7月至11月因眼睑基底细胞癌就诊于河北省眼科医院并行扩大切除及一期眼睑重建的患者6例,分别取切除的部分癌组织及修复缺损时修剪的癌旁正常组织各一块进行研究。
通过RNA测序技术进行建库测序。
使用DESeq2软件设定P<0.05及|log 2(foldchange)|>1为显著差异表达的阈值。
鉴定出差异表达的基因。
采用clusterProfiler软件对差异基因集进行GO功能富集分析和KEGG通路富集分析,进一步分析这些特异性基因的生物学意义。
结果使用DESeq2软件进行癌组织和癌旁组织之间的差异表达分析,共筛选出1317个差异基因,其中在6例癌组织中表达上调的基因有906个,表达下调的基因有411个。
GO富集分析结果中上调最显著的前30个差异基因主要富集于体液免疫反应、免疫球蛋白复合物、B细胞受体信号通路、细胞外基质、抗原结合、受体调节剂活性等方面。
下调基因前10位在生物过程、细胞组成、分子功能层面主要与表皮发展相关。
KEGG通路富集主要集中在黑色素生成通路及WNT信号通路、免疫相关信号通路等,相关基因通路有8个。
根据基因上调的显著性由大到小,最终确定核心基因包括FZD2、PTCH1、WNT7B、TCF3、MMP-9、TEAD2。
结论基底细胞癌的发生与各种通路相互影响和共同作用密切相关,各种高表达基因中,FZD2、PTCH1、WNT7B、TCF3、MMP-9、TEAD2在眼睑基底细胞癌患者组织中表达升高最显著,与眼睑基底细胞癌的发生和发展有密切关系。
【总页数】4页(P454-457)【作者】杨俭伟;宋丽华;王娟;张璐璐;肖丽;张宏彬;刘立民;刘延东【作者单位】河北省眼科医院眼科【正文语种】中文【中图分类】R777.1【相关文献】1.手术切除联合眼睑再造对眼睑基底细胞癌的疗效及对Ki67、Tmem16a和ILK 表达的影响2.骨膜蛋白在眼睑基底细胞癌相关成纤维细胞与眼睑正常成纤维细胞中的表达差异3.眼睑基底细胞癌控制性切除联合眼睑一期修复的疗效4.眼睑基底细胞癌误诊眼睑恶性\r黑色素瘤1例5.眼睑再造术治疗眼睑基底细胞癌的疗效及术后整合素αvβ3、核因子-κB65和E-cadherin的表达情况因版权原因,仅展示原文概要,查看原文内容请购买。
专利名称:一种用于培育黄瓜雄性不育系的重组表达载体及其构建方法和应用
专利类型:发明专利
发明人:杨丽,马明茹,别之龙
申请号:CN202010497456.9
申请日:20200603
公开号:CN111690679A
公开日:
20200922
专利内容由知识产权出版社提供
摘要:本发明公开了一种重组表达载体,为在载体质粒的多克隆位点间插入黄瓜CsMLO12和CsMLO13基因的两个sgRNA靶点,所述黄瓜CsMLO12基因具有如SEQ ID NO:1所示的核苷酸序列,所述黄瓜CsMLO13基因具有如SEQ ID NO:2所示的核苷酸序列,本发明还公开了重组表达载体的构建方法及其在培育黄瓜雄性不育系中的应用,通过构建与花粉管萌发相关基因CsMLO12、CsMLO13的CRISPR/Cas9表达载体,并通过农杆菌介导遗传转化黄瓜,获得Csmlo12、Csmlo13双突变体,发现双突变体的花粉不能正常萌发出花粉管从而使其雄性不育。
申请人:华中农业大学
地址:430070 湖北省武汉市洪山区狮子山街1号
国籍:CN
代理机构:武汉智嘉联合知识产权代理事务所(普通合伙)
代理人:徐绍新
更多信息请下载全文后查看。
影响力研究中样本类型的选择与应用研究在社会科学研究领域中,样本类型的选择对于研究结果的可靠性和泛化性至关重要。
影响力研究作为一种重要的研究方法,主要关注个体、团队或者组织对其他个体、团队或组织的影响程度。
本文将探讨影响力研究中样本类型的选择以及应用研究的相关问题,以期提供一些对于研究者在选择样本类型时的参考。
一、影响力研究中的样本类型选择在影响力研究中,样本类型的选择应该根据研究对象的特点以及研究目的进行合理把握。
一般来说,可以选择以下几种样本类型进行研究:1. 随机抽样:随机抽样是一种常用的样本选择方法,通过随机选取个体、团队或组织进行研究,可以有效地避免研究结果的偏倚。
同时,随机抽样也可以保证样本具有一定的代表性,从而增加研究结果的可泛化性。
2. 分层抽样:分层抽样是根据研究对象所在的不同层次进行样本选择的方法。
通过将研究对象分层,然后在每个层次中进行抽样,可以控制不同层次的变异,使得研究结果更加准确,样本的代表性更高。
3. 整群抽样:整群抽样是将研究对象按照群组进行抽样的方法。
在影响力研究中,可以选择将组织或团队作为群组进行抽样,从而在样本选择过程中同时考虑个体和群组的特点,提高研究结果的可靠性。
二、样本类型的应用研究在影响力研究中,样本类型的应用研究是为了更好地理解和解释研究结果。
以下是几种常见的样本类型应用研究的方法:1. 横向比较研究:横向比较研究通过对不同样本类型之间的差异进行比较,以揭示不同样本类型在影响力方面的差异。
例如,可以通过比较不同行业企业的影响力水平,来探讨行业因素对影响力的影响。
2. 纵向研究:纵向研究通过对同一样本类型在不同时间点上的影响力进行比较,以研究影响力的变化趋势和影响因素。
例如,可以通过跟踪研究一个组织在不同发展阶段的影响力变化,来探讨组织发展对影响力的影响。
3. 组织间比较研究:组织间比较研究通过对不同组织之间的影响力进行比较,以研究内外因素对影响力的影响。
差异基因筛选方法差异基因筛选方法是一种有效的基因表达分析技术,它可以让研究人员深入探索和解释不同样本之间基因表达差异的机制。
这种方法可以用来研究疾病的表现形式、植物的生长与发育等现象。
一般来说,差异基因筛选方法包括一系列步骤:首先,研究人员需要收集和分析足够多的相关样本,诸如正常样本和病变样本;其次,用软件或统计方法对样本的基因表达值进行比较;最后,筛选出基因表达有显著差异的基因作为研究的重点。
在基因表达分析中,可以采用多种筛选方法,如分布对比、层次聚类、异常值分析、主成分分析以及差异基因筛选方法。
相比其他方法,差异基因筛选方法更具有灵活性,可以有效的过滤掉各种干扰因素,同时,采用可视化的方式显示结果,便于观察和分析。
据研究,差异基因筛选方法能够帮助研究人员从多变的数据中提取有价值的信息。
而在很多研究中,这种方法都能被成功使用,如在癌症研究中,通过采用差异基因筛选方法,研究人员能够从大量样本中发现确定肿瘤细胞进化特征模式的基因;在植物生长发育方面,研究人员借助差异基因筛选方法,对植物器官发育有关基因的表达进行了深入研究,并发现了一些新的可以改善植物生长发育的基因。
差异基因筛选方法在未来的研究中,还可以用于调查和认识各类现象的至关重要的基因,如在分子进化方面,这种方法可以用来探讨物种之间的差异;在物理学中,研究人员还可以通过研究物体受力状态下基因表达的差异来解释力学现象;另外,在病毒、微生物及其他生物体中,通过采用差异基因筛选方法,能更好地深入了解其衍生产物的功能及作用。
总之,差异基因筛选方法是一种有效的基因表达分析技术,它可以帮助研究人员深入探索和解释不同样本之间基因表达差异的机制。
在研究许多现象时,借助这种技术,用适当的筛选方法,研究者将得到有价值的信息,从而丰富我们对现象的理解。
报告中有效选择和处理研究样本的方法有效选择和处理研究样本是科研工作中至关重要的一环。
本文将从六个方面展开论述,探讨报告中有效选择和处理研究样本的方法。
一、研究目标与研究问题的明确在进行样本选择之前,首先需要明确研究目标和研究问题。
研究目标决定了研究的方向和范围,研究问题则限定了研究样本的属性和特征。
明确研究目标和研究问题有助于筛选出符合需求的研究样本。
二、选择合适的样本类型根据研究目标和研究问题的要求,选择合适的样本类型是十分重要的。
常见的样本类型包括抽样、实验样本、问卷样本等。
抽样是一种常用的样本选择方法,根据抽样的目的和研究特点选择合适的抽样方法,如随机抽样、整群抽样、分层抽样等。
实验样本适用于需要干预或处理的研究,通过对照组和实验组的比较来得出结论。
问卷样本适用于需要调查和统计大量数据的研究,通过写问卷和发放问卷的方式获取样本。
三、样本容量的确定样本容量的确定直接影响到研究结果的可靠性和推广性。
通常,样本容量应根据研究问题的复杂程度和数据的分布特点来确定。
一般而言,样本容量越大,研究结果的可靠性越高。
可以通过计算样本容量的公式或利用计算机软件进行估算。
四、样本间的比较和对比在进行研究样本选择和处理的同时,需要进行样本间的比较和对比。
对于同一研究问题,可以选择不同样本进行研究,比较其差异和相似之处。
通过横向比较不同样本,可以深入了解研究对象的特点和规律,提高研究结果的可信度。
五、样本的有效筛选和处理在研究过程中,可能会遇到一些无效或者不符合要求的样本。
在这种情况下,需要进行有效的筛选和处理。
可以利用统计方法对样本进行筛选和清洗,剔除掉不符合要求的样本。
同时,还可以对样本进行适当的分组或分类,以便更好地进行分析和比较。
六、样本的代表性和可靠性检验最后,需要对样本的代表性和可靠性进行检验。
代表性检验是判断样本是否能够代表总体的一种方法。
常用的代表性检验方法包括分层抽样和比例估计等。
可靠性检验是判断样本结果的稳定性和一致性。
Computer Engineering and Applications 计算机工程与应用基金项目:山西省实验动物专项资金(the Special Foundation for Laboratory Animals of Shanxi Province, China under Grant No.2010K12);山西医科大学青年基金(Shanxi Medical University Foundation for Young Scientists under Grant No.02201023)。
作者简介: 杨俊丽(1978-),女,硕士研究生,讲师,主要研究领域为生物信息学,医学数据整合;刘田福(1954-),男, 教授;李祥生(1961-),男, 教授。
E-mail: hplkyjl@样本类型无关的多类特征基因选择方法杨俊丽1, 刘田福2, 李祥生1YANG Junli 1, LIU Tianfu 2, LI Xiang-sheng 11.山西医科大学 计算机教学部,山西 太原 0300012.山西医科大学 实验动物中心,山西 太原 0300011. Department of Computer Teaching, Shanxi Medical University, Taiyuan 030001, China2. Laboratory Animal Center, Shanxi Medical University, Taiyuan 030001, ChinaFeature selection rules for classifying any multi-class samplesAbstract :Feature gene for classification is one of important problems in gene expression data analysis. Current methods ignored that gene expression were unbalanced in different classes. The paper introduces a new feature selection method for any sample. The method presents a new heuristic algorithm that was composed of a improved difference between classes and a original undulation inside the class. The experimental results showed that the method was effective on selecting feature genes for unbalanced multi-class sample and advancing classification capability of classifiers.Key words :feature selection; multi-class; classifier; gene expression profile摘 要:分类特征基因是基因表达谱数据分析中的重点,目前的特征基因选择方法均没有考虑到基因在不同类别中分布失衡给特征基因选择算法带来的影响。
雷琼牛PIL基因遗传多样性分析武秀香1,施雪奎1,杨章平1*,李俊雅2*,毛永江1,侯冠彧2(1扬州大学动物科学与技术学院,江苏扬州 225009;2中国农业科学院北京畜牧兽医研究所,北京 100193)摘要:本文借助PCR-SSCP方法,分析催乳素基因在74 头雷琼牛中的多态性,结果表明6216位点和8377位点分别得到3种基因型AA、AB 和BB,基因型频率分别为0.230,0.527,0.243和0.041,0.284,0.676;8510位点得到2种基因型AA和AB,基因型频率为0.655和0.345。
群体遗传分析表明3个位点均处于中度多态,8510位点处于H-W不平衡状态(P<0.01),其余两个位点处于平衡状态(P>0.05);连锁不平衡分析表明6216位点和8510位点间连锁不平衡,其余位点间不存在强连锁不平衡(D’>0.75,r2>0.33)。
关键词:PIL基因,遗传多样性,SNP催乳素(Prolactin,PRL)参与了很多生理活动,包括乳蛋白的合成、免疫活动的调节、促进生殖器官的发育、维持渗透压的平衡以及一些生理行为。
催乳素是脑垂体分泌的具有重要生物学功能的激素之一,已有报道它对动物体有100多种不同的影响。
PRL 对起始和维持泌乳具有重要意义,并对乳蛋白、乳糖和乳脂等重要乳成分的合成起主要调控作用[1]。
牛的PRL 基因被定位在23 号染色体上,它由5个外显子和4个内含子组成[2]。
由于在牛PRL 基因的exon3中编码第103个氨基酸的密码子发生了由碱基A 到G的沉默突变,从而导致了1个RsaⅠ位点的多态性[3]。
Chung等研究表明PRL-RsaⅠ座位对奶牛的产奶量和乳脂率具有显著影响[4]。
本研究的目的就是分析雷琼牛群体PIL基因遗传多样性,探讨分子遗传标记辅助选择雷琼牛繁殖能力的方法。
牛的PRL位于23 号染色体上,由5 个外显子和4 个内含子组成[5],共10 kb 。
一种用于化学模式分类规则的遗传算法
杨俊丽;戚务勤;李祥生
【期刊名称】《网络新媒体技术》
【年(卷),期】2010(031)012
【摘要】针对化学数据分类的问题,提出一种用于挖掘化学模式分类提取规则的遗传算法.该算法以样本属性值为条件,采用实值编码方式,将化学分类提取规则演绎成种群进化规则,适应度函数与各参数的设置也以离散型化学数据和连续型化学数据的规则提取为依据.实验结果表明,设计的遗传算法在解决化学模式分类问题上性能良好,易于专业分析.
【总页数】5页(P54-58)
【作者】杨俊丽;戚务勤;李祥生
【作者单位】山西医科大学,计算机教学部,太原,030001;天津商业大学,生物技术与食品科学学院,天津,300134;山西医科大学,计算机教学部,太原,030001
【正文语种】中文
【相关文献】
1.粗糙集方法及其在化学模式分类规则挖掘中的应用 [J], 束志恒;陈德钊;陈亚秋
2.近红外透射光谱结合规范变量分析用于化学模式分类 [J], 成忠;诸爱士
3.一种基于规则的模式分类器设计方法 [J], 杨猛;胡卫东;夏胜平;郁文贤
4.一种用于模式分类有监督的rn模糊ART神经网络 [J], 潘紫微;徐金梧
5.一种适用于模式分类的模糊粗隶属函数神经网络 [J], 张东波;王耀南
因版权原因,仅展示原文概要,查看原文内容请购买。
不同生境中克隆植物的繁殖倾向3王洪义1 王正文233 李凌浩2 陈雅君1 任丽昀3(1东北农业大学园艺学院,哈尔滨150030;2中国科学院植物研究所植被数量生态学重点实验室,北京100093;3内蒙古自治区锡林郭勒盟太仆寺旗畜牧局,太仆寺旗027000)摘 要 对克隆植物在林下、草原、荒漠、冻原、农田和水域等6种不同类型生境中的繁殖对策及其生态适应意义进行了归纳和总结,对克隆植物有性繁殖与无性繁殖之间的权衡关系及相对重要性随水分、光照和温度的变化规律进行了阐述。
分析表明,在环境条件严酷地区,克隆植物的无性繁殖在种群更新中的相对重要性有所增加。
对两种繁殖方式的生态功能特性进行比较,综述了有关二者权衡关系的研究成果及影响二者权衡关系的部分因素。
从研究手段上对克隆植物繁殖对策的研究进行了思考与展望。
关键词 生境类型,生态适应性,有性繁殖,无性繁殖,权衡中图分类号 Q948111 文献标识码 A 文章编号 1000-4890(2005)06-0670-07R eproductive tendency of clonal plants in various habitats.WAN G Hongyi 1,WAN G Zhengwen 2,L I Ling 2hao 2,CHEN Y ajun 1,REN Liyun 3(1College of Horticulture ,Northeast A gricultural U niversity ,Harbin 150030,China ;2L aboratory of Quantitative V egetation Ecology ,Institute of Botany ,Chinese Academy of Sciences ,Beijing 100093,China ;3A nim al Husbandry B ureau of Taipusiqi ,Xilingol L eague ,Inner Mon 2golia ,Taipusiqi 027000,China ).Chinese Journal of Ecology ,2005,24(6):670~676.This paper summed up the reproductive strategies and the ecological adaptability of clonal plants in six differ 2ent habitats such as forest understory ,steppe ,desert ,farmlands and water area ,and discussed the trade 2off re 2lations or relative importance of sexual vs.asexual reproduction which regularly change with water status ,light and temperature.Such regularity was clarified as :the harsher the environment is ,the more asexual reproduc 2tion would contribute to the regeneration and survival of the populations.In addition ,we compared the ecologi 2cal and functional properties of sexual vs.asexual reproduction modes ,reviewed recent researches on the trade 2off relations between the two reproductive modes ,and mentioned some factors influencing such tradeoff rela 2tions.Finally ,we made a prospect about future research of reproductive strategy of clonal plants especially in terms of approaches.K ey w ords habitat types ,ecological adaptability ,sexual reproduction ,asexual reproduction ,trade 2off.3中国科学院知识创新工程重大项目(KSCX1208)和中国博士后科学基金资助项目(2002032118)。
鉴定定量PCR不同引物对的扩增效率张静静;马长艳;孙玉洁【期刊名称】《南京医科大学学报(自然科学版)》【年(卷),期】2006(026)008【摘要】目的:采用载体构建及荧光定量PCR的方法比较BCL2等位基因不同部位PCR引物在定量分析中的扩增效率,判断其用于不同等位基因转录活性分析的可靠性.方法:用PCR扩增包含定量PCR目的片段的序列,然后将扩增产物分别插入pGEM-T Easy载体中,构建TA3重组载体,再以TA3载体为模板,采用荧光定量PCR方法比较引物对之间扩增效率.结果:定量PCR结果显示引物对之间扩增效率无明显差异.结论:所检测的PCR引物对之间的扩增效率一致,可用于比较分析mbr+/mbr-Nalm-6杂合子细胞系中两个等位基因表达活性.【总页数】4页(P645-648)【作者】张静静;马长艳;孙玉洁【作者单位】南京医科大学江苏省人类功能基因组学重点实验室,江苏,南京,210029;南京医科大学江苏省人类功能基因组学重点实验室,江苏,南京,210029;南京医科大学江苏省人类功能基因组学重点实验室,江苏,南京,210029【正文语种】中文【中图分类】R587.1【相关文献】1.引物3'端不同碱基错配情况下实时荧光定量PCR非特异性扩增的发生规律 [J], 李金春;李家鹏;周彤;乔晓玲;许随根;戚彪;米瑞芳;曲超;许典2.利用抑制性 PCR 提高兼并引物扩增效率及特异性 [J], 朱晓静;戴忠敏3.高梁BTx623幼苗多酚氧化酶Real—timePCR引物扩增效率的检测 [J], 蔡玉笑;张志雯;秦素平;陈于和4.家蚕丝腺组织Actin3引物非特异性扩增片段的鉴定及A3引物扩增条件的优化[J], 柴春利;李玉欣;孟勐;左伟东5.用三引物法提高PCR的扩增效率及特异性 [J], 欧阳应斌;黄培堂;黄翠芬因版权原因,仅展示原文概要,查看原文内容请购买。
Computer Engineering and Applications 计算机工程与应用基金项目:山西省实验动物专项资金(the Special Foundation for Laboratory Animals of Shanxi Province, China under Grant No.2010K12);山西医科大学青年基金(Shanxi Medical University Foundation for Young Scientists under Grant No.02201023)。
作者简介: 杨俊丽(1978-),女,硕士研究生,讲师,主要研究领域为生物信息学,医学数据整合;刘田福(1954-),男, 教授;李祥生(1961-),男, 教授。
E-mail: hplkyjl@样本类型无关的多类特征基因选择方法杨俊丽1, 刘田福2, 李祥生1YANG Junli 1, LIU Tianfu 2, LI Xiang-sheng 11.山西医科大学 计算机教学部,山西 太原 0300012.山西医科大学 实验动物中心,山西 太原 0300011. Department of Computer Teaching, Shanxi Medical University, Taiyuan 030001, China2. Laboratory Animal Center, Shanxi Medical University, Taiyuan 030001, ChinaFeature selection rules for classifying any multi-class samplesAbstract :Feature gene for classification is one of important problems in gene expression data analysis. Current methods ignored that gene expression were unbalanced in different classes. The paper introduces a new feature selection method for any sample. The method presents a new heuristic algorithm that was composed of a improved difference between classes and a original undulation inside the class. The experimental results showed that the method was effective on selecting feature genes for unbalanced multi-class sample and advancing classification capability of classifiers.Key words :feature selection; multi-class; classifier; gene expression profile摘 要:分类特征基因是基因表达谱数据分析中的重点,目前的特征基因选择方法均没有考虑到基因在不同类别中分布失衡给特征基因选择算法带来的影响。
提出一种样本无关的特征基因选择方法,该方法利用改进地类间差异函数和类内波动函数,并根据两个函数的一致性选择每个类别的鉴别基因。
该方法不仅适用于多类样本,对于各类样本数量不均衡以及基因在各类中分布失调的样本同样有效。
实验结果表明,该方法确保了特征矢量的均衡性,提高了分类器的分类性能。
关键词:特征选择; 多类; 分类器; 基因表达谱 文献标识码: A 中图分类号: TP391.41 引言基因表达水平是衡量基因功能发挥作用的重要指标,通过基因表达水平的高低,可以揭示生物体的状态和基因在生物体内的活性[1],对医学基础研究以及疾病的临床诊断和治疗具有重要的意义。
基因表达谱就是描述基因在某一特定状态下表达水平的数据。
通过对基因表达谱数据的分析可以获得基因功能和基因表达的潜在信息,为生物学和医学研究提供准确有力的科学依据。
然而,基因表达谱数据集中的每个样本的可测基因数一般达到几千甚至上万个,而实际上只有几十个甚至几个基因才真正与样本类别相关,包含了样本分类信息,大部分基因与样本类别无关。
因此,如何发现对样本分类起决定性作用的一组分类特征基因,即分类特征基因提取与选择的方法至关重要。
它不仅是建立有效地分类模型的关键,也是发现疾病分类与分型的基因标记物以及药物治疗潜在靶点的重要手段[2]。
目前科研工作者已从不同角度提出多种特征基因选择方法。
其中大多数特征基因选择方法都是针对两类分类问题网络出版时间:2012-04-25 17:21网络出版地址:/kcms/detail/11.2127.TP.20120425.1721.060.html2 Computer Engineering and Applications计算工程与应用设计的。
而在实际应用中,多类分类问题更为常见。
Dudoit[3]等人提出将类间和类内的差平方和之比排序来选择特征基因,Cho[4]等人用类质心距离的均值和标准差来选择特征基因,这些方法都是针对解决多类分类问题而设计的,但没有考虑到样本中类别样本数目不平衡的现象。
李建中等针对类别样本数不平衡问题,提出一种模型无关特征选择方法,该方法克服了样本数目不平衡现象,然而忽视了基因在多类样本的各类别中分布不均衡给特征基因选择算法带来的影响。
本文提出一种适于任意样本集的特征基因选择方法。
该方法利用新的类间差异函数和新的类内波动函数,将每个类别的鉴别基因分别排序,然后选择相同数量的最优鉴别基因组成特征基因集。
该方法不仅与样本类别数量无关,与各类中样本数量是否均衡无关,而且与基因在各类中分布失调也无关,同时避免了大部分特征矢量集中在其中某一类或某几类中。
2 基因表达谱的数学模型设有来自m个类别的n个样本,G i={g i1, g i2,……, g ik}表示样本i(1≤i≤n)中所有基因组成的集合,其中g ij(1≤j≤k)为样本i中基因j的表达值,k为基因的个数。
所有样本所组成的基因集合可表示成基因表达矩阵G=[G1T, G2T, ……, G n T]T,其中样本i中的所有基因集合G i为一个k 维向量,是k维空间的一个点,基因表达矩阵G则构成一个k维向量空间,其一行表示某一样本中的所有基因的表达情况,而其一列表示某个基因在不同样本中的表达情况。
分类特征基因选择方法的基本任务就是研究如何从原始数据集中选择出对样本分类识别最有效的数量最少的特征基因子集,从而降低特征空间的维数。
因此,特征选择的实质就是在G中找到一个子空间E,E的维数就是特征基因的个数。
令E是p维子空间,则E=[E1T, E2T, ……, E n T]T,其中E i={e i1, e i2,……, e ip}(p<k)。
3 特征基因选择方法在设计特征基因选择策略时,首先需要制定特征提取和选择的准则。
从理论上讲,应该选择分类信息含量最大的特征矢量,即特征矢量应该在不同类别间的表达水平值差异较大,而在类内则具有近似一致的表达水平值[5]。
对于基因的特征矢量值常采用基因特征计分准则来确定。
根据基因特征计分准则对基因集合中的每一个基因进行计分,然后按分值从大到小排列基因,并选择排在前面的一定数量的基因作为候选特征基因的初选结果。
常用的基因特征计分准则主要有:方差不等的t检验统计量、特征计分准则(feature score criterion, FSC)、信噪比方法(signal to noise, S-N)、Fisher 判别(Fisher discriminant ratio, FDR)和Bhattacharyya特征计分准则(Bhattacharyya feature score criterion, BFSC)等[6]。
这些特征计分准则虽然从不同角度都体现了基因在两个类中分布均值或分布方差的差异,但是只适用于正负两类的二分类问题。
另外,这些计分准则还可能导致大部分特征矢量集中在其中的某一个类中,这会严重影响分类器的分类性能。
如果某个基因在类别分布不均衡的多类样本中只是其中一个或几个类别的特征基因,而在其他各类中均没有明显鉴别特征,那么这个基因就是这个类别或这几个类别的特征基因。
基于此思想,本文对样本集中的各个类别分别进行特征基因的选择。
某个类别的特征基因应在此类与非此类间表达水平差异较大,而在此类类内具有近似一致的表达值。
本文利用基因的类与非类间差异和类内波动的一致性来衡量基因在各类中的特征分值,然后,按照此特征分值的大小对各类中的基因分别进行排序,并选择前面相同数量的基因构成特征基因集,以确保特征矢量的均衡性。
3.1类间差异选择若基因g是C类的特征基因,那么基因g在C类与非C类样本之间的表达水平差异较大。
设基因表达谱样本集分为m个类别,那么基因g在C类中的类间差异函数(between classes difference,BCD)可表示为()c c cBCD gµµ=−(1) 其中μc与μc- 分别为基因g在C类和非C类中表达水平的均值。
BCD(g c)值越大说明基因g在C类和非C类间的差异越大。
然而BCD(g c)并不能很好的体现基因g在C类和非C类间表达水平均值的差异。
如果基因g的BCD(g c)很大,但其在非C类的某个类中的表达水平均值与其在C类中的表达水平均值差异较小,那么基因g对于C类的鉴别能力就会受到很大的影响。
因此,在衡量基因对于某一类别的类间鉴别能力时,还应考虑基因在此类与其他各类间的最小距离对基因类间鉴别能力的影响。
由此,得到一个修订地类间差异函数为1'()min,()2c c c c jBCD g c jµµµµ=−+−≠(2) 其中μj是基因g在不同于C类的某一其他类别中表达水平的均值。
由式(2)可知,修订后的类间差异函数由两部分组成:第一部分体现了基因在某一类别中分布均值与其他类别中分布均值的差异,第二部分体现了基因在此类别分布均值与其他各类间分布均值的最小差异。
本文按照此类间差异函数在训练集的各类中对每个基因分别进行计算,值越大说明基因对该类别的鉴别能力越强。
3.2类内波动选择一个理想的特征基因,除了在不同类别之间表达水平值杨俊丽,刘田福,李祥生:样本类型无关的多类特征基因选择方法 3差别较大,还应在类内具有相似的表达水平值。