基因表达数据在数据库中的预处理(1)
- 格式:pdf
- 大小:120.06 KB
- 文档页数:2
数据库与信息管理本栏目责任编辑:闻翔军Computer Knowledge and Technology 电脑知识与技术第5卷第16期(2009年6月)基因表达数据在数据库中的预处理
刘春菊,刘自伟,姜遥
(西南科技大学计算机科学与技术学院,四川绵阳621010)
摘要:存在不完整的、不一致的和含噪声的数据是现实世界大型的数据库或数据仓库的共同特点,基因表达数据也存在这种情况。因此,在数据挖掘之前对基因表达数据进行预处理非常必要。
关键词:基因表达;数据库;数据预处理
中图分类号:TP274文献标识码:A 文章编号:1009-3044(2009)16-4101-02
Gene Expression Data Pre-processing in the Database
LIU Chun-ju,LIU Zi-wei,JIANG Yao
(College of Computer Science &Technology,Southwest University of Science &Technology,Mianyang 621010,China)
Abstract:The existence of incomplete,inconsistent and with the noise of the data in large-scale real-world database or data warehouse is a common feature.Gene expression data also has such situation.Therefore,pre-processing is necessary before data mining.
Key words:gene expression,database,data pre-processing
1引言
在数据挖掘中,数据预处理就是在对数据进行知识发现前,先对将要研究的原始数据进行必要的清洗、集成、变换和约简等一系列的处理工作,使之达到挖掘算法进行知识获取研究所要求的最低规范和标准[1]。
2数据来源
实验数据来源于美国国立生物技术信息中心,网址:/sites/entrez 。数据主要包括正常组织的基因表达值,患乳腺癌的基因表达值。每一组值来源于二个表。其一,Table1,包括探针ID 号及测得的基因表达值;其二,Table2,主要包括探针ID 号,基因的制作日期、基因名、基因符号、基因描述等共15个属性。
3数据集成
数据集成是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题[2]。
由于实验数据在二个表中,需要进行多表连接操作。根据二个表中都有相同的探针ID 号,因此,可以采用等值连接将二个表集成为一个表,并将集成后的表命名为Table_Integration 如:
SELECT Table1.*,Table2.*into Table_Integration
FROM Table1,Table2
WHERE Table1.ID=Table2.ID
4数据清理
当属性出现缺少值时,有忽略元组、填充最可能的值等补充方法。在缺少类标号且元组有多个属性缺少值时通常采用忽略元组法,填充最可能值的方法比较常用,它能够通过现存数据的最多信息推测出相对准确的缺少值。噪音数据是由一种随机错误或被测变量的差变引起的,可采用分箱、丛聚、人机交互检查、回归等数据平滑技术去除。对于数据集成或有些事务记录中数据可能存在的不一致性,可以采用附加材料给予更正。知识工程工具也可以用来检测违反数据限制的数据。
由于探针与基因并不是一一对应的关系,因此,集成的表中出现多个ID 号对应同一个基因,此时需要将这种多对一的关系转换为一对一的关系,这里采用平均值法和分组法来解决,对每一个基因进行分组,同一基因的值进行平均化[3],并将转换后的数据保存在Table_Clean 中,如:
SELECT gene,avg(value)INTO Table_Clean
FROM Table_Integration group by gene
由于Table2中有些ID 号并没有给出相应的基因名,因此,在Table_Clean 中出现了有些样本有对应的基因表达值却没有对应的基因名,此时需要对基因为空的样本进行处理,由于此处涉及到很深生物学知识,而且这些空缺基因很难对应,此处采取忽略元组策略[4],如:
DELETE FROM Table_Clean
WHERE gene IS NULL
5数据归约
由于实验设备容量的限制,所有基因芯片杂交实验不能同时在一个实验炉中进行,而多次试验时炉内的温度、液体密度等微环收稿日期:2009-05-06
基金项目:国家自然科学基金资助项目(10676029)
ISSN 1009-3044Computer Knowledge and Technology
电脑知识与技术Vol.5,No.16,June 2009,pp.4101-4102E-mail:jslt@ Tel:+86-551-569096356909644101
本栏目责任编辑:闻翔军数据库与信息管理Computer Knowledge and Technology 电脑知识与技术第5卷第16期(2009年6月)(上接第4100页)
SQLBindParameter(stmt,(unsigned short)3,SQL_PARAM_INPUT,SQL_C_DOUBLE,SQL_DOUBLE,0,2,&float1,0,&len);/*绑定Float1字段*/SQLBindParameter(stmt,(unsigned short)4,SQL_PARAM_INPUT,SQL_C_BINARY,SQL_BINARY,0,0,addr,6,NULL);/*绑定Blob1字段*/ret =SQLExecute(stmt);/*执行插入操作*/if (!SQL_SUCCEEDED(ret))return 1;k++;}}/**释放语句句柄**/SQLFreeHandle(SQL_HANDLE_STMT,hsmt);/**断开与数据源的连接**/SQLDisconnect(hdbc);/**释放连接句柄**/SQLFreeHandle(SQL_HANDLE_DBC,hdbc);/**释放环境句柄、卸载驱动程序**/SQLFreeHandle(SQL_HANDLE_ENV,henv);
以上代码中,省略了对返回值的校验,在实际应用中应该加入相应的校验代码,以判断是否能进行后续调用。
5结束语
本文介绍了ODBC 的体系结构,针对在嵌入式Linux 平台下如何实现用ODBC 接口访问嵌入式数据库SQLite 做了详细论述,并给出了接口的测试程序。在windows 平台下实现用ODBC 接口访问嵌入式数据库SQLite 是有待进一步做的工作。
参考文献:
[1]
徐谡.Linux 命令行技术大全[M].北京:人民邮电出版社,2008.[2]
萨师宣,王珊.数据库系统概论[M]3版.北京:高等教育出版社,2000.[3]
SQLite ODBC Driver,http://www.ch-werner.de/sqliteodbc,2008.[4]
Linux ODBC,/developer/interfaces/odbc/linux.html[EB/OL].[5]unixODBC user manual,/[EB/OL].
兰艳桃(1978-),女,山西阳高人,硕士研究生,主要研究方向:嵌入式系统。
境的差异必然导致实验过程中产生一定的误差。因此,必须把不同批次试验得到的数据进行归约处理,使处理后的数据近似可以看成在同一微实验环境下得到的。
例如:对于正常组织的基因,采用均值化处理
SELECT gene,(value1+value2+value3)/3‘value ’INTO Table_Reduction
FROM Table_Clean.
处理后的结果如图1所示:第一列是基因名,第二列是预处理后的正常组织基因表达值,第三列是预处理后患乳腺癌的基因表达值。
6结束语
对于以上预处理的很多功能都能在EXCEL 中完成,若通过EXCEL 来完成,则需要
做大量复制和粘贴重复性的工作,而且费时,容易出错。在数据库中完成不仅省时省力,
而且结果比较直观。
在数据挖掘过程中,人们对数据预处理的投入远不如对数据挖掘算法的研究,事实
上数据预处理工作往往能得到事半功倍的效果。经过预处理之后,我们不仅可以得到挖
掘系统所要求的数据集,使数据挖掘成为可能;而且,还可以尽量的减少数据挖掘系统所
付出的代价和提高挖掘出的知识的有效性与易懂性。参考文献:
[1]Ian H.Witten ,Eibe Frank.Data Mining Practical Machine Learning Tools and Techniques[M].USA:Morgan Kaufmann Publishers,2001.
[2]Jiawei Han ,Micheline Kamber.Data Mining Concepts and Techniques[M].China Machine Press,2007,30-65.
[3]王珊,萨师煊.数据库系统概论[M],北京:高等教育出版社,2006.
刘春菊(1981-),女,湖北荆门人,在读研究生,研究方向:数据挖掘,数据库;
刘自伟(1940-),男,辽宁人,研究员,主要研究方向:数据挖掘,数据库;
姜遥(1983-),男,辽宁沈阳人,研究方向:数据挖掘,数据库。
图1
4102