当前位置:文档之家› 宽数据-中国股票市场Level-1高频衍生指标数据库使用手册2012.06.05

宽数据-中国股票市场Level-1高频衍生指标数据库使用手册2012.06.05

GTADI_SEL1 V1.0

CSMAR?中国股票市场Level-1高频衍生指标数据库使用手册

(V1.0版)

国泰安信息技术有限公司

GTA Information Technology Company

中国股票市场Level-1高频衍生指标数据库使用手册

I

目 录

目 录 ................................................................................................................................ I 前言 .................................................................................................................................. III 用户许可协议 .................................................................................................................. IIII 第一章 总体说明 ................................................................................................................1 1.1 什么是高频衍生指标 ............................................................................................... 1 1.2 什么是数据挖掘分析 ............................................................................................... 1 1.3 什么是量化投资 ...................................................................................................... 1 1.4 高频衍生指标的应用介绍........................................................................................ 1 第二章 LEVEL-1股票高频交易衍生指标数据库的主要特点 ...............................................2 2.1 完整性 ..................................................................................................................... 2 2.2 准确性 ..................................................................................................................... 2 2.3 及时性 ..................................................................................................................... 2 2.4 规范性 ..................................................................................................................... 2 2.5 便捷性 ..................................................................................................................... 2 第三章 LEVEL-1股票高频交易衍生指标数据库详细介绍 ...................................................2 3.1 数据库结构................................................................................................................ 3 3.1.1总体结构............................................................................................................ 3 3.1.2命名规则............................................................................................................ 3 3.2 各表指标概览 ............................................................................................................ 4 3.2 各表详细内容 ............................................................................................................ 8 第四章 LEVEL-1股票高频交易衍生指标数据库应用实例 ................................................61 4.1 指标数据查询 . (61)

4.1.1 单表查询 ....................................................................................................... 61 4.1.2 跨表查询 ....................................................................................................... 61 4.2 指标数据检验 ......................................................................................................... 61 4.3 查询数据导出 (62)

第五章常见问题FAQ (63)

5.1什么是高频衍生指标? (63)

5.2高频衍生指标有哪些应用领域? (63)

5.3高频衍生指标能指示交易吗? (63)

5.4我仅对部分衍生指标感兴趣,可以定制吗? (63)

5.5我想要的高频衍生指标目前库里没有,可以为我定制计算吗 (63)

附录A 技术服务支持 (64)

A.1历史数据提供 (64)

A.2更新数据提供 (64)

A.3数据使用方式 (64)

附录B硬件要求 (65)

附录C授权证明和客户列表 (68)

附录D相关数据商大单分类 (69)

III

III

地址:深圳市北环大道7003号中审大厦21楼 网址:https://www.doczj.com/doc/4911605356.html,, https://www.doczj.com/doc/4911605356.html,

前言

在量化投资、高频数据挖掘分析相关研究领域中,交易数据的分析处理是最基本而又重要的步骤。

高频衍生指标是以金融市场交易产生的高频数据为基础,经过一定的模型公式计算生成的新的数据形式。

高频数据是指以小时、分钟、秒为采集频率的交易数据或交易过程中实时采集的数据。通过高频数据,研究市场微观结构理论及相关数据模型是学术研究者的兴趣所在。同时,基于高频数据,研究相关的投资模型与策略并发现投资机会,不仅是金融投资机构研究者的追求目标,也是广大投资者长期以来的夙愿。随着量化投资、高频数据挖掘分析的不断发展及应用的深入,高频数据及其衍生指标将起到不可替代的作用。

众所周知,高频数据是海量的、高噪音的。无论是市场微观结构理论及相关的数据模型研究,还是量化投资与数据挖掘分析模型的研究,大多都不是基于基础数据建模的,而是基于衍生指标建模的。丰富、高质量的高频衍生指标生产通常都比较困难,概括起来主要有三个原因:一是数据量大,需要有海量数据处理能力;二是要对市场微观结构相关的知识要有比较全面的理解;三是高频衍生指标的设计开发一般综合性都比较强,不仅涉及较为高深的金融理论,还涉及较为复杂的数学模型。

作量化投资研究难,作量化投资实践更难;您是否还是面对一篇篇满载各种复杂数学公式、指标、图表的学术论文与研究报告而敬畏?您是否还在为打听或鉴别各种消息而纠结?本数据库从价格变动、成交量额特征、市场质量、主力动向、委托信息等多个维度为你提供优质的高频衍生指标服务,使你的学术论文、研究报告撰写不再困难,还可以指导您学习华尔街投资精英们的赚钱奥秘——量化投资,使得您不必再道听途说各种消息,做一个自信的投资者。

本手册详细地介绍了CSMAR 中国股票市场Level 高频衍生指标数据的开发背景、生产流程、数据构成、使用实例以及技术服务等,对快速了解该数据库具有很好的指导作用。

由于研究组人员水平有限,加之时间仓促,手册中若有疏漏和错误之处,恳请广大读者和同行批评指正,并对我们的不足提出宝贵意见和建议,以便我们加以改进和完善。联系和反馈方式如下:

深圳市国泰安信息技术有限公司

地址:深圳市北环大道7003号中审大厦21楼 邮编:518034 电话:0755-******** 传真:0755-********

IV

地址:深圳市北环大道7003号中审大厦21楼 网址:https://www.doczj.com/doc/4911605356.html,, https://www.doczj.com/doc/4911605356.html,

电子邮件:research@https://www.doczj.com/doc/4911605356.html,

国泰安高频应用研究组

二零一二年五月,深圳

V

地址:深圳市北环大道7003号中审大厦21楼 网址:https://www.doczj.com/doc/4911605356.html,, https://www.doczj.com/doc/4911605356.html,

用户许可协议 版权与所有权声明

中国股票市场Level-1高频衍生指标数据库是由深圳市国泰安信息技术有限公司设计、开发。系统及其文档的所有权归属于深圳市国泰安信息技术有限公司(以下简称"国泰安信息技术有限公司"、"国泰安公司"或者"本公司"),并受中华人民共和国国家《著作权法》、《商标法》和国际协约条款的保护。由国泰安公司负责系统的更新、维护和销售等活动。用户不得从本系统中删去版权声明,要保证为本系统的拷贝(全部或部分)复制版权声明,并同意制止以任何形式非法拷贝本系统及文档。未经授权擅自复制或散布本数据库的部分或全部内容,将会面对民事起诉。

"中国股票市场Level-1高频衍生指标数据库"的名称已受到注册商标和其它形式的所有权的保护。

用户许可协议声明

本协议一方为本数据库的个人或机构使用者,另一方为国泰安信息技术有限公司。用户使用本数据库之前,须首先认可本许可协议,如持有异议,请不要使用,并于30日内,携带未开封的软件和书面声明到本公司办理有关事宜。

许可协议条款

本系统仅给用户提供唯一使用许可权。用户必须承诺不把本系统提供的全部或部分资料和数据以任何形式转移、出售和公开给任何第三者。

用户必须同意并保证,采取必要和合适的措施保护本系统提供的资料和数据的版权和所有权。

用户必须通知其所有相关使用者有关本系统的版权声明和本许可协议,并要求所有相关使用者都必须遵循本许可协议的一切条款。

用户必须同意在本许可协议终止前,一直承担本协议所要求的一切责任和义务。

售后保证

本公司保证在正常使用的情况下,本系统软件载体无材料或工艺上的缺陷。自售出之日起九十天内,经验证确有缺陷时,本公司负责退换数据载体。在原担保剩余时间内,退换的载体享受原担保的承诺。因不可抗力、意外事故、不合规操作或错误应用而导致的载体损害,本公司概不负责。

VI

地址:深圳市北环大道7003号中审大厦21楼 网址:https://www.doczj.com/doc/4911605356.html,, https://www.doczj.com/doc/4911605356.html,

许可权利的终止

用户若违反本协议的任一条款或条件,国泰安公司可以即时终止其使用许可。一旦许可权利被终止,用户必须立即销毁本系统及文档的所有拷贝,或将其归还本公司。

适用法律

中华人民共和国《知识产权保护条例》、《著作权法》、《商标法》、《专利法》等。

免责条款

国泰安公司尽力为用户提供可信的、准确的资料和数据,但无法完全保证其百分之百的准确和完整。因此,无论在什么情况下,由使用本系统所产生的任何形式的间接或直接的、特别或意外的、必然或偶然的损失和破坏,本公司概不负责。在上述情况发生时,即使本公司事先被告知此类事情有可能发生,本公司亦不对由此导致的任何后果承担责任。

本公司将尽快更新资料数据,但不承担由于使用数据资料延误造成的损失或责任。如果用户发现数据文件中的错误,请立即通知本公司,本公司将尽最大的努力在下一个版本中更正。

如果用户对本协议条款有任何疑问,请按照如下方式与本公司联系:

国泰安信息技术有限公司

地址:深圳市北环大道7003号中审大厦21楼 邮编:518034

电话:400-609-6665 800-999-3099 传真:0755-83940070 电子邮件:service@https://www.doczj.com/doc/4911605356.html,

第一章总体说明

1.1 什么是高频衍生指标

高频衍生指标是以金融市场交易产生的高频数据为基础,经过一定的模型公式计算生成的新的数据形式

1.2 什么是数据挖掘分析

采用人工智能、模式识别、统计分析、最优化等相关理论与算法,结合相关的IT技术,从大量的业务数据中发现规律和获取知识的一个过程。

1.3 什么是量化投资

所谓量化投资,就是借鉴人工智能、模式识别、统计分析、数据挖掘、最优化等相关的理论与算法,结合相关的IT技术,践行人的投资理念的一个过程。

1.4 高频衍生指标的应用介绍

高频衍生指标属于高频基础数据的上层加工,是数据到知识的一个简单提取。高频衍生指标属于浅层知识,在此基础上,可对其建模及深加工,发现数据业务逻辑的深层次知识及规律,从而做出决策或形成相关的分析报告。以下列出一些简单的应用领域:

A. 衍生指标数据挖掘、统计分析

B. 模型策略构建与分析

C. 金融计量模型、经济计量模型研究与检验

D. 时间序列模型研究与检验

E. 高频交易研究

F. 实证分析

G. 交易策略研究、回测分析

1

2.1 完整性

本数据库基于权威的国泰安高频Level-1数据计算获得,衍生指标覆盖面广,包括价格变动信息、成交量(额)衍生信息、委托指令衍生信息、主动动向及市场质量

相关度量指标,能满足各种研究方案及交易策略制定的要求,并辅助发现市场的微观

结构及规律,对理解市场微观层面、研究和开发优质的交易策略及对我国证券市场的

微观研究和相关政策的制定都具有积极的指导意义

2.2 准确性

本数据库基于权威的国泰安高频Level-1基础数据计算获得,在衍生指标的生产过程中首先采用程序自动对基础数据作清洗,然后自动加载经过清洗的基础数据由生

产系统作衍生计算。同时对计算的衍生指标,由不同的开发人员重写公式作抽检,并

基于质检规则作程序全检(质检规则包括的内容有:衍生指标的理论范围、特殊处理、字段之间的依赖关系、衍生指标的特性等),以保障生产系统指标算法的正确性,从

而保障了衍生指标数据的准确性和完整性。

2.3 及时性

我们将对本数据库每年进行定期更新以及不定期跟踪增补,以保证其及时性和持续性。

2.4 规范性

本数据库的开发借鉴了纽约交易所TAQ数据库、香港联交所高频数据库等国际知名数据库成功的开发经验,力求在规范性上达到世界标准。同时在衍生指标的特殊

处理上,也尽量符合一般的处理规范。

2.5 便捷性

本数据库采用开放式的数据结构,配合国泰安开发的数据专用软件系统,能灵活地以Foxpro、Excel、TXT等格式输出,可供SAS、SPSS等统计软件和Fortran、

C、Pascal等高级语言直接调用。数据分类合理清晰,能够方便快捷地检索和获取满

足一定条件的研究数据。

2

3

3.1 数据库结构

3.1.1 总体结构

本数据库的总体结构如下:

表名

字段数

区间

来源

价格变动数据表 33 2005.8~ 根据中国股票市场Level-1高频交易数据衍生计算 成交量额数据表 36 2005.8~ 根据中国股票市场Level-1高频交易数据衍生计算 委托指令指标表 26 2005.8~ 根据中国股票市场Level-1高频交易数据衍生计算 市场质量数据表 17 2005.8~ 根据中国股票市场Level-1高频交易数据衍生计算 主力动向数据表

27

2005.8~ 根据中国股票市场Level-1高频交易数据衍生计算

3.1.2 命名规则

高频衍生指标数据库物理库命名规则:

高频衍生指标数据库物理表命名规则:

3.2 各表指标概览

表一价格变动数据表(SH/SZL1_TAQ_xxxxxx_xxxxxx_Prcmov)

中文字段名物理字段名中文字段名物理字段名

证券代码SecCode 多空平衡Balance

证券简称SecName 多头获利Profit_ls

交易日期Tdate 多头止损Stop_loss

当前时间Ttime 强弱度Strong_weak

最新成交价CP 上涨概率Pr_up

交易标识Trade_mark 持平概率Pr_stay

均价MC 下跌概率Pr_down

收益率Return 上涨后上涨概率Pr_uu

瞬时收益率Timely_return 上涨后持平概率Pr_us

时间加权价格TWAP 上涨后下跌概率Pr_ud

成交量加权价格VWAP 持平后上涨概率Pr_su

买卖标识Bs 持平后持平概率Pr_ss

价格变化Change 持平后下跌概率Pr_sd

价格变化标准差STD_chang 下跌后上涨概率Pr_du

1分钟涨速Speed_1m 下跌后持平概率Pr_ds

3分钟涨速Speed_3m 下跌后下跌概率Pr_dd

5分钟涨速Speed_5m

4

表二成交量额数据表(SH/SZL1_TAQ_xxxxxx_xxxxxx_VolAmt)

中文字段名物理字段名中文字段名物理字段名

证券代码SecCode 主买每笔均量Buy_volume_m

证券简称SecName 主动卖出量Sell_volume

交易日期Tdate 主动卖出额Sell_amount

当前时间Ttime 主卖笔数Sell_trades

现额比例R_amount 主卖每笔均量Sell_volume_m

现量比例R_volume 主买持续时间Buy_time

现笔比例R_trade 主卖持续时间Sell_time

BS_time_r

平均每笔成交量Mean_volume 主动买卖持续时

间比

平均每笔成交额Mean_amount 买方总量密集度Buy_intense

换手率Turnover 卖方总量密集度Sell_intense

现量换手率Turnover_new 成交笔数密集度Trades_intense

平均每笔成交量换手率Turnover_mean_volume 成交量密集度Volume_intense

1分钟交易量Volume1m 成交金额密集度Amount_intense

3分钟交易量Volume3m 主动买卖比Buy_sell

5分钟交易量Volume5m 主动买入比Buy_ratio

主动买入量Buy_volume 主动卖出比Sell_ratio

主动买入额Buy_amount 净买入量Net_volume

主买笔数Buy_trades 净买入额Net_amount

5

表三委托指令指标表(SH/SZL1_TAQ_xxxxxx_xxxxxx_OrdCmd)

中文字段名物理字段名中文字段名物理字段名

证券代码SecCode 5档委卖总量T_sv

证券简称SecName 委卖1变化量Sv1_cg

交易日期Tdate 委卖2变化量Sv2_cg

当前时间Ttime 委卖3变化量Sv3_cg

5档委买总量T_bv 委卖4变化量Sv4_cg

委买1变化量Bv1_cg 委卖5变化量Sv5_cg

委买2变化量Bv2_cg 5档委卖变化量总和Sv_cg

委买3变化量Bv3_cg 委卖均价Sp_mean

委买4变化量Bv4_cg 委卖挂单量加权均价Sp_mv

委买5变化量Bv5_cg 委买委卖变化比BSv_cg_r

5档委买变化量总和Bv_cg 委买委卖量比BSv_r

委买均价Bp_mean 报价深度1 Depth1

委买挂单量加权均价Bp_mv 报价深度2 Depth2

6

表四市场质量数据表(SH/SZL1_TAQ_xxxxxx_xxxxxx_MktQty)

中文字段名物理字段名中文字段名物理字段名

证券代码SecCode 买方绝对有效价差Spread_bae

证券简称SecName 卖方绝对有效价差Spread_sae

交易日期Tdate 买方相对有效价差Spread_bre

当前时间Ttime 卖方相对有效价差Spread_sre

买卖价差Spd 购买Q金额股票的价

Shock_buy

格冲击指数

Shock_sell

相对价差Rpd 卖出Q金额股票的价

格冲击指数

指令簿加权价差OBS 使价格上升△%的流

Liquidity_up

动性指数

Liquidity_down

交易广度Width 使价格下降△%的流

动性指数

五档订单深度Depth5

7

表五主力动向数据表(SH/SZL1_TAQ_xxxxxx_xxxxxx_KeyP)

中文字段名物理字段名中文字段名物理字段名

证券代码SecCode DDX DDX

证券简称SecName DDR DDR

交易日期Tdate 主力强度Main_ strength 交易时间Ttime 散户强度Min_ strength 机构流入Insti_B 机构买比Insti_B_rat

机构流出Insti_S 机构卖比Insti_S_rat

机构净流入Insti_net 机构净比Insti_net_rat 主力流入Main_B 主力买比Main_B_rat

主力流出Main_S 主力卖比Main_S_rat

主力净流入Main_net 主力净比Main_net_rat 散户流入Min_B 散户买比Min_B_rat

散户流出Min_S 散户卖比Min_S_rat

散户净流入Min_net 散户净比Min_net_rat

资金强度Fund_strength

3.3 各表详细内容

表一价格变动数据表(SH/SZL1_TAQ_xxxxxx_xxxxxx_Prcmov)

序号字段名中文标

数据类型单位计算公式与说明

1 SecCode 证券代

C(6) 交易所公布的股票代码

8

2 SecName 证券简

C(8) 交易所公布的股票简称.

3 Tdate 交易日

C(8) YYYYMMDD形式

4 Ttime 当前时

C(6)

精确到秒,HHMMSS形式

LEVEL-1的刷新频率为约5~6秒一次

5 Cp 最新成

交价

N(9,3)

指分笔期间最后一笔成交价。也可参

见国泰安LEVEL-1.SEL1_TAQ.最新成

交价字段说明

6 Trade_mark 交易标

C(2)

If 0

C q>then _1

t

Trade mark=

else _0

t

Trade mark=

其中:

t

Cq:t-1至t时刻分笔期间的成交量

意义:用于标识分笔期间是否存在

实际的交易行为

7 MC 均价N(9,3)

1

()

t

i

i

t

C p

M C

N C p

=

=

其中:

i

Cp:为i时刻的最新成交价

()

N Cp:参与计算的样本数

意义:反映从连续竞价首条记录开始,至当前时间的平均交易价格

8 Return 收益率N(9,4) %

R e(1)*100

t

t

C p

turn

Lastclose

=-

其中:

t

Cp:为t时刻的最新成交价

Lastclose:昨收盘价

意义:当前时间最新成交价相对于昨

9

日收盘价的收益率。

注1:如果当天该只股票除权除息,则昨收盘价也要调整为除权除息后的收盘价。

注2:停牌后复牌首日,昨收盘价取停牌前最近的收盘价。

注3:上市首日,昨收盘价取发行价

9 Timely_retur

n

瞬时收

益率

N(9,4)

%

1

_e(1)*100

t

t

t

C p

Tim ely r turn

C p

-

=-

其中:

t

Cp:表示t时刻的最新成交价

1

t

Cp

-

:表示t-1时刻的最新成交价

意义:当前时刻最新成交价相对于上

一个时刻最新成交价的收益率.

注:日内停牌或中午休市,复牌后首

笔瞬时收益率的计算,前一笔数据取

停牌前或休市前最后一笔交易数据

10 TWAP 时间加

权价格

N(9,3)

1

1

*

t

i i

i

t t

i

i

C p

D t

TW AP

D t

=

=

=

其中:

i

Cp:为i时刻的最新成交价

1

i i i

Dt Ttime Ttime

-

=-

i

Ttime:为交易时间

意义:从连续竞价首条记录开始,至

当前时间,按时间加权的个股总体成

交均价。

注:对于中午休市,我们已经作了相

关处理。即为了保障上午及下午交易

10

的连续性,默认早上最后一笔交易的时间与下午第一笔交易的时间间隔为5s。(下午各笔的当前时间t处理为:当前时间-(下午第一条时间-早上最后一条时间)+5)。而对于开市就停牌,10:30复牌的情况,公式没有影响。但对于交易过程中临时停牌(收盘前复牌)的情况,会有影响,但这种情况比较少,也比较难处理,目前暂不作处理,留作下一个版本处理。

11 VWAP 成交量

加权价

N(9,3)

t

t

t

T m

V W A P

T q

=

其中:

t

Tm:连续竞价首条记录开始至当前

时间t的累计成交金额

t

Tq:连续竞价首条记录开始至当前

时间t的累计成交量

意义:反映连续竞价首条记录开始至

当前时间,按交易量加权的个股总体

成交均价。

12 Bs 买卖标

C(1)

IF

t

Cp>(S1+B1)/2 THEN s t

B B

=

IF

t

Cp<(S1+B1)/2 THEN t Bs S

=

ELSE 不计算此值

其中:

t

Cp:为t时刻的最新成交价

1

S:为t时刻委卖一价

1

B:为t时刻委买一价

意义:是判断t-1时刻至t时刻分笔期

间多空方双方力量强弱的指标.可参

11

见国泰安Level-1.SeL1_TAQ.买卖标识的说明

13 Change 价格变

N(9,3)

1

t t t

Change Cp Cp

-

=-

其中:

t

Cp:为t时刻的最新成交价

1

t

Cp

-

:为t-1时刻的最新成交价

意义:通过价格变化,可以观察价格

的变化程度,进而研究投资者对市场

的预期。

注:该字段与国泰安

Level-1.SeL1_TAQ.Rf2公式相同,但

特殊处理上有稍微的差别。本库中该

字段的计算仅考虑日内的样本数据,

即每日的首条记录不计算,而

Level-1.SeL1_TAQ.Rf2中的首条记

录取昨收盘价计算.深圳市场为原始

行情信息,上海市场为本公司衍生计

算获得。

14 STD_change 价格变

化标准

N(9,6)

2

1

(_)

_

()1

t

i t

i

t

C hange M ean change

STD change

N C hange

=

-

=

-

其中:

_

t

Mean change:为连续竞价首条记录

开始至t时刻的价格

变化均值

()

N Change:为参与计算样本数

意义:价格变化标准差,可以研究价

格的波动程度,标准差越大,波动程

度越大。

15 Speed_1m 1分钟涨

N(9,4)

1

_1t

t

Cp Cp

Speed m

Lastclose

-分钟前的

=

其中:

12

t

Cp:为t时刻的最新成交价

C p:为最新成交价

Lastclose:为昨收盘价

意义:以昨收盘价为基础,研究股价短期剧烈变化情况,是监控主力异动的优秀指标.库中时间段划分为1分钟、3分钟和5分钟

注:从连续竞价首条记录开始计算,不足1分钟的置空。开市就停牌,10:30复牌的没有影响。遇到交易过程中停牌的,复牌后,1分钟前的Cp 就是停牌前最后一笔交易的Cp。

16 Speed_3m 3分钟涨

N(9,4)

3

_3t

t

Cp Cp

Speed m

Lastclose

-分钟前的

=

其中:

t

Cp:为t时刻的最新成交价

C p:为最新成交价

Lastclose:为昨收盘价

注:同上

17 Speed_5m 5分钟涨

N(9,4)

5

_5t

t

Cp Cp

Speed m

Lastclose

-分钟前的

=

其中:

t

Cp:为t时刻的最新成交价

C p:为最新成交价

Lastclose:为昨收盘价

注:同上

18 Balance 多空平

N(9,3) 3

t t t

t

Hip Lop Cp

Balance

++

=

13

相关主题
文本预览
相关文档 最新文档