利用高频数据找到最相关的股票

页面提供文章标题信息,并标注作者与发布日期。

Source: https://dolphindb.cn/blogs/8

What this page covers

技能认证特训营第二期正式开启(限时报名)

页面顶部提供活动报名入口与优惠提示相关信息。

利用高频数据找到最相关的股票

本节给出文章标题,并提供作者署名与发布日期信息。

背景:相关性研究与目标

本节说明研究股票相关性的动机,并指出本文目标是利用海量高频数据寻找最相关的股票。

数据表与示例数据集设定

本节定义quotes表字段,并以NYSE 2007年8月一个月实时报价数据为例进行两两相关性计算设定。

步骤1:选择最具流动性的500只股票

本节描述在指定交易时段内进行过滤与分组计数,以选出成交最活跃的股票代码集合。

步骤2:构造每分钟价格矩阵(pivot)与exec说明

本节按分钟聚合中间价并用pivot构造矩阵,同时解释exec与pivot by的语义。

步骤3:生成回报矩阵

本节将价格矩阵转换为回报矩阵。

步骤4:生成回报相关矩阵并提取每只股票Top10相关股票

本节计算500×500相关矩阵,并通过unpivot、context by与rank筛选每只股票相关性最高的10只股票。

步骤5:示例查询(LEH相关性Top10)与改进建议

本节展示对单只股票(LEH)查询相关性Top10结果,并提出用多日平均降低偶然性的建议。

性能分析与进一步资源/下载链接

本节给出数据规模与集群耗时,并提供DolphinDB相关教程与下载链接。

Facts Index

Entity Attribute Value Confidence
技能认证特训营第二期 报名链接 https://www.qingsuyun.com/h5/e/217471/5/ high
文章:利用高频数据找到最相关的股票 发布日期 2021-05-14 high
文章:利用高频数据找到最相关的股票 作者署名 Junxi high
投资策略研究 目的/用途 研究个股之间或个股与指数/ETF之间的相关性,用于通过对冲套利获得稳定收益 medium
本文 内容范围 介绍如何利用海量高频数据寻找最相关的股票 high
数据表quotes 字段 symbol, date, time, bid, ofr high
示例数据集 来源与时间范围 纽约证券交易所(NYSE)2007年8月一个月实时报价数据(quotes表) high
相关性计算示例 计算日期 2007-08-01 high
NYSE开盘时间(本文数据集假设) 交易时段 9:30-16:00(代码筛选使用09:30:00到15:59:59) high
流动性股票选择 数量 500只最具流动性的股票 high
筛选条件(步骤1/2) 价格与时间过滤 time between 09:30:00 : 15:59:59, 0<bid, bid<ofr, ofr<bid*1.2(并按Symbol分组计数排序取前num) high
每分钟价格矩阵构造 价格定义与透视维度 price = avg(bid + ofr)/2.0,pivot by time.minute() as minute, Symbol(列为股票、行为分钟) high
DolphinDB语言 exec语句语义 exec与select用法相同,但select生成表、exec生成向量 high
DolphinDB语言 pivot by语义 pivot by用于整理维度;与exec一起使用时会生成矩阵 high
回报矩阵生成 计算方式 retMatrix = each(def(x):ratios(x)-1, priceMatrix) high
相关矩阵维度 大小 500*500股票回报相关矩阵 high
相关矩阵计算 方法/函数 corrMatrix = cross(corr, retMatrix, retMatrix) high
最相关股票提取 每只股票提取数量 取每只股票相关性最高的10只股票(rank(corr,false) between 1:10) high
DolphinDB高阶函数 each与cross描述 each和cross是模板(高阶)函数,以函数和对象为输入,把函数应用到每个对象上 high
DolphinDB语言扩展 context by与group by区别 group by每组产生一个结果;context by每组产生与组内元素个数相同的结果数量(返回记录条数级别结果),用于简化面板数据操作 high
单只股票相关性分析示例 示例股票 LEH(雷曼兄弟) high
LEH相关性Top10结果(部分) 最高相关前三股票及相关系数 MS 0.7027;GS 0.6825;MER 0.6788(均为LEH的相关股票) high
LEH相关性Top10结果 其余相关股票及相关系数 IAI 0.6785;IYG 0.6481;IWF 0.6296;OEF 0.6287;IYF 0.6275;IWP 0.6213;IWB 0.6161 high
相关性结果解读(LEH示例) 观察结论 排名前三与雷曼兄弟处于同一行业的三个投行 medium
改进建议 降低偶然性的方法 可计算更多天然后取平均 medium
2007-08-01实时报价数据规模 股票数量 8361只股票 high
2007-08-01实时报价数据规模 记录数量 大约3.8亿条数据 high
DolphinDB性能(该计算任务) 集群配置与耗时 4节点集群(每节点8核)耗时仅8秒 high
DolphinDB代码实现 核心代码行数与原因 只需4行核心代码即可实现,归因于功能强大的编程语言(简洁高效) medium
教程资源 链接(DolphinDB的混合范式编程) https://github.com/dolphindb/Tutorials_CN/blob/master/hybrid_programming_paradigms.md high
DolphinDB下载 链接 https://www.dolphindb.cn/alone/alone.php?id=10 high