发布于vn.py社区公众号【vnpy-community】
《30天掌握Python数据分析课程》更新到第30集,最新的5集重点讲解了如何基于pandas实现CTA策略的逐笔对冲盈亏分析的详细操作方法,通过实战案例的形式快速掌握交互式数据分析和图表绘制。详细课程大纲请戳我~~~
原文作者:用Python的交易员 | 发布时间:2021-05-26
之前几篇一张图系列的文章,已经介绍了各大金融市场常见的量化交易系统。但光有生产机器(系统),没有原材料(数据)也造不出来产品(策略),所以这篇我们就来认识下国内金融市场主流的量化数据服务。
整体上,想要获取策略研究所需的数据,无外乎以下三种方案:
自行录制
- 对接实时行情数据服务器,将每天盘中收到的TICK数据推送记录下来,在本地合成为K线数据后,保存到文件(CSV)或者数据库中;
免费爬取
- 许多财经网站(如新浪、凤凰网)和交易所网站上,都有提供中低频数据的免费下载链接,可以通过爬虫或者开源工具(如TuShare)直接获取;
付费购买
- 向专业的数据服务公司,付费购买其清洗整理好的数据,通过API或者数据库的形式同步到本地机器后使用。
从节约成本的角度考虑,许多量化的新手会选择自行录制或者免费爬取的方案,但在折腾许久后往往才会发现背后的隐形成本反而可能更高:
- 录制数据用到的云服务器和高质量网络,一年的成本可能远超购买数据服务;
- 爬取的数据清洗整理不到位,导致策略回测的结果失真,上实盘亏了钱后才发现;
- 由于网络或者服务器的原因,录制数据出现缺失,导致策略初始化状态异常,错过赚钱的大行情。
所以对于经验丰富的老手或者专业的投资机构,几乎清一色都会选择找数据服务公司花钱买省心。由于篇幅有限,下图中只列举了目前国内市场用户量较大的一些数据服务商:
图中一些名词的说明:
覆盖市场
- 证券:上交所和深交所(两家证券交易所);
- 期货:上期所、大商所、郑商所、中金所、能交所(五家期货交易所);
- 黄金:上海黄金交易所;
- 外汇交易中心:央行下属的银行间交易市场,英文名CFETS,交易品种包括外汇、债券、拆借等;
- 货币经纪商:由中国五大货币经纪公司(上海国利、上海国际、平安利顺、中诚宝捷思、天津信唐)组成的银行间交易市场;
数据类型
- 行情:包括K线(1分钟及以上周期)和TICK数据(分为L1和L2数据);
- 财务:公司财报中的财务基本面相关数据(每股盈利、销售增长等);
- 宏观:广义上能够反应宏观经济运行情况的数据(如GDP、CPI、行业指数等);
- 因子:已经完成预处理,可以直接应用于量化策略开发的衍生数据;
提供形式
- 数据库:通过同步工具,每天定时(通常在晚上)或者实时(日内行情推送)将数据从服务商的数据库发送到用户的数据库中(被动全量同步),通常价格较贵;
- API:由用户根据自己的需求,主动调用API来获取某种类型的数据(主动按需获取),在内存中直接使用或者自行保存到本地数据库中,价格相对便宜。
较早进入市场的传统数据服务厂商,主要面向的客户是不差钱的中大型金融机构(券商、基金、信托、银行等),因此普遍通过数据库的形式提供全量数据同步,服务价格相对较高(最低10W每年起),部分能提供L2的高频日内TICK数据(宏汇、国泰安)。
近几年出现的新兴数据服务厂商,大多从其他主营业务切入数据服务领域(三大矿从量化平台切入、同花顺从行情软件切入),主要面向的客户是相对预算较为有限的中小型机构(私募、期货、工作室)和个人用户,通过API的形式向用户提供按需获取的数据,价格相对实惠(如米筐RQData期货分钟线数据3000元/年)。
图中有五角星标识的是市场占有率较高的数据服务产品,红色代表数据库产品,绿色代表API产品。
最后,如果觉得有任何遗漏或者偏差,欢迎在下方的讨论区拍砖和讨论!!!