来源:20230404国金证券金工研报《如何利用ChatGPT挖掘高频选股因子?》
阅读笔记:
一 GPT(Generative Pre-trained Transformer)是一种大语言模型,能够学习大量文本数据,并推断出文本中词语之间的关系。ChatGPT 之所以能够获得如此高的智能水平,参数数量提升所带来的涌现现象(Scaling Law)和加入 RLHF(人类反馈的强化学习)所带来的对于人类偏好理解的提升起到了重要作用。
二ChatGPT提示工程(Prompt Engineering)主要用于开发和优化语言模型中的提示,有效地将 ChatGPT 用于各种应用和研究主题。最基本的提示公式包括角色、任务及指令三个部分,其主要目的在于使模型对于所需要的回答类型和回答方式有一定的指向性。提示的内容越详尽、精确,模型能够给出的回答更能符合我们的预期,从而更便捷得到我们需要的结果。思维链提示(Chain-of-Thought Prompting),其主要思路为将一个复杂问题拆分成多个步骤,引导模型逐步思考并进行纠偏,最终得到需要的结果。
三、ChatGPT因子挖掘实战
以最常见的因子挖掘作为测试场景,考察模型经过一定的提示后,能否给出符合需求的结果。
1)在中低频领域,ChatGPT 给出了价和量的变异系数因子,发现因子 IC 指标表现较好,但多头组超额收益较低,难以成功构建投资策略。
2)令 ChatGPT 模型尝试利用高频数据构建出独特因子,并限定其数据使用范围为委托价和委托量。经过一定指导后给出了买卖盘力量因子,经过测试发现买卖盘力量差异因子在日频上表现优异,但因子衰减速度较快。
3)ChatGPT 代码能力进行测试。使用时需要注意代码细节,确保其符合实际需求。对模型所给代码进行微调可以大幅提升研究效率。