基于StockRanker的AI量化选股策略

作者：阳光卐誓言 | 来源：互联网 | 2023-06-26 18:24

近年来,人工智能(AI)慢慢渗入各行各业,在投资界,人工智能和选股结合辅助主动投资,提高量化模型的效率也逐渐得到投资经理青睐。AI策略简介最近几年人工智能（AI）技术得到飞速

近年来,人工智能(AI)慢慢渗入各行各业,在投资界,人工智能和选股结合辅助主动投资,提高量化模型的效率也逐渐得到投资经理青睐。

AI策略简介

最近几年人工智能（AI）技术得到飞速发展，其在各个领域的运用也不断取得重大成果。机器学习是实现人工智能的一种方式，被评为人工智能领域中最能够体现智能的一个分支，机器学习与人工智能、深度学习的关系可以参考下图：
640?wx_fmt=png&wxfrom=5&wx_lazy=1

机器学习可以这样简单理解：借助于计算机，对数据（训练集）进行学习后，形成模式识别（模型），进而实现对未来数据（测试集）的预测。

假设我们要去预测某个变量Y未来的取值，并找到了影响变量Y取值的K 个变量，这些变量也称为特征或因子（Feature Variable）。机器学习即是要找到一个拟合函数f(X1,X2,…,XK|Θ)去描述 Y和特征之间的关系（绝大多数是非线性关系），Θ为这个函数的参数。

要找到这样的函数，必须要足够量的观测数据，假设有 N 个样本数据y1,y2,…,yn和 x1i,x2i,…,xKi (其中i=1,2,…,N)。然后定义一个函数L来衡量真实观测数据和模型估计数据偏差，函数 L 也称作损失函数（Loss Function）。基于历史观测数据，我们可以求解下列的最化问题来得到参数Θ 的估计值。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

求解（1.1）过程称作模型训练（Model Traing）。基于特征变量的最新观测值和训练出来的模型参数就可以预测y的数值。接下来，我们看一下用机器学习方法开发策略的具体流程。

AI策略开发流程

640?wx_fmt=png

相对于传统策略开发的复杂流程和调参等大量重复工作，AI策略开发更简单，将我们的脑力从重复工作上解放出来，专注在更有创造性的地方。

StockRanker算法

机器学习算法太多，本文讨论只针对适用于金融数据预测的常用有监督型机器学习（Supervised Machine Learning）算法：StockRanker。

StockRanker算法是专为选股量化而设计，核心算法主要是排序学习和梯度提升树 640?wx_fmt=jpeg

我们对AI策略开发做了抽象，设计了如下开发流程 (以 StockRanker 算法为例，也可以使用其他算法)：

目标：首先定义机器学习目标并标注数据。很多机器学习场景，需要人来做数据标注，例如标注图片里的是猫或者狗。对于股票，我们关注的风险和收益是可以明确定义并自动计算出来的。所以，我们一般使用未来N天的收益或者收益风险比作为标注分数。本文使用未来给定天数的收益作为标注
数据：我们需要训练数据集来训练模型，已经评估数据集来评估效果。在模型参数研究中，我们一般还需要一个测试集用来观察调参效果
特征(因子)：特征是量化研究的核心之一，在AI策略上，特征直接影响了模型的学习效果。这也是本文的目的之一，通过AI找出在A股有效的因子，并最大化的挖掘出他们的效果
算法模型：本文使用StockRanker算法，使用 M.stock_ranker_train 来训练模型，使用 M.stock_ranker_predict 来做出预测
回测：使用回测引擎来根据预测做股票交易，并得到策略收益报告和风险分析，并以此来评估策略的最终效果

StockRanker的特点

选股：股票市场和图像识别、机器翻译等机器学习场景有很大不同。StockRanker充分考虑股票市场的特殊性，可以同时对全市场3000只股票的数据进行学习，并预测出股票排序
排序学习 (Learning to Rank)：排序学习是一种广泛使用的监督学习方法 (Supervised Learning)，比如推荐系统的候选产品、用户排序，搜索引擎的文档排序，机器翻译中的候选结果排序等等。StockRanker 开创性的将排序学习和选股结合，并取得显著的效果。
梯度提升树 (GBDT)：有多种算法可以用来完成排序学习任务，比如SVM、逻辑回归、概率模型等等。StockRanker使用了GBDT，GBDT是一种集成学习算法，在行业里使用广泛。

StockRanker的领先效果还得益于优秀的工程实现，目前在学习速度、学习能力和泛化性等方面，都做了大量的优化，并且提供了参数配置，让大家可以进一步根据需要调优。

可能遇到的一些问题

过拟合
数据集重叠
数据集划分不当
训练集数据太少
数据预处理不够
标注和特征逻辑不一致
因子并非越多越好

0?wx_fmt=gif

本公众号现面向人工智能和大数据爱好者征稿（无稿酬），如果您想让您的文章、观点分享给更多人工智能和大数据爱好者，请发邮件至351745027@qq.com。

欢迎扫码添加小编，加入人工智能和大数据公众号读者交流群，探讨、分享、交流！交流群每周会邀请行业专家进行在线分享！

推荐阅读

svm
开源真香离线识别率高 Python 人脸识别系统

本文主要介绍关于python,人工智能,计算机视觉的知识点，对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章，希望该技术和经验能帮到 ... [详细]

蜡笔小新 2023-10-14 15:43:38
go
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
go
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
go
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
go
鄂维南：从数学角度，理解机器学习的「黑魔法」，并应用于更广泛的科学问题...

作者|Hertz来源|科学智能AISI北京时间2022年7月8日晚上22:30，鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenarytalk)。今 ... [详细]

蜡笔小新 2023-10-15 23:41:17
function
机器学习之数据均衡算法种类大全+Python代码一文详解

目录前言一、为什么要做数据均衡？二、数据场景1.大数据分布不均衡2.小数据分布不均衡三、均衡算法类型1.过采样2.欠采样3.组合采样四、算法具体种类1 ... [详细]

蜡笔小新 2023-10-15 23:34:41
go
读手语图像识别论文笔记2

文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1（手语识别背景和方法）一、前言一句：“做完了&#x ... [详细]

蜡笔小新 2023-10-17 20:45:15
go
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
go
TensorFlow入门上

前置准备在阅读本文之前，请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理，如果尚未了解，可以查看下文。神经网络初探chrer.com也可以直接在我博客阅读Te ... [详细]

蜡笔小新 2023-10-16 10:25:39
go
分享篇：第十届“泰迪杯”数据挖掘挑战赛农田害虫图像识别（特等奖）一

1.1赛题背景昆虫的种类浩如烟海，农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫，保留益虫，消灭害虫，对于减轻害 ... [详细]

蜡笔小新 2023-10-15 19:37:42
go
基于深度学习的遥感应用

文章目录深度学习的发展过程深度学习在遥感中的应用基于深度学习的遥感样例库建设基于深度学习的遥感影像目标及场景检索基于深度学习的建筑物提取基于深度学习的密集建筑物自动检测基于深度学习 ... [详细]

蜡笔小新 2023-10-15 18:33:51
go
【观察】中国产业AI化的破局之路：加速算力释放与生态合作共赢

申耀的科技观察读懂科技，赢取未来！电影《斗士》中，有这么一句台词令人印象深刻：“知道路要怎么走，和走上这条路& ... [详细]

蜡笔小新 2023-10-14 15:32:28
blob
老电影和图片变清晰的秘密！分辨率提升400%的AI算法

老电影和图片变清晰的秘密！分辨率提升400%的AI算法-如上图，从100x133pix→400x532pix，除了肉眼可见的清晰，拥有可以将分辨率提升400%的技术到底意味着什么 ... [详细]

蜡笔小新 2023-10-13 13:06:20
go
IJCAI18 阿里妈妈搜索广告转化预测总结

IJCAI-18阿里妈妈搜索广告转化预测总结,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-13 10:28:29
go
文章阅读记录

20180717不要人工智能，用SQL就够了BP神经网络与模糊神经网络在空气质量评价中的应用如何用Tensorflow.js部署简单的AI图像识别应用2018 ... [详细]

蜡笔小新 2023-10-12 20:15:49

阳光卐誓言

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章