利用强化学习创建自动交易机器人

强化学习是机器学习的一个分支，之前又叫做Approximate Dynamic Programming，不过现在一般都叫做RL了。人工智能也好，机器学习也好，最本质的问题是面对不确定性时如何做出好的决策。

比如具体到量化交易领域，我们要做的决策可以说是每个时刻，要买什么股票，卖什么股票；买多少，卖多少；是用限价单还是市价单等等，这些都是决策。所谓不确定性，可以包括未来股票价格的变化是不确定的，另外我们的单子进入到市场之后，对市场的影响也是不确定的。

另外，强化学习涉及到几个方面：优化(Optimization)、延迟结果(Delayed Consequence)、探索(Exploration)、泛化(Generalization)刚好最近看了个课程，主题是《利用强化学习创建自动交易机器人》，

课程内容概览：

强化学习的介绍及在投资中的运用；
值函数与“迷宫实验”；
强化学习的5个算法介绍及总结；
强化学习的常用平台；
神经网络与深度强化学习；
深度强化学习创建金融智能体。

回到刚刚说的4个方面。所谓优化，目标就是找到做决策的最优方法，使得可以获得最好或比较好的结果。

对于延迟结果，指的是我们现在做的决策会对未来一段时间都会有所影响。比如下单会造成冲击成本，会有暂时的冲击，以及长期的冲击。

探索指的尝试不同的决策，来获得不同的结果，不断学习改进。比如下围棋，每一步棋都要想着未来几步，模拟未来的棋局，探索哪一个位置最好，这就是探索的过程。

最后就是泛化。比如下棋，不可能每一种情况过去都模拟过，未来肯定会遇到没见过的棋局，因此过去的模型必须要有泛化的能力，这样遇到了没见过的棋局也可以应付。

相比监督学习和无监督学习，它们并没有做决策的过程，所以并没有上述说的“优化”的步骤；当然，监督学习要最小化误差，这可以理解为优化的一种方式；但两个优化不是一个意思，强化学习里说到优化一般指找到一个最有策略，从这个角度监督学习和无监督学习都没有优化。另外，监督/无监督学习也没有所谓探索试错的过程，也没有延迟结果这个东西；但监督/无监督学习都有泛化的特征。这是它们与强化学习的区别。
感兴趣的可以的可以扫描下方二维码进入学习！