利用机器学习进行股票走势上的预测,本质上属于监督学习,所谓监督学习,指的就是在历史的数据中,给定了特征以及对应的标签,然后由机器学习模型来建立起特征与标签之间的映射。例如,给定一张动物照片,那么照片中每个像素的数据就是特征,而这张照片中的动物是猫还是狗就是对应的标签。在机器学习所应用的其他领域,特征所对应的标签是十分明确的,借用上面的例子,这张照片中的动物究竟是猫还是狗,我们通过人眼是可以确定下来的,基本不存在什么争议。但是在量化领域,事情却变得复杂了起来。
以中证500ETF为例,下图所示的是该标的在2020年12月以来的走势,在我们直接的观察中,很显然以黄色圆圈所圈出的点为合适的买入点,我们的标签似乎是明确的,但是股票数据的数据量是极为庞大的,通过人眼一只票一只票地从大量的找出类似于黄圈的点