使用R和Python进行分析的主要好处之一是,它们充满活力的开源生态系统中总是有新的和免费提供的服务。
去年,我们与一家公司进行了短暂的咨询工作,该公司正在构建一个主要由基于R和Python机器学习分析的应用程序。
如今,越来越多的数据科学家能够同时在R,Python和其他平台上使用数据,这是因为供应商向R和Python引入了具有API的高性能产品,也许还有Java,Scala和Spark。
H2O包被称为“商业AI”,“使任何人都可以轻松地应用数学和预测分析来解决当今最具挑战性的业务问题。” H2O的与众不同之处在于其全面的,开源,跨平台,机器学习基础架构从头开始,以实现可扩展性和速度。
在本练习中,我部署了R的数据管理功能来构建模型数据集,然后“导入”到H2o结构中以运行模型。我可以轻松使用H2O功能。
概述的任务序列从数据加载和训练/测试数据集构建开始。然后启动H2O服务器,依次按glm,带有三次样条的glm,梯度增强,随机森林和深度学习模型计算/绘制结果。提供了H2O数据集构建和模型训练的时间。
首先加载R库并设置工作目录。
现在加载并子集用于建模练习的数据。 有8,644,171个案例和7个属性。