KNIME Hub 是一个中央存储库和协作平台,它是用来促进与 KNIME Analytics Platform(分析平台,AP)相关的工作流、节点、组件和扩展的共享和管理。它既充当工作流存储库又充当协作空间,使用户能够发现和利用可合并到其数据分析项目中的各种组件。
https://hub.knime.com/ 是官方 Community Hub 的网址,我们可以在此搜索社区共享的节点、工作流以及扩展。截止到2024年3月,现在共有 21065 个工作流, 1937 个组件以及 243 个扩展,甚至我们也可以上传自己的内容。
是,也不是。不是是因为 KNIME 还有一套公司内部可以部署的 Hub 版本,叫做 Business Hub。
是,也不是。因为 Community Hub 目前有两个套餐,一个是免费的,一个是收费的。
免费的可以:
收费的(Teams)除了以上免费的功能以外,还可以:
太简单了,下一个问题。
新界面的话在这里:
经典界面的话在这里:
简单来说,这个和软件开发中的版本控制是一样的。在实际工作中,工作流和组件会因为各种原因进行调整,甚至改进,如果能够记录版本,那么对开发、维护是很有好处的。
比如在工作流右侧的界面中,就可以维护工作流的版本。当然,指北君认为,这里的版本控制目前还存在一定的问题,它和软件工程中的版本管理不太一样,Hub 在这里混杂了版本管理、Tag等概念,用户可能会因为概念的混杂不清导致使用困难。
当然可以。
目前阶段 Teams 收费版的主要一个功能就是可以在 Hub 上运行工作流。在运行工作流之前需要选定所运行的环境(即机器):
目前可以选择 3 种类型的机器:
我们在这里选择 8核, 32G 内存的机器。在短暂等待之后,我们的机器就启动了:
但启动没有多长时间,这台机器就停止(Stopped)了。下面的注释很清楚:Starts automatically on demand
, 这主要是因为我们的机器上面没有跑工作流的原因,如果有工作流,如果有计划任务,那么它就会自动启动。
然后就可以对我们的工作流进行部署了。在上传了工作流之后,进入工作流界面,会发现和免费的版本的区别是多出来两个按钮,一个是运行(run),一个是部署(deploy)。
点击运行之后,配置运行的版本以及设置要不要进行邮件通知,就开始运行了。
运行结束之后,在页面下方可以看到这次运行的信息,以及获取相关的日志。
工作流部署有很多种类型(指 Business Hub 版本),目前在 Community Hub 中支持的只有按照日程运行的功能。接着设置好工作流相关日程,就可以自动运行了。
在本地的 KNIME AP 中,也是可以进行日程运行配置的。
本质上来说,Hub 是一种协作工具,这也是 KNIME 公司盈利、且能长期发展的关键所在。
数据科学一般来说不只是有数据科学家搞定算法就完事了,它一般还需要数据工程人员,业务人员以及最终使用者等进行反馈和迭代。Hub 承担了协作的功能,通过工作流对显性或隐性知识进行跨人员、跨部门传递,其实是一个全流程的管理协作工作。
想象一下,你们公司有好几个部门,每个部门都有不同的数据项目,对于这些项目来说,它们又会有不同的阶段,想法验证、开发、测试、回归改进等等周期,Business Hub 就是在处理中间沟通、信息传递、反馈的事情。
当然了,除了协作以外,Business Hub 还可以很容易的让你部署 Data Apps,使用者直接通过网页就可以使用了。
本文由 mdnice 多平台发布