虽然数据科学的优点是它可以为组织提供一个新的视角,但该组织仍然需要一个起点。一个组织可以决定如何使用这些数据来理解业务或业务环境,证明关于新产品价值的想法,探索未知的事物,或者发明一种新的商业方法。在项目实施的各个阶段,制订一个评估这些举措的计划非常重要,并且需要在多个时间点评估该计划的价值和可行性。
内部资源可能易于使用,但也可能在范围上受到限制。外部资源可能很有用,但不在业务控制范围内(由其他人管理,或者不受任何人控制,如社交媒体)。许多供应商在这个领域竞争,所需数据元素或数据集合通常存在多个数据源。获取那些已经存在和整合的数据,可以降低总体投资成本。
许多元素可以实时提供,也定时提供快照,甚至可以整合和汇总。针对静止数据的计算算法与流式计算算法之间存在巨大差异,低延迟数据是理想的,但往往以牺牲大量机器学习能力为代价。不要为了满足下游数据使用需求而采用最小化集成级别。
可能需要对其他数据结构进行结构或内容改造,使其适合与大数据集成整合。
包括扩展对客户、产品和营销方法的知识。