集群部署的海量数据特征,导致集群部署失败后重新部署的成本很高。因此,在实际部署集群前,需要对将在集群上部署应用的数据模型(schema),数据容量,数据更新率,数据生命期,数据安全策略,查询性能要求等诸多方面进行分析和优化。
Gcluster支持复制(replicated)和分布(Distributed)两种数据部署方式,针对具体应用的schema,必须针对具体应用中的每个表,根据其数据性质及访问特征,确定每个表的数据分布方式。复制表在集群中每个节点都保存一份副本,在数据加载时需占用更多的网络带宽,同时占用更多的存储空间以保存更多的数据副本。分布表可将数据分布到gcluster中的所有节点,可以为查询提供充分的数据并行能力,提供最大的查询并发度及性能。
在星型模型中,一般将维度表设为复制表,事实表设为分布表。例如,在ssb模型中,lineorder表设为分布表,其他维度表设为复制表。