Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。
Flink起源于2008年柏林理工大学的研究性项目Stratosphere,但是当时没有火起来,因为08年的时候对于流式计算没有那么大的需求。
2014年该项目被捐赠给了Apache软件基金会,此时14年数据量激增,流式数据的计算对于生产就很有市场了。于是,Flink一跃成为Apache软件基金会的顶级项目之一
Flink的Logo
Apache的Logo
在德语中,Flink一词表示快速和灵巧,项目采用一只松鼠的彩色图案作为logo,这不仅是因为松鼠具有快速和灵巧的特点,还因为柏林的松鼠有一种迷人的红棕色,而Flink的松鼠logo拥有可爱的尾巴,尾巴的颜色与Apache软件基金会的logo颜色相呼应,也就是说,这是一只Apache风格的松鼠。
我们看到了flink主要是计算方式是流式的处理数据,那何谓之流式数据。见名知义就是像水流一样的数据,源源不断的过来。我们看下官网的介绍。
[flink官网][https://flink.apache.org/flink-architecture.html]
我们看到官网的描述就是数据源源不断的从过去到现在到将来。
大数据课程都有这么一个例子,就是wordCount,简单描述一下就是:有这么一个文本,里面有一堆词汇。比如:
需求就是统计每个字出现的次数。就要分为三步走。
1、把词汇打散。
2、把相同的词汇聚一起。
3、统计每个汇聚集。
对于流式数据就是源源不断的数据过来,计算就是源源不断的数据过来flink做计算,突出一个厉害。
Flink 是一个开源的流处理框架,它具有以下特点
Flink主要应用于流式数据分析场景
实时ETL
集成流计算现有的诸多数据通道和SQL灵活的加工能力,对流式数据进行实时清晰、归并和结构化处理;同时,对离线数仓进行有效的补充和优化,并为数据实时传输提供可计算通道。
实时报表
实时化采集、加工流式数据存储;实时监控和展现业务、客户各类指标,让数据化运营实时化。
监控预警
对系统和用户行为进行实时监测和分析,以便及时发现危险行为
在线系统
实时计算各类数据指标,并利用实时结果及时调整在线系统的相关策略,在各类内容投放、智能推送领域有大量的应用