• Flink DataStream创建执行环境的正确方式与细节问题


    package com.flink.DataStream.env;
    
    import org.apache.flink.api.common.RuntimeExecutionMode;
    import org.apache.flink.api.common.typeinfo.Types;
    import org.apache.flink.api.java.tuple.Tuple2;
    import org.apache.flink.configuration.Configuration;
    import org.apache.flink.configuration.RestOptions;
    import org.apache.flink.streaming.api.datastream.DataStreamSource;
    import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
    import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
    import org.apache.flink.util.Collector;
    
    public class flinkEnvDemo {
        public static void main(String[] args) throws Exception {
            //TODO 创建一个Flink的配置对象
            Configuration configuration = new Configuration();
            //默认是8081,我们改为8082
            configuration.set(RestOptions.BIND_PORT, "8082");
            //TODO 创建Flink的执行环境
            StreamExecutionEnvironment streamExecutionEnvironment = StreamExecutionEnvironment
                    //.createLocalEnvironment()   //创建本地环境
                    //.createRemoteEnvironment()  //远程环境
                    //开发过程中直接使用,他会自动判断是本地集群还是远程环境
                    //.getExecutionEnvironment();
                    //.getExecutionEnvironment(configuration);
                    .createLocalEnvironmentWithWebUI(configuration);  //不启动Flink集群也可以有Web UI
            //TODO 流批一体:代码api是同一套 可以指定为流(默认),也可以指定为批
            //TODO 一般不在代码中写死,提交时,指定参数 —Dexeution.runtime-mode=STREAMING/BATCH
            streamExecutionEnvironment.setRuntimeMode(RuntimeExecutionMode.STREAMING);
            //TODO 创建FLink的source为socket数据源
            DataStreamSource<String> dataStreamSource = streamExecutionEnvironment.socketTextStream("localhost", 8888);
            //TODO 扁平化+转换+分组+聚合
            SingleOutputStreamOperator<Tuple2<String, Integer>> singleOutputStreamOperator = dataStreamSource.flatMap(
                            //使用Lamada表达式实现flatMap接口,当然也可以直接new一个匿名类实现,或者在外部单独定义一个接口实现
                            //泛型第一个是输入类型,第二个是输出类型
                            (String s, Collector<Tuple2<String, Integer>> collector) -> {
                                String[] splitResult = s.split(" ");
                                //循环遍历,将数据转为Tuple类型.spark的rdd算子map: _.map((_,1))
                                for (String word : splitResult) {
                                    Tuple2<String, Integer> wordsAndOne = Tuple2.of(word, 1);
                                    //使用采集器向下游发送数据
                                    collector.collect(wordsAndOne);
                                }
                            })
                    .returns(Types.TUPLE(Types.STRING, Types.INT))
                    .keyBy(
                            (Tuple2<String, Integer> value) -> {
                                return value.f0;
                            }
                    ).sum(1);
            //TODO Sink输出
            singleOutputStreamOperator.print();
            //TODO 执行Flink程序,需要抛异常
            streamExecutionEnvironment.execute("Flink Environment Demo");
    
            //TODO ......
            /**
             * 默认env.execute() 触发一个Flink Job
             * 一个main方法理论上可以指定多个execute,但是没有什么意义,因为指定到第一个就会阻塞掉
             * 但是Flink 提供了异步执行的方式,一个main方法里面executeAsync()的个数 = 生成的Flink Job数
             * */
            //streamExecutionEnvironment.executeAsync();//异步执行
        }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
  • 相关阅读:
    【React源码】(二)React 工作循环 (workLoop)
    制作一个简单HTML电影网页设计(HTML+CSS)
    2023 年 Arm A-Profile 架构发展
    【数据聚类】第六章第二节:层次聚类算法之BIRCH算法
    mac版postman升级后数据恢复办法
    FFmpeg滤镜效果--镜头聚焦和移动走位
    alibaba Canal 增量订阅 & 消费组件,了解,安装,部署实践
    IO学习系列之使用文件IO的接口在一个目录下,实现Linux命令“ls -l”的功能
    svg之全局组件,配合雪碧图解决vue2的svg优化问题
    ARM端部署PP-OCR_V3
  • 原文地址:https://blog.csdn.net/dgssd/article/details/134071798