java Flink（四十一）Flink+avro+广播流broadcast实现流量的清洗

背景简介

本文简单模拟对流量的处理，大概步骤如下：

1、通过获取一个维度流，内容是流量内容的元数据信息，获取解析并进行广播

2、获取实时流量流，做延迟处理（防止数据关联不上）

3、流量流关联元数据广播流，通过元数据信息获取对应的数据

4、打包成avro格式（自行百度）数据并进行sink

代码开发

1、pom引入

flink版本1.14


"1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>
 
    <groupId>org.examplegroupId>
    <artifactId>FlinkCodeartifactId>
    <version>1.0-SNAPSHOTversion>
 
    <properties>
        <maven.compiler.source>8maven.compiler.source>
        <maven.compiler.target>8maven.compiler.target>
        <jdk.version>1.8jdk.version>
        <jar.name>ubs-data-converterjar.name>
        <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
        
        <flink.version>1.14.4flink.version>
    properties>
    <dependencies>
        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-streaming-java_2.11artifactId>
            <version>${flink.version}version>
            <scope>providedscope>
        dependency>
        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-connector-kafka_2.11artifactId>
            <version>${flink.version}version>
            <exclusions>
                <exclusion>
                    <groupId>org.apache.kafkagroupId>
                    <artifactId>kafka-clientsartifactId>
                exclusion>
            exclusions>
        dependency>
        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-runtime-web_2.11artifactId>
            <version>${flink.version}version>
            <scope>providedscope>
        dependency>
        <dependency>
            <groupId>org.apache.httpcomponentsgroupId>
            <artifactId>httpclientartifactId>
            <version>4.5.10version>
        dependency>
        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
            <version>1.2.8version>
        dependency>
        <dependency>
            <groupId>org.apache.avrogroupId>
            <artifactId>avroartifactId>
            <version>1.9.2version>
        dependency>
        <dependency>
            <groupId>org.apache.httpcomponentsgroupId>
            <artifactId>httpcoreartifactId>
            <version>4.4.1version>
        dependency>
        <dependency>
            <groupId>org.projectlombokgroupId>
            <artifactId>lombokartifactId>
            <version>1.18.16version>
        dependency>
        <dependency>
            <groupId>org.projectlombokgroupId>
            <artifactId>lombokartifactId>
            <version>1.18.16version>
            <scope>compilescope>
        dependency>
    dependencies>
 
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.avrogroupId>
                <artifactId>avro-maven-pluginartifactId>
                <version>1.9.2version>
                <executions>
                    <execution>
                        <phase>generate-sourcesphase>
                        <goals>
                            <goal>schemagoal>
                        goals>
                        <configuration>
                            <sourceDirectory>${project.basedir}/src/main/resources/sourceDirectory>
                            <outputDirectory>${project.basedir}/src/main/java/com/msxfoutputDirectory>
                        configuration>
                    execution>
                executions>
            plugin>
            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-compiler-pluginartifactId>
                <version>3.1version>
                <configuration>
                    <source>${jdk.version}source>
                    <target>${jdk.version}target>
                    <encoding>${project.build.sourceEncoding}encoding>
                configuration>
            plugin>
            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-shade-pluginartifactId>
                <version>3.1.1version>
                <executions>
                    <execution>
                        <phase>packagephase>
                        <goals>
                            <goal>shadegoal>
                        goals>
                        <configuration>
                            <finalName>${jar.name}finalName>
                            <artifactSet>
                                <excludes>
                                    <exclude>com.google.code.findbugs:jsr305exclude>
                                    <exclude>org.slf4j:*exclude>
                                    <exclude>log4j:*exclude>
                                    <exclude>org.glassfish.jersey.core:jersey-commonexclude>
                                excludes>
                            artifactSet>
                            <relocations>
                                <relocation>
                                    <pattern>com.google.commonpattern>
                                    <shadedPattern>com.shade.google.commonshadedPattern>
                                relocation>
                                <relocation>
                                    <pattern>org.apache.kafkapattern>
                                    <shadedPattern>org.shade.apache.kafkashadedPattern>
                                relocation>
                            relocations>
                            <filters>
                                <filter>
                                    <artifact>*artifact>
                                    <includes>
                                        <include>org/apache/htrace/**include>
                                        <include>org/apache/avro/**include>
                                        <include>com/msxf/**include>
                                        <include>org/apache/flink/streaming/**include>
                                        <include>org/apache/flink/connector/**include>
                                        <include>org/apache/kafka/**include>
                                        <include>org/apache/hive/**include>
                                        <include>org/apache/hadoop/hive/**include>
                                        <include>org/apache/curator/**include>
                                        <include>org/apache/zookeeper/**include>
                                        <include>org/apache/jute/**include>
                                        <include>org/apache/thrift/**include>
                                        <include>org/apache/http/**include>
                                        <include>org/I0Itec/**include>
                                        <include>jline/**include>
                                        <include>com/yammer/**include>
                                        <include>kafka/**include>
                                        <include>org/apache/hadoop/hbase/**include>
                                        <include>com/alibaba/fastjson/**include>
                                        <include>org/elasticsearch/action/**include>
                                        <include>io/confluent/**include>
                                        <include>com/fasterxml/**include>
                                        <include>org/elasticsearch/**include>
                                        <include>hbase-default.xmlinclude>
                                        <include>hbase-site.xmlinclude>
                                    includes>
                                filter>
                                <filter>
                                    <artifact>org.apache.hadoop.hive.*:*artifact>
                                    <excludes>
                                        <exclude>exclude>
                                        <exclude>exclude>
                                        <exclude>exclude>
                                    excludes>
                                filter>
                            filters>
                        configuration>
                    execution>
                executions>
            plugin>
        plugins>
    build>
project>

2、模拟元数据流

正常数据流应该通过其他方式（比如访问数据库、KAFKA流）获取，本次我们直接自定义source


package source;
 
import org.apache.flink.streaming.api.functions.source.RichSourceFunction;
 
 
public class StringSource extends RichSourceFunction {
 
    Boolean running = true;
    @Override
    public void run(SourceContext ctx) throws Exception {
        while (running){
            String value = String.format("{\"data\":[{\"name\":\"id\",\"comment\":\"ID\"}" +
                    ",{\"name\":\"age\",\"comment\":\"年龄\"}" +
                    ",{\"name\":\"sex\",\"comment\":\"性别\"}]}");
            ctx.collect(value);
            running=false;
        }
    }
 
    @Override
    public void cancel() {
        running=false;
    }
}

3、模拟流量流

模拟流量数据，本身也是通过KAFKA获取实时流量数据，本文是简单Demo，所以也通过自定义Source获取


package source;
 
import org.apache.flink.streaming.api.functions.source.RichSourceFunction;
 
import java.util.Arrays;
import java.util.List;
import java.util.Random;
 
 
public class FlowSourceFunction extends RichSourceFunction {
 
    Boolean running=true;
 
    private final List USERS = Arrays.asList("张三","李四","牛二");
 
    private final List BEHAVIOR = Arrays.asList("login", "out", "delete");
 
    private final List SEX = Arrays.asList("男", "女");
 
    Random random = new Random();
 
    @Override
    public void run(SourceContext ctx) throws Exception {
        while (running){
            String id = USERS.get(random.nextInt(USERS.size()));
            String age = String.valueOf(random.nextInt(100));
            String sex = SEX.get(random.nextInt(SEX.size()));
            String time = String.valueOf(System.currentTimeMillis());
            String res = String.format("{\"id\":\"%s\"," +
                    "\"age\":\"%s\"," +
                    "\"sex\":\"%s\"," +
                    "\"time\":\"%s\"}",id,age,sex,time);
            ctx.collect(res);
            Thread.sleep(1000);
        }
    }
 
    @Override
    public void cancel() {
        running=false;
    }
}

4、MapFunction处理元数据信息

处理元数据信息


package func;
 
import bean.SchemaInfo;
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import org.apache.avro.Schema;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.avro.SchemaBuilder;
import org.apache.flink.util.StringUtils;
 
import java.util.HashSet;
import java.util.stream.Stream;
 
 
public class MetaDataMapFunction extends RichMapFunction {
 
    private String db;
    private String table;
 
    private final String NAME="name";
 
    public MetaDataMapFunction(String db, String table) {
        this.db = db;
        this.table = table;
    }
 
    @Override
    public SchemaInfo map(String value) throws Exception {
        String[] aliases = {db.concat(".").concat(table)};
        //存储fields
        HashSet

java Flink（四十一）Flink+avro+广播流broadcast实现流量的清洗

背景简介

代码开发

1、pom引入

2、模拟元数据流

3、模拟流量流

4、MapFunction处理元数据信息

处理元数据信息

定义返回对象

5、延迟处理主流（流量流）

6、双流关联，处理数据

7、主代码