码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Apache Hop-Pipeline Editor(管道编辑器)


    文章目录

    • Pipelines(管道)
      • Pipeline Editor(管道编辑器)
        • TOOLBAR
      • Create a Pipeline(创建管道)
        • How pipelines work(管道如何工作)
        • Concepts(概念)
        • Create a pipeline(创建管道)
        • Add Transform to your pipelines(将Transform添加到管道中)
        • Add a Hop between transforms(在转换之间添加跳转)
        • Pipeline properties(管道属性)
      • Run,Preview and Debug a Pipeline
        • Running a Pipeline(运行管道)
        • Preview a pipeline(预览管道)
        • Debug a pipeline(调试管道)
      • Error Handling(错误处理)
      • Getting started with Apache Beam(开始使用Apache Beam)
        • What is Apache Beam?
        • How does it work?
        • How is Hop using Beam?
        • What software versions are supported
        • How are my pipelines executed?
          • Beam specific transforms
          • Universal transforms
          • Unsupported transforms
          • All others
        • Fat jars?
        • Beam File definitions
        • Current limitations
      • Pipeline Run Configurations(管道运行配置)
      • Pipeline Unit Tests(管道单元测试)
        • The need for unit testing(单元测试的必要性)
        • Main components of a unit test(单元测试的主要组成部分)
        • Unit tests in runtime(运行时的单元测试)
        • Create unit tests(创建单元测试)
          • Unit test and data set options(单元测试和数据集选项)
          • Create and add data sets(创建和添加数据集)
          • Run the unit test(运行单元测试)
          • Remove and bypass transforms in unit tests(在单元测试中删除和绕过转换)
        • Automate unit test execution(自动执行单元测试)
          • Run unit tests in a workflow(在工作流中运行单元测试)
          • Run unit tests in a pipeline(在管道中运行单元测试)
      • Metadata Injection
      • Partitioning
      • Transforms
        • Abort(取消)
          • DESCRIPTION(描述)
          • OPTIONS(选择项)
        • Add a checksum
        • Add Constants
        • Add Sequence
        • Add value fields changing sequence
        • Add XML
        • Analytic Query
        • Apache Tika
        • Append Streams
        • Avro Decode
        • Avro Encode
        • Avro File Input
        • Azure Event Hubs Listener
        • Azure Event Hubs Writer
        • Beam BigQuery Input
        • Beam BigQuery Output
        • Beam GCP Pub/Sub : Publish
        • Beam GCP Pub/Sub : Subscribe
        • Beam Input
        • Beam Kafka Consume
        • Beam Kafka Produce
        • Beam Output
        • Beam Timestamp
        • Beam Window
        • Blocking transform
        • Blocking until transforms finish
        • Calculator
        • Cassandra Input
        • Cassandra Output
        • Cassandra SSTable Output
        • Call DB procedure
        • Change file encoding
        • Check if file is locked
        • Check if webservice is available
        • Clone row
        • Closure
        • Coalesce
        • Column exists
        • Combination lookup/update
        • Concat Fields
        • Copy rows to result
        • Credit card validator
        • CSV File Input
        • Database Join
        • Database Lookup
        • Data Grid
        • Delay row
        • Delete
        • De-Serialize From File
        • Detect Empty Stream
        • Dimension lookup/update
        • Dummy (do nothing)
        • Dynamic SQL row
        • Edi to XML
        • Email Messages Input
        • Enhanced JSON Output
        • Excel input
        • Excel writer
        • Execute a process
        • Execute row SQL script
        • Execute SQL script
        • Execute Unit Tests
        • Fake data
        • File exists
        • File Metadata
        • Files from result
        • Files to result
        • Filter Rows
        • Formula
        • Fuzzy match
        • Generate Random Value
        • Get Data From XML
        • Get filenames
        • Get files rowcount
        • Get records from stream
        • Get Rows from Result
        • Get ID from slave server
        • Get SubFolder names
        • Get System Info
        • Get table names
        • Get variables
        • Group By
        • HTTP client
        • HTTP Post
        • Identify last row in a stream
        • If Null
        • Injector
        • Insert / Update
        • Java Filter
        • JavaScript
        • Join Rows
        • JSON Input
        • JSON Output
        • Kafka Consumer
        • Kafka Producer
        • LDAP Input
        • LDAP Output
        • Load file content in memory
        • Mail
        • Mapping Input
        • Mapping Output
        • Memory Group By(内存分组依据)
          • Description(描述)
          • Options(选项)
          • Metadata Injection Support(元数据注入支持)
        • Merge Join
        • Merge rows (diff)
        • Metadata Injection
        • Metadata Input
        • Metadata structure of stream
        • Microsoft Access Output
        • MonetDB Bulk Loader
        • MongoDB Input
        • MongoDB Output
        • Multiway Merge Join
        • Neo4j Cypher
        • Neo4j Generate CSVs
        • Neo4j Get Logging Info
        • Neo4j Graph Output
        • Neo4j Import
        • Neo4j Output
        • Neo4j Split Graph
        • Null If
        • Number range
        • Parquet File Input
        • Parquet File Output
        • PGP decrypt stream
        • PGP encrypt stream
        • Pipeline Executor
        • PostgreSQL Bulk Loader
        • Process files
        • Properties file Input
        • Properties file Output
        • Regex Evaluation
        • Replace in String
        • Reservoir Sampling
        • REST Client
        • Row Denormaliser
        • Row Flattener
        • Row Generator
        • Row Normaliser
        • Run SSH commands
        • Salesforce Delete
        • Salesforce Input
        • Salesforce Insert
        • Salesforce Update
        • Salesforce Upsert
        • Sample Rows
        • SAS Input
        • Select Values
        • Serialize To File
        • Server Status
        • Set field value to a constant
        • Set field Value to a field
        • Set Variables
        • Simple Mapping
        • Sort Rows
          • Description(描述)
          • Options(选项)
          • Metadata Injection Support(元数据注入支持)
        • Sorted Merge
        • Split Fields
        • Split fields to rows
        • Splunk Input
        • SQL File Output
        • Standardize Phone Number
        • Stream Lookup
        • Stream Schema Merge
        • String cut
        • String operations
        • Switch / Case
        • Synchronize after merge
        • Table Compare
        • Table Exists
        • Table Input
          • DESCRIPTION(说明)
          • OPTIONS(选择项)
            • GENERAL(基本项)
            • FILE TAB(文件选项卡)
            • CONTENT TAB(内容选项卡)
            • ERROR HANDLING TAB(错误处理选项卡)
            • FILTERS TAB(过滤器选项卡)
            • FIELDS TAB(字段选项卡)
          • ADDITIONAL OUTPUT FIELDS TAB(其他输出字段选项卡)
          • BUTTONS(按钮)
          • METADATA INJECTION SUPPORT(元数据注入支持)
        • Table Output
        • Teradata Bulk Loader
        • Text File Input
        • Text File Output
        • Token Replacement
        • Unique Rows
        • Unique Rows (HashSet)
        • Update
        • User Defined Java Class
        • User Defined Java Expression
        • Value Mapper
        • Web services lookup
        • Workflow Executor
        • Write to log
        • XML Input Stream (StAX)
        • XML Join
        • XML Output
        • XSD Validator
        • XSL Transformation
        • Yaml Input
        • Zip file

    Pipelines(管道)

    Pipeline Editor(管道编辑器)

    TOOLBAR

    您在“创建管道”中学习了如何创建管道。您将在管道画布上执行许多操作,但是从管道编辑器的主工具栏中还可以获得许多额外的功能。

    还有另外两个重要的工具栏用于处理单元测试以及项目和环境。查看相关页面,了解有关管理项目和环境的更多信息,并了解如何为管道编写单元测试。

    让我们看看最上面的工具栏:

    Action Icon Description
    run 在这里插入图片描述 Start the execution of the pipeline;
    开始执行管道;
    pause [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BecZyUI8-1670217736507)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20221127081024252.png)] pause the execution of the pipeline;
    暂停管道的执行;
    stop 在这里插入图片描述 stop the execution of the pipeline;
    停止管道的执行;
    preview 在这里插入图片描述 preview the pipeline;
    预览管道
    debug 在这里插入图片描述 debug the pipeline;
    调试管道
    print 在这里插入图片描述 print the pipeline;
    打印管道
    undo 在这里插入图片描述 undo an operation;
    撤销操作
    redo 在这里插入图片描述 redo an operation;
    重复操作
    align 在这里插入图片描述 align the specified (selected) transforms to the specified grid size;
    将指定的(选定)变换与指定的网格大小对齐
    align left 在这里插入图片描述 align the selected transforms with left-most selected transform in the selection;
    将选择的转换与选择的最左边的转换对齐
    align right 在这里插入图片描述 align the selected transforms with right-most selected transform in the selection;
    将选择的转换与选择的最右边的转换对齐
    align top 在这里插入图片描述 align the selected transforms with top-most selected transform in the selection;
    将选择的转换与选择的最上面的转换对齐
    align bottom 在这里插入图片描述 align the selected transforms with bottom-most selected transform in the selection;
    将选择的转换与选择的最底部的转换对齐
    distribute horizontally 在这里插入图片描述 Distribute the selected transforms evenly between the left-most and right-most transform in your selection;
    将选择的转换均匀分布在选择的最左和最右转换之间
    distribute vertically 在这里插入图片描述 Distribute the selected transforms evenly between the top-most and bottom-most transform in your selection;
    将选择的转换均匀分布在选择的最顶部和最底部的转换之间

    Create a Pipeline(创建管道)

    How pipelines work(管道如何工作)

    管道是Hop项目的基本构建块。

    管道完成了繁重的工作:它们从各种来源读取数据,执行许多操作(合并、清理、完善、转换等),并将数据写入某些目标平台。管道以预定义的顺序并并行地执行所有这些操作。

    在下面的图片中,一个非常简单的管道从数据库读取数据,向数据添加一条消息,然后发送一封电子邮件。所有这些操作都按照预定义的顺序执行(从数据库读取、添加消息、发送邮件)并并行执行。管道执行这些转换,假设我们的数据库表或查询包含数千行。管道将开始从查询中读取结果,并将它们传递给’Add message’转换。一旦添加了消息,我们将从mail转换发送一封邮件。所有这些都是并行的,所以邮件转换.

    在这里插入图片描述

    Concepts(概念)

    管道由跳连接的转换组成。在邮件示例“Table input”中,“Add message”和“mail”都是转换。

    • 转换是管道中的基本操作。管道通常由许多由跃点连接在一起的转换组成。转换是细粒度的,从某种意义上说,每个转换都被设计和优化为执行且仅执行一项任务。尽管一个转换本身可能不能提供令人惊叹的功能,但是管道中所有转换的组合将使您的管道变得强大。
    • 跳把所有的转换连接在一起。当转换处理完成它接收到的数据集时,该数据集通过一个跳传递给下一个转换。跳是单向的(数据不能反向流动)。跳只缓冲和传递数据,跳本身与转换无关,它不知道将数据从哪来来,传递给哪些转换。一些转换可以有条件地从其他转换向其他转换进行读写,但这是一种特定于转换的配置。跳跃者并不知道这一点。跳可以通过点击或右击来禁用

    Create a pipeline(创建管道)

    通过工作项对话框创建一个新的管道。您将看到下面的对话框。

    在这里插入图片描述

    当您完成管道创建后,保存它。这可以通过“文件”菜单、图标或使用CTLR或Command s来完成。对于新的管道,文件浏览器将显示,以导航到您想要存储文件的位置。

    Add Transform to your pipelines(将Transform添加到管道中)

    单击管道画布中的任意位置,即您将看到下图的区域。

    在这里插入图片描述

    单击后,将显示如下所示的对话框。通过顶部的搜索框搜索转换、名称、标签(TODO)等。找到要查找的转换后,单击它将其添加到管道中。点击的另一种选择是方向键导航+回车。现在重复此步骤,或者在您想向管道添加更多转换时重复此步骤。向管道添加转换后,可以拖动它来重新定位它。

    查看要添加到管道中的转换列表以获得更多详细信息。

    在这里插入图片描述

    添加“Generate Rows”和“Add Sequence”转换,你的管道应该如下图所示。

    在这里插入图片描述

    可以通过对对象的一次单击来配置转换对象。下面显示的菜单将基于您的转换对象显示。

    在这里插入图片描述

    Action Description
    Edit
    编辑转换
    Edit the transform’s metadata
    编辑转换的元数据
    Copy to clipboard
    复制
    Copies selected items to clipboard.
    复制选中的转换
    Create hop
    创建跳
    Creates a new hop between two transforms.
    在两个转换之间创建一个新的跳转
    Detach transform
    分离转换
    Detach the transform from the pipeline
    从管道中分离转换
    Show input fields 显示输入字段
    Show output fields 显示输出字段
    Edit transform description
    编辑转换描述
    Add a description to the transform.
    向转换添加描述。
    Delete
    删除
    Delete selected transform from the canvas.
    从画布中删除选中的转换
    Data routing
    Specify copies
    指定复制
    复制指定行数
    Copy rows
    复制行
    In case of more than one hop the daya is copied to the next transforms.
    如果有多个跳,则将daya复制到下一个转换
    Set partitioning
    设置分区
    Specify how rows of data need to be grouped into partitions allowing parallel execution where similar rows need to end up on the same transform copy
    指定需要如何将数据行分组到允许并行执行的分区中,其中相似的行需要在相同的转换副本上结束
    Error handling
    错误处理
    Set the error handling for the transform, not available for all transforms.
    为转换设置错误处理,但不是所有转换都可用
    Add web service
    添加web服务
    Preview
  • 相关阅读:
    Spring面试题2:说一说IOC控制反转以及底层是如何实现的?说一说面向切面的编程(AOP)以及底层是如何实现的?
    2022 年全球十大最佳自动化测试工具
    Mybatis引入外部properties文件
    EelasticSearch的docker安装-----》es客户端使用!!!
    ppt编辑技巧+提升效率的快捷键(2013以上版本)
    Java核心技术卷Ⅰ-第三章Java的基本程序设计结构
    《机器学习核心算法》分类算法 - 朴素贝叶斯 MultinomialNB
    解决这两个世界级难题,自动驾驶就能够实现超进化?
    御剑WEB指纹识别系统教程,图文教程(超详细)
    docker上安装es
  • 原文地址:https://blog.csdn.net/linjie_830914/article/details/128097769
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号