• spark jdbc操作


    按条件读表

    如果要按条件读表,按官网的解释可以用query参数,官网也说dbtable和query参数不能同时使用,但是我测试发现只用query会报错,说没有dbtable参数。
    requirement failed: Option ‘dbtable’ is required

    可以用dbtable参数查询,注意写法,要加一个表的别名。

    jdbcDF = spark.read
     .format("jdbc")
     .option("url", "jdbc:mysql://172.17.1.80:3306?useUnicode=true&characterEncoding=UTF-8&autoReconnect=true")
     .option("dbtable", "(select id from dbtest.test ) tmp")
     .option("user", "root")
     .option("password", "123456")
     .load()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    全量和增量写表

    下面是把df2这个dataframe写入到mysql中,df2的schema的字段名要和mysql中的字段名一致。

     df2.write
        .format("jdbc")
        .mode(SaveMode.Overwrite)
        .option("url", this.url + "&rewriteBatchedStatements=true")
        .option("dbtable", this.database + "." + this.table)
        .option("truncate",true)
        .option("batchSize", bSize)
        .option("user", this.user)
        .option("password", this.password)
        .save()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    SaveMode有四个模式,默认是ErrorIfExists

    SaveMode
    ErrorIfExists如果数据库中已经存在该表,则会直接报异常,导致数据不能存入数据库
    Append如果数据库中表已经存在,则追加在该表中;若该表不存在,则会先创建表,再插入数据
    Overwrite先将已有的表及其数据全都删除,再重新创建该表,最后插入新的数据;
    Ignore若表不存在,则创建表,并存入数据;在表存在的情况下,直接跳过数据的存储,不会报错

    注意Overwrite 是先删表再建表,如果不想删表,而是要清空表的数据再插入新的数据需要设置.option(“truncate”,true)

  • 相关阅读:
    html拖动滚动
    使用Tesseract-OCR对PDF等图片文件进行文字识别
    【Acwing166】数独(dfs+剪枝+位运算)超级详细题解!
    1.4.21 实验21:vrrp主备
    深入探究Selenium定位技巧及最佳实践
    原生CLI指令构建npm run减少硬盘node_modules的开销
    相机噪声评估
    接口请求合并的 3 种技巧,性能直接爆表
    SpringBoot整合JSR-303表单校验
    探索多线程编程:线程的本质、状态和属性
  • 原文地址:https://blog.csdn.net/qq_43940950/article/details/126950585