• 基于spingboot通过spark-sql进行大批量插入clickhous分布式数据库


    1.所需依赖

    
    
        org.apache.spark
        spark-core_2.11
        2.4.3
    
    
    
        org.apache.spark
        spark-sql_2.11
        2.4.3
    
    
    
        ru.yandex.clickhouse
        clickhouse-jdbc
        0.1.53
     
    

    2.spark具体案例

    注意:1. implements Serializable 实现

    1. private static final long serialVersionUID = 1L;
    2. transient SparkConf conf;//定义配置信息对象
    3. transient JavaSparkContext jsc ;//声明spark上下文
    4. transient SQLContext sqlContext ;
    5. @Test
    6. public void test() {
    7. conf = new SparkConf().setMaster("local[1]").setAppName("sparkRDDs");
    8. jsc = new JavaSparkContext(conf);
    9. sqlContext= new SQLContext(jsc);
    10. List<Map<String, String>> listdata = new ArrayList>();
    11. String name="测试";
    12. String age="22";
    13. String adress="广东深圳";
    14. String city="陕西西安";
    15. String habit="孤独百年";
    16. Map<String, String> map = new HashMap<String, String>();
    17. map.put("id", new Random().nextInt(1000) + "");
    18. map.put("name", name);
    19. map.put("age", age);
    20. map.put("adress", adress);
    21. map.put("city", city);
    22. map.put("habit", habit);
    23. listdata.add(map);
    24. // }
    25. //写入的数据内容
    26. JavaRDD<Map<String, String>> personData = jsc.parallelize(listdata);
    27. /**
    28. * 第一步:在RDD的基础上创建类型为Row的RDD
    29. */
    30. //将RDD变成以Row为类型的RDD。Row可以简单理解为Table的一行数据
    31. JavaRDD<Row> personsRDD = personData.map(new Function<Map<String, String>, Row>() {
    32. @Override
    33. public Row call(Map<String, String> line) throws Exception {
    34. return RowFactory.create(line.get("id"), line.get("id"), line.get("name"),line.get("age"),line.get("adress"),line.get("city"),line.get("habit"));
    35. }
    36. });
    37. /**
    38. * 第二步:动态构造DataFrame的元数据。
    39. */
    40. List structFields = new ArrayList();
    41. structFields.add(DataTypes.createStructField("id", DataTypes.StringType, true));
    42. structFields.add(DataTypes.createStructField("name", DataTypes.StringType, true));
    43. structFields.add(DataTypes.createStructField("age", DataTypes.StringType, true));
    44. structFields.add(DataTypes.createStructField("adress", DataTypes.StringType, true));
    45. structFields.add(DataTypes.createStructField("city", DataTypes.StringType, true));
    46. structFields.add(DataTypes.createStructField("habit", DataTypes.StringType, true));
    47. //构建StructType,用于最后DataFrame元数据的描述
    48. StructType structType = DataTypes.createStructType(structFields);
    49. /**
    50. * 第三步:基于已有的元数据以及RDD<Row>来构造DataFrame
    51. */
    52. Dataset personsDF = sqlContext.createDataFrame(personsRDD, structType);
    53. /**
    54. * 第四步:将数据写入到person表中
    55. */ //数据库内容
    56. String url = "jdbc:clickhouse://127.0.0.1:8123/test";
    57. Properties connectionProperties = new Properties();
    58. connectionProperties.put("user", "default");
    59. connectionProperties.put("password", "");
    60. log.info("===========插入开始============");
    61. personsDF.write().mode("append").jdbc(url, "bigtest", connectionProperties);
    62. jsc.close();
    63. }

    注:此为spark本地模式,集群模式需要注意使用方式,上面直接可以,已经规避掉很多初级坑,此为saprk-sql实现,sparkstreaming后期会更新

  • 相关阅读:
    Doris(0.15.1-rc09)使用Datax-DorisWrite导致BE固定节点streamLoad任务过多问题排查
    第五届“强网”拟态防御国际精英挑战赛——预选赛入围名单公布!
    基于 Next.js实现在线Excel
    使用爬虫去获取四六级成绩
    基于Qt实现的轻量级CAD画图软件
    Python语言程序设计 习题8
    c#设计模式-行为型模式 之 模板方法模式
    如何恢复U盘里面的已经损坏的数据?
    TensorFlow实战教程(二十八)-Keras实现BiLSTM微博情感分类和LDA主题挖掘分析
    URL 路径中包含百分号需要在 Swift 中的特殊处理
  • 原文地址:https://blog.csdn.net/m0_37942145/article/details/126407348