该记录不涉及任何业务信息,仅作学习记录,代码在最下面。
需求:要解析用户的SQL,从语法上获取SQL的输出字段,这样好和后面的入库字段做映射。
本来方案是,直接用Durid里面自带得HiveSchemaStatVisitor,进行SQL遍历,就可以获取所需的Select字段。测试结果发现不是这样,原生的解析拿不到子查询的明细字段,也拿不到"*"对应的字段,如下图。

这个是一个测试用例:
- CREATE TABLE `tb_a` (
- `id` varchar(64) COLLATE utf8_bin NOT NULL,
- `name` varchar(64) DEFAULT NULL,
- `phone` varchar(64) DEFAULT NULL
- ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
-
- CREATE TABLE `tb_c` (
- `id` varchar(64) COLLATE utf8_bin NOT NULL,
- `address` varchar(64) DEFAULT NULL,
- `cost` varchar(64) DEFAULT NULL
- ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
-
- CREATE TABLE `tb_a` (
- `id` varchar(64) COLLATE utf8_bin NOT NULL,
- `level` varchar(64) DEFAULT NULL,
- `email` varchar(64) DEFAULT NULL
- ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
-
- SELECT
- a.*,
- b.*,
- tb_c.email
- FROM
- tb_a a
- JOIN (
- SELECT id as id2, sum( cost ) AS sum FROM tb_b GROUP BY id ) b
- ON tb_a.id = tb_b
- JOIN tb_c
- ON tb_c.id = tb_a.id
-
-
- #应该要输出
- #tb_a.id或者a.id,以及别名id
- #tb_a.name或者a.name, 以及别名name
- #tb_a.phone或者a.phone, 以及别名phone
- #b.id, 以及别名id
- #b.sum(cost), 以及别名sum
- #tb_c.email,以及别名email
所以,又双叒叕是头秃的一天,老老实实写递归(写链表也得,怎么都得的),实现这个逻辑,并且配合元数据服务,获取相关实体表的字段,就能做到:
1、将“*”对应的字段展现
2、将子查询内的字段展现(最终是输出的字段),如果最终不输出,也不考虑这些字段。
3、将各类计算的字段和其别名展现。
下图是和上图用的同一句SQL,测试输出的结果。

代码还是全部放出来,直接运行就可以了,有些冗余。如果有修改或更好的方式,欢迎沟通。
:D
- package com.dapp;
-
- import com.alibaba.druid.DbType;
- import com.alibaba.druid.sql.SQLUtils;
- import com.alibaba.druid.sql.ast.SQLExpr;
- import com.alibaba.druid.sql.ast.SQLObject;
- import com.alibaba.druid.sql.ast.SQLStatement;
- import com.alibaba.druid.sql.ast.expr.SQLPropertyExpr;
- import com.alibaba.druid.sql.ast.statement.*;
-
- import java.util.*;
-
- /**
- * Created by LH on 2022/9/2 17:43
- */
- public class ParserDemo{
- //原始表字段
- public static HashMap
> originalTables = new HashMap