• 数据库:Hive转Presto(一)


            本人因为工作原因,经常使用hive以及presto,一般是编写hive完成工作,服务器原因,presto会跑的更快一些,所以工作的时候会使用presto验证结果,所以就要频繁hive转presto,为了方便,我用Python编写了一个转换代码的小程序,工作繁忙,我一点点更新吧。

    一、厘清需求        

            首先,思考具体的需求:

    1. 识别加减乘除等基本运算,presto对于字段属性有严格要求,所以为了一劳永逸,将涉及到计算的字段全部cast为double,但是要注意字符串中出现运算符的,这是不能改的。
    2. 识别<,>,<>,!=,=,<=,>=这些判断符一般用在条件语句,where,join中。以a=b为例(1)a是字段,b是一个字符串,那么a就要cast为varchar,并且b不需要任何cast(2)如果b是数值,那么a要cast为double,并且b不需要任何cas(3)如果b和时间有关,那么a就要case为date(4)如果两边都是字段,那就都cast为varchar。
    3. 常用的一些函数,比如substr,datediff,concat,sum等等,都要转换成对应的presto函数用法。
    4. 使用tkinter创造一个简单的交互界面,方便实时的输入输出,如果有错误就简单的反应错误。

    二、代码思路

            先处理加减乘除运算,判断符,然后再处理函数,然后添加ui交互界面,最后将代码简单包装为类,条件允许就包装为应用程序,但是公司电脑权限高,所以不太可行。

    三、Python代码

    1. import re
    2. import os
    3. from tkinter import *
    4. class Hive2Presto:
    5. def __int__(self):
    6. self.t_funcs = ['substr', 'nvl', 'substring', 'unix_timestamp'] + \
    7. ['to_date', 'concat', 'sum', 'avg', 'abs', 'year', 'month', 'ceiling', 'floor']
    8. self.time_funcs = ['date_add', 'datediff', 'add_months']
    9. self.funcs = self.t_funcs + self.time_funcs
    10. self.current_path = os.path.abspath(__file__)
    11. self.dir = os.path.dirname(self.current_path)
    12. self.result = []
    13. self.error = []
    14. self.filename = ''
    15. def main(self):
    16. self.root = Tk()
    17. self.root.config(bg='#ff741d') # 背景颜色设置为公司主题色^_^
    18. self.root.title('Hive转Presto')
    19. self.win_width = 550
    20. self.win_height = 500
    21. self.screen_width = self.root.winfo_screenwidth()
    22. self.screen_height = self.root.winfo_screenheight()
    23. self.x = (self.screen_width - self.win_width) // 2
    24. self.y = (self.screen_height - self.win_height) // 2
    25. self.root.geometry(f'{self.win_width}x{self.win_height}+{self.x}+{self.y}')
    26. font = ('楷体', 11)
    27. self.button = Button(self.root, text='转换', command=self.trans, bg='#ffcc8c', font=font, anchor='e')
    28. self.button.grid(row=0, column=0, padx=100, pady=10, sticky=W)
    29. self.file_button = Button(self.root, text='选择文件', command=self.choose_file, bg='#ffcc8c', font=font,
    30. anchor='e')
    31. self.file_button.grid(row=0, column=1, padx=0, pady=10, sticky=W)
    32. self.entry = Entry(self.root, width=65, font=font)
    33. self.entry.insert(0, '输入Hive代码')
    34. self.entry.grid(row=1, column=0, padx=10, pady=10, columnspan=2)
    35. self.entry.bind('', self.delete_text)
    36. self.text = Text(self.root, width=75, height=20)
    37. self.text.grid(row=2, column=0, padx=10, pady=10, columnspan=2)
    38. self.des_label = Label(self.root, text='可以复制结果,也有生成的文件,与选取的文件同文件夹', bg='#ffcc8c',
    39. font=('楷体', 10))
    40. self.des_label.grid(row=3, column=0, padx=10, pady=10, columnspan=2)
    41. s = ''
    42. for i in range(0, (n := len(self.funcs)), 4):
    43. if i + 4 <= n:
    44. s += ','.join(self.funcs[i:i + 4]) + '\n'
    45. else:
    46. s += ','.join(self.funcs[i:]) + '\n'
    47. s = s[:-1]
    48. self.des_label1 = Label(self.root, text=s, bg='#ffcc8c',
    49. font=('楷体', 10))
    50. self.des_label1.grid(row=4, column=0, padx=10, pady=10, columnspan=2)
    51. self.root.columnconfigure(0, minsize=10)
    52. self.root.columnconfigure(1, minsize=10)
    53. self.root.columnconfigure(0, pad=5)
    54. self.root.mainloop()
    55. def replace_func(self, s, res):
    56. pass
    57. def func_trans(self, f, f1, func_name, ss, s):
    58. pass
    59. def choose_file(self):
    60. """
    61. 如果代码太多,从text中输入会很卡,直接选择代码文件输入会很快
    62. :return:
    63. """
    64. pass
    65. def findvar(self, ss):
    66. """
    67. 搜索与计算有关的字段
    68. :param ss:
    69. :return:
    70. """
    71. pass
    72. def mysplit(self, s):
    73. """
    74. 分割字段
    75. :param s:
    76. :return:
    77. """
    78. pass
    79. def extact_func(self, s, func_name):
    80. pass
    81. def delete_text(self, event):
    82. pass
    83. def trans(self):
    84. pass
    85. if __name__ == '__main__':
    86. pro = Hive2Presto()
    87. pro.__int__()
    88. pro.main()

    先把大致框架写出来,其实我已经完成了,但是代码都在公司电脑,传不出来,需要我重新再打一遍,顺便看看能不能再优化优化。UI界面大致如下:

  • 相关阅读:
    深入了解 Spring 篇之 BeanDefinition 结构
    C++ Primer Plus第五版笔记(p201-250)
    Android:多进程的开启方式、注意点以及如何解决。
    JSONP实现跨域请求,cors解决跨域以及nginx反向代理实现跨域
    Java练习题1
    Mybatis传递实体对象只能直接获取,不能使用对象.属性方式获取
    python使用字典暴力解析wifi密码
    算法面试高频题解指南【一】
    【多目标优化算法】多目标粘液霉菌算法(MOSMA)附Matlab代码
    Docker Compose 安装 MinIO 并设置用户名和密码
  • 原文地址:https://blog.csdn.net/Sanfenpai6/article/details/133064672