• 2Gcsv文件打不开怎么处理,使用byzer工具


    项目需要,需要将客户的环境的数据导出来做对对账分析,客户数据隐秘,不能提供调用接口,需要只能以csv文件的形式发出来。
    但是一个2G的csv文件,大部分机器都会自己崩溃。还有一个方法就是拆分工具拆分,但是拆分后分析数据比较麻烦。

    有一款Byzer的工具可以满足这个需求

    官网地址:

    https://docs.byzer.org/#/

    支持私有环境部署,保证数据的隐私,搭建环境如下:

    1、准备一台liunx机器,机器配置2核8G左右

    2、下载byzer并安装

    wget https://download.byzer.org/byzer/2.3.0.1/byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1.tar.gz
    
    • 1
    tar -zxvf byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1.tar.gz
    
    • 1
    cd byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1
    
    • 1

    3、启动byzer

    ./bin/byzer.sh start
    
    • 1

    4.可以访问byzer,但是不太友好,可以安装配套的可视化工具notebook

    在这里插入图片描述

    5、下载并安装notebook

    wget https://download.byzer.org/byzer-notebook/1.2.0/Byzer-Notebook-1.2.0.tar.gz
    
    • 1
    tar -xvf Byzer-Notebook-1.2.0.tar.gz
    
    • 1

    6、notebook依赖mysql,需要提前安装一下mysql

    可以使用docker-compose安装,其他的安装方式,自己百度一下

    docker-compose.yml 文件

    version: "2"
    
    services:
      mysql:
        container_name: mysql
        image: mysql:5.7
        restart: always
        volumes:
          - ./mysql/data:/var/lib/mysql
          - ./mysql/init:/docker-entrypoint-initdb.d
          - /etc/localtime:/etc/localtime:ro
        ports:
          - "3306:3306"
        environment:
          MYSQL_ROOT_PASSWORD: "XXXXX"
          TZ: "Asia/Shanghai"
        command: --max_allowed_packet=32505856
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18

    7、调整notebook关于mysql的配置

    在这里插入图片描述
    路径地址

    cd /home/Byzer-Notebook-1.2.0/conf
    
    • 1

    在这里插入图片描述

    8、启动notebook

    ./bin/notebook.sh start
    
    • 1

    在这里插入图片描述

    9.注册后即可访问使用

    在这里插入图片描述

    10、点击上传,上传自己的2G的csv文件

    在这里插入图片描述
    在这里插入图片描述
    因为是2G的文件,上传比较慢,这里需要耐心的等待

    11、新建笔记本,对文件进行查看

    在这里插入图片描述

    12、将刚刚导出的csv转化为表结构

    load csv.`/tmp/upload/billing.csv` where header="true" as r3;
    
    • 1

    如果是xlsx文件

    load excel.`/tmp/upload/billing.xlsx` where header="true" as r4;
    
    • 1

    注意
    在这里插入图片描述
    这里是反引号,不是单引号

    13、至此就可以查看使用

    select * from r3 limit 10 as 2022_06_24_r3;
    
    • 1
    在这里插入代码片
    
    • 1

    注意后面要带上 “as 表的别名” 这可能是byzer的特殊的标记方式。

    select sum(BlendedCost) from r3 where payerAccountId=417966497442 as 417966497442_count;
    
    • 1

    支持所有的sql查询方式

    在这里插入图片描述

    附注:

    如果出现这个错误,检查一下环境的JDK配置

    在这里插入图片描述

    如果出现访问不了9002,9003端口,检查一下安全组的设置

  • 相关阅读:
    SpringSecuity和Shiro区别
    个人信息保护视域下知情同意框架的应用困境与对策探析
    客户跟进新技能get!直接收藏!
    【生成对抗网络学习 其一】经典GAN与其存在的问题和相关改进
    计算机毕业设计Javan音乐剧网站(源码+系统+mysql数据库+lw文档)
    Qt学习20 Qt 中的标准对话框(中)
    linux 更换java 版本
    灰度级形态学 - 顶帽变换和底帽变换
    AC发声:我踩过的坑 你们都(别再)踩了
    数据库的分库分表
  • 原文地址:https://blog.csdn.net/sunyuhua_keyboard/article/details/125443387