• 2Gcsv文件打不开怎么处理,使用byzer工具


    项目需要,需要将客户的环境的数据导出来做对对账分析,客户数据隐秘,不能提供调用接口,需要只能以csv文件的形式发出来。
    但是一个2G的csv文件,大部分机器都会自己崩溃。还有一个方法就是拆分工具拆分,但是拆分后分析数据比较麻烦。

    有一款Byzer的工具可以满足这个需求

    官网地址:

    https://docs.byzer.org/#/

    支持私有环境部署,保证数据的隐私,搭建环境如下:

    1、准备一台liunx机器,机器配置2核8G左右

    2、下载byzer并安装

    wget https://download.byzer.org/byzer/2.3.0.1/byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1.tar.gz
    
    • 1
    tar -zxvf byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1.tar.gz
    
    • 1
    cd byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1
    
    • 1

    3、启动byzer

    ./bin/byzer.sh start
    
    • 1

    4.可以访问byzer,但是不太友好,可以安装配套的可视化工具notebook

    在这里插入图片描述

    5、下载并安装notebook

    wget https://download.byzer.org/byzer-notebook/1.2.0/Byzer-Notebook-1.2.0.tar.gz
    
    • 1
    tar -xvf Byzer-Notebook-1.2.0.tar.gz
    
    • 1

    6、notebook依赖mysql,需要提前安装一下mysql

    可以使用docker-compose安装,其他的安装方式,自己百度一下

    docker-compose.yml 文件

    version: "2"
    
    services:
      mysql:
        container_name: mysql
        image: mysql:5.7
        restart: always
        volumes:
          - ./mysql/data:/var/lib/mysql
          - ./mysql/init:/docker-entrypoint-initdb.d
          - /etc/localtime:/etc/localtime:ro
        ports:
          - "3306:3306"
        environment:
          MYSQL_ROOT_PASSWORD: "XXXXX"
          TZ: "Asia/Shanghai"
        command: --max_allowed_packet=32505856
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18

    7、调整notebook关于mysql的配置

    在这里插入图片描述
    路径地址

    cd /home/Byzer-Notebook-1.2.0/conf
    
    • 1

    在这里插入图片描述

    8、启动notebook

    ./bin/notebook.sh start
    
    • 1

    在这里插入图片描述

    9.注册后即可访问使用

    在这里插入图片描述

    10、点击上传,上传自己的2G的csv文件

    在这里插入图片描述
    在这里插入图片描述
    因为是2G的文件,上传比较慢,这里需要耐心的等待

    11、新建笔记本,对文件进行查看

    在这里插入图片描述

    12、将刚刚导出的csv转化为表结构

    load csv.`/tmp/upload/billing.csv` where header="true" as r3;
    
    • 1

    如果是xlsx文件

    load excel.`/tmp/upload/billing.xlsx` where header="true" as r4;
    
    • 1

    注意
    在这里插入图片描述
    这里是反引号,不是单引号

    13、至此就可以查看使用

    select * from r3 limit 10 as 2022_06_24_r3;
    
    • 1
    在这里插入代码片
    
    • 1

    注意后面要带上 “as 表的别名” 这可能是byzer的特殊的标记方式。

    select sum(BlendedCost) from r3 where payerAccountId=417966497442 as 417966497442_count;
    
    • 1

    支持所有的sql查询方式

    在这里插入图片描述

    附注:

    如果出现这个错误,检查一下环境的JDK配置

    在这里插入图片描述

    如果出现访问不了9002,9003端口,检查一下安全组的设置

  • 相关阅读:
    Programming Differential Privacy第十二章EXERCISES IN ALGORITHM DESIGN算法设计练习
    插入排序——希尔排序
    vivado时序分析-1
    python获取透明图
    hadoop HDFS分布式计算概述,MapReduce概述,YARN概述
    PHP简单实现预定义钩子和自定义钩子
    正厚技术 | Jmeter分布式设置操作说明
    华清远见11.7
    yolo v5 与 yolo v7 在一个项目中混合使用是否可行?
    JUC线程池——newSingleThreadExecutor源码解析&&JDK提供线程池ThreadPoolExecutor执行任务流程解析
  • 原文地址:https://blog.csdn.net/sunyuhua_keyboard/article/details/125443387