数据堆积, 数据积压.
1. 目的容器有问题.
2.网络带宽.
3.消费逻辑过于复杂.
数据体量大, 需要高效随机读写, => HBase
5. 集成: 离线 Hbase => Hive, 即席: Hbase => Phoenix
GPS, 经纬度, 省份... 根据经纬度, 算省份.
数据格式: 维度, 经度
qq,,8点在家=> wifi, 8点30 5G, 出门, 10:00: wifi, 11:00 => 22:00 wifi, 5G=> 23:30: wifi
兴趣是最好的老师.
Example for agent named a1: agent的名字叫: a1
flume 采集日志文件.
玩儿Flume就是 锁定三大组件.
官方建议, rowkey的设计规则: 4句话.
1. 避免使用递增类, 时序类的数据. 100000000000001
2.长度, 64KB, 不超过100字节, 建议: 20 ~ 50
3. long类型比String类型节省空间.
4. 保证唯一.
面试记不清,说有如下几点,
数据堆积,
1,目标容器有问题
2,网络带宽,(加钱换更高带宽,换运营商)
3,消费逻辑过于复杂,(1优化代码,2增加主题分片数,增加消费者,)
晚上
梳理
陌陌案例, 数据源 => flume => kafka => Hbase => Phoenix/Hive
shfit+g vim最后一行
:行数 直接跳,,,vim中
pc有多少个端口???
tail -100f MOMO_DATA.dat==文件最后100行