大家好,我是脚丫先生 (o^^o)
之前发了一篇,「大数据工程师的日常工作内容是干嘛?」。
在微信公众号和CSDN博客收到了很多朋友的私信,问我大数据都只是在写SQL么?
是不是传说中的SqlBoy。
我也依依回复了小伙伴们。偶然间在逛知乎的时候看到一个问题?
也想把之前自己说的不足,以知乎的几个我认为不错的回答分享给小伙伴们,解惑解惑。
对大多数门外汉来说:认为大数据只是写SQL无可厚非。
大数据开发同学的自嘲是谦卑、门外汉的认知是偏见。做好自己就行,不要为不理解而过多的产生不理解,加油让自己更精彩。
多年从事数据开发,sql 只是众多工具(pig、spark、shell、python…)的一种。决定工作性质的不应该是 用什么工具?,而应该是用工具做什么?
大数据开发,是组织数据(数据仓库)、是分析信息(数据分析)、是知识挖掘(挖掘)。不是简单的写sql。
就拿数仓来说,我们需要了解数据建模的方法论(ER、多维等),去建设稳定的数仓体系支持业务找数、用数。同样,我们需要基于数据构建应用,比如 数据报表、查询工具等。当然,还有治理优化的工作,如何用最少的计算资源完成数据的输出。
所以,大数据中写SQL真的是对大数据从业者最大的误解。
重要的事情说三遍:我用SQL,但我不止是写SQL的男孩!
这样说,可能工作中sql用得最多。
毕竟,大数据,先是要会查数据,sql是首选工具。工作中常常是先出结果,再讲效率优化。而大多数人忙于先出结果,很少考虑优化。
还有大多数情况下,有结果就可以了,数据量没那么大,硬件条件很充沛,短时间内也不需要考虑优化的事。
一般能处理增量计算,数据倾斜问题的人,在小组内也是技术能力突出的顶尖人才,小兵小虾不一定能搞定。虾兵虾将多了,声量自然高了,不要怪他们这样说,因为他们看到的就是这些。高级的问题,大概率还没遇到。
大数据就是写SQL,这句话其实反映了一个普遍的社会性问题。
任何工作,复杂的、艰难的、专业的那部分,都是很少的人在做。
就和世界上80%的财富由20%的掌握一样,大多数人只是参与到了这一项工作中,做着简单和重复的工作。
因为大多数人在工作中的收获和感悟有限,所以只能得出自己认知范围内的结论,可以参考坐井观天的理解。
好,这就是为什么你听到大多数人说大数据就是写SQL。但是,还有更深入的解释。
1.你自己的工作内容和环境,也是属于简单且重复工作的范围。所以你身边和你能接触到的人的理解就是这样。如果你能通过自己的学习和努力,摆脱这种环境,你的同事都是更加专业的科技人士,他们则会说大数据重要的是数据模型和分析算法的精确与高效率,以及设备性能的充分利用,甚至是跨学科数据融合的社会研究。
2.不可否认的是,计算机和软件领域的王者是美国,他们 做了大部分模型与架构的研发,算法与性能的调优。落实到中国的应用层面,不需要我们去 做这些顶层和高专业性的工作,留给我们的只有重复性工作。
综上所述,既然你已经有了这样的意识,还希望你能在大数据领域进行更多专业性的顶层工作。这样的人越多,中国的科技才会越发达。
大数据不光光是写SQL,SQL只是达到目的的方式之一。
在大数据工作中,会面临很多种情况。
如以上几个回答,大数据工作的内容,根据自己的环境和工作侧重面来决定,
越是深入到大数据知识里,就越能感受到它的高度和难度。
从数据存储到数据计算再到数据平台建设,涉及到的大数据知识以及需要用到的语言工具太广了。
当然,Hive sql,spark sql,flink sql,presto sql写好 我觉得已经很nb了。
更多精彩内容请关注 微信公众号 👇「大数据指北」🔥:
一枚热衷于分享大数据基础原理,技术实战,架构设计与原型实现之外,还喜欢输出一些个人私活案例。
更多精彩福利干货,期待您的关注 ~