• 为什么那么多人说大数据只是写SQL?


    大家好,我是脚丫先生 (o^^o)

    之前发了一篇,「大数据工程师的日常工作内容是干嘛?」。

    微信公众号和CSDN博客收到了很多朋友的私信,问我大数据都只是在写SQL么?

    是不是传说中的SqlBoy

    我也依依回复了小伙伴们。偶然间在逛知乎的时候看到一个问题?

    也想把之前自己说的不足,以知乎的几个我认为不错的回答分享给小伙伴们,解惑解惑。

    回答者:herain

    对大多数门外汉来说:认为大数据只是写SQL无可厚非。

    大数据开发同学的自嘲是谦卑、门外汉的认知是偏见。做好自己就行,不要为不理解而过多的产生不理解,加油让自己更精彩。

    多年从事数据开发,sql 只是众多工具(pig、spark、shell、python…)的一种。决定工作性质的不应该是 用什么工具?,而应该是用工具做什么?

    大数据开发,是组织数据(数据仓库)、是分析信息(数据分析)、是知识挖掘(挖掘)。不是简单的写sql。

    就拿数仓来说,我们需要了解数据建模的方法论(ER、多维等),去建设稳定的数仓体系支持业务找数、用数。同样,我们需要基于数据构建应用,比如 数据报表、查询工具等。当然,还有治理优化的工作,如何用最少的计算资源完成数据的输出。

    所以,大数据中写SQL真的是对大数据从业者最大的误解。

    重要的事情说三遍:我用SQL,但我不止是写SQL的男孩!

    回答者:kingGe

    这样说,可能工作中sql用得最多。

    毕竟,大数据,先是要会查数据,sql是首选工具。工作中常常是先出结果,再讲效率优化。而大多数人忙于先出结果,很少考虑优化。

    还有大多数情况下,有结果就可以了,数据量没那么大,硬件条件很充沛,短时间内也不需要考虑优化的事。

    一般能处理增量计算,数据倾斜问题的人,在小组内也是技术能力突出的顶尖人才,小兵小虾不一定能搞定。虾兵虾将多了,声量自然高了,不要怪他们这样说,因为他们看到的就是这些。高级的问题,大概率还没遇到。

    回答者:金东东

    大数据就是写SQL,这句话其实反映了一个普遍的社会性问题。

    任何工作,复杂的、艰难的、专业的那部分,都是很少的人在做。

    就和世界上80%的财富由20%的掌握一样,大多数人只是参与到了这一项工作中,做着简单和重复的工作。

    因为大多数人在工作中的收获和感悟有限,所以只能得出自己认知范围内的结论,可以参考坐井观天的理解。

    好,这就是为什么你听到大多数人说大数据就是写SQL。但是,还有更深入的解释。

    • 1.你自己的工作内容和环境,也是属于简单且重复工作的范围。所以你身边和你能接触到的人的理解就是这样。如果你能通过自己的学习和努力,摆脱这种环境,你的同事都是更加专业的科技人士,他们则会说大数据重要的是数据模型和分析算法的精确与高效率,以及设备性能的充分利用,甚至是跨学科数据融合的社会研究。

    • 2.不可否认的是,计算机和软件领域的王者是美国,他们 做了大部分模型与架构的研发,算法与性能的调优。落实到中国的应用层面,不需要我们去 做这些顶层和高专业性的工作,留给我们的只有重复性工作。

    综上所述,既然你已经有了这样的意识,还希望你能在大数据领域进行更多专业性的顶层工作。这样的人越多,中国的科技才会越发达。

    总而言之

    大数据不光光是写SQL,SQL只是达到目的的方式之一。

    在大数据工作中,会面临很多种情况。

    如以上几个回答,大数据工作的内容,根据自己的环境和工作侧重面来决定,

    越是深入到大数据知识里,就越能感受到它的高度和难度。

    从数据存储到数据计算再到数据平台建设,涉及到的大数据知识以及需要用到的语言工具太广了。

    当然,Hive sql,spark sql,flink sql,presto sql写好 我觉得已经很nb了。

    更多精彩内容请关注 微信公众号 👇「大数据指北」🔥:


    一枚热衷于分享大数据基础原理,技术实战,架构设计与原型实现之外,还喜欢输出一些个人私活案例。


    更多精彩福利干货,期待您的关注 ~

  • 相关阅读:
    C++ 并发编程指南(8)线程间通信
    基于html5开发的Win12网页版,抢先体验
    一文全面了解火山语音无监督预训练技术的落地实践
    给奶牛做直播之四
    threadx netxduo stm32f407上实现http server
    入门简单,轻量好用的低代码开发平台推荐
    自古以来,同步/异步都是八股文第一章
    【前端】较大规模数据的网络读取与图表展示
    nginx的详解与应用
    tsne可视化cnn模型
  • 原文地址:https://blog.csdn.net/shujuelin/article/details/126497316