码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • .Net大数据平台Microsoft.Spark环境构建 附可运行源码。


    前言:大什么数据?什么大数据?什么数据大?挖野菜才是正道。

     NBNBNB 老资终于可以不用花太多精力搞python了  。

    window环境的.Net大数据平台环境构建 附带可运行源码。

    windows 安装jdk 相关坑 java jdk1.8.0_221 安装步骤_云草桑的博客-CSDN博客_jdk1.8.0_221

     .NET for Apache Spark 使用 .NET Core 在 Windows、Linux 和 macOS 上运行。 它还使用 .NET Framework 在 Windows 上运行。 可以将应用程序部署到所有主要云提供商,包括 Azure HDInsight Spark、Amazon EMR Spark、Azure Databricks 和 AWS 上的 Databricks。

     

    .NET for Apache Spark 性能

    与使用 TPC-H 基准的 Python 和 Scala 相比,.NET for Apache Spark 在大多数情况下表现良好,并且当用户定义的函数性能至关重要时,其速度比 Python 快两倍。 目前正在努力提升基准性能。

    1下载并安装 Apache Spark。

    spark/docs/release-notes at main · dotnet/spark · GitHub下载并安装 Apache Spark 3.0.1

     

    查看当前运行版本

       dotnet --version

      或

        dotnet --list-sdks

       安装的所有版本 包括版本地址

    dotnet --info
    
    
    帮助命令
    dotnet help

    运行以下命令,以设置用于查找 Apache Spark 的环境变量。 在 Windows 上,确保在管理员模式下运行命令提示符。

    • Windows

    1. setx /M HADOOP_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\
    2. setx /M SPARK_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\
    3. setx /M PATH "%PATH%;%HADOOP_HOME%;%SPARK_HOME%bin"

    安装所有内容并设置环境变量后,打开新的命令提示符或终端并运行以下命令:

    spark-submit --version

    如果该命令运行并打印出版本信息,则可转到下一步。

    如果收到 'spark-submit' is not recognized as an internal or external command 错误,请确保已打开新的命令提示符。

    spark/docs/release-notes at main · dotnet/spark · GitHub

    ---分割线 现在只是hadoop 装好  .net 还用不起来-----

    4、安装 .NET for Apache Spark

    从 .NET for Apache Spark GitHub 下载 Microsoft.Spark.Worker。

    要提取 Microsoft.Spark.Worker:

    • 解压 Microsoft.Spark.Worker.netcoreapp3.1.win-x64-1.0.0.zip 文件。

    5、安装 WinUtils(仅限 Windows)

    .NET for Apache Spark 要求与 Apache Spark 一起安装 WinUtils。 下载 winutils.exe。 然后,将 WinUtils 复制到 spark-3.2.1-bin-hadoop3.2\bin。

    6、设置 DOTNET_WORKER_DIR 并检查依赖项,指向Worker解压目录

    path

     

    setx /M DOTNET_WORKER_DIR

    ---------------分割线 .net  大数据平台搭建完毕了 ------------

    NBNBNB  好像和 搜索引擎之Lucence.Net_云草桑的博客-CSDN博客 这个和Lucence.Net一样分词也有点智障。。

     

    1. static void Main(string[] args)
    2. {
    3. // Create a Spark session/Job
    4. SparkSession spark = SparkSession
    5. .Builder()
    6. .AppName("word_count_sample")
    7. .GetOrCreate();
    8. // Create initial DataFrame
    9. DataFrame dataFrame = spark.Read().Text("美猴王.txt");
    10. // Count words
    11. DataFrame words = dataFrame
    12. .Select(Functions.Split(Functions.Col("value"), " ").Alias("words"))
    13. .Select(Functions.Explode(Functions.Col("words"))
    14. .Alias("word"))
    15. .GroupBy("word")
    16. .Count()
    17. .OrderBy(Functions.Col("count").Desc());
    18. // Show results
    19. words.Show();
    20. // Stop Spark session
    21. spark.Stop();
    22. }

     NBNBNB 老资终于可以不用花太多精力搞python了  

    好像不能调试。。。就先这样吧  

  • 相关阅读:
    【华为OD机试真题 JAVA】数字涂色
    一款.NET下 WPF UI框架介绍
    区块链与比特币学习笔记二
    C++ Builder XE关于vector超速载入到listView表中
    软件测试要学会哪些东西才能拿2w+的工资?
    WebGIS开发基础
    Vue一些小技巧
    SuperMap BIM+GIS-Revit模型处理-第三节 Revit模型优化方法及模型缓存策略
    JS - 防抖与节流
    JS两个数组只要不同的选项
  • 原文地址:https://blog.csdn.net/cao919/article/details/127602482
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号