windows环境下单机运行pyspark

news/发布时间2024/5/14 2:41:34

首先在windows系统中安装pyspark,具体过程可以参考以下两个地址
https://mp.weixin.qq.com/s/Bt6qrE3sGUSCm_BaA33C6A
https://edu.hellobi.com/course/282/play/lesson/6501

安装好之后,在cmd中输入pyspark,可以看到以下界面

接下来通过以下代码,实现第一个pyspark程序,该程序会统计文本文件CountLine.txt的行数(注意python版本最好是3.7以下,以免findspark包出现不兼容)

import os
import findspark
findspark.init()
from pyspark.sql import SparkSessionos.environ['JAVA_HOME'] = r"D:\install\jdk1.8.0-201"spark = SparkSession.builder.appName("example").getOrCreate()
sc = spark.sparkContext
print(sc.master)
textFile = sc.textFile('CountLine.txt')
num_lines = textFile.count()
print('文本行数:', num_lines)
print('done!')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ulsteruni.cn/article/58704655.html

如若内容造成侵权/违法违规/事实不符,请联系编程大学网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

9.22 随笔

现在已经过了12点了,但是跟刚记完单词,补一篇日记。 1.上午在下雨,窝寝室了,由于和对象闹小矛盾了心情不太好,下午出去逛了逛,景色挺好,下午回来买了10块钱的百香林,吃着不错,几个月没吃过了,偶尔放纵。晚上依旧的班会,外加启航考研的老师科普考研。收获不多,只是提…

分布式锁

为什么需要分布式锁? 在多线程环境中,如果多个线程同时访问共享资源(例如商品库存、外卖订单),会发生数据竞争,可能会导致出现脏数据或者系统问题,威胁到程序的正常运行。 举个例子,假设现在有 100 个用户参与某个限时秒杀活动,每位用户限购 1 件商品,且商品的数量只…

gcc 使用 与 选项 编译动态库

问题:-Wl,-rpath,/path/to/shared/lib将-rpath选项传递给链接器,告诉链接器在运行时搜索共享库时要搜索指定的路径/path/to/shared/lib 与 使用 -L 指定 lib 路径 有区别吗是的,-Wl,-rpath和-L选项在链接器中有不同的作用和用途:-L选项:用于指定在链接过程中搜索库文件的路…

权限提升

已知程序 翻译 搜索 复制

Rider 2023:跨平台.NET开发的一站式解决方案

Rider 2023是一款功能强大的跨平台.NET IDE集成开发环境(IDE),旨在帮助开发人员快速构建、调试和测试.NET应用程序。 →→↓↓载Rider 2023 mac/win版Rider 2023不仅支持多种.NET开发平台,如.NET Framework、.NET Core和.NET 5/6等,还支持在Windows、macOS和Linux等不同操…

游戏出海淘金不可忽视的的8个平台

在众多综合因素的影响下,大量的国内游戏厂商开始关注海外,中国游戏产业迎来了新一轮的游戏出海潮。 但这一次与之前不同的是,不仅国内的游戏厂商正在努力尝试出海,海外的平台巨头们也迫切希望中国的开发者们,能为他们带来新的优质内容,实现营收增长。 为了让开发者更方便…