当前位置:首页 > 资讯 > 正文

PySpark3.4.4_基于StreamingContext实现网络字节流中英文分词词频累加统计结果保存到文本中

利用pyspark开发streamingContext程序,统计实时网络字节流数据,实现中英文分词统计,并将统计结果持久化保存到文本文件中

实现分词效果如下:

1. 开发datasourcesocket.py工具模拟生成socket字节流

2. 开发辅助类工具进行日志记录myLogger.py

3. 开发pysparkStreaming程序NetworkWordCountStatuefulText.py,实现中英文词频分词统计累加统计,并保存为文本

项目的代码结果如下:

 

用pycharm开发datasourcesocket.py

 

 
 
 

1. 配置运行参数

依据自己的环境修改配置路径

2. 运行程序

运行前检查路径,目标目录是空的

启动运行程序

退出后,检查持久化的结果文件信息,查看中英混合分词统计

更多技术文档分享,讨论,欢迎关注微信公众号: