当前位置：首页 > 资讯 > 正文

爬取京东商品并分析

yu
资讯
2025-01-05
151

爬取京东商品并分析

上文，我们爬取了京东商城糖果的两千多条商品信息。今天，我们就来对它进行分析吧！(●'◡'●)

工具：jupyter notebook

用到的库：pandas、matplotlib、jieba

下面我们开始吧！

1.首先从csv文件中导入数据

可以看到，没有缺失的数据

3.保存数据

根据上面获取的信息，我们需要先对数据进行一些预处理，将评论数中的汉字''万''转换一下，代码如下：

看下处理好的数据：

由于京东上面没有销量这一信息，我们姑且将评论数当成是销量。本次项目中取用了price、title、comment_num、shop这几个字段的信息。分别是价格、标题、评论数、店铺名

使用jieba分词器，将title列中的商品标题进行切割，而后，利用了百度的一个停用词表剔除停用词，然后统计每个词的频率，并绘制词云

预处理：

绘图：

结果如下：

1.零食、休闲的词的占比比较大

2.关于糖果的类型，可以清除的看到，巧克力类型的商品最多

3.礼物、喜糖、女友的词频比较大，说明出售的用于送礼的糖果比较多

我们再来看下糖果的价格分布区间（说明：大致看了下糖果价格，发现基本属于[0-200]区间内，所以，这里只取200以内的价格进行分析）

结果如下：

可以看到：价格基本在0~40的区间之内，占了总采集数据的2/3左右

如上说明，由于没有爬取到销量信息，所以将评论数当成销量

结果如下：

这让我有点好奇，我们来看下销量最高的糖果是哪些吧

在分析过程中，我发现数据有些诡异，出现了下面的情况

于是，我去excel里瞅瞅了。

图1：46.8元的巧克力

图1：96元的巧克力

发现同一款商品的不同规格的销售量是记在一起的。本来呢，这里应该对其处理一下，但图已经画好了，我就懒得改代码了，偷个小懒。嘿嘿(●ˇ∀ˇ●)

为了图更好看点，将标题进行了截取，只取前面那个小标题。代码如下：

结果如下：

可以看到，费罗列牌子的巧克力以165万的销量笑傲群雄。我最喜欢的大白兔竟然没有上榜┭┮﹏┭┮

分析完销量前10的商品后，我们再来看下销量前10的店铺：

代码如下：

结果

可以看到：箭牌京东自营旗舰店占据第一名，达2000多万。其他前10的店铺中也基本是京东的自营店

这个，我们采用散点图的方式，看看价格和销量的分布关系

结果如下：

可以看到：价格在0-50之间的销量是最高的，而随着价格的增加，销量越来越少。嗯？还有600多的糖果？

由上图观察，我们发现价格和销量之间似乎有个负相关的关系，那么，我们就来建立个模型分析分析叭！

结果如下：

但实际上，这个图的价值不大，我们看下两者的相关系数

说明我这个模型建的很失败！呜呜，看来直觉都是骗人的。

这里就不对上面那张图分析啦。

商品

本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕，E-mail：xinmeigg88@163.com
本文链接：http://www.ksxb.net/tnews/5501.html

上一篇
谷歌AI聊天机器人竟回复称“人类去死吧” 谷歌回应

下一篇
英文母语化润色，这里的性价比一定是你想要的

爬取京东商品并分析

最近发表

标签列表

友情链接

爬取京东商品并分析

相关文章

最近发表

标签列表

友情链接