当前位置:首页 > 资讯 > 正文

爬取京东商品并分析

爬取京东商品并分析

上文,我们爬取了京东商城糖果的两千多条商品信息。今天,我们就来对它进行分析吧!(●'◡'●)

工具:jupyter notebook

用到的库:pandas、matplotlib、jieba

下面我们开始吧!

1.首先从csv文件中导入数据







可以看到,没有缺失的数据

3.保存数据




根据上面获取的信息,我们需要先对数据进行一些预处理,将评论数中的汉字''万''转换一下,代码如下:


看下处理好的数据:

由于京东上面没有销量这一信息,我们姑且将评论数当成是销量。本次项目中取用了price、title、comment_num、shop这几个字段的信息。分别是价格、标题、评论数、店铺名

使用jieba分词器,将title列中的商品标题进行切割,而后,利用了百度的一个停用词表剔除停用词,然后统计每个词的频率,并绘制词云

预处理:


绘图:


结果如下:

1.零食、休闲的词的占比比较大

2.关于糖果的类型,可以清除的看到,巧克力类型的商品最多

3.礼物、喜糖、女友 的词频比较大,说明出售的用于送礼的糖果比较多

我们再来看下糖果的价格分布区间(说明:大致看了下糖果价格,发现基本属于[0-200]区间内,所以,这里只取200以内的价格进行分析)


结果如下:

可以看到:价格基本在0~40的区间之内,占了总采集数据的2/3左右

如上说明,由于没有爬取到销量信息,所以将评论数当成销量


结果如下:

这让我有点好奇,我们来看下销量最高的糖果是哪些吧

在分析过程中,我发现数据有些诡异,出现了下面的情况

于是,我去excel里瞅瞅了。

图1:46.8元的巧克力

图1:96元的巧克力

发现同一款商品的不同规格的销售量是记在一起的。本来呢,这里应该对其处理一下,但图已经画好了,我就懒得改代码了,偷个小懒。嘿嘿(●ˇ∀ˇ●)

为了图更好看点,将标题进行了截取,只取前面那个小标题。代码如下:


结果如下:

可以看到,费罗列 牌子的巧克力以165万的销量笑傲群雄。我最喜欢的大白兔竟然没有上榜┭┮﹏┭┮

分析完销量前10的商品后,我们再来看下销量前10的店铺:

代码如下:


结果

可以看到:箭牌京东自营旗舰店占据第一名,达2000多万。其他前10的店铺中也基本是京东的自营店

这个,我们采用散点图的方式,看看价格和销量的分布关系


结果如下:

可以看到:价格在0-50之间的销量是最高的,而随着价格的增加,销量越来越少。嗯?还有600多的糖果?

由上图观察,我们发现价格和销量之间似乎有个负相关的关系,那么,我们就来建立个模型分析分析叭!


结果如下:

但实际上,这个图的价值不大,我们看下两者的相关系数

说明我这个模型建的很失败!呜呜,看来直觉都是骗人的。

这里就不对上面那张图分析啦。