上文,我们爬取了京东商城糖果的两千多条商品信息。今天,我们就来对它进行分析吧!(●'◡'●)
工具:jupyter notebook
用到的库:pandas、matplotlib、jieba
下面我们开始吧!
1.首先从csv文件中导入数据
可以看到,没有缺失的数据
3.保存数据
根据上面获取的信息,我们需要先对数据进行一些预处理,将评论数中的汉字''万''转换一下,代码如下:
看下处理好的数据:
由于京东上面没有销量这一信息,我们姑且将评论数当成是销量。本次项目中取用了price、title、comment_num、shop这几个字段的信息。分别是价格、标题、评论数、店铺名
使用jieba分词器,将title列中的商品标题进行切割,而后,利用了百度的一个停用词表剔除停用词,然后统计每个词的频率,并绘制词云
预处理:
绘图:
结果如下:
1.零食、休闲的词的占比比较大
2.关于糖果的类型,可以清除的看到,巧克力类型的商品最多
3.礼物、喜糖、女友 的词频比较大,说明出售的用于送礼的糖果比较多
我们再来看下糖果的价格分布区间(说明:大致看了下糖果价格,发现基本属于[0-200]区间内,所以,这里只取200以内的价格进行分析)
结果如下:
可以看到:价格基本在0~40的区间之内,占了总采集数据的2/3左右
如上说明,由于没有爬取到销量信息,所以将评论数当成销量
结果如下:
这让我有点好奇,我们来看下销量最高的糖果是哪些吧
在分析过程中,我发现数据有些诡异,出现了下面的情况
于是,我去excel里瞅瞅了。
图1:46.8元的巧克力
图1:96元的巧克力
发现同一款商品的不同规格的销售量是记在一起的。本来呢,这里应该对其处理一下,但图已经画好了,我就懒得改代码了,偷个小懒。嘿嘿(●ˇ∀ˇ●)
为了图更好看点,将标题进行了截取,只取前面那个小标题。代码如下:
结果如下:
可以看到,费罗列 牌子的巧克力以165万的销量笑傲群雄。我最喜欢的大白兔竟然没有上榜┭┮﹏┭┮
分析完销量前10的商品后,我们再来看下销量前10的店铺:
代码如下:
结果
可以看到:箭牌京东自营旗舰店占据第一名,达2000多万。其他前10的店铺中也基本是京东的自营店
这个,我们采用散点图的方式,看看价格和销量的分布关系
结果如下:
可以看到:价格在0-50之间的销量是最高的,而随着价格的增加,销量越来越少。嗯?还有600多的糖果?
由上图观察,我们发现价格和销量之间似乎有个负相关的关系,那么,我们就来建立个模型分析分析叭!
结果如下:
但实际上,这个图的价值不大,我们看下两者的相关系数
说明我这个模型建的很失败!呜呜,看来直觉都是骗人的。
这里就不对上面那张图分析啦。
本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕,E-mail:xinmeigg88@163.com
本文链接:http://www.ksxb.net/tnews/5501.html