当前位置:首页 > 资讯 > 正文

Python爬虫的简单入门(一)

Python爬虫的简单入门(一)

这一系列教学是基于Python的爬虫教学在此之前请确保你的电脑已经成功安装了Python(本教程使用的是Python3).爬虫想要学的精通是有点难度的,尤其是遇到反爬,多线程,分布式.我的博客适用于对Python爬虫的入门.会讲一些静态动态网页的爬取,及一些简单的验证码的处理.到时候通过爬虫爬取QQ音乐还是很轻松的.

爬虫一般分为三个部分 此节主要讲通过requests获取网页代码

  • requests库的安装
  • 安装方法打开cmd输入 回车



这是我们获得的内容,可以看到第一行输出的是200,这就表明成功响应,更多关于HTTP状态码的知识请访问这里

但是这里还有两点奇怪的地方1.网页里面有奇怪的乱码 2.通过浏览器右键查看源代码可知百度的首页代码远比这个多
这也是爬虫十分常见的问题

乱码是因为编码不同引起的

我们可以打印一下网页的编码结果为,另外我们可以观察上面的网页源代码,发现里面有一句.说明这个网页的编码为utf-8,两个编码不同当然会乱码.只要加上一句就可以了,再次打印可得


这下就清楚多了.

但其实requests自带一个apparent_encoding的属性它可以理解为网页里的真编码.打印试试看,得到结果和我们找到的结果一样.这样一来为了避免这种编码问题我们可以直接在代码中加上一句

再此之前先讲讲浏览器的开发者工具

  1. 在浏览器的空白处右键选择检查
  2. 按一下键盘的键

先点击network(火狐浏览器为网络)

我们发现底下什么也没有,接下来刷新网页

会出来很多的网址,这里我们找到百度的主页点击它,再选择右边的headers信息找到request headers下的User-Agent信息,这就是浏览器的标识信息

网站就是通过检测你的标识信息来判断你是正常的人访问还是程序访问,我们之前就是被检测到不是正常访问,所以返回了一个错误的网页信息

接下来我们要做的就是修改我们的头信息,让代码伪装成浏览器,具体操作如下


结果如下(下面内容很长,不予展示,有兴趣的可以去百度首页查看源代码)