您的位置:首页 >新闻资讯 > 正文

代理IP帮你爬取求职网站薪资信息

来源:互联网 作者:admin 时间:2019-09-09 15:50:42

  在我们需要换工作的时候,需要对目前的市场的薪资情况,某个岗位的待遇情况进行了解。而求职网站往往都会对这些信息进行模糊化处理,保密起来。如果想要进行分析,我们要怎么做呢?这个时候利用代理IP来进行爬虫,做数据分析就是一种方案。


代理IP帮你爬取求职网站薪资信息


  下面让我们来了解一下具体步骤:


  1、分析网页


  我们在查看拉勾网上的招聘信息的时候,搜索Python,或者是PHP等等的岗位信息,其实是向服务器发出相应请求,由服务器动态的响应请求,将我们所需要的内容通过浏览器解析,呈现在我们的面前。


  可以看到我们发出的请求当中,FormData中的kd参数,就代表着向服务器请求关键词为Python的招聘信息。


  分析比较复杂的页面请求与响应信息,推荐使用Fiddler,对于分析网站来说绝对是一大杀器。不过比较简单的响应请求用浏览器自带的开发者工具就可以,比如像火狐的FireBug等等,只要轻轻一按F12,所有的请求的信息都会事无巨细的展现在你面前。


  经由分析网站的请求与响应过程可知,拉勾网的招聘信息都是由XHR动态传递的。


  我们发现,以POST方式发出的请求有两个,分别是companyAjax.json和positionAjax.json,它们分别控制当前显示的页面和页面中包含的招聘信息。


  可以看到,我们所需要的信息包含在positionAjax.json的Content->result当中,其中还包含了一些其他参数信息,包括总页面数(totalPageCount),总招聘登记数(totalCount)等相关信息。


  2、发送请求


  知道我们所要抓取的信息在哪里是最为首要的,知道信息位置之后,接下来我们就要考虑如何通过Python来模拟浏览器,获取这些我们所需要的信息。


  其中比较关键的步骤在于如何仿照浏览器的Post方式,来包装我们自己的请求。


  request包含的参数包括所要抓取的网页url,以及用于伪装的headers。urlopen中的data参数包括FormData的三个参数(first、pn、kd)。


  包装完毕之后,就可以像浏览器一样访问拉勾网,并获得页面数据了。


  3、抓取数据


  获得页面信息之后,我们就可以开始爬虫数据中最主要的步骤:抓取数据。


  抓取数据的方式有很多,像正则表达式re,lxml的etree,json,以及bs4的BeautifulSoup都是python3抓取数据的适用方法。大家可以根据实际情况,使用其中一个,又或多个结合使用。


  4、信息存储


  获得原始数据之后,为了进一步的整理与分析,我们有结构有组织的将抓取到的数据存储到excel中,方便进行数据的可视化处理。


  懂得以上操作,我们可以突破网站的限制,去获取任意一个岗位的薪资资讯。


相关文章内容简介