如何用Curl模拟浏览器

本文讲述的是如何用Curl抓取网页,用PHP,Python,C,C#等道理都是一样的。其他信息可以去官网找 http://curlmulti.com

对于简单单纯的页面直接写程序抓取即可,很简单,但是很多时候这样是不行的,因为可能涉及到Cookie,Referer,表单,JS等一系列非常麻烦的操作,这时候就需要有效定位问题。类似问题中,见到最多一个问题是,如何用Curl模拟登陆?答案是:呵呵。

对于比较复杂的页面抓取,最有效的办法是Chrome(最好是Linux版或Mac版,windows版很有可能有bug)的开发者工具,本文以http://v.hao123.com/dianshi/为例讲述一下详细流程。

Chrome这里有个CentOS版的安装教程,其他版本自行google。
继续阅读