pyspider

记一次奇怪的爬虫经历

前言 由于某些原因,我需要去爬获取一些国家旅游景点的信息。 找到国家旅游局的网站,然后找到一个 5A 风景区目录。 网址:http://www.cnta.gov.cn:8000/Forms/TravelCatalog/TravelCatalogList.aspx?catalogType=view&resultType=5A 于是去 pyspider 的 demo 页新建一个项目:5stat,就去爬了。 分析页面 网页比较特殊,看起来是用 dotnet 写的,翻页是按钮调用 js 代码实现的。跳转后还是同一个网址。 这里就要用到 pyspider 支持的页面载入后运行 js 脚本的功能。 先分析翻页按钮干了什么。 如下图,调用一个名为 __doPostBack 的函数。 在页面上寻找这个函数,看到函数体如下: var theForm = document.forms['form1']…

Read more