怎么用JavaScript爬虫百度贴吧数据-前端-云技术

文章页正文上

这篇文章主要介绍“怎么用JavaScript爬虫百度贴吧数据”，在日常操作中，相信很多人在怎么用JavaScript爬虫百度贴吧数据问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用JavaScript爬虫百度贴吧数据”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！抓取帖子用的JavaScript函数如下：就是一个非常简单的AJAX请求：传入该函数的输入参数requestURL的值为：

http://tieba.baidu.com/i/i/my_tie上面的url，我直接在浏览器里访问可以正常工作，返回47.2KB大小的数据。然而当我用AJAX函数访问该url时，在Chrome开发者工具里遇到如下错误：然而，这个错误没有任何明细信息，我没有线索去排错。于是，就有了本文这个Chrome开发者工具的隐藏技能的用武之地。在Chrome地址栏打开:

chrome://net-internals点击Event标签页：再回到我的百度贴吧爬虫网页，该网页发起AJAX请求，按F5刷新后发送一个新的请求，然后回到Chrome开发者工具。该AJAX请求的明细就详细显示出来了。找到我关心的url：

http://tieba.baidu.com/i/i/my_tiechrome://net-internals

这个界面显示的网络请求的明细比Network标签页里要详细得多：在响应头字段里发现了引起这个错误的一些线索：从上面的截图发现，HTTP响应状态字段为302，location字段为 “

http://static.tieba.baidu.com/tb/error.html?ErrType=1

” 。这两条线索给了我提示：这个错误一定和百度网站的登陆状态处理相关：我使用的url不支持匿名访问。我在浏览器里访问该url能够成功，因为我的Cookie在起作用。Goole了一下，发现了解决方案。在AJAX的请求参数中添加:如此一来，可以将我的cookie和AJAX请求一齐发送给百度服务器。加上该参数后，请求就能够得到期望的响应了。使用Chrome开发者工具这个隐藏技能，我们还能观察到一些其他的平时很难发现的细节。比如我的AJAX请求通过本地的jQuery库文件发出，我的HTML代码里直接引用了本地文件jquery1.7.1.js。在运行时，这个jquery1.7.1.js文件需要被加载到内存中。使用这个隐藏技能，我现在能观察到jquery1.7.1.js是通过分块的方式被读入到内存中的，参考现在URL_REQUEST_JOB_BYTES_READ的参数：byte_count = 32768。总共分了8块读取，最后1块因为尺寸不满32768，只读了剩下的22285字节。这8块的总字节数251661正好是jquery1.7.1.js的字节数。由此再次证明，

chrome://net-internals

提供的功能比Network标签页里的要强大。到此，关于“怎么用JavaScript爬虫免费云主机、域名百度贴吧数据”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注云技术网站，小编会继续努力为大家带来更多实用的文章！

相关推荐: css3如何设置动画旋转速度

这篇文章主要介绍“css3如何设置动画旋转速度”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“css3如何设置动画旋转速度”文章能帮助大家解决问题。在css3中，可以利用“animation-timing-functi…

文章页内容下

怎么用JavaScript爬虫百度贴吧数据

相关推荐

推荐AD:

云服务器免费，网站空间免费，等你哦

置顶推荐

热门专题

热门标签

活跃读者

网站统计

云服务器、web空间可免费试用

宝塔面板主机、支持php,mysql等，SSL部署；安全高速企业专供99.999%稳定，另有高防主机、不限制内容等类型，具体可咨询QQ:360163164,Tel同微信：18905205712

切换注册登录

切换登录注册