5价钱
价钱 , 这个当然是需要考虑的内容 , 若是一个代办署理非论是响应速度仍是不变性都出格不错 , 可是价钱很是很是高 , 这也是不成接管的 。
6平安性
这简直也是需要考虑的身分 , 好比一旦不小心把代办署理提取的 API 泄露出去了 , 别人就肆意利用我们的 API 提代替理利用 , 而一向花费的是我们的套餐 。 别的一旦别人经由过程某些手段获取了我们的代办署理列表 , 而这些代办署理是没有平安验证的 , 这也会导致别人偷偷利用我们的代办署理 。 在出产情况上 , 这方面尤其需要注重 。
7利用频率
有些代办署理套餐在 API 挪用提代替理时有频率限制 , 有的代办署理套餐则会限制请求频率 , 这些身分城市或多或少影响爬虫的效率 , 这部门身分我们也需要考虑进来 。
8测评尺度
要做尺度的测评 , 那就必需在尺度的测评情况下进行 , 且尽可能解除一些杂项的干扰 , 如收集波动、传输延迟等一系列的影响 。
9本家儿机拔取
因为我的小我笔记本是利用 WiFi 上彀的 , 所以可能会有收集波动 , 并且现实带宽其实并不太好把控 , 是以它并不适合来做尺度评测利用 。 评测需要在一个收集不变的前提下进行 , 并且多个代办署理的评测情况必需不异 , 在此我选择了一台腾讯云本家儿机作为测试 , 本家儿机设置装备摆设如下:
如许我们就可以包管一个尺度同一的测试情况了 。
文章插图
10现取现测
别的在评测时还需要遵循一个原则 , 那就是现取现测 , 即取一个测一个 。 此刻良多付费代办署理网站都供给了 API 接口 , 我们可以一次性提取多个代办署理 , 可是如许会导致一个问题 , 每个代办署理在提掏出来的时辰 , 商家是会尽量包管它的可用性的 , 但过一段时候 , 这个代办署理可能就欠好用了 , 所以假如我们一次性提掏出来了 100 个代办署理 , 可是这 100 个代办署理并没有同时介入测试 , 后面的代办署理就会履历一个的期待期 , 过一段时候再测这些代办署理的话 , 必定会影响后半部门代办署理的有用性 , 所以这里我们将提取的数目同一设置当作 1 , 即请求一次接口获取一个代办署理 , 然后当即进行测试 , 如许可以包管测试的公允性 , 解除了分歧代办署理有用期的干扰 。
11时候计较
因为我们有一项是测试代办署理的响应速度 , 所以我们需要计较法式请求之前和获得响应之后的时候差 , 这里我们利用的测试 Python 库是 requests , 所以我们就计较倡议请乞降获得响应之间的时候差即可 , 时候计较方式如下所示:
这里 used_time 就是利用代办署理请求的耗时 , 如许测试的就仅仅是倡议请求到获得响应的时候 。
文章插图
12超时限制
在测试时免不了的会碰到代办署理请求超时的问题 , 所以这里我们也需要同一一个超不时间 , 这里设置为 60 秒 , 若是利用代办署理请求百度 , 60 秒还没有获得响应 , 那就视为该代办署理无效 。
推荐阅读
- 如何用Photoshop来对图片进行局部换色
- 电脑如何对磁盘进行分析
- 地球上的水究竟是怎么来的?
- 如何在SPSS中对个案等级排序
- 如何对word文档进行大纲级别设定?
- 装扮少女玩偶派对怎么过攻略
- 人生如茶,空杯以对
- 每天喝蜂蜜水的好处和用法?
- 如何写综述论文
- 长期喝茶对肾有影响吗?利大于弊还是弊大于利?