八爪鱼数据采集器的内置功能有哪些


八爪鱼数据采集器的内置功能有哪些

文章插图
八爪鱼数据采集器的内置功能比较多,一时半会难以说完,只能根据你 的实际使用需求来,能满足你的需求就够了,其他的功能对于你来说就都是多余的,但是你慢慢研究你会发现他有多强大,简直无所不能!处处给你惊喜 。下面我简单说一下:1 入门词汇介绍1.1.1 积分积分是用来支付八爪鱼增值服务的一种方式,主要的用途包括:通过八爪鱼采集器采集并导出数据,在规则市场下载规则,在数据市场下载数据包,不同的账号类型在使用上述增值服务时会有不同的收费策略,具体的收费策略和区别在下面版本说明里面有详细的解释 。积分可以通过八爪鱼官方购买专业版或者旗舰版每月赠送,也可以单独购买积分,还可以通过关注,签到,分享规则,关注微信,绑定社交账号等多种方式获得 。1.1.2 规则规则是八爪鱼用来配置程序按照人工操作流程记录的一条程序规则,当软件配置好的则的时候,则可以按照您所配置的规则进行数据的采集,代替人工步骤 。1.1.3 云加速八爪鱼系统是通过分布式集群部署的方式,每个集群由数量庞大的云节点组成,单个节点的采集能力相当于一台PC机的采集能力,通过八爪鱼后台的版本资源分配策略,分配到多少个云节点资源就享有几倍的加速,版本高的账户有更高的加加速倍数 。1.1.4 云优先如果是多用户共享一个云集群的资源,一个集群的规模大小是有上限的,如果同一时间提交云集群任务过多,造成资源拥堵,那么根据用户账号版本的不同,八爪鱼系统会进行默认排序,版本高的,优先级高,将有优先获得资源分配的权益 。暂时未分配到资源的任务将进行排队轮候 。1.1.5 URLURL指正常网站的网址 。1.1.6 单机采集单机采集是指不占用云集群的资源,只能通过八爪鱼客户端所在的PC进行工作,在工作期间,需要电脑和软件都处于运行状态,电源中断或者网路中断都会导致数据采集任务的中断1.1.7 云采集云采集是指通过使用八爪鱼提供的服务器集群进行工作,该集群是7*24小时的工作状态,在客户端将任务设置完成并提交到云服务执行进行云采集之后,可以关闭软件,关闭电脑进行脱机采集,真正的实现无人值守 。除此之外云采集通过云服务器集群的分布式部署方式,多节点同时进行作业,可以提高采集效率,并且可以高效的避开各种网站的IP封锁策略 。1.1.8 定时采集定时采集指的是用户在设定好八爪鱼的采集规则时,定时的启动 采集程序 。1.1.9 URL循环URL循环是指设定八爪鱼在制定的URL网址里面循环采集 。1.1.10 自动导出自动导出是指用户在设定好导出.1.1.11 Cookie1) Cookie诞生当某个用户打开浏览器发出页面请求时,web服务器只是进行简单相应,然后就关闭与该用户的连接 。所以当用户每发起一个打开网页请求到web服务器的时候,无论是否是第一次打开同一个网页,web服务器都会把这个请求当作第一次来对待,那这样的缺陷可想而知,比如每次打开登录页面的时候都需要输入用户名、密码 。为了弥补这个缺陷,Cookie应运而生 。2) Cookie概述Cookie就是服务器暂时存放在你计算机上的一笔资料,好让服务器来辨认你的计算机 。当你在浏览网站的时候,web服务器会先送出小小资料放在你的计算机上,cookie会帮你在网站上所打的文字(如用户名、密码)和其他一些操作都记录下来 。当下次你再打开同一个网站 。web服务器会先看看有没有它上次留下的cookie资料,有的话就会依据cookie的内容来判断使用者,送出特定的网页内容给你 。3) Cookie工作原理1.1.12 XPATHXPATH:是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据位置 。XPATH专用于XML中沿着路径查找数据用的,但是八爪鱼采集器内部有一套针对HTML的XPATH引擎,使得直接用XPATH就能精准的查找定位网页里面的数据 。1.1.13 HTML1) HTML概念HTML:超文本标记语言,是用来描述网页的一种语言 。主要用于控制数据的显示和外观 。HTML文档也被称为网页 。2) HTML结构完整的HTML文件至少包括标签、标签、标签和标签,并且这些标签都是成对出现的,开头标签为

推荐阅读