顶部 注册领会员 领取会员优惠券 搜索规则 智能XPath生成 本站使用教程 打赏支持 获取百套规则
八爪鱼采集器新手规则教程 规则下载入口 XPath 快速生成 规则设计思路 采集流程模板 列表页定位 详情页字段 翻页规则 去重策略 数据导出 规则包维护 新站点适配 电商采集 招聘数据 资讯监控 价格字段 标题字段

八爪鱼采集器新手规则教程

这里聚焦三件事:成品规则下载、规则设计教程、AI XPath 生成。先下载成品规则直接用,再用教程掌握方法,最后用 AI 快速定位字段。

注册领券

新用户领取 3 天 VIP

注册后可体验 3 天 VIP,使用多种官方规则模板快速上手。

注册领取 3 天 VIP
官方版本

下载最新版八爪鱼采集器

获取官方稳定版本与最新功能,规则导入更顺畅。

前往官方下载
会员优惠券

领取会员优惠券

个人/团队双方案均可使用优惠券,
月卡年卡都可领取。

什么是八爪鱼采集规则

采集规则是一套“流程 + 字段”的组合:先告诉工具从哪里开始、怎么翻页,再告诉它要抓哪些字段、如何去重导出。 一套好的规则能让采集更稳定、维护更轻松。

页面结构识别

明确入口页、列表页、详情页三层结构,避免路径走错。

采集流程配置

设置翻页、跳转、循环逻辑,让采集能持续运行。

字段提取与校验

确定标题、价格、时间等字段,提前校验数据准确性。

稳定运行策略

设置等待、去重和异常处理,避免采集中断。

八爪鱼采集器规则使用教程

遵循以下三步,可快速将规则包转换为可用的数据流。

步骤 1:导入规则包

在八爪鱼采集器中,通过“导入”功能加载已下载的 .otd 格式规则文件。导入后,软件将自动同步原采集规则的完整采集流程与任务配置。

步骤 2:检查字段与入口

进入任务编辑界面,重点进行两项检查:

  • 检查入口与字段:在流程图中预览规则逻辑,并使用“采集预览”测试。在右侧数据区确认所需字段(如标题、价格、评论等)是否被正确、完整地抓取,无遗漏或错位。
  • 调整与定位:若发现字段缺失,可通过两种方式修正元素定位:
    • 手动点击:手动点击网页对应元素,修正其定位路径。
    • 智能生成:使用界面中的 “AI XPath”“智能XPath生成” 模块,自动生成更优的定位路径,确保规则适应网页结构。
步骤 3:测试后批量运行

正式采集前,务必进行验证并妥善处理登录:

  • 测试验证:使用 “单机采集(调试模式)” 对少数页面进行测试,确认数据稳定、规则有效。
  • 处理登录(关键):如果目标网站需要登录,请务必先完成登录配置,否则无法采集数据。推荐方法如下:
    • 便捷方式:在编辑器的 “浏览器模式” 下,手动登录一次网站,并通过高级设置 “获取并应用当前Cookie” 来记录登录状态。
    • 自动化方式:在采集流程中,添加 “输入文本”“点击” 步骤,配置账号密码自动完成登录。
  • 批量运行:测试和登录问题解决后,根据数据量选择 “本地采集”“云采集” 模式启动任务,最后将数据导出为Excel、CSV等格式。

上百套规则包亮点:助你高效入门,即刻采集

我们提供了覆盖各类场景的丰富规则包合集,旨在最大化降低您的使用门槛,将复杂的网页采集配置过程简化为“导入即用”。

全面覆盖多业务场景

规则包精准匹配最常见的采集需求,囊括了电商商品信息、社交媒体内容、招聘职位列表、新闻资讯聚合等多种场景。每个规则都针对目标网站的结构特点进行了优化,让您无需从零开始研究,可直接瞄准核心数据。注:规则文件会不定期更新调整以确保可用性。

灵活可扩展的字段结构

规则包导入后,将完整保留原规则的所有预设字段信息。您可以直接在此基础上,通过直观的编辑界面自由进行编辑:无论是根据需求添加新的采集字段,还是删除或调整现有字段,操作都非常简便,使规则能够快速适配您的个性化需求。

内置稳健的采集策略

为了避免因访问过快导致的 IP 封锁或数据缺失,规则包内已预配置了合理的请求间隔、智能翻页逻辑和数据去重机制。这些经过测试的参数能够有效模拟人工浏览行为,显著提升长时间、大批量采集任务的成功率与稳定性,让您获得更完整、干净的数据。

基于可视化编辑器的灵活调整

所有规则包的采集逻辑,都在八爪鱼采集器内置的可视化编辑器中清晰呈现。您可以直接在图形化界面上点击、拖拽,直观地查看和修改任何步骤的参数。这种基于可视化编辑器的业务逻辑设计,让规则的理解、调试和调整过程变得非常方便,即使没有技术背景也能轻松管理复杂的采集任务。

搜索规则:编号或关键词查找官方下载链接

支持输入规则编号或关键词查找官方下载链接。若未匹配到规则,系统会弹出留言入口,填写需求与打赏预算,我们会评估后安排制作。

示例编号:BZH-1001 示例编号:BZH-2002
支持编号或关键词搜索。
请输入编号并点击查询,结果会展示在这里。

开发后的规则并非给你独家使用,后续可能公开给其他用户下载。

智能 XPath 生成

粘贴目标页面的 HTML 片段,并说明要提取的字段,系统会返回 1-3 种 XPath 写法供你选择。

可选:填写自己的 API Key(sk-开头),将使用你自己的额度,不受字符数限制。

填写后将使用你的账户调用。 最多输入 3000 字符。 提示:提交后将返回 1-3 条 XPath 结果。
生成结果 等待生成

生成的 XPath 会显示在这里。

本站使用教程:规则下载 + XPath + 导入

内置两段视频,未聚焦时每 15 秒自动切换到下一屏,方便你完整学习规则使用流程。

打赏支持

如果规则与 AI 工具对你有帮助,欢迎扫码打赏支持我们持续更新。

打赏二维码预览

感谢支持,我们会持续更新高质量规则。

感谢支持

  • 打赏用于 AI 生成 XPath 的模型调用、规格更新与维护费用。
  • 打赏后填写邮箱,规则更新时会同步部分规则到你的邮箱。
  • 高频需求会优先排期制作与优化。

下载入口:搜索规则

点击按钮跳转到搜索规则,输入编号或关键词获取官方链接下载。

去搜索规则

打赏任意金额并留下邮箱

领取上百款采集规则,快速拆解真实项目案例,升级为高阶用户。

我们仅用于发送规则包与更新提醒。

常见问题 (FAQ)

1. 为什么下载的规则突然用不了了?

这通常是因为目标网站页面结构发生了更新,导致规则中原有的元素定位路径失效。解决方法如下:

  • 首选方案:在八爪鱼采集器的编辑器中,使用 “AI XPath” 功能对失效的字段进行智能重新定位,这是最快的方法。
  • 备用方案:若自行处理困难,可通过网页上的留言模块提交规则更新需求,我们会根据具体情况评估并安排修复。

2. 规则包适用于八爪鱼采集器的哪些版本?

规则包(.otd格式)主要适用于当前的主流版本。软件升级后,绝大多数规则仍可正常导入和使用,其核心的采集流程与字段结构仍具有重要参考价值。建议保持采集器为最新版本,以获得最佳兼容性。

3. 填写邮箱领取规则包后,会持续收到更新吗?

不一定。邮箱主要用于一次性领取规则包和接收重要的更新通知。规则库会不定期整体升级,但并非所有规则都会自动推送更新。建议关注官方公告或定期在规则市场中查看您需要的规则是否有新版本。

4. 是否支持付费定制专属采集规则?

支持。您可以提交定制需求,但请注意其性质:

  • 付费目的:费用主要用于加速开发排期和投入技术资源,并非购买“独家版权”。
  • 规则归属:定制开发的规则,在经脱敏和通用化处理后,有可能被纳入共享规则库中供其他用户使用。如果您需要完全私有的规则,请在需求提出阶段特别说明并另行协商。

5. 使用“AI XPath”功能生成的结果不准确怎么办?

为提高AI生成的准确性,建议您:

  • 提供充足上下文:尽量提供包含目标字段的完整HTML代码片段。
  • 精确描述:清晰说明您需要提取的字段名称和特征(如“商品价格”、“第二张图片”)。
  • 人工筛选:AI通常会提供多个候选路径,请从中选择那个最简洁、指向最稳定的XPath进行试用。

6. 提交规则需求或问题后,多久能得到反馈?

对于常规问题或规则失效反馈,我们通常在 1-3个工作日 内回复。

对于复杂的定制开发需求,我们会在此周期内先给予需求确认的回复,后续具体的开发排期、预算评估需要进一步沟通后确定。