crawler.sh 网站爬取与内容导出工具

产品详细介绍

crawler.sh 是一款专为网站爬取与内容分析打造的工具，提供桌面应用（GUI）和命令行（CLI）两种形态，帮助用户在本地快速抓取任意网站，进行 SEO 体检、内容抽取和结构化数据导出。

1. 多终端形态：桌面应用 + CLI 一体订阅

提供免费桌面版和付费订阅版（桌面 + CLI 共用一个订阅）。
桌面应用适合运营、编辑、SEO 人员可视化操作；CLI 适合开发者集成到脚本、自动化流程中。
所有数据处理均在本机完成，更利于隐私与数据安全控制。

2. 高效网站爬取能力

支持在数秒内爬取中小型站点，可扩展到成千上万页面。
可配置并发数（concurrency）、爬取深度（depth limit）、请求间隔（polite delay），在速度与对目标站点的“礼貌”之间取得平衡。
默认限制在同一域名内爬取，避免误抓外部站点。
适合用于全站巡检、内容备份、迁移前检查等场景。

3. 自动化 SEO 分析与问题检测
crawler.sh 内置 23 项自动化 SEO 检查，可在爬取过程中对每个页面进行体检，帮助你提前发现影响排名和用户体验的问题：

标题与描述问题：缺失标题（title）、重复 meta description、标题过长或过短等。
索引与可见性：noindex 指令、可能影响收录的页面设置。
内容质量：内容过薄（thin content）、字数过少等。
链接与结构：断链（broken links）、404/5xx 状态码、长 URL 等。
检测结果可导出为 CSV 或可读性较高的 TXT，方便团队共享与归档。

4. 正文内容抽取与 Markdown 清洗

自动从任意网页中抽取“主文章内容”，过滤导航、侧边栏、广告等噪音。
将正文内容转换为结构清晰的 Markdown，适合：
- 内容备份与归档；
- 站点迁移（如迁移到新 CMS 或静态站点）；
- 作为上游数据，输入到其他内容处理或 AI 工具中。
每个页面可附带：字数统计（word count）、作者署名（author byline）、摘要（excerpt）等元信息，便于后续筛选与分析。

5. 灵活的数据导出格式
crawler.sh 支持多种导出方式，满足不同团队与工具链需求：

NDJSON 流式输出：在爬取过程中实时以 NDJSON（Newline Delimited JSON）流式输出结果，适合与其他命令行工具或数据管道对接。
JSON 数组：一次性导出为标准 JSON 数组，便于程序读取或导入数据库。
Sitemap XML：根据实时爬取结果生成符合 W3C 标准的 Sitemap XML，适合提交给搜索引擎或替换手工维护的站点地图。
SEO 报告导出：将 SEO 问题导出为 CSV 或人类可读的 TXT，方便团队协作与任务分配。

6. 网站健康监控与日常巡检

可定期对站点进行全站爬取，监控：
- 新增或消失的页面；
- 状态码变化（如 200 变 404/301）；
- 新产生的断链和错误页面。
帮助你在访客和搜索引擎发现问题之前，提前修复站点故障和内容问题。

7. 典型使用场景

SEO 全站体检与持续优化。
内容迁移（如从老 CMS 迁移到新系统或静态站点）。
批量抽取文章内容，统一转为 Markdown 进行编辑或再创作。
生成或更新网站 Sitemap XML。
定期巡检断链、404 页面和服务器错误。

简单使用教程

以下为基于产品特性的简明上手流程，实际界面与命令以官网最新版本为准。

一、桌面应用快速上手

下载安装
- 访问官网 https://crawler.sh/ 下载适用于你操作系统的桌面应用安装包。
- 安装完成后启动应用，如有需要可登录或激活订阅。
创建一次新爬取任务
- 在主界面输入要爬取的网站 URL（例如：https://example.com）。
- 选择或设置：
  - 最大爬取深度（Depth）；
  - 最大并发请求数（Concurrency）；
  - 请求间隔（Delay/Polite delay）；
  - 是否仅限同一域名。
- 勾选需要的功能：如 SEO 分析、正文抽取、生成 Sitemap 等。
开始爬取并查看进度
- 点击“开始”或“Start Crawl”，应用会自动从首页开始抓取站内链接。
- 在进度面板中可查看：已爬取页面数、错误数量、当前速率等。
- 爬取完成后，可在结果列表中按 URL、状态码、问题类型等进行筛选。
查看 SEO 报告与问题详情
- 切换到 SEO 报告或 Issues 视图，查看：缺失标题、重复描述、断链、noindex 等问题。
- 支持按问题类型或严重程度过滤，便于制定修复优先级。
- 如需共享给团队，可点击导出为 CSV 或 TXT。
导出内容与结构化数据
- 在导出面板中选择导出类型：
  - JSON / NDJSON：用于开发或数据分析；
  - Sitemap XML：用于提交搜索引擎或替换现有站点地图；
  - CSV：用于 SEO 报告或表格分析。
- 选择保存路径并确认导出，即可在本地获得完整数据文件。
抽取正文并导出为 Markdown
- 在内容抽取选项中启用“Extract main article content”或类似开关。
- 爬取完成后，在内容视图中可预览每个页面的正文 Markdown。
- 支持批量导出为 Markdown 文件，或导出为包含 Markdown 字段的 JSON/CSV，便于后续导入到 CMS 或其他工具。

二、命令行（CLI）基础用法示例

以下为概念性示例，具体命令以官方文档为准：

安装 CLI
- 根据官网说明，通过包管理器或下载二进制文件安装 crawler.sh CLI。
- 在终端中运行 crawler --help（或类似命令）查看支持的参数。
最简单的全站爬取命令
- 在终端中执行：
  - crawler crawl https://example.com
- 默认会在同一域名内爬取，并输出基础结果。
导出为 NDJSON 或 JSON 文件
- 流式输出 NDJSON：
  - crawler crawl https://example.com --format ndjson > result.ndjson
- 导出为 JSON 数组：
  - crawler crawl https://example.com --format json > result.json
生成 Sitemap XML
- 执行类似命令：
  - crawler crawl https://example.com --sitemap sitemap.xml
- 完成后即可获得符合 W3C 标准的 sitemap.xml 文件。
启用 SEO 检查并导出报告
- 运行：
  - crawler crawl https://example.com --seo-report seo.csv
- 爬取完成后，在 seo.csv 中查看各页面的 SEO 问题与指标。
抽取正文为 Markdown
- 运行：
  - crawler crawl https://example.com --extract-content --format json > content.json
- 在 content.json 中，每个页面会包含抽取后的 Markdown 正文、字数、作者、摘要等字段，可直接用于内容迁移或二次加工。