产品详细介绍
crawler.sh 是一款专为网站爬取与内容分析打造的工具,提供桌面应用(GUI)和命令行(CLI)两种形态,帮助用户在本地快速抓取任意网站,进行 SEO 体检、内容抽取和结构化数据导出。
1. 多终端形态:桌面应用 + CLI 一体订阅
- 提供免费桌面版和付费订阅版(桌面 + CLI 共用一个订阅)。
- 桌面应用适合运营、编辑、SEO 人员可视化操作;CLI 适合开发者集成到脚本、自动化流程中。
- 所有数据处理均在本机完成,更利于隐私与数据安全控制。
2. 高效网站爬取能力
- 支持在数秒内爬取中小型站点,可扩展到成千上万页面。
- 可配置并发数(concurrency)、爬取深度(depth limit)、请求间隔(polite delay),在速度与对目标站点的“礼貌”之间取得平衡。
- 默认限制在同一域名内爬取,避免误抓外部站点。
- 适合用于全站巡检、内容备份、迁移前检查等场景。
3. 自动化 SEO 分析与问题检测
crawler.sh 内置 23 项自动化 SEO 检查,可在爬取过程中对每个页面进行体检,帮助你提前发现影响排名和用户体验的问题:
- 标题与描述问题:缺失标题(title)、重复 meta description、标题过长或过短等。
- 索引与可见性:noindex 指令、可能影响收录的页面设置。
- 内容质量:内容过薄(thin content)、字数过少等。
- 链接与结构:断链(broken links)、404/5xx 状态码、长 URL 等。
- 检测结果可导出为 CSV 或可读性较高的 TXT,方便团队共享与归档。
4. 正文内容抽取与 Markdown 清洗
- 自动从任意网页中抽取“主文章内容”,过滤导航、侧边栏、广告等噪音。
- 将正文内容转换为结构清晰的 Markdown,适合:
- 内容备份与归档;
- 站点迁移(如迁移到新 CMS 或静态站点);
- 作为上游数据,输入到其他内容处理或 AI 工具中。
- 每个页面可附带:字数统计(word count)、作者署名(author byline)、摘要(excerpt)等元信息,便于后续筛选与分析。
5. 灵活的数据导出格式
crawler.sh 支持多种导出方式,满足不同团队与工具链需求:
- NDJSON 流式输出:在爬取过程中实时以 NDJSON(Newline Delimited JSON)流式输出结果,适合与其他命令行工具或数据管道对接。
- JSON 数组:一次性导出为标准 JSON 数组,便于程序读取或导入数据库。
- Sitemap XML:根据实时爬取结果生成符合 W3C 标准的 Sitemap XML,适合提交给搜索引擎或替换手工维护的站点地图。
- SEO 报告导出:将 SEO 问题导出为 CSV 或人类可读的 TXT,方便团队协作与任务分配。
6. 网站健康监控与日常巡检
- 可定期对站点进行全站爬取,监控:
- 新增或消失的页面;
- 状态码变化(如 200 变 404/301);
- 新产生的断链和错误页面。
- 帮助你在访客和搜索引擎发现问题之前,提前修复站点故障和内容问题。
7. 典型使用场景
- SEO 全站体检与持续优化。
- 内容迁移(如从老 CMS 迁移到新系统或静态站点)。
- 批量抽取文章内容,统一转为 Markdown 进行编辑或再创作。
- 生成或更新网站 Sitemap XML。
- 定期巡检断链、404 页面和服务器错误。
简单使用教程
以下为基于产品特性的简明上手流程,实际界面与命令以官网最新版本为准。
一、桌面应用快速上手
-
下载安装
- 访问官网 https://crawler.sh/ 下载适用于你操作系统的桌面应用安装包。
- 安装完成后启动应用,如有需要可登录或激活订阅。
-
创建一次新爬取任务
- 在主界面输入要爬取的网站 URL(例如:https://example.com)。
- 选择或设置:
- 最大爬取深度(Depth);
- 最大并发请求数(Concurrency);
- 请求间隔(Delay/Polite delay);
- 是否仅限同一域名。
- 勾选需要的功能:如 SEO 分析、正文抽取、生成 Sitemap 等。
-
开始爬取并查看进度
- 点击“开始”或“Start Crawl”,应用会自动从首页开始抓取站内链接。
- 在进度面板中可查看:已爬取页面数、错误数量、当前速率等。
- 爬取完成后,可在结果列表中按 URL、状态码、问题类型等进行筛选。
-
查看 SEO 报告与问题详情
- 切换到 SEO 报告或 Issues 视图,查看:缺失标题、重复描述、断链、noindex 等问题。
- 支持按问题类型或严重程度过滤,便于制定修复优先级。
- 如需共享给团队,可点击导出为 CSV 或 TXT。
-
导出内容与结构化数据
- 在导出面板中选择导出类型:
- JSON / NDJSON:用于开发或数据分析;
- Sitemap XML:用于提交搜索引擎或替换现有站点地图;
- CSV:用于 SEO 报告或表格分析。
- 选择保存路径并确认导出,即可在本地获得完整数据文件。
- 在导出面板中选择导出类型:
-
抽取正文并导出为 Markdown
- 在内容抽取选项中启用“Extract main article content”或类似开关。
- 爬取完成后,在内容视图中可预览每个页面的正文 Markdown。
- 支持批量导出为 Markdown 文件,或导出为包含 Markdown 字段的 JSON/CSV,便于后续导入到 CMS 或其他工具。
二、命令行(CLI)基础用法示例
以下为概念性示例,具体命令以官方文档为准:
-
安装 CLI
- 根据官网说明,通过包管理器或下载二进制文件安装 crawler.sh CLI。
- 在终端中运行
crawler --help(或类似命令)查看支持的参数。
-
最简单的全站爬取命令
- 在终端中执行:
crawler crawl https://example.com
- 默认会在同一域名内爬取,并输出基础结果。
- 在终端中执行:
-
导出为 NDJSON 或 JSON 文件
- 流式输出 NDJSON:
crawler crawl https://example.com --format ndjson > result.ndjson
- 导出为 JSON 数组:
crawler crawl https://example.com --format json > result.json
- 流式输出 NDJSON:
-
生成 Sitemap XML
- 执行类似命令:
crawler crawl https://example.com --sitemap sitemap.xml
- 完成后即可获得符合 W3C 标准的 sitemap.xml 文件。
- 执行类似命令:
-
启用 SEO 检查并导出报告
- 运行:
crawler crawl https://example.com --seo-report seo.csv
- 爬取完成后,在 seo.csv 中查看各页面的 SEO 问题与指标。
- 运行:
-
抽取正文为 Markdown
- 运行:
crawler crawl https://example.com --extract-content --format json > content.json
- 在 content.json 中,每个页面会包含抽取后的 Markdown 正文、字数、作者、摘要等字段,可直接用于内容迁移或二次加工。
- 运行:
通过以上步骤,你可以快速用 crawler.sh 完成网站爬取、SEO 体检、内容抽取和数据导出,并根据自身技术栈选择桌面应用或 CLI 集成到日常工作流中。




