Skills ai-news-brief
自动抓取 AI/算力/大模型/GPU 相关最新资讯简报,使用 Chrome 浏览器自动化绕过反爬,支持多个科技媒体来源,支持PDF生成和邮件推送
install
source · Clone the upstream repo
git clone https://github.com/openclaw/skills
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/openclaw/skills "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/17oko/ai-news-brief" ~/.claude/skills/clawdbot-skills-ai-news-brief && rm -rf "$T"
manifest:
skills/17oko/ai-news-brief/SKILL.mdsource content
AI 资讯简报
自动抓取国内外 AI/算力/大模型/GPU/芯片相关最新资讯,生成简报
📊 网站配置管理
本 Skill 使用配置文件管理各网站的获取方式,文件位于
scripts/sites_config.json。
获取方式优先级
| 方式 | 说明 | 速度 |
|---|---|---|
| rss | RSS订阅,最快最稳定 | ⚡⚡⚡ |
| http | HTTP直接请求 | ⚡⚡ |
| chrome | Chrome CDP自动化 | ⚡ |
状态说明
- working: 正常工作
- failed: 之前失败,暂不尝试
- unreachable: 网站无法访问
自动调度逻辑
1. 读取 sites_config.json 配置文件 2. 对每个网站,按 priority 顺序尝试: - 首选:优先级最高且状态为 working 的方式 - 备选:如果首选失败,尝试其他可用的方式 3. 抓取完成后,自动更新各方式的状态到配置文件 4. 下次运行时,使用更新后的配置
手动更新配置
如需手动更新网站配置,可编辑
scripts/sites_config.json:
{ "sites": { "网站key": { "name": "网站名", "url": "主页面URL", "rss": "RSS地址", "http": "HTTP地址", "chrome": "Chrome地址", "priority": ["rss", "http", "chrome"], "status": { "rss": "working/failed/unreachable", "http": "working/failed/unreachable", "chrome": "working/failed/unreachable" } } } }
🎯 用户反馈和关键词优化
本 Skill 支持根据用户反馈调整获取的资讯内容。
用户反馈方式
当用户给出以下反馈时,系统会自动调整:
| 用户输入 | 系统行为 |
|---|---|
| "我喜欢GPU/显卡相关" | 添加关键词 , , |
| "不喜欢自动驾驶" | 排除关键词 , |
| "想看华为昇腾" | 添加关键词 , |
| "不要抖音字节" | 屏蔽来源 , |
配置文件
用户配置保存在
scripts/user_config.json:
{ "user_preferences": { "liked_keywords": ["gpu", "华为"], "disliked_keywords": ["自动驾驶"], "liked_sources": [], "disliked_sources": [] }, "default_keywords": { "AI基础": ["ai", "人工智能", "大模型", "gpt", ...], "GPU硬件": ["gpu", "nvidia", "amd", "cuda", ...], ... } }
关键词分类
| 分类 | 关键词示例 |
|---|---|
| AI基础 | ai, 人工智能, 大模型, gpt, llm, openai |
| GPU硬件 | gpu, nvidia, amd, intel, cuda, h100 |
| 算力芯片 | 算力, 芯片, 半导体, 处理器, cpu, npu |
| 自动驾驶 | 自动驾驶, 智能驾驶, 特斯拉, fsd |
| 大厂动态 | 华为, 昇腾, 阿里, 百度, 字节, 腾讯 |
🔍 内容可信度验证
每条资讯都会经过可信度评估,帮助用户判断信息质量。
可信度等级
| 等级 | 分数 | 说明 | 来源示例 |
|---|---|---|---|
| A级 | 90+ | 权威来源,可信度最高 | TechCrunch, The Verge, 政府官网 |
| B级 | 70-89 | 专业媒体,可信度较高 | 36kr, 量子位, 虎嗅, 爱范儿 |
| C级 | 50-69 | 一般来源,需核实 | HackerNews, 综合新闻 |
| D级 | <50 | 较低可信,仅供参考 | 论坛, 自媒体 |
验证规则
- 来源可信度 - 根据来源类型给基础分
- 内容长度 - 超过200字 +10分
- 敏感词检测 - 含"谣言""震惊"等词 -15分
- 时效性 - 有日期标注 +5分
使用可信度过滤
# 至少B级可信度 python fetch_ai_news.py --min-credibility B # 至少70分 python fetch_ai_news.py --min-score 70
输出示例
{ "title": "OpenAI新模型曝光", "source": "量子位", "credibility": { "score": 80, "level": "B", "reasons": ["权威来源", "内容详细"] } }
🔥 热点排序
资讯按热点程度排序,GPU相关资讯权重最高:
关键词热度权重
| 类别 | 关键词 | 权重 |
|---|---|---|
| 🟢 GPU/显卡 | gpu, nvidia, amd, h100, 4090, 5090, RTX | 15 (最高) |
| 🔵 大模型 | 大模型, llm, gpt, openai, claude, deepseek, moE | 12 |
| 🟡 AI基础 | ai, 人工智能, 模型, 训练, 推理 | 10 |
| 🟠 芯片/算力 | 算力, 芯片, 半导体, npu, 华为, 昇腾 | 10 |
| 🔴 自动驾驶 | 自动驾驶, 智驾, 特斯拉, fsd | 8 |
排序规则
- 关键词热度 - 匹配热门关键词越多,分数越高
- 可信度等级 - A级来源 +10分,B级 +8分
- 内容详细度 - 摘要超过100字 +3分
- 关键点数量 - 有2个以上关键点 +2分
🔄 智能重试机制
当某个获取方式失败时:
| 失败次数 | 处理方式 |
|---|---|
| 第1-2次 | 继续重试(最多2次) |
| 3次以上 | 自动降低该方式优先级 |
| 后续 | 跳过该方式,尝试其他方式 |
失败记录
失败记录保存在
scripts/failure_log.json:
- 记录每个网站每种方式的失败次数
- 每天自动重置
- 影响排序优先级
🧹 智能去重
使用标题相似度算法去除重复文章:
| 相似度 | 处理 |
|---|---|
| ≥0.6 | 视为重复,保留可信度高的 |
| <0.6 | 视为不同文章 |
相似度检测基于:
- 共同关键词(中文词组、英文单词)
- 核心词匹配(GPT、RTX、AI等)
- 字符重叠率
📊 政策资讯
Skill 支持抓取政府官网的政策通知:
来源列表
| 来源 | 类别 | 说明 |
|---|---|---|
| 中国政府网 | 中央政策 | 国务院、部委重要政策 |
| 工信部 | 部委政策 | 工业和信息化相关 |
| 科技部 | 部委政策 | 科技创新、项目申报 |
| 网信办 | 部委政策 | 网络安全、AI监管 |
| 发改委 | 部委政策 | 项目批复、产业政策 |
| 教育部 | 部委政策 | AI教育相关 |
| 财政部 | 部委政策 | 补贴、专项资金 |
| 国家数据局 | 新机构 | 数据、AI政策 |
使用方式
在获取AI资讯时,可选择是否同时获取政策资讯:
- 自动获取:每天定时任务会同时抓取AI资讯和政策
📈 增量抓取与数据持久化
增量抓取
- 首次运行:获取全部内容
- 后续运行:只获取新增内容
- 自动去重:已抓取的文章不会重复
数据保存
| 类型 | 文件 | 位置 |
|---|---|---|
| AI资讯历史 | | |
| 政策资讯历史 | | |
查询历史
# 查询最近3天的资讯 python scripts/incremental_fetch.py --days 3 # 查看统计 python scripts/incremental_fetch.py --stats
🤖 AI摘要生成(可选)
使用大模型为文章生成更好的摘要:
配置
文件:
scripts/llm_config.json
{ "config": { "enabled": true, "provider": "deepseek", // deepseek / qwen / openai "deepseek": { "api_key": "your_api_key" } } }
支持的模型
| 服务商 | 模型 | 特点 |
|---|---|---|
| DeepSeek | deepseek-chat | 便宜量大 |
| 阿里Qwen | qwen-plus | 有免费额度 |
| OpenAI | gpt-3.5-turbo | 稳定性好 |
使用
python scripts/llm_summarizer.py
📄 自动报告生成
每天自动生成资讯报告:
支持格式
- HTML报告 - 可在浏览器查看,包含样式
- Markdown报告 - 便于分享和编辑
- PDF报告 - 支持中文,样式整洁(新增)
输出位置
scripts/reports/ ├── ai_news_20260406.html ├── ai_news_20260406.md └── ai_news_20260406.pdf
PDF 生成
需要安装 fpdf2:
pip install fpdf2
在
pdf_config.json 中启用:
{ "config": { "enabled": true, "output_dir": "./reports" } }
生成报告
python scripts/report_generator.py
🌐 多语言翻译(预留接口)
翻译英文AI资讯为中文:
配置
文件:
scripts/translator_config.json
{ "config": { "enabled": true, "provider": "baidu" // baidu / deep } }
注意
- 需要配置翻译API才能使用
- 目前是预留接口,需要开发者自行接入
📧 邮件推送(可选)
Skill 支持将简报发送到邮箱,需要使用者自行配置。
⚠️ 重要:配置存放位置
为防止项目更新时覆盖用户配置,请按以下步骤配置:
-
创建配置目录(如果不存在):
- Windows:
C:\Users\你的用户名\.openclaw\config\ - macOS/Linux:
~/.openclaw/config/
- Windows:
-
复制配置模板:将
复制到上述目录,并重命名为scripts/email_config.json.defaultai-news-email.json -
填写配置:编辑
,填写你的邮箱信息ai-news-email.json
配置步骤
- 创建目录:
~/.openclaw/config/ - 复制模板:
# Windows copy scripts\email_config.json.default %USERPROFILE%\.openclaw\config\ai-news-email.json # macOS/Linux cp scripts/email_config.json.default ~/.openclaw/config/ai-news-email.json - 编辑
,设置ai-news-email.json
,填写发件人邮箱和授权码smtp_config.enabled: true - 设置
,添加收件人邮箱recipient_config.enabled: true
配置示例
{ "smtp_config": { "enabled": true, "smtp_server": "smtp.qq.com", "smtp_port": 465, "use_ssl": true, "sender_email": "your_email@qq.com", "sender_password": "your_auth_code", "sender_name": "AI资讯小助手" }, "recipient_config": { "enabled": true, "recipients": ["your_email@example.com"] } }
支持的邮箱
| 邮箱 | SMTP服务器 | 端口 | 授权码获取 |
|---|---|---|---|
| QQ邮箱 | smtp.qq.com | 465 | 邮箱设置→账户→开启IMAP |
| 163邮箱 | smtp.163.com | 465 | 邮箱设置→POP3/SMTP |
| Gmail | smtp.gmail.com | 465 | Google账户→安全→应用密码 |
测试邮件
python scripts/email_sender.py
⏰ 定时发送(手动添加)
定时任务需要在 OpenClaw 中手动添加,步骤如下:
1. 添加早间任务(每天 7:00)
openclaw cron add --name "AI资讯简报-早间版" \ --schedule "0 7 * * *" \ --agent main \ --message "请运行 AI 资讯简报技能,获取昨日7点至今日7点的AI/算力/GPU/政策资讯,生成简报,并自动生成 PDF 附件发送到配置好的邮箱" \ --delivery wechat
2. 添加午间任务(每天 14:00)
openclaw cron add --name "AI资讯简报-午间版" \ --schedule "0 14 * * *" \ --agent main \ --message "请运行 AI 资讯简报技能,获取今日最新的AI/算力/GPU/政策资讯,生成简报,并自动生成 PDF 附件发送到配置好的邮箱" \ --delivery wechat
3. 查看和管理定时任务
# 查看所有定时任务 openclaw cron list # 删除定时任务 openclaw cron rm <任务ID> # 立即运行定时任务(测试) openclaw cron run <任务ID>
注意:定时任务由 OpenClaw 管理,不是 Skill 代码的一部分。如果需要修改或删除定时任务,请使用上述命令。
📁 项目结构
ai-news-brief/ ├── SKILL.md # Skill 定义文件 ├── scripts/ # 代码文件(更新时会被覆盖) │ ├── *.py # 功能代码 │ └── *.json.default # 默认配置模板(只读,不要修改) ├── user_config/ # ⚠️ 已弃用,请使用外部配置 │ └── *.json # 历史配置(不再使用) └── data/ # 数据缓存(不会被覆盖) # 👇 用户配置存放位置(项目外,更新时不会被覆盖) ~/.openclaw/config/ ├── ai-news-email.json # 邮件配置 ├── ai-news-llm.json # LLM API 配置 ├── ai-news-pdf.json # PDF 配置 ├── ai-news-user.json # 用户偏好 └── ai-news-sites.json # 网站配置
⚠️ 重要:为什么配置放项目外?
- 项目更新时会覆盖
目录下的所有文件scripts/ - 如果配置放在项目内,更新后会被覆盖
- 因此,用户配置必须放在
目录~/.openclaw/config/
配置流程
- 首次使用:从
复制模板到scripts/*.json.default~/.openclaw/config/ - 编辑配置:填写自己的邮箱、API密钥等
- 后续更新:项目代码会更新,但你的配置不会受影响
方式一:自动安装(推荐)
首次使用前,可选择自动安装依赖。AI 会询问你是否安装:
我需要安装一些依赖才能运行: - requests, beautifulsoup4, websocket-client (Python 包) 是否现在安装?请回复"是"或"安装"
方式二:手动安装
在终端运行:
pip install requests beautifulsoup4 websocket-client
环境要求
- Python 3.8+
- Chrome 浏览器(已安装在系统中)
- Windows/macOS/Linux 均可
📋 功能说明
核心能力
- Chrome 自动化抓取 - 使用 Chrome DevTools Protocol (CDP) 绕过反爬
- 多源资讯聚合 - 同时抓取 20+ 个科技媒体网站
- 智能关键词过滤 - 仅保留 AI/算力/GPU/大模型 相关内容
- 自动摘要提取 - 从文章页面提取关键信息
- 来源多样化 - 国内+国外,确保资讯全面
抓取来源
国内
- 36kr、量子位、机器之心、虎嗅、爱范儿、极客公园
- 网易科技、新浪科技、搜狐科技、腾讯科技、凤凰网科技
- 驱动之家、超能网、中关村在线、快科技
国外
- TechCrunch、The Verge、VentureBeat、HackerNews
🎯 触发方式
当用户说出以下关键词时激活:
- "最新AI资讯"
- "AI新闻"
- "算力新闻"
- "GPU资讯"
- "大模型动态"
- "AI简报"
- "科技资讯"
📊 输出格式
标准简报
# 🤖 AI/算力/GPU 资讯简报 **查询日期**: 2026年4月6日 **数据范围**: 2026年4月5日 --- ### 🔥 重点新闻 | 来源 | 标题 | 概要 | |------|------|------| | 36kr | 标题 | 概要... | | 量子位 | 标题 | 概要... | --- ### 📊 来源分布 | 来源 | 数量 | |------|------| | 36kr | 10条 | | 搜狐科技 | 8条 | --- ### 💡 趋势总结 1. 趋势1... 2. 趋势2... ---
🔧 工作流程
Phase 1: 启动 Chrome └─ 检查 Chrome 是否已运行,若无则启动 ↓ Phase 2: 多源抓取 └─ 依次访问20+网站,获取文章标题和链接 ↓ Phase 3: 内容过滤 └─ 过滤保留 AI/算力/GPU 相关内容 ↓ Phase 4: 摘要提取 └─ 打开每篇文章,获取内容摘要(仅处理前15条) ↓ Phase 5: 整理输出 └─ 分类、去重、生成简报
⚡ 使用示例
示例1:用户查询
用户: "最新AI资讯"
AI: [自动执行以下操作]
- 启动/连接 Chrome
- 抓取各网站资讯
- 提取文章摘要
- 生成简报输出
⚠️ 注意事项
- 首次使用需安装依赖 - AI 会询问是否安装
- 首次会打开 Chrome - 首次运行时 Chrome 窗口会打开
- 运行时间 - 完整抓取约需 2-3 分钟
- 网络要求 - 需能访问国内科技网站
- Chrome 保持打开 - 运行后 Chrome 会保持打开状态,便于后续快速运行
🔄 更新日志
2026-04-06 (v1.0)
- 初始版本
- 支持 Chrome 自动化抓取
- 支持 20+ 科技媒体来源
- 自动提取文章摘要
- 提供来源分布统计
📞 支持
如遇问题,请检查:
- Python 3.8+ 已安装
- Chrome 浏览器已安装
- 依赖包已安装(requests, beautifulsoup4, websocket-client)
- 网络可以访问目标网站