OpenSoul browser-control
使用 SeleniumBase UC (Undetected Chromedriver) 模式控制瀏覽器。適用於需要登入、點擊互動、截圖或繞過 Cloudflare 的複雜網頁。若只需讀取網頁內容或搜尋資料,請優先使用更輕量的 web-research skill(SearXNG + Jina Reader),無需啟動瀏覽器。
install
source · Clone the upstream repo
git clone https://github.com/samttoo22-MewCat/OpenSoul
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/samttoo22-MewCat/OpenSoul "$T" && mkdir -p ~/.claude/skills && cp -r "$T/openclaw/skills/browser-control" ~/.claude/skills/samttoo22-mewcat-opensoul-browser-control && rm -rf "$T"
OpenClaw · Install into ~/.openclaw/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/samttoo22-MewCat/OpenSoul "$T" && mkdir -p ~/.openclaw/skills && cp -r "$T/openclaw/skills/browser-control" ~/.openclaw/skills/samttoo22-mewcat-opensoul-browser-control && rm -rf "$T"
manifest:
openclaw/skills/browser-control/SKILL.mdsource content
注意:單純讀取網頁內容請優先使用
skill(web-research),速度更快且不需啟動瀏覽器。僅在需要互動操作(點擊、輸入、截圖)時才使用本 skill。--action fetch
Browser Control (SeleniumBase UC Mode)
此技能允許 ARIA 使用具備反偵測能力的瀏覽器來存取網頁。這在處理需要 JavaScript 渲染、Cloudflare 防護或複雜互動的網站時非常有用。
核心功能
- 繞過偵測:使用
模式,模擬真實使用者行為。uc=True - 網頁截圖:獲取頁面視覺狀態。
- 動態內容:讀取完整渲染後的 HTML。
- 互動操作:支援點擊、輸入、捲動等。
使用方法
透過執行
scripts/browser_controller.py 來操作。
1. 獲取網頁內容 (Rendered HTML/Markdown)
python scripts/browser_controller.py --action fetch --url "https://example.com"
2. 獲取網頁截圖
python scripts/browser_controller.py --action screenshot --url "https://example.com"
3. 執行複雜互動 (範例:登入或搜尋)
python scripts/browser_controller.py --action interact --url "https://google.com" --steps '[{"type": "type", "selector": "input[name=q]", "text": "openSOUL AI"}, {"type": "click", "selector": "input[name=btnK]"}]'
注意事項
- 視窗顯示:在 Windows 環境下會彈出實體 Chrome 視窗。
- 中文支援:原生支援中文輸入與顯示。
- 性能:啟動瀏覽器較慢(約 5-10 秒),僅在必要時使用。