Mkhlab safha

كاشط محتوى عربي — اجمع محتوى عربي من الويب، نظّفه، واكتشف لهجته. مخصص لتجهيز بيانات التدريب.

install
source · Clone the upstream repo
git clone https://github.com/Moshe-ship/mkhlab
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/Moshe-ship/mkhlab "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/safha" ~/.claude/skills/moshe-ship-mkhlab-safha-1437bb && rm -rf "$T"
manifest: skills/safha/SKILL.md
source content

safha — كاشط المحتوى العربي

أداة لجمع وتنظيف المحتوى العربي من الويب لتجهيز بيانات التدريب.

الأوامر

كشط صفحة

safha scrape URL

يجمع المحتوى العربي ويحفظه بصيغة JSONL.

كشط sitemap كامل

safha sitemap URL

يكشط جميع الروابط بالتوازي مع rate limiting.

تنظيف البيانات

safha clean data.jsonl

10 خطوات تنظيف: حذف URLs، تطبيع الألف/الياء، إزالة التشكيل...

اكتشاف اللهجة

safha detect data.jsonl

يصنّف كل نص حسب اللهجة (فصحى/مصري/خليجي/شامي/مغربي).

إحصائيات

safha stats

أعلام مفيدة

  • --output FILE
    — ملف الخروج
  • --keep-tashkeel
    — لا تحذف التشكيل

متى تستخدم

  • المستخدم يريد جمع بيانات تدريب عربية
  • تنظيف بيانات خام من الويب
  • تصنيف بيانات حسب اللهجة