Mkhlab safha
كاشط محتوى عربي — اجمع محتوى عربي من الويب، نظّفه، واكتشف لهجته. مخصص لتجهيز بيانات التدريب.
install
source · Clone the upstream repo
git clone https://github.com/Moshe-ship/mkhlab
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/Moshe-ship/mkhlab "$T" && mkdir -p ~/.claude/skills && cp -r "$T/hermes-skills/safha" ~/.claude/skills/moshe-ship-mkhlab-safha && rm -rf "$T"
manifest:
hermes-skills/safha/SKILL.mdsource content
safha — كاشط المحتوى العربي
أداة لجمع وتنظيف المحتوى العربي من الويب لتجهيز بيانات التدريب.
الأوامر
كشط صفحة
safha scrape URL
يجمع المحتوى العربي ويحفظه بصيغة JSONL.
كشط sitemap كامل
safha sitemap URL
يكشط جميع الروابط بالتوازي مع rate limiting.
تنظيف البيانات
safha clean data.jsonl
10 خطوات تنظيف: حذف URLs، تطبيع الألف/الياء، إزالة التشكيل...
اكتشاف اللهجة
safha detect data.jsonl
يصنّف كل نص حسب اللهجة (فصحى/مصري/خليجي/شامي/مغربي).
إحصائيات
safha stats
أعلام مفيدة
— ملف الخروج--output FILE
— لا تحذف التشكيل--keep-tashkeel
متى تستخدم
- المستخدم يريد جمع بيانات تدريب عربية
- تنظيف بيانات خام من الويب
- تصنيف بيانات حسب اللهجة