Mkhlab majal
فاحص بيانات التدريب العربية — اكتشف مشاكل الترميز والمحتوى المخفي وخلط اللهجات في ملفات JSONL. استخدم لتنظيف بيانات التدريب.
install
source · Clone the upstream repo
git clone https://github.com/Moshe-ship/mkhlab
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/Moshe-ship/mkhlab "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/majal" ~/.claude/skills/moshe-ship-mkhlab-majal-d4a082 && rm -rf "$T"
manifest:
skills/majal/SKILL.mdsource content
majal — فاحص بيانات التدريب العربية
أداة لفحص جودة بيانات التدريب العربية عبر 16 فحص.
الأوامر
فحص البيانات
majal scan data.jsonl
يعرض جدول بالمشاكل المكتشفة مع مستوى الخطورة.
إحصائيات
majal stats data.jsonl
إحصائيات شاملة: توزيع اللغات، التوكنات، الحقول.
إصلاح تلقائي
majal fix data.jsonl
يعرض diff قبل التطبيق. أضف
--yes لتخطي التأكيد.
شرح الفحوصات
majal explain
عيّنة عشوائية
majal sample data.jsonl
يعرض عيّنة مع ملاحظات الجودة.
الفئات الـ16
Encoding، Invisible، Content، Arabic، Format
متى تستخدم
- المستخدم يجهّز بيانات تدريب عربية
- يريد فحص جودة dataset
- يشك بمشاكل ترميز أو محتوى مخفي