Mkhlab majal

فاحص بيانات التدريب العربية — اكتشف مشاكل الترميز والمحتوى المخفي وخلط اللهجات في ملفات JSONL. استخدم لتنظيف بيانات التدريب.

install
source · Clone the upstream repo
git clone https://github.com/Moshe-ship/mkhlab
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/Moshe-ship/mkhlab "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/majal" ~/.claude/skills/moshe-ship-mkhlab-majal-d4a082 && rm -rf "$T"
manifest: skills/majal/SKILL.md
source content

majal — فاحص بيانات التدريب العربية

أداة لفحص جودة بيانات التدريب العربية عبر 16 فحص.

الأوامر

فحص البيانات

majal scan data.jsonl

يعرض جدول بالمشاكل المكتشفة مع مستوى الخطورة.

إحصائيات

majal stats data.jsonl

إحصائيات شاملة: توزيع اللغات، التوكنات، الحقول.

إصلاح تلقائي

majal fix data.jsonl

يعرض diff قبل التطبيق. أضف

--yes
لتخطي التأكيد.

شرح الفحوصات

majal explain

عيّنة عشوائية

majal sample data.jsonl

يعرض عيّنة مع ملاحظات الجودة.

الفئات الـ16

Encoding، Invisible، Content، Arabic، Format

متى تستخدم

  • المستخدم يجهّز بيانات تدريب عربية
  • يريد فحص جودة dataset
  • يشك بمشاكل ترميز أو محتوى مخفي