Mkhlab arabic-agent-eval
Arabic function-calling benchmark — evaluate how well LLMs handle tool calling in Arabic
install
source · Clone the upstream repo
git clone https://github.com/Moshe-ship/mkhlab
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/Moshe-ship/mkhlab "$T" && mkdir -p ~/.claude/skills && cp -r "$T/hermes-skills/arabic-agent-eval" ~/.claude/skills/moshe-ship-mkhlab-arabic-agent-eval && rm -rf "$T"
manifest:
hermes-skills/arabic-agent-eval/SKILL.mdsource content
تقييم الوكلاء العرب — Arabic Agent Eval
أول معيار قياس لاستدعاء الأدوات بالعربي.
التثبيت
pip install arabic-agent-eval
الاستخدام
تقييم سريع
aae quick openai
تقييم كامل
aae run
مقارنة بين موفرين
aae compare openai anthropic
فئات التقييم
ست فئات:
- استدعاء بسيط — اختيار الدالة الصحيحة واستخراج المعاملات
- استخراج المعاملات — استخراج بيانات عربية من نص طبيعي
- تفكير متعدد الخطوات — سلسلة استدعاءات متتابعة
- معالجة اللهجات — فهم خليجي ومصري وشامي ومغاربي
- اختيار الأداة — اختيار الأداة الصحيحة من عشر خيارات
- معالجة الأخطاء — التعامل مع ردود الخطأ بالعربي
مجموعة البيانات
- واحد وخمسين عنصر تقييم
- خمس لهجات عربية
- اثنين وعشرين دالة عربية (صلاة، زكاة، قرآن، أسهم تداول، وغيرها)
- ثلاث مستويات صعوبة
التقييم
لكل عنصر:
- اختيار الدالة: هل اختار الموديل الدالة الصحيحة؟
- دقة المعاملات: هل المعاملات المستخرجة صحيحة؟
- حفظ العربية: هل القيم العربية محفوظة ولا تُرجمت؟
- فهم اللهجة: هل فهم الموديل اللهجة؟
إحصائيات المجموعة
aae dataset