Mkhlab arabic-agent-eval

Arabic function-calling benchmark — evaluate how well LLMs handle tool calling in Arabic

install
source · Clone the upstream repo
git clone https://github.com/Moshe-ship/mkhlab
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/Moshe-ship/mkhlab "$T" && mkdir -p ~/.claude/skills && cp -r "$T/hermes-skills/arabic-agent-eval" ~/.claude/skills/moshe-ship-mkhlab-arabic-agent-eval && rm -rf "$T"
manifest: hermes-skills/arabic-agent-eval/SKILL.md
source content

تقييم الوكلاء العرب — Arabic Agent Eval

أول معيار قياس لاستدعاء الأدوات بالعربي.

التثبيت

pip install arabic-agent-eval

الاستخدام

تقييم سريع

aae quick openai

تقييم كامل

aae run

مقارنة بين موفرين

aae compare openai anthropic

فئات التقييم

ست فئات:

  1. استدعاء بسيط — اختيار الدالة الصحيحة واستخراج المعاملات
  2. استخراج المعاملات — استخراج بيانات عربية من نص طبيعي
  3. تفكير متعدد الخطوات — سلسلة استدعاءات متتابعة
  4. معالجة اللهجات — فهم خليجي ومصري وشامي ومغاربي
  5. اختيار الأداة — اختيار الأداة الصحيحة من عشر خيارات
  6. معالجة الأخطاء — التعامل مع ردود الخطأ بالعربي

مجموعة البيانات

  • واحد وخمسين عنصر تقييم
  • خمس لهجات عربية
  • اثنين وعشرين دالة عربية (صلاة، زكاة، قرآن، أسهم تداول، وغيرها)
  • ثلاث مستويات صعوبة

التقييم

لكل عنصر:

  • اختيار الدالة: هل اختار الموديل الدالة الصحيحة؟
  • دقة المعاملات: هل المعاملات المستخرجة صحيحة؟
  • حفظ العربية: هل القيم العربية محفوظة ولا تُرجمت؟
  • فهم اللهجة: هل فهم الموديل اللهجة؟

إحصائيات المجموعة

aae dataset