Mkhlab arabic-agent-eval

Arabic function-calling benchmark — evaluate how well LLMs handle tool calling in Arabic

install

source · Clone the upstream repo

git clone https://github.com/Moshe-ship/mkhlab

Claude Code · Install into ~/.claude/skills/

T=$(mktemp -d) && git clone --depth=1 https://github.com/Moshe-ship/mkhlab "$T" && mkdir -p ~/.claude/skills && cp -r "$T/hermes-skills/arabic-agent-eval" ~/.claude/skills/moshe-ship-mkhlab-arabic-agent-eval && rm -rf "$T"

manifest: hermes-skills/arabic-agent-eval/SKILL.md

source content

تقييم الوكلاء العرب — Arabic Agent Eval

أول معيار قياس لاستدعاء الأدوات بالعربي.

التثبيت

pip install arabic-agent-eval

الاستخدام

تقييم سريع

aae quick openai

تقييم كامل

aae run

مقارنة بين موفرين

aae compare openai anthropic

فئات التقييم

ست فئات:

استدعاء بسيط — اختيار الدالة الصحيحة واستخراج المعاملات
استخراج المعاملات — استخراج بيانات عربية من نص طبيعي
تفكير متعدد الخطوات — سلسلة استدعاءات متتابعة
معالجة اللهجات — فهم خليجي ومصري وشامي ومغاربي
اختيار الأداة — اختيار الأداة الصحيحة من عشر خيارات
معالجة الأخطاء — التعامل مع ردود الخطأ بالعربي

مجموعة البيانات

واحد وخمسين عنصر تقييم
خمس لهجات عربية
اثنين وعشرين دالة عربية (صلاة، زكاة، قرآن، أسهم تداول، وغيرها)
ثلاث مستويات صعوبة

التقييم

لكل عنصر:

اختيار الدالة: هل اختار الموديل الدالة الصحيحة؟
دقة المعاملات: هل المعاملات المستخرجة صحيحة؟
حفظ العربية: هل القيم العربية محفوظة ولا تُرجمت؟
فهم اللهجة: هل فهم الموديل اللهجة؟

إحصائيات المجموعة

aae dataset