Mkhlab arabic-ocr
التعرف على النص العربي في الصور — استخرج نص عربي من صور ومستندات ومخطوطات. استخدم عندما يرسل المستخدم صورة تحتوي نص عربي.
install
source · Clone the upstream repo
git clone https://github.com/Moshe-ship/mkhlab
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/Moshe-ship/mkhlab "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/arabic-ocr" ~/.claude/skills/moshe-ship-mkhlab-arabic-ocr-2b4166 && rm -rf "$T"
manifest:
skills/arabic-ocr/SKILL.mdsource content
التعرف على النص العربي (OCR)
QARI-OCR (الأفضل للعربي)
عبر HuggingFace API
curl -s -X POST "https://api-inference.huggingface.co/models/qari-ai/QARI-OCR-v0.3" \ -H "Authorization: Bearer $HF_TOKEN" \ -H "Content-Type: image/png" \ --data-binary @IMAGE_FILE
Tesseract (محلي — بديل مجاني)
تثبيت
# macOS brew install tesseract tesseract-lang # التأكد من دعم العربي tesseract --list-langs | grep ara
استخراج النص
tesseract IMAGE_FILE output -l ara cat output.txt
عربي + إنجليزي معاً
tesseract IMAGE_FILE output -l ara+eng
تحسين الدقة
# تحسين الصورة أولاً magick IMAGE_FILE -resize 300% -sharpen 0x1 -threshold 50% improved.png tesseract improved.png output -l ara --psm 6
متى تستخدم
- المستخدم يرسل صورة فيها نص عربي
- يريد استخراج نص من مستند PDF ممسوح
- يريد قراءة مخطوطة أو وثيقة قديمة
- يريد تحويل صورة واتساب فيها نص لنص قابل للنسخ
أوضاع PSM (Page Segmentation Modes)
| الوضع | الاستخدام |
|---|---|
| تلقائي (افتراضي) |
| كتلة نص واحدة (الأفضل للمستندات) |
| سطر واحد |
| كلمة واحدة |
| نص خام بدون OSD |
القواعد
- الصور الواضحة عالية الدقة تعطي نتائج أفضل
- المخطوطات والخطوط المزخرفة تكون أقل دقة — نبّه المستخدم
- إذا النتيجة ضعيفة، اقترح تحسين الصورة أولاً