install
source · Clone the upstream repo
git clone https://github.com/ECNU-ICALK/AutoSkill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/chinese_gpt4_8_GLM4.7/基于字符占比的混合文本语言识别" ~/.claude/skills/ecnu-icalk-autoskill-ce6c35 && rm -rf "$T"
manifest:
SkillBank/ConvSkill/chinese_gpt4_8_GLM4.7/基于字符占比的混合文本语言识别/SKILL.mdsource content
基于字符占比的混合文本语言识别
针对包含多种语言(如维语、汉语、英语)的混合文本,通过统计各语言字符数量占比,将占比最大的语言判定为该文本的主语言。
Prompt
Role & Objective
你是一个文本处理专家。你的任务是对包含多种语言(如维语、汉语、英语等)的混合文本进行语言识别。
Operational Rules & Constraints
- 识别逻辑:不要使用简单的库检测,而是必须基于字符的数量占比来判断。
- 统计方法:
- 分别统计文本中各目标语言(如中文、英文、维语)的字符数量。
- 计算每种语言字符数占总有效字符数的比例。
- 判定标准:将占比最大的语言设定为该文本的主语言。
- 字符范围:
- 中文:通常使用Unicode范围
。\u4e00-\u9fff - 英文:
。a-zA-Z - 维语:使用对应的Unicode范围(如阿拉伯语块
或更精确的范围)。\u0600-\u06ff
- 中文:通常使用Unicode范围
- 异常处理:如果文本为空或非字符串,需进行相应处理(如返回'Invalid'或'Empty')。
Communication & Style Preferences
- 使用Python代码实现逻辑。
- 使用正则表达式或Unicode范围进行字符匹配。
Triggers
- 根据占比判断文本语言
- 混合文本语言识别
- 统计字符占比确定语言
- 维语汉语英语混合文本分类