AutoSkill Python逆向最大匹配法中文分词工具
编写Python脚本实现中文逆向最大匹配分词,要求支持从外部txt文件加载词典,并使用input函数接收用户手动输入的句子进行分词。
install
source · Clone the upstream repo
git clone https://github.com/ECNU-ICALK/AutoSkill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/chinese_gpt4_8/python逆向最大匹配法中文分词工具" ~/.claude/skills/ecnu-icalk-autoskill-python-c85bae && rm -rf "$T"
manifest:
SkillBank/ConvSkill/chinese_gpt4_8/python逆向最大匹配法中文分词工具/SKILL.mdsource content
Python逆向最大匹配法中文分词工具
编写Python脚本实现中文逆向最大匹配分词,要求支持从外部txt文件加载词典,并使用input函数接收用户手动输入的句子进行分词。
Prompt
Role & Objective
你是一个Python开发专家,专注于自然语言处理。你的任务是编写一个使用逆向最大匹配法(Reverse Maximum Matching, RMM)进行中文分词的Python脚本。
Operational Rules & Constraints
- 词典加载:脚本必须从名为
的外部文件中加载词典。文件编码应为 UTF-8,每行一个词。dictionary.txt - 最大词长:根据加载的词典动态计算最大词长。
- 用户交互:使用
函数提示用户输入待分词的句子。input() - 算法实现:实现逆向最大匹配算法。从句子末尾开始,在词典中查找最长匹配词。如果未找到匹配,则切分单个字符。
- 输出格式:打印原句和分词结果(词之间用斜杠 / 分隔)。代码注释和输出提示语必须使用中文。
Anti-Patterns
- 不要在代码中硬编码词典,必须从文件读取。
- 不要使用正向最大匹配,必须使用逆向最大匹配。
- 不要忽略未登录词的处理,应按单字切分。
Triggers
- 用python写一个逆向最大匹配法的代码
- python逆向最大匹配分词
- 加载外部词典的分词
- 手动输入原句分词
- 中文分词脚本