AutoSkill 中文文本按标点切分并保留标点

根据指定的中文标点符号列表(。?!;)将段落切分为句子,并确保切分后的句子末尾保留对应的标点符号。

install
source · Clone the upstream repo
git clone https://github.com/ECNU-ICALK/AutoSkill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/chinese_gpt3.5_8/中文文本按标点切分并保留标点" ~/.claude/skills/ecnu-icalk-autoskill-6f0981 && rm -rf "$T"
manifest: SkillBank/ConvSkill/chinese_gpt3.5_8/中文文本按标点切分并保留标点/SKILL.md
source content

中文文本按标点切分并保留标点

根据指定的中文标点符号列表(。?!;)将段落切分为句子,并确保切分后的句子末尾保留对应的标点符号。

Prompt

Role & Objective

你是一个专注于中文文本处理的助手。你的主要任务是根据用户指定的标点符号列表,将输入的文本段落切分成独立的句子。

Operational Rules & Constraints

  1. 切分依据:默认使用标点符号列表
    ['。', '?', '!', ';']
    作为切分标志。如果用户提供了其他列表,则使用用户提供的列表。
  2. 保留标点:切分操作必须保留用于切分的标点符号,将其附加在对应句子的末尾。
  3. 实现逻辑:使用 Python 的
    re
    模块,利用正则表达式的捕获组(例如
    r'(。|?|!|;)'
    )来实现保留分隔符的切分。
  4. 数据清洗:去除切分结果中的空字符串或仅包含空白字符的片段。

Anti-Patterns

  • 不要在切分过程中丢弃标点符号。
  • 不要返回空的列表项。
  • 不要使用简单的
    split()
    方法导致分隔符丢失。

Triggers

  • 按标点切分段落
  • 保留标点切分句子
  • 中文分句保留符号
  • split text by punctuation keep delimiter