AutoSkill entity_extractor_class

封装一个Python类EntityExtractor，用于从字符串中提取指标、业务线、车型、地区等实体。该类使用正则表达式匹配括号内容，并根据预定义的实体库进行过滤。

install

source · Clone the upstream repo

git clone https://github.com/ECNU-ICALK/AutoSkill

Claude Code · Install into ~/.claude/skills/

T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/chinese_gpt4_8/entity_extractor_class" ~/.claude/skills/ecnu-icalk-autoskill-entity-extractor-class && rm -rf "$T"

manifest: SkillBank/ConvSkill/chinese_gpt4_8/entity_extractor_class/SKILL.md

source content

entity_extractor_class

Prompt

Role & Objective

你是一个Python开发助手。你的任务是根据用户提供的实体库数据，封装一个名为

EntityExtractor

的Python类，用于从特定格式的字符串中提取实体。

Operational Rules & Constraints

类结构定义：
- 类名必须为
```
EntityExtractor
```
  。
- 必须包含
```
__init__
```
  方法（注意是双下划线
```
__init__
```
  ，不能是单下划线
```
init
```
  ）。
数据初始化：
- 在
```
__init__
```
  方法中初始化以下列表属性，并填入对应的预定义数据：
  - ```
  self.indicators
```
  ：指标库列表。
- ```
self.business_lines
```
    ：业务线名称库列表。
  - ```
  self.cities
```
  ：城市库列表（若无特定数据可初始化为空列表）。
- ```
self.car_models
```
    ：车型名称库列表。
  - ```
  self.regions
```
  ：大区名称库列表。
- ```
self.channels
```
    ：渠道名称库列表。
  - ```
  self.operators
```
  ：算子名称库列表。
- ```
self.mileages
```
    ：里程数名称库列表。
提取逻辑：
- 使用正则表达式
```
r'\((.*?)\)'
```
  从输入字符串中提取所有圆括号内的内容。
- 将提取出的候选词与预定义的实体库列表进行比对，筛选出存在于库中的实体。
方法实现：
- 实现一个通用的辅助方法
```
extract(self, sentence, entity_list)
```
  ，接收句子和实体库列表，返回匹配的实体列表。
- 实现以下公开方法，分别调用通用方法并传入对应的实体库：
  - ```
  extract_indicators(self, sentence)
```
  ：提取指标实体。
- ```
extract_business_lines(self, sentence)
```
    ：提取业务线实体。
  - ```
  extract_cities(self, sentence)
```
  ：提取城市实体。
- ```
extract_car_models(self, sentence)
```
    ：提取车型实体。
  - ```
  extract_regions(self, sentence)
```
  ：提取大区实体。
- ```
extract_channels(self, sentence)
```
    ：提取渠道实体。
  - ```
  extract_operators(self, sentence)
```
  ：提取算子实体。
- ```
extract_mileages(self, sentence)
```
    ：提取里程数实体。
实体库数据：使用以下预定义的实体库进行匹配：
- 指标库: 订单, 订单量, 单量, GTV, 流水, 客单价, 毛利, 毛利额, 毛利率, 会员价值, 会员总数, 独立需求配对率, 取消率, 独立需求订单, 独立需求单量, 独立估转, 估转, UV, 访问人数, 净毛利, 新客, 新客数, 平台新客数, 平台纯新客数, 业务新客数, 业务纯新客数, 转新客数, 转新, 新司机, 新司机数, 新司机人数, 新交保人数, 收司机数, 收司机, 补贴率, 补贴额, 补贴, 补贴金额, 金额, 客诉率, 退保人数, 退保数, 新会员, 新会员数, 新会员人数, 保证金司机总数, 执行单量, 执行订单量, 响应率, 用户数, 司机数, 中位数, 有快好, 业务概览, 供给（司机漏斗）, 需求（用户漏斗）, 价格
- 业务线名称库: 小B小车, 小B合计, 小B大车, 企业小车, 企业大车, 企业, 跑腿, 冷藏车, 货运小车, 货运平台, 货运(跨城), 出行, 搬家(便捷+无忧), 搬家(便捷)
- 车型名称库: 13米, 17米5, 5米2, 6米8, 7米6, 9米6, 三轮车, 中厢货, 中平板, 中货, 中面, 依维柯, 地下室小货, 小厢货, 小平板, 小货, 小高栏, 同城小包, 小面, 微货, 微面, 3米8, 3米6, 大三轮车, 小三轮车, 跑腿, 其它, 大货车, 中货车, 中面包车, 小货车, 小面包车, 微货车, 微面包车, 货车汇总, 面包车汇总, 三轮车汇总
- 大区名称库: 全国, 全部, 华中大区, 西南大区, 华南大区, 东北大区, 华北大区, 华东大区
- 渠道名称库: 线上, 线下, 全部, 自主交保
- 算子名称库: 月累计, 累计, 年累计, 日均, 均值, 月均, 月日均, MTD日均
- 里程数名称库: [0,3), [0,30), [0,5), [10,15), [10,20), [100,150), [100,200), [15,20), [150,200), [20,30), [200,300), [200,500), [3,6), [30,40), [30,50), [300,500), [40,50), [5,10), 50+, [50,+∞), [50,100), [50,80), 500+, [500,+∞), [6,10), [80,100), [3,5), [5,6), 未知, 全部

Anti-Patterns

不要使用单下划线
```
init
```
作为构造函数名，必须使用
```
__init__
```
。
不要忘记导入
```
re
```
模块。
不要在通用提取逻辑中硬编码具体的实体名称，必须依赖传入的
```
entity_list
```
参数。
避免代码重复，确保所有提取方法复用同一个核心逻辑。

Triggers

封装EntityExtractor类
提取括号内的实体
判断语句包含哪些指标
解析业务线名称
提取车型和地区信息
Python实体提取