Kweaver-dip data-semantic

install
source · Clone the upstream repo
git clone https://github.com/kweaver-ai/kweaver-dip
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/kweaver-ai/kweaver-dip "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/data-semantic" ~/.claude/skills/kweaver-ai-kweaver-dip-data-semantic && rm -rf "$T"
manifest: skills/data-semantic/SKILL.md
source content

功能速览

操作说明关键参数
list
查询逻辑视图列表
keyword
,
datasource_id
query
查询语义理解结果
form_view_id
understand
触发表单理解
form_view_id
datasource_id
batch
批量理解(≤100个)
form_view_ids
match
批量对象匹配
kn_id
,
ot_id
,
entries

输入参数

参数必填说明
operation
list/query/understand/batch/match
auth_token
JWT Token
form_view_id
query/understand单视图 ID
datasource_id
数据源理解数据源 UUID
keyword
可选关键字搜索

操作示例

1. 查询视图列表

operation: list
keyword: 用户

2. 查询语义结果(输出完整报告)

operation: query
form_view_id: <uuid>

输出:字段语义表格 + 业务对象表格 + 属性表格

3. 单视图理解(输出完整报告)

operation: understand
form_view_id: <uuid>

输出:字段语义表格 + 业务对象表格 + 属性表格

4. 批量理解(仅统计报告)

operation: batch
form_view_ids: [<uuid1>, <uuid2>, ...]

输出:仅统计报告,不输出详细语义

5. 数据源批量理解

operation: understand
datasource_id: <uuid>

≤50个视图直接执行,>50个调用Python脚本

6. 批量对象匹配

operation: match
kn_id: <配置值>
ot_id: <配置值>
entries: [{"name": "客户信息"}]

状态机

状态码状态名称处理动作
0未理解触发生成 → 轮询等待 → 状态2后提交确认 → 重新生成 → 轮询 → 提交确认 → 完成
1理解中轮询等待 → 状态2/3/4 → 同状态2处理
2待确认提交确认 → 重新生成 → 轮询等待 → 状态2后提交确认 → 完成
3已完成触发重新生成 → 轮询等待 → 状态2后提交确认 → 完成
4待确认(重新理解)触发重新生成 → 轮询等待 → 状态2后提交确认 → 完成
5理解失败输出失败原因,终止

⚠️ 批量理解时,无论当前状态是已完成(3)还是待确认(4),都会触发重新理解

大数据量处理

保护机制

  • ≤50 个 → 直接执行
  • >50 个 → 建议使用 Python 脚本
  • >1000 个 → 提醒非工作时间执行
  • >5000 个 → 建议联系技术团队

Python 脚本

# 数据源批量理解
python scripts/data_semantic_batch.py --token <JWT> --datasource-id <UUID>

# 批量视图理解
python scripts/data_semantic_batch.py --token <JWT> --view-ids <id1,id2>

# 断点续传
python scripts/data_semantic_batch.py --token <JWT> --resume

输出格式

单视图输出(含业务对象表格)

📊 数据语义理解报告

项目内容
视图技术名称
<tech_name>
视图业务名称
<biz_name>
理解状态
<status_name>

📈 识别统计

类别统计
字段语义总字段:
<total>
, 已补全:
<completed>
业务对象对象:
<count>
个, 属性:
<attr_count>

📋 字段语义补全

已补全字段

技术名称业务名称字段角色字段描述
user_id用户ID业务主键用户唯一标识
user_name用户名称业务特征用户姓名
create_time创建时间时间字段记录创建时间

未补全字段

技术名称字段类型字段描述
ext_field1VARCHAR扩展字段

🏢 业务对象识别结果

1️⃣ <业务对象名称>

属性名称字段技术名称字段业务名称字段角色字段描述
客户IDcustomer_id客户编号业务主键客户唯一标识
客户名称customer_name客户名称业务特征客户姓名

批量输出(仅统计报告)

🧠 批量理解报告

项目内容
总视图数
<total_count>
成功
<success_count>
失败
<fail_count>

批量理解仅输出统计报告,如需详情请单独查询

注意事项

  1. Token 必填 - 所有操作都需要有效 JWT
  2. 编码问题 - API 返回可能为 GBK,需用 latin1 解码
  3. 中文乱码 - match 操作用
    echo | curl -d @-
  4. 数据差异 - 字段语义和业务对象来自不同表