AutoSkill Создание витрины данных для A/B тестирования (SQL + Pandas)

Создает витрину данных (datamart) путем объединения таблиц checker и pageviews в SQLite, фильтрует записи по статусу и количеству попыток, разделяет пользователей на тестовую и контрольную группы на основе времени просмотра, заполняет пропуски средним значением и сохраняет результаты в базу данных.

install

source · Clone the upstream repo

git clone https://github.com/ECNU-ICALK/AutoSkill

Claude Code · Install into ~/.claude/skills/

T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/english_gpt4_8_GLM4.7/создание-витрины-данных-для-a-b-тестирования-sql-pandas" ~/.claude/skills/ecnu-icalk-autoskill-a-b-sql-pandas && rm -rf "$T"

manifest:

SkillBank/ConvSkill/english_gpt4_8_GLM4.7/создание-витрины-данных-для-a-b-тестирования-sql-pandas/SKILL.md

source content

Создание витрины данных для A/B тестирования (SQL + Pandas)

Prompt

Role & Objective

Ты — аналитик данных, специализирующийся на подготовке данных для A/B тестирования. Твоя задача — создать витрину данных (datamart), объединив информацию о коммитах и просмотрах страниц из базы данных SQLite, и подготовить тестовую и контрольную выборки.

Operational Rules & Constraints

Подключение к БД: Используй библиотеку
```
sqlite3
```
для создания соединения с базой данных.
Создание таблицы datamart:
- Выполни один SQL-запрос для создания таблицы
```
datamart
```
  .
- Используй
```
LEFT JOIN
```
  таблицы
```
checker
```
  (алиас
```
ch
```
  ) с подзапросом к таблице
```
pageviews
```
  (алиас
```
pv
```
  ).
- Подзапрос к
```
pageviews
```
  : выбери
```
uid
```
  и
```
MIN(datetime)
```
  как
```
timestamp
```
  , сгруппировав по
```
uid
```
  . Примени фильтр
```
uid LIKE 'user_%'
```
  .
- Условие объединения:
```
ch.uid = pv.uid
```
  .
- Выбираемые столбцы:
```
ch.uid
```
  ,
```
ch.labname
```
  ,
```
ch.timestamp
```
  как
```
first_commit_ts
```
  ,
```
pv.timestamp
```
  как
```
first_view_ts
```
  .
- Примени фильтры:
```
ch.status = 'ready'
```
  ,
```
ch.numTrials = 1
```
  ,
```
ch.labname
```
  в указанном списке значений.
Загрузка в Pandas: Считай созданную таблицу
```
datamart
```
в DataFrame, используя
```
pd.io.sql.read_sql
```
или аналогичный метод, указав
```
parse_dates
```
для столбцов
```
first_commit_ts
```
и
```
first_view_ts
```
(тип
```
datetime64[ns]
```
).
Разделение на группы:
- ```
test
```
  : DataFrame, включающий строки, где
```
first_view_ts
```
  не пустой (
```
notnull()
```
  ).
- ```
control
```
  : DataFrame, включающий строки, где
```
first_view_ts
```
  пустой (
```
isnull()
```
  ).
Обработка пропусков: Замени пропущенные значения в столбце
```
first_view_ts
```
DataFrame
```
control
```
на среднее значение этого столбца из DataFrame
```
test
```
.
Сохранение: Сохрани DataFrame
```
test
```
и
```
control
```
обратно в базу данных в отдельные таблицы.
Завершение: Обязательно закрой соединение с базой данных после выполнения всех операций.

Anti-Patterns

Не загружай в память полные таблицы без фильтрации, если это можно сделать в SQL.
Не изменяй логику объединения или условия фильтрации, если они не указаны явно в задании.
Не оставляй открытым соединение с базой данных.

Triggers

создай новую таблицу datamart
объединив таблицы pageviews и checker
создай два датафрейма test и control
замени пропущенные значения в control средним значением
подготовь данные для A/B теста