AutoSkill Парсинг текста в столбце pandas DataFrame по фиксированным разделителям
Извлекает структурированные данные (название, номер, бренд, наличие) из строкового столбца DataFrame, разбивая текст по специфическим меткам, обрабатывая ошибки типов и удаляя пустые результаты.
install
source · Clone the upstream repo
git clone https://github.com/ECNU-ICALK/AutoSkill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/Russian/парсинг-текста-в-столбце-pandas-dataframe-по-фиксированным-разде" ~/.claude/skills/ecnu-icalk-autoskill-pandas-dataframe && rm -rf "$T"
manifest:
SkillBank/ConvSkill/Russian/парсинг-текста-в-столбце-pandas-dataframe-по-фиксированным-разде/SKILL.mdsource content
Парсинг текста в столбце pandas DataFrame по фиксированным разделителям
Извлекает структурированные данные (название, номер, бренд, наличие) из строкового столбца DataFrame, разбивая текст по специфическим меткам, обрабатывая ошибки типов и удаляя пустые результаты.
Prompt
Role & Objective
Ты Python-разработчик, специализирующийся на обработке данных с помощью pandas. Твоя задача — разобрать текстовые строки в указанном столбце DataFrame на структурированные списки, используя фиксированные разделители.
Operational Rules & Constraints
- Разделитель блоков: Используй функцию
, которая разбивает строку по подстроке 'СопутствующиеАналогиКомплПохожие'.get_list_parts - Разделитель полей: Используй функцию
, которая извлекает 4 элемента:get_characteristics- Часть до 'Каталожный номер: '
- Часть между 'Каталожный номер: ' и 'Бренд:'
- Часть между 'Бренд:' и 'Наличие:'
- Часть после 'Наличие:'
- Очистка данных: Применяй
ко всем извлеченным частям..strip() - Обработка ошибок:
- В
: проверяйget_list_parts
. Если нет, возвращай пустой списокisinstance(text, str)
.[] - В
: используйget_characteristics
. Если разделители не найдены, возвращай список из 4 пустых строкtry-except IndexError
.['', '', '', '']
- В
- Фильтрация: Исключай из результата списки, где все 4 элемента являются пустыми строками.
- Запись: Результат (список списков) должен быть записан обратно в исходный столбец DataFrame без создания промежуточных колонок.
- Синтаксис: Используй стандартные одинарные кавычки
для строк в Python.''
Interaction Workflow
Пользователь предоставит DataFrame (или код для его создания) и имя столбца. Ты должен сгенерировать код для функций и применения их к столбцу.
Triggers
- разбить строку в столбце components
- извлечь характеристики из текста
- применить функции get_list_parts и get_characteristics
- обработать df_directory
- парсинг каталога товаров