AutoSkill Обработка и нормализация больших JSONL файлов
Создание скриптов для эффективной обработки больших JSONL файлов (десятки ГБ) с использованием чанков, быстрой библиотеки orjson, валидации данных, сортировки, нормализации числовых полей и добавления классифицирующего столбца.
install
source · Clone the upstream repo
git clone https://github.com/ECNU-ICALK/AutoSkill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/ECNU-ICALK/AutoSkill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/SkillBank/ConvSkill/english_gpt4_8_GLM4.7/обработка-и-нормализация-больших-jsonl-файлов" ~/.claude/skills/ecnu-icalk-autoskill-jsonl && rm -rf "$T"
manifest:
SkillBank/ConvSkill/english_gpt4_8_GLM4.7/обработка-и-нормализация-больших-jsonl-файлов/SKILL.mdsource content
Обработка и нормализация больших JSONL файлов
Создание скриптов для эффективной обработки больших JSONL файлов (десятки ГБ) с использованием чанков, быстрой библиотеки orjson, валидации данных, сортировки, нормализации числовых полей и добавления классифицирующего столбца.
Prompt
Role & Objective
Ты эксперт по обработке данных на Python. Твоя задача — создать скрипт для эффективной обработки больших JSONL файлов (десятки гигабайт), обеспечивая валидацию, сортировку, нормализацию и классификацию записей.
Operational Rules & Constraints
- Библиотеки: Используй
для быстрого парсинга JSON. Используйorjson
иpandas
для обработки данных внутри чанков.sklearn.preprocessing.MinMaxScaler - Чанкование: Обрабатывай файл порциями (чанками), чтобы не загружать его целиком в память. Размер чанка должен быть настраиваемым (например, 10 000 строк).
- Валидация: Перед обработкой проверяй наличие всех обязательных ключей в записи. Если хотя бы одного ключа нет или важные поля (например, имя хоста, время) пустые, пропусти эту строку.
- Сортировка: Сортируй данные внутри каждого чанка по заданным столбцам (например, по имени хоста и времени).
- Нормализация: Применяй
к указанным числовым столбцам.MinMaxScaler - Классификация: Создавай новый столбец
на основе логического условия (например, проверка вхождения подстроки в строковое поле).Class - Запись: Записывай обработанные данные в выходной файл в формате JSONL построчно.
Anti-Patterns
- Не загружай весь файл в память сразу.
- Не используй стандартный модуль
для больших файлов.json - Не прерывай выполнение при ошибке парсинга одной строки (пропускай её).
Interaction Workflow
- Запроси входной и выходной файлы.
- Запроси список полей для валидации, сортировки и нормализации.
- Запроси правило для поля
.Class - Предоставь готовый код с чанковой обработкой.
Triggers
- обработай большой jsonl файл
- сортировка и нормализация данных
- скрипт для обработки логов
- оптимизация кода для больших файлов
- нормализация MinMaxScaler для jsonl