Почувствовать порядок — хорошо, но его нужно измерять. В наших проектах всегда есть метрики качества данных (freshness, completeness): свежесть (сколько времени прошло с последнего обновления) и полнота (насколько заполнены ключевые поля). Эти показатели не висят «для красоты» — они попадают в дашборды и отчёты руководителям и напрямую влияют на качество данных для аналитики и отчетности: управленческая сводка собирается «в один клик», без ручных правок и созвонов.
Мы задаём пороги качества в терминах бизнеса: для товарных данных — минимальная заполненность характеристик и изображений, для B2B — валидность ИНН/ОГРН и актуальность статуса юрлица, для адресов — доля успешно геокодированных записей. Freshness фиксируем по доменам (цены — ежедневно, остатки — несколько раз в сутки, реквизиты — по регламенту), completeness — по наборам атрибутов (например, «SKU с обязательными полями ≥ 98%»). Пороговые значения прозрачны, а отклонения не «замалёвываются»: о них тут же сигнализируют алерты.
Помимо свежести и полноты мы контролируем и другие критичные измерения качества:
- Accuracy (точность): сверяем цены/остатки/статусы с эталонными источниками и контрольными выборками.
- Consistency (согласованность): единые форматы телефонов, валют, единиц измерения, справочники категорий.
- Uniqueness (уникальность): уровень дублей после дедупликации и «склейки» сущностей.
- Validity (корректность): соответствие справочникам (ОКВЭД, категории, кодировки), допустимым диапазонам и шаблонам.
- Lineage (происхождение): для каждой записи известно, откуда пришли данные, кто и когда их обновил.
Технически это обеспечивается на всех этапах конвейера: входные «контракты данных» и проверки на валидность, правила нормализации, антидубли, тесты при публикации, а также регулярные аудиты по выборке. Мы поддерживаем «светофор» качества (зелёный/жёлтый/красный) и scorecard по каждому набору: видно, где именно просадка — в свежести, полноте или точности. Для бизнес-команд это означает предсказуемость отчётов: KPI сверены, методология едина, расхождений между витринами и презентациями нет.
Чтобы было наглядно, вот типовые ориентиры, которые мы согласовываем на старте (они могут отличаться в зависимости от отрасли и задач):
- Freshness: цены/остатки — от нескольких часов до 1 дня; юрстатусы — по расписанию (например, раз в неделю).
- Completeness: обязательные поля карточки товара — ≥ 98%; обязательные реквизиты компании — ≥ 99%.
- Duplicate rate: не более 0,5–1% после дедупликации.
- Geocoding success: ≥ 97% адресов с координатами; спорные — в отдельный реестр на доработку.
- Validation pass-rate: доля записей, прошедших все проверки, ≥ 99%.
Дальше включается цикл улучшений: мы собираем обратную связь от продаж, маркетинга и аналитиков, фиксируем повторяющиеся проблемы (например, конкретная категория на маркетплейсе «сыплет» обязательные атрибуты), меняем правила нормализации и обновляем пороги. Так качество растёт не «по вдохновению», а по понятному процессу — и именно поэтому ваши отчёты, витрины и CRM остаются согласованными даже тогда, когда источники и рынки меняются.