Мы используем cookie-файлы и другие технологии, чтобы сделать сайт удобнее для вас: помочь с навигацией, улучшить ваш опыт, а ещё — чтобы понимать, как вы пользуетесь нашими сервисами и делать их ещё лучше.

ПРИНЯТЬ

Ответим на запрос
в течение 15 минут!

Заполните форму и мы предложим решение для вашей задачи!

Сергей

Менеджер по работе
с клиентами

Главная
→
Статьи
→
HR-аналитика: парсинг вакансий и вилок зарплат по регионам и навыкам

HR-аналитика: парсинг вакансий и вилок зарплат по регионам и навыкам

Содержание

Зачем бизнесу внешние HR-данные
Источники и юридическая гигиена
Что именно парсить из вакансий
Нормализация и обогащение: из хаоса к аналитике
Карта спроса: навыки × регионы
Зарплатная аналитика: вилки без иллюзий
Витрины для HR, L&D и бизнеса
Практические сценарии: как это работает в жизни
Технологический контур: как устроен наш pipeline
Ограничения и риски: честно и по делу
Как выбрать подрядчика: 9 вопросов, которые отделяют «скрипт» от сервиса
Чек-лист внедрения на 2–4 недели
Вопросы, которые мы чаще всего слышим
Как мы доводим это до результата

Когда компания опирается только на внутреннюю статистику (отклики, воронка в ATS/HRM, медианы офферов), она смотрит в зеркало заднего вида. Рынок труда динамичен: новые технологии, миграция специалистов между регионами, волны релокаций, сдвиги в форматах занятости, ассортименты у конкурентов-работодателей. Парсинг вакансий позволяет видеть «здесь и сейчас»: зарплатные вилки (парсинг вилок зарплат), спрос на навыки, локации и динамику публикаций. Это не «разовая выгрузка», а устойчивый поток сигналов, на котором держится современная HR-аналитика из парсинга.

Зачем бизнесу внешние HR-данные

Для планирования найма. Понимать, где открывать позиции, какую вилку закладывать, к какому сроку реально закрыть роль.
Для управления затратами на офферы. Избыточные офферы сжигают бюджет; заниженные — теряют кандидатов.
Для обучения и L&D. Карта спроса на навыки по рынку подсказывает, во что учить, чтобы закрыть «skill gap» быстрее и дешевле.
Для стратегии локаций. В каких городах и агломерациях есть избыточный пул талантов при приемлемых вилках; где удалёнка выигрывает у офиса.

Мы не заменяем внутренние данные — мы разворачиваем внешнюю картину рынка труда (рынок труда парсинг) и стыкуем её с вашей воронкой, чтобы решения были обоснованными.

Источники и юридическая гигиена

Где брать:

Профильные порталы (напр., HH), корпоративные страницы карьеры, агрегаторы, профессиональные сайты и сообщества, отраслевые телеграм-каналы.
Публичные данные и открытые форматы (RSS/APIs), когда они доступны.

Как работать корректно:

Уважать robots.txt и условия площадок, удерживать умеренные частоты запросов, не создавать избыточную нагрузку.
Не собирать и не хранить персональные данные без законных оснований; фокус — на тексте вакансий и метаданных.
Где есть официальный API или договорённость — использовать их.
Вести логи обращений и ретраи, чтобы сбор был воспроизводимым и контролируемым.

Эта гигиена даёт «право на жизнь» потоку данных: законно, предсказуемо, масштабируемо.

Что именно парсить из вакансий

Сырые объявления неоднородны. Ценность появляется, когда вы снимаете правильные поля и приводите их к стандарту.

Базовые поля:

Название роли (title), функция, уровень (junior/middle/senior/lead), отрасль.
Локация (город/регион/страна), формат (офис/гибрид/удалёнка), тип занятости.
Зарплатные вилки (валюта, gross/net, вилка мин–макс, бонусы/акции), частота выплат.
Навыки (hard/soft), стек (языки, фреймворки, инструменты), опыт (лет/уровень).
Дата публикации, дата обновления, работодатель, тип компании (продуктовая, интегратор, стартап, энтерпрайз).

Расширенные сигналы:

Упоминания KPI/OKR и систем (CRM/ERP/ATS), указание на домен (fintech, retail, telecom).
Маркеры зрелости процесса: CI/CD, code review, SLO/SLA — хорошо различают middle vs senior.
Языковые требования, командная структура, число подчинённых — важно для lead-ролей.

Нормализация и обогащение: из хаоса к аналитике

Сырые объявления — это «дикий запад». Здесь решает методичность.

Локации. Приводим адреса к регистру: город → регион → страна. Агрегируем агломерации (например, «Большой Тель-Авив», «Москва МО»), чтобы корректно сравнивать вилки.

Валюты и налоги. Конвертируем валюты к референсной, учитываем разницу gross/net (налоги/взносы), считаем медиану и квартилями (p25/p75) по регионам/ролям.

Навыки. Нормализуем навыки:

Словарь синонимов и n-грамм («js», «javascript», «ECMAScript»).
Группировка в кластеры: «аналитика данных», «ML-стек», «DevOps/Cloud», «product/UX».
Эмбеддинги и косинусное сходство — чтобы ловить «родственные» навыки (PyTorch ↔ TensorFlow).

Дедупликация. Один и тот же работодатель часто постит вакансию на нескольких площадках. Мы находим дубли (по названию, локации, работодателю, набору навыков, текстовому сходству) и оставляем единую запись.

Идентификация работодателя. Чистим названия (ООО/ЗАО/Inc), связываем с внутренним контрагентом, формируем портфель ролей и динамику.

Обогащение. Стягиваем отрасль и размер компании, по возможности — публичные сигналы (новости о найме/сокращениях, релизы продуктов, запуск офисов), чтобы объяснить скачки спроса.

Карта спроса: навыки × регионы

Когда данные чистые, можно видеть главное: где и какие роли «горят», а какие проседают.

Тепловые карты. Строим матрицы «регион × навык»: визуально понятно, где дефицит senior-DevOps, где растёт спрос на data-engineers, а где, наоборот, насыщение.

Дефицит/профицит. Если доступны внешние данные о соискателях, считаем отношение вакансий к резюме. Если нет — оцениваем дефицит по плотности вакансий и скорости обновления объявлений.

Динамика публикаций. По неделям/месяцам — видим сезонность, эффект «чёрных пятниц», волны релокаций, запусков продуктов. Для продуктовой стратегии это ранние индикаторы.

Сегментация по уровню. Отдельно считаем junior/middle/senior — у них разные вилки, сроки закрытия и наборы навыков.

Зарплатная аналитика: вилки без иллюзий

Медианы и квартильные коридоры. «Средняя температура» мало полезна: рынок асимметричен. Гораздо честнее — медиана и p25/p75, плюс доверительный интервал при достаточном объёме данных.

Вилки по уровням и форматам. Удалёнка ≠ офис: в одних ролях удалёнка дороже (конкуренция глобальнее), в других — наоборот. Аналогично с гибридом. Под каждую роль — своя сегментация.

Факторы, которые смещают вилку:

Дефицитный стек (например, узкие ML-инструменты, редкие промышленные SCADA/PLM).
«Шерсть» в описании — когда под junior прячут middle: мы ловим это по списку навыков и опыте.
Бонусы, опционы, премии: это «невидимая» часть, но её можно приблизительно оценить по отрасли и типу компании.
Консервативная оценка. Если вилка не указана, делаем бенчмарк по близким ролям и сходимости навыков; выводим диапазон с оговорённой погрешностью, чтобы не стрелять в темноту.

Витрины для HR, L&D и бизнеса

Сырые таблицы никому не нужны — решают удобные витрины.

Дашборд для HR/TA.

Где искать (города/каналы).
Какую вилку ставить (минимум/медиана/максимум) по уровню и формату занятости.
Сроки закрытия в сравнении по регионам.
Алерты: «Появилось N новых вакансий по стеку X в регионе Y», «Вилка конкурентов выросла на Z%».

Для L&D.

Карта «skill gap» для актуальной команды: чего не хватает, во что учить.
Список «быстрых побед»: навыки, которые чаще всего повышают вилку, но доучиваются быстро.

Для финансов и стратегии.

Бюджет найма по кварталам/странам.
«Где открывать хаб»: карта затрат на офферы × доступность талантов × скорость закрытия.

Практические сценарии: как это работает в жизни

Планирование найма.
Компания открывает 10 позиций data-engineer. Мы снимаем рынок в целевых регионах, считаем вилки и скорость закрытия, предлагаем 2 сценария:

«Быстро и дороже»: Тель-Авив + удалёнка senior — быстрее закрытие, выше офферы.
«Дольше, но дешевле»: соседний регион, медианные вилки на 12–18% ниже, с акцентом на middle + upskilling.

Офферы без переплат.
В pipeline есть 3 финалиста. Дашборд подсказывает реальную медиану по их стеку и формату. Компания экономит 8–10% фонда оплаты без потери конверсии оффера.

Маркетинг работодателя.
У конкурента всплеск публикаций в одном регионе — вероятно, открыли хаб/проект. HR-маркетинг подстраивает кампанию, чтобы перехватывать кандидатов.

Обучение вместо найма.
По роли DevOps рынок дорог и «горяч». По роли SRE — умереннее. Решение: закрыть часть задач SRE и довырастить DevOps из внутренних middle — дешевле и быстрее.

Технологический контур: как устроен наш pipeline

1) Сбор.
Планировщик съёма по источникам (HH, карьеры компаний, агрегаторы, Telegram). Очереди и ретраи, стоп-слова, лимиты. Логи обращений.

2) Валидация.
Техническая (валидность HTML/JSON), логическая (поля не пусты, формат вилок/дат), гео-проверки.

3) Нормализация.
Локации → регионы, валюты → референсная, вилки gross/net, навыки → словари/эмбеддинги, работодатели → единый справочник. Дедуп мультипостинга.

4) Качество данных.
Freshness (задержка), Completeness (заполняемость полей), Accuracy (контроль форматов/диапазонов), Consistency (единицы измерения), Uniqueness (анти-дубли).

5) Публикация.
Шины данных: выгрузка в Sheets/CSV/JSON, витрины в BI (Metabase/Looker/Power BI), вебхуки/API в ATS/HRM. Алерты в почту/Slack/Telegram.

6) Наблюдаемость.
Метрики задержек/объёмов/ошибок, «красные лампочки», SLA на обновление и восстановление. Мы относимся к сбору как к сервису, а не «скрипту раз в неделю».

Ограничения и риски: честно и по делу

Неявные вилки. Многие компании не указывают зарплаты. Решение — бенчмарки, «соседние» роли, агрегирование по отраслям и форматам занятости.

Биас источников. Одни площадки сильны в IT, другие — в операционных ролях. Мы комбинируем источники и маркируем покрытие.

Фрод и «пыль» в данных. Фиктивные объявления, старые публикации, которые «дёргают» вверх — лечится дедупом и детектором неестественных обновлений.

Сезонность. Январь/август, большие распродажи, макро-события и релокации смещают динамику — в витринах есть маркеры событий, чтобы читать графики правильно.

Как выбрать подрядчика: 9 вопросов, которые отделяют «скрипт» от сервиса

Источники и частоты. Что и как часто снимаете? Есть ли лимиты и как вы их учитываете?
Качество данных. Как меряете freshness/completeness/accuracy/consistency/uniqueness?
Нормализация. Как устроены словари навыков и валюто-налоговая нормализация?
Дедуп. Какие методы для мультипостинга?
Юридическая гигиена. Как соблюдаете правила площадок и не залезаете в персональные данные?
Витрины и интеграции. Есть ли готовые дашборды? Как подключитесь к ATS/HRM/BI?
Наблюдаемость и SLA. Что с логами, ретраями и «красными лампочками»?
Верификация. Как проверяете корректность вилок при отсутствии явных цифр?
Опыт и кейсы. Покажите примеры, где HR-решения изменились благодаря данным.

Чек-лист внедрения на 2–4 недели

Неделя 1 — постановка задачи и сбор.

Сформулировать роли и регионы, определить ключевые навыки.
Запустить парсинг вакансий по источникам; настроить алерты.
Проверить первые выгрузки на полноту и корректность.

Неделя 2 — нормализация и витрины.

Свести локации, валюты, вилки; собрать словари навыков.
Дедуп объявлений, идентификация работодателей.
Опубликовать первую версию HR-дашборда.

Неделя 3 — аналитика и решения.

Карта «навыки × регионы», медианы и коридоры p25/p75.
Сценарии найма (быстро/дешевле/сбалансировано), бюджет офферов.
План L&D: чему доучивать вместо покупки дорогих ролей.

Неделя 4 — интеграции и контроль.

Вебхуки/выгрузки в ATS/HRM/BI.
Регламент обновления (частоты) и перечень алертов.
Ретроспектива: что менять в тексте вакансий, чтобы увеличивать отклики.

Вопросы, которые мы чаще всего слышим

«Можно ли точно предсказать оффер?»
Рынок — вероятностная система. Мы даём коридоры и медианы по сегментам, плюс динамику. Для планирования этого достаточно, а дальше решают переговоры и ценность роли.

«Что делать, если вилка скрыта?»
Идём от «похожих» ролей и навыков, смотрим на отрасль/формат занятости/уровень. Присваиваем диапазон с оговорённой погрешностью, пересчитываем по мере поступления новых данных.

«Зачем так строго с нормализацией навыков?»
Без нормализации нельзя сравнивать регионы и роли: «JS» и «Java» — не одно и то же; «ML engineer» сегодня значит разное у разных компаний. Мы убираем двусмысленность.

Как мы доводим это до результата

Стабильный сбор с нескольких источников, умеренные частоты, логи и ретраи.
Строгая нормализация: гео, валюты, gross/net, словари навыков, эмбеддинги, анти-дубли.
Метрики качества данных и прозрачные витрины в BI.
Алерты на всплески, новые роли, сдвиги вилок.
Интеграции с ATS/HRM/Sheets/API — данные попадают туда, где принимаются решения.
Фокус на применении: план найма, бюджет офферов, план L&D, стратегия локаций.

Рынок труда больше не про «ощущения» и «историческую память». Это про поток внешних данных, где парсинг вакансий — стратегический канал. С ним зарплатные вилки перестают быть «магией», спрос на навыки становится измеримым, а HR-аналитика из парсинга — инструментом, который экономит бюджет, ускоряет закрытие и снижает риски. Если вы хотите перевести планирование найма из догадок в цифры — мы покажем, как за месяц пройти путь от нулевой базы до витрин и алертов, на которых удобно принимать решения каждый день.