Мы используем cookie-файлы и другие технологии, чтобы сделать сайт удобнее для вас: помочь с навигацией, улучшить ваш опыт, а ещё — чтобы понимать, как вы пользуетесь нашими сервисами и делать их ещё лучше.
ПРИНЯТЬ
Ответим на запрос
в течение 15 минут!
Заполните форму и мы предложим решение для вашей задачи!
Сергей
Менеджер по работе
с клиентами

Парсинг от А до Я

Разжевали термины, чтобы никто не притворялся, что всё понял
/
current_page
Добро пожаловать в глоссарий терминов, связанных с Парсингом. Здесь вы найдёте пояснения ключевых понятий, которые помогут вам лучше понимать, как мы работаем, какие технологии используем, и каковы преимущества автоматизированного сбора данных для вашего бизнеса. Если вы ещё не знакомы с нашей деятельностью — рекомендуем начать с раздела Парсинг или посмотреть Кейсы клиентов.

Основные термины

Парсинг (Web Scraping) – Автоматизированный сбор данных с веб-сайтов. Применяется для получения информации о товарах, ценах, услугах, текстах и т.д.
HTML – Язык разметки, на котором построены сайты. Именно его "читает" парсер, чтобы найти нужные данные.
Селектор – Это часть кода (обычно CSS или XPath), которая используется для выбора HTML-элементов из которых парсер извлекает данные.
API (Application Programming Interface) – Официальный способ получения данных с сайта. Если он недоступен — используется парсинг.
Инкрементальный парсинг – Сбор только новых или обновлённых данных, а не полного массива.
Динамический контент – Информация, которая подгружается на сайте при помощи JavaScript. Для её извлечения используют headless-браузеры и маскировка под браузер при помощи запросов.
Headless-браузер – Полноценный браузер, управляемый программой, которая имитирует поведение пользователя на сайте, но работает без графического интерфейса (например, Puppeteer, Selenium, Playwright).

Процесс и технологии

User-Agent – Заголовок запроса, который идентифицирует тип устройства или браузера.
Cookies – Файлы, хранящие данные сессии (например, авторизацию, город). Часто требуются при парсинге страниц с авторизацией или как-либо иначе связанных с сессиями.
Proxy (Прокси-сервер) – Позволяет менять IP-адрес запросов, чтобы избежать бана со стороны сайта.
Обход CAPTCHA – Технология для решения защитных капч: может быть ручной, антикапча-сервис, или ML-решение.
Rate Limiting – Ограничение по количеству запросов за определённое время. Учитывается при построении стратегии парсинга.
Data Cleaning (Очистка данных) – Процесс удаления “мусора” из данных: пустые строки, спецсимволы, неправильные форматы.
Постобработка – Шаг после сбора данных: нормализация цен, перевод валют, обрезка текста, удаление HTML-тегов и пр.

Хранение и передача

CSV (Comma Separated Values) – Формат текстовых таблиц, значения записываются в текстовом формате, разделяясь заранее установленным специальным символом, удобный для Excel, CRM и ERP.
JSON (JavaScript Object Notation) – Формат хранения структурированных данных. Подходит для интеграции с API.
XML – Формат с “древовидной” структурой, часто применяется в каталогах товаров и фидах.

Ценовой мониторинг

Агрегация – Сбор и объединение данных с разных источников в единую систему — например, все товары с разных магазинов в один Excel-файл.

Бизнес и закон

Политика конфиденциальности – Официальный документ, регулирующий обработку полученных данных. Подробнее — в нашей Политике конфиденциальности.
Законность парсинга в России – Парсинг разрешён, если не нарушаются авторские права, нет доступа к личной информации и не используется взлом. Подробнее читайте в разделе Закон о парсинге.

SEO & поисковая аналитика

Crawling (Сканирование) – Обход всех страниц сайта, аналогично поведению поискового робота. Используется для анализа индексации, поиска страниц с товарами, описаниями или метатегами.
Scraping Depth (Глубина парсинга) – Сколько уровней вложенности скрипт будет сканировать. Например, первая страница каталога, карточка товара, отзывы, сопутствующие товары.
Meta-теги (Meta Title, Meta Description) – Парсятся при SEO-анализе. Содержат ключевые слова и описания для поисковых систем.
Sitemap.xml – Файл, содержащий список URL-адресов сайта. Часто используется для быстрого сбора всех страниц без краулинга.
Robots.txt – Файл, указывающий, какие страницы сайта разрешены или запрещены для обхода ботами. Мы уважаем его при “белом” парсинге.

Парсинг для маркетплейсов и e-commerce

Feed (Фид) – Структурированный файл (часто в XML/CSV/JSON), содержащий каталог товаров. Используется для импорта в CRM, ERP, маркетплейсы, Google Shopping.
SKU (Stock Keeping Unit) – Уникальный код товара. Важен при парсинге для учёта остатков, сравнения и фильтрации.
Товарная матрица – Полный список товаров с характеристиками. Формируется на основе регулярного парсинга и даёт аналитику по спросу и ценам.
Уточняющий парсинг – Когда после первичной выгрузки данных парсятся сопутствующие элементы: рейтинг, доставка, цвета, размеры и т.д.
Мультиканальность – Парсинг сразу с нескольких сайтов (поставщиков) в единую базу. Используется в дропшиппинге, когда нужно мониторить наличие товара “вживую”.

Аналитика и оптимизация

Парсинг с авторизацией – Сбор данных из “закрытой зоны” сайта — по логину и паролю (например, личный кабинет поставщика). Только с согласия клиента.
Маппинг данных – Сопоставление данных с разных источников в одну структуру. Например, сопоставление разных названий одного и того же товара у разных поставщиков.

Полезные практики и подходы

Lazy Load (ленивая загрузка) – Когда контент сайта подгружается при прокрутке. Мы используем headless-браузеры, чтобы “пролистывать” страницу как пользователь либо анализ JavaScript кода и написание программы, получающей данные напрямую от сайта.
Чистка тегов и HTML – Удаление лишних тегов, символов, переносов строк, чтобы в выгрузке были только чистые данные — текст, числа, изображения.

Мы подробно описали, как устроены Этапы работы с клиентом в этом разделе, а также ответили на часто задаваемые вопросы в FAQ
Если вы работаете в недвижимости, аптечном ритейле, дропшиппинге или на маркетплейсах, рекомендуем изучить реальные Кейсы, где парсинг приносит прибыль и автоматизирует операционку.