20 млн рублей в год на веб-скрапинге

О веб-скрапинге обычно говорят абстрактно: как о технике, правовой серой зоне или о том, как ИИ обучают на чужих данных. Мы занимаемся парсингом больше десяти лет как бизнесом. Вот как это устроено, когда на кону 20 с лишним миллионов рублей годовой выручки.

Что мы делаем

xmldatafeed.com собирает публично доступные данные о ценах и товарных каталогах с российских интернет-магазинов, маркетплейсов и агрегаторов. Ежедневно парсим более 500 крупнейших площадок. Продаём эти данные в виде структурированных фидов — ритейлерам, ценовым агрегаторам, аналитическим компаниям и закупочным отделам.

Модель — B2B-подписка. Клиент определяет нужные категории и источники. Мы собираем, очищаем, нормализуем и доставляем. Большинство клиентов получают обновления ежедневно или ежечасно через XML или JSON API.

Структура выручки

20 миллионов — это совокупная годовая выручка от рекуррентных подписок. Рентабельность около 40%. Ни один клиент не является доминирующим — портфель диверсифицирован по ритейлу, логистике и маркетинговой аналитике. Крупнейший сегмент — ценовая разведка для среднего e-commerce.

Средний чек — около 15 000 рублей в месяц, но разброс большой: от 5 000 у мелких магазинов до 400 000 у крупных федеральных сетей.

Венчурный капитал мы никогда не привлекали. Бизнес вырос из нуля через контент-маркетинг, публикации на Хабре и сарафанное радио. Платная реклама никогда не была для нас значимым каналом привлечения.

Расти без платных каналов — медленнее. Но и устойчивее. Каждый клиент, который нашёл тебя через твои же статьи, уже прошёл предварительный отбор — он прочитал, что ты написал, и пришёл осознанно.
— из серии статей на Хабре, 2023

Правовой вопрос

Любой разговор о парсинге рано или поздно приходит к одному и тому же вопросу. Наш ответ: мы собираем только данные, которые публично доступны без авторизации, не обходим технические средства защиты и соблюдаем разумную частоту обращений, не влияющую на работу сайтов-источников.

Российское законодательство в отношении общедоступной информации достаточно определённо. Данные, опубликованные без ограничений доступа, можно собирать и перераспространять при условии, что они не содержат персональных данных в трактовке 152-ФЗ и не воспроизводят авторский контент целиком.

Мы работаем по этим правилам с первого дня и ни разу не получали правовых претензий. Кроме того, мы не собираем ценовые данные с сайтов, которые явно запрещают это в своей оферте, если эти сайты принадлежат нашим же клиентам — это вопрос деловых отношений, а не только права.

Техническая архитектура

Стек за десять лет менялся существенно, но базовый принцип — нет: надёжность важнее изящества. Основная инфраструктура сбора построена на простых планировщиках с детерминированной логикой повторов. Для нормализации и дедупликации используем Elasticsearch. Доставка — через REST API.

ML-экстракцию пробовали несколько раз. На хорошо структурированных сайтах работает. На всём остальном — нет. И когда модель начинает деградировать молча, её тяжело отлаживать. Для промышленного парсинга явные правила и ручная поддержка экстракторов надёжнее модели, которую нельзя допросить.

Что не работает

Несколько вещей, которые мы пробовали и от которых отказались:

Автоматическая экстракция через vision-модели — эффектные демо, но в продакшене точность около 70%. Для данных, по которым выставляют счета, этого недостаточно.
Самообслуживание при подключении — большинству клиентов нужна помощь в настройке того, что им реально нужно, а не того, что они думают, что им нужно.
Покрытие всех источников подряд — глубина и надёжность в нескольких категориях всегда выигрывает у широты покрытия.

Что работает

Бизнес работает потому, что проблема — негламурная и постоянная. Каждому ритейлеру нужно знать, что стоит у конкурентов. Эта потребность никуда не денется. Рынок надёжных, чистых, структурированных ценовых данных не заменят обёрткой над нейросетью — он требует операционной инфраструктуры, которую большинство компаний не хочет строить самостоятельно.

Это и есть наш продукт: не технологическая красота, а операционная надёжность по цене, при которой собственная разработка выглядит дорого.