О веб-скрапинге обычно говорят абстрактно: как о технике, правовой серой зоне или о том, как ИИ обучают на чужих данных. Мы занимаемся парсингом больше десяти лет как бизнесом. Вот как это устроено, когда на кону 20 с лишним миллионов рублей годовой выручки.
Что мы делаем
xmldatafeed.com собирает публично доступные данные о ценах и товарных каталогах с российских интернет-магазинов, маркетплейсов и агрегаторов. Ежедневно парсим более 500 крупнейших площадок. Продаём эти данные в виде структурированных фидов — ритейлерам, ценовым агрегаторам, аналитическим компаниям и закупочным отделам.
Модель — B2B-подписка. Клиент определяет нужные категории и источники. Мы собираем, очищаем, нормализуем и доставляем. Большинство клиентов получают обновления ежедневно или ежечасно через XML или JSON API.
Структура выручки
20 миллионов — это совокупная годовая выручка от рекуррентных подписок. Рентабельность около 40%. Ни один клиент не является доминирующим — портфель диверсифицирован по ритейлу, логистике и маркетинговой аналитике. Крупнейший сегмент — ценовая разведка для среднего e-commerce.
Средний чек — около 15 000 рублей в месяц, но разброс большой: от 5 000 у мелких магазинов до 400 000 у крупных федеральных сетей.
Венчурный капитал мы никогда не привлекали. Бизнес вырос из нуля через контент-маркетинг, публикации на Хабре и сарафанное радио. Платная реклама никогда не была для нас значимым каналом привлечения.
Расти без платных каналов — медленнее. Но и устойчивее. Каждый клиент, который нашёл тебя через твои же статьи, уже прошёл предварительный отбор — он прочитал, что ты написал, и пришёл осознанно.
— из серии статей на Хабре, 2023
Правовой вопрос
Любой разговор о парсинге рано или поздно приходит к одному и тому же вопросу. Наш ответ: мы собираем только данные, которые публично доступны без авторизации, не обходим технические средства защиты и соблюдаем разумную частоту обращений, не влияющую на работу сайтов-источников.
Российское законодательство в отношении общедоступной информации достаточно определённо. Данные, опубликованные без ограничений доступа, можно собирать и перераспространять при условии, что они не содержат персональных данных в трактовке 152-ФЗ и не воспроизводят авторский контент целиком.
Мы работаем по этим правилам с первого дня и ни разу не получали правовых претензий. Кроме того, мы не собираем ценовые данные с сайтов, которые явно запрещают это в своей оферте, если эти сайты принадлежат нашим же клиентам — это вопрос деловых отношений, а не только права.
Техническая архитектура
Стек за десять лет менялся существенно, но базовый принцип — нет: надёжность важнее изящества. Основная инфраструктура сбора построена на простых планировщиках с детерминированной логикой повторов. Для нормализации и дедупликации используем Elasticsearch. Доставка — через REST API.
ML-экстракцию пробовали несколько раз. На хорошо структурированных сайтах работает. На всём остальном — нет. И когда модель начинает деградировать молча, её тяжело отлаживать. Для промышленного парсинга явные правила и ручная поддержка экстракторов надёжнее модели, которую нельзя допросить.
Что не работает
Несколько вещей, которые мы пробовали и от которых отказались:
- Автоматическая экстракция через vision-модели — эффектные демо, но в продакшене точность около 70%. Для данных, по которым выставляют счета, этого недостаточно.
- Самообслуживание при подключении — большинству клиентов нужна помощь в настройке того, что им реально нужно, а не того, что они думают, что им нужно.
- Покрытие всех источников подряд — глубина и надёжность в нескольких категориях всегда выигрывает у широты покрытия.
Что работает
Бизнес работает потому, что проблема — негламурная и постоянная. Каждому ритейлеру нужно знать, что стоит у конкурентов. Эта потребность никуда не денется. Рынок надёжных, чистых, структурированных ценовых данных не заменят обёрткой над нейросетью — он требует операционной инфраструктуры, которую большинство компаний не хочет строить самостоятельно.
Это и есть наш продукт: не технологическая красота, а операционная надёжность по цене, при которой собственная разработка выглядит дорого.