Как работает парсинг сайтов и почему ИИ всё меняет
ИИ использует контент, собранный с сайтов, но не возвращает читателей. Это приводит к тому, что владельцы сайтов и авторы контента вынуждены бороться за выживание.
Основные выводы:
- Парсинг используется в ценообразовании, SEO, кибербезопасности, ИИ и исследовательской сфере.
- Парсинг для ИИ угрожает выживанию сайтов, поскольку не возвращает трафик.
- Владельцы сайтов борются с этим с помощью лицензирования, платных подписок и блокировок парсеров.
В мире промышленного парсинга есть несколько крупных игроков. Вы не знали, что существует такой мир? Что ж, сейчас вы об этом узнаете.
Парсинг сайтов — это процесс извлечения данных с обычных веб-страниц, тех самых, которые видит каждый пользователь при посещении сайта. Это отличается от получения информации через официальные API, базы данных или загружаемые файлы.
Парсинг предполагает доступ к данным, которые владелец сайта официально не предоставлял для анализа. В некоторых случаях он даже активно старается ограничить такой доступ извне.
Пример парсинга
Представим, что вы — продавец, у которого есть 200 отдельных товаров, выставленных на продажу онлайн.
Эти товары чувствительны к изменению цен. Если конкурент начнёт продавать аналогичный товар по более низкой цене, вам нужно быстро среагировать и снизить цену тоже. Следить за рынком вручную — значит тратить время и ресурсы: поручить сотрудникам постоянно обновлять сотни страниц и заносить данные в таблицы — нерабочий вариант.
В такой ситуации требуется автоматизированный подход.
Допустим, вы продаёте свои товары, как и ваши конкуренты, на популярных онлайн-площадках вроде Amazon и Walmart. Эти платформы предоставляют вам данные о продажах ваших собственных товаров, но не делятся информацией о товарах конкурентов.
Тем не менее, вам эти данные необходимы. Решением становится парсинг цен — автоматизированный процесс, при котором скрипт заходит на страницы с товарами конкурентов и извлекает актуальные цены из HTML-кода этих страниц. Полученные данные можно загрузить во внутреннюю систему, которая автоматически обновит цены на ваши товары.
Такой процесс сканирования может происходить ежедневно или несколько раз в неделю, позволяя сохранять конкурентные цены и удовлетворённость покупателей.
Другие сферы применения парсинга
Промышленный парсинг, при котором компании массово собирают данные с сайтов, используется для множества целей. Мы уже рассмотрели пример, где компания применяет парсинг для мониторинга цен, необходимой для принятия бизнес-решений.
Помимо динамического ценообразования, компаниям может быть важно следить за доступным ассортиментом товаров и новыми позициями у конкурентов. Также может быть полезным мониторинг популярных товаров, отзывов покупателей и других факторов.
Некоторые компании используют парсинг, чтобы предоставлять данные в виде услуги — например, данные по рынку недвижимости, потенциальные клиенты или любые другие агрегированные сведения, представляющие интерес для бизнеса.
Если вы когда-либо пользовались инструментами для отслеживания SEO или позиций по ключевым словам, скорее всего, вы уже сталкивались с данными, полученными через парсинг. Такие сервисы сканируют сайты (включая Google), извлекают информацию, обрабатывают её и представляют в виде актуальной аналитики.
Парсинг также применяется для защиты брендов и интеллектуальной собственности. Владельцы известных брендов используют его для мониторинга коммерческих сайтов и других ресурсов, чтобы выявить незаконное или несанкционированное использование своей продукции.
Министерство торговли США называет подделку крупнейшим преступным бизнесом в мире и оценивает оборот контрафактной продукции в $1,7–4,5 трлн в год.
Государство не в силах остановить такие нарушения, поэтому защита брендов ложится на самих правообладателей. Один из ключевых способов борьбы — с помощью парсинга сайтов выявлять предложения контрафактной продукции и инициировать её удаление с рынка.
Другие направления применения парсинга включают: киберразведку, защиту от фишинга, сбор цен на авиабилеты и отели, анализ рыночных трендов, а также получение данных для обучения ИИ и научных исследований.
Две стороны парсинга: поисковики и ИИ
Парсинг сайтов — не новое явление. На самом деле, он почти такой же старый, как и сам интернет. Взять хотя бы поисковые системы. Чтобы вы могли ввести запрос в Google и получить список релевантных страниц, поисковик сначала должен был обойти эти сайты, собрать с них информацию и проиндексировать.
Поисковые системы живут за счёт контента, созданного другими, но при этом приносят пользу — ведь направляют пользователей обратно на сайты, с которых взяли информацию. Именно по этой причине и возникла вся индустрия SEO — из-за объёма трафика, который Google отправляет авторам сайтов.
ИИ-парсинг — это паразитизм, который разрушает трафик сайтов. Искусственный интеллект забирает информацию (в том числе из этой статьи), а затем показывает её пользователям без перехода на оригинальный источник. Читатель получает ответ, так и не посетив сайт автора.
И поисковики, и ИИ используют масштабные системы сканирования и сбора информации. Но поисковые системы ещё возвращают пользу тем, кого они сканируют, а ИИ — лишь зарабатывает на чужом труде, одновременно подрывая мотивацию авторов продолжать свою работу.
Проблемы парсинга
Промышленный парсинг сайтов требует масштабного сбора данных. Обычно это делается с помощью автоматизированных ботов, которые загружают веб-страницы для последующего анализа. Однако большинство веб-серверов блокируют многократные обращения даже к общедоступным страницам — и это серьёзная проблема для парсеров.
Если взять пример с компанией, которая отслеживает цены на 200 товаров, то для обновления информации может понадобиться сделать несколько тысяч запросов к веб-страницам. Такое количество запросов почти наверняка будет заблокировано сервером.
Из-за этого многим компаниям трудно реализовать парсинг своими силами. Поэтому на рынке появился узкий круг фирм, которые предлагают услугу «парсинг под ключ». Суть их работы — распределение запросов между тысячами компьютеров, которые используются как прокси для получения данных.
Хотя некоторые парсеры используют прокси-серверы в дата-центрах, это не всегда эффективно — сайты могут распознать массовые обращения с одного кластера IP-адресов или из одной геолокации. Более надёжный подход — задействовать домашние компьютеры пользователей, распределённые по нужному региону.
Система устроена так: каждый домашний компьютер загружает одну страницу, а затем отправляет её на сервер компании, предоставляющей услугу парсинга. Там данные обрабатываются и передаются заказчику.
Возникает очевидный вопрос: как легально и этично привлечь тысячи или даже сотни тысяч домашних устройств к выполнению этих задач?
Ответ в том, что не всегда это делается легально. В распространении таких бот-сетей часто участвует вредоносное ПО, которое заражает компьютеры и управляет ими без ведома владельцев — используя их для сканирования и сбора данных в массовом масштабе.
Тем не менее, существуют и компании, работающие законно и прозрачно. Они платят пользователям небольшое вознаграждение за то, что те добровольно выделяют часть своих ресурсов — немного вычислительной мощности и трафика — для работы парсинг-клиента.
Что дальше?
Парсинг, скорее всего, навсегда останется частью процесса сбора данных. Тем не менее, некоторые компании начали официально предоставлять доступ к своим данным за плату. Например, Reddit разрешил OpenAI использовать свою обширную библиотеку пользовательских обсуждений — теперь ИИ получает данные через API, а не путём несанкционированного сканирования страниц.
Хотя вопрос о том, стоит ли обучать ИИ на основе обсуждений с Reddit, остаётся открытым, Reddit — далеко не единственный. Всё больше компаний начали лицензировать свои данные для использования ИИ. Это не уменьшает объём парсинга и не останавливает потерю трафика, но хотя бы открывает возможность получать с этого доход.
Вопрос парсинга сайтов не исчезнет сам по себе. Ещё один метод защиты реализовала компания Cloudflare, обслуживающая около 20% всего интернет-трафика. Она по умолчанию блокирует веб-сканеры ИИ — если только им не заплатят.
В конечном итоге всё сводится к деньгам. Деньги тратятся на обход ограничений и сбор чужого контента. Деньги тратятся на защиту от сканирования. И деньги платятся за легальный доступ к данным — даже если это снижает ценность ресурса.
Те, кто создаёт контент, который потом поглощают роботы, оказываются просто между двух огней.