INNOSYS
  • Парсинг сайтов
    • Инструменты для парсинга
    • Защита от парсинга
  • ИИ
  • Автоматизация
    • Финансы

What are you looking for?

ИИ

Будущее ИИ и парсинга сайтов: обратная связь в действии

Иван Ростов
20.08.2025
7 Min Read
161 Views
0 Comments

Термин «единорог» иногда используют для описания людей вроде Зии Ахмада — универсальных специалистов, которых крайне сложно найти. Он — бэкенд-разработчик с опытом в парсинге сайтов, специалист по данным и инженер по ИИ, участвующий в развитии Gemini от Google. Но, по словам самого Зии, его настоящая страсть — преподавание, чему свидетельствуют более 40 опубликованных курсов.

Тематика его курсов разнообразна, но основной акцент он делает на анализе данных, парсинге сайтов и практическом применении ИИ. Эти темы объединятся и в его докладе под названием «Цикл ИИ–парсер: как машинное обучение улучшает парсинг сайтов (и наоборот)», который он представит на конференции OxyCon 2025, организованной Oxylabs и посвящённой парсингу.

После такой разнообразной карьеры вы оказались в Turing. Расскажите о своей текущей работе.

Однажды мне позвонили из Turing и сказали, что хотят пригласить меня на проект Google — это было очень волнительно, ведь я сам уже пользовался продуктом Gemini. А теперь мне предложили работать над его развитием, что стало отличной возможностью.

Я отвечаю за часть Gemini, связанную с анализом данных, наукой о данных, машинным обучением и вопросами по ИИ. Когда пользователь загружает в Gemini Excel или CSV-файл и просит сформировать выводы, построить модель или рассчитать среднее значение в столбце, мы отслеживаем ответы Gemini, анализируем, где он справляется, а где нет, пишем отчёты и передаём их. На основе наших выводов мы также предлагаем улучшения для бэкенд-разработчиков.

Вы также преподаёте онлайн. Есть ли курс, который вы считаете своим фирменным или мечтаете создать?

Один курс моей мечты — как раз на тему, с которой я выступаю на OxyCon: объединение искусственного интеллекта и парсинга сайтов. Это две сферы, в которых я работаю, и между ними есть идеальная точка соприкосновения — они прекрасно дополняют друг друга. Но, как я заметил, почти нет курсов, которые соединяли бы эти технологии в единую концепцию.

Сейчас тема ИИ и парсинга сайтов — особенно сбора данных для ИИ — вызывает много споров. Между издателями, авторами и ИИ-компаниями идёт напряжённый диалог. Как вы на это смотрите?

Моё мнение такое: если данные доступны публично, не должно быть вопросов по поводу их парсинга. Это может быть статья, информация о товаре или открытые медицинские данные — если их можно просмотреть вручную, их можно и собирать автоматически.

Например, представим e-commerce-компанию, которая публикует информацию о товарах на своём сайте. Эти данные уже открыты для всех. Парсинг просто делает процесс сбора быстрее и эффективнее. Если не использовать автоматизацию, можно нанять 100 человек, чтобы вручную собрали ту же информацию. Это ведь тоже допустимо — так почему бы не упростить?

Однако, если речь идёт о приватных данных — например, о файлах в Google Drive — то их парсинг категорически недопустим. Более того, даже ручной доступ к личным данным без разрешения недопустим.

Вот где я провожу черту: публичные данные, к которым у всех есть доступ, — допустимы для парсинга. Приватные данные — только с прямого согласия владельца.

ИИ и парсинг сайтов могут образовать замкнутый цикл. Я объясню, как этот цикл может работать: данные, собранные с помощью парсинга, помогают обучать модели ИИ, а сами модели впоследствии улучшают процессы парсинга сайтов. Я расскажу и о плюсах, и о возможных недостатках этой модели обратной связи.

Хотя не всё из этого на практике реализуемо уже сегодня, сама идея очень перспективна. Я поделюсь тем, что возможно на текущем этапе, что может появиться в будущем, какие есть ограничения и как мы можем их преодолеть. Кроме того, я управляю небольшим бизнесом, занимающимся разметкой и аннотированием данных, так что расскажу и о роли аннотирования в этой системе.

Почему это пока невозможно? Из-за того, что искусственный интеллект ещё недостаточно развит?

Да. Как бы умен ни был ИИ, он всё равно будет допускать ошибки. Если никто не следит за процессом, может возникнуть опасная цепочка, в которой ошибки начинают стремительно множиться. Такой рост погрешностей — действительно серьёзная угроза.

В процессе обязательно должен участвовать специалист в предметной области. Например, если речь идёт о медицинских данных, то медицинский эксперт должен проверять как входящие данные, полученные через парсинг, так и выходные данные, которые ИИ возвращает обратно в систему сбора.

Но если представить масштаб — чтобы эксперты проверяли все входящие и исходящие данные — звучит как нечто колоссальное.

Абсолютно верно. Это одна из главных проблем в разметке данных: нужны люди. Проверка должна быть с двух сторон — до подачи данных в ИИ и после выхода результата.

Когда я говорю «эксперт в предметной области», это не обязательно человек с учёной степенью. Если мы, к примеру, работаем с дорожными изображениями, обычный человек может размечать машины — в этом контексте он и есть эксперт.

Но в других случаях — например, при разметке МРТ или рентгеновских снимков — нужны именно медицинские специалисты. Это очень дорого. То же касается и финансовых документов: их аннотировать должны профессионалы, и это тоже увеличивает стоимость. Везде, где участвуют реальные люди, затраты возрастают.

Вы упомянули, что ваш бизнес как раз решает эту проблему. Можете рассказать подробнее?

Да. Я управляю компанией по аннотированию данных под названием Prism Soft. Мы сотрудничаем с компаниями, работающими в сфере ИИ, особенно с теми, кто занимается компьютерным зрением. Нам присылают огромные объёмы данных — изображения, видео, а иногда и текст или аудио. Наша задача — аннотировать эти данные, чтобы они стали пригодными для подачи в ИИ-модели.

До того как мы внедрили ИИ-инструменты, всё делалось вручную. Например, если на изображении 20 машин, и клиент хочет обвести каждую рамкой, то кто-то должен был вручную нарисовать 20 прямоугольников. Это занимает время, а время — деньги. При работе с миллионами изображений затраты становятся астрономическими.

Именно это мы и пытались оптимизировать. В итоге нам удалось автоматизировать примерно 60% процесса. Думаю, на данный момент это максимум с учётом текущих технологий.

Но мы продолжаем работать над увеличением этой доли, и скорость развития ИИ поразительна. То, что я сегодня прогнозирую на пять лет вперёд, может реализоваться уже через пять месяцев. Никогда не знаешь точно. Слишком много факторов — данные, вычислительные ресурсы, инженерные возможности.

Быстрые темпы развития ИИ многих пугают. Некоторые боятся, что мы скоро потеряем над ним контроль. Каково ваше мнение?

Это самый популярный вопрос. Когда я лечу в самолёте и говорю, чем занимаюсь, люди часто спрашивают: «А вы верите, что сценарий из “Терминатора” может стать реальностью? ИИ нас уничтожит?»

Если вы спросите десять специалистов по ИИ, вы получите десять разных мнений. Но мир уже предпринимает шаги по контролю над ИИ. Один из важных направлений — XAI, то есть объяснимый ИИ (Explainable AI). Когда разрабатываются новые модели, им с самого начала запрещают отвечать на опасные или неэтичные вопросы.

Когда мы обучаем модель вроде Gemini, первый вопрос всегда звучит так: «Насколько она безопасна?» Безопасность — приоритет номер один. Крупные организации придают этому большое значение. У небольших игроков таких ресурсов нет, но они и не располагают масштабами, чтобы создавать модели, способные представлять угрозу.

Тем не менее — и это может быть спорное заявление — мы не знаем, чем занимаются с ИИ военные или разведслужбы крупных стран. Если мы уже можем создать ChatGPT или Gemini, то очевидно, что ИИ может быть использован и в целях, вызывающих серьёзные этические опасения.

Ещё одна причина беспокойства — меняющийся рынок труда. Люди боятся, что у них отнимут работу.

ИИ уже изменил множество отраслей. Взять хотя бы создание контента: раньше над текстами работали команды из десяти человек, а теперь один человек может с помощью ИИ сгенерировать текст и просто его вычитать. ИИ не отбирает работу — он меняет сам рынок. И это происходило на протяжении всей истории.

Новые технологии создают новые профессии, и те, кто не адаптируется, рискуют остаться за бортом. Так что да, история повторяется — просто сейчас всё происходит гораздо быстрее.

Я считаю, что только развитие позволяет нам оставаться востребованными. Если я остановлюсь и решу, что моих текущих навыков достаточно, есть 99,9% вероятность, что меня заменят. Если не ИИ, то кто-то более современный и подготовленный.

Даже сам ИИ постоянно развивается. Это уже не то, что было в 2015 году. Постоянно появляются новые модели, и ИИ сейчас — одна из самых активно исследуемых областей в мире. Это значит, что новые технологии внедряются ежедневно. Если не следить за ними, можно легко отстать.

Некоторые говорят, что ИИ развивается настолько быстро, что даже если бы прогресс остановился на год, мы всё равно не успели бы разобраться в уже существующих решениях. Как вы считаете, у нас вообще есть шанс?

Это правда. ИИ развивается с такой скоростью, что даже сейчас я изучаю инструменты и модели, выпущенные два года назад. Объёмы просто колоссальные — в сутках всего 24 часа, и уследить за всем крайне сложно.

Думаю, главное — держаться своей области. Кто бы вы ни были — создатель контента, разработчик или аналитик — просто заведите привычку хотя бы раз в неделю изучать ИИ-инструменты, относящиеся к вашей профессии.

Некоторые считают (хотя я с этим не согласен), что ИИ перестанет так быстро развиваться, потому что уже «съел» почти все качественные данные, созданные человеком. Мол, историческая база данных исчерпана, а новое содержимое часто генерируется самим ИИ. Почему вы с этим не согласны?

Потому что мы каждый день видим новую модель ИИ, которая лучше предыдущей. Особенно в таких направлениях, как агентный ИИ — модели, способные выполнять повседневные задачи. Там прогресс идёт очень быстро. Если ИИ сможет брать на себя рутинные задачи сотрудников, это будет огромный шаг вперёд.

Даже если мы уже «накормили» ИИ всем, что было за последние 100 лет, новое поступает по чуть-чуть каждый день. И несмотря на это медленное обновление, ИИ всё равно улучшается.

Что тогда продолжает толкать прогресс вперёд?

Инженерия. Каждый день учёные придумывают новые методы, как обучать ИИ более эффективно, даже используя те же данные. Это как в классе: есть один учитель и 40 учеников, но все они учатся по-разному. Кто-то наберёт 95%, кто-то — 70%, а кто-то — всего 30%. У всех разные подходы к обучению.

С ИИ то же самое — данные одни и те же, но разные архитектуры, стратегии обучения и методы оптимизации позволяют извлекать из них больше пользы. Некоторые методы требуют мощного «железа», например, GPU и TPU. Другие работают более эффективно даже на слабом оборудовании. Эти подходы постоянно совершенствуются, и именно это двигает ИИ вперёд.

Last Update: 20.08.2025

Please share this article if you like it!

Link Copied!
Written By

Иван Ростов

Other Articles

Previous

Microsoft обвиняют в сборе данных из Word и Excel – пользователи обеспокоены конфиденциальностью

Next

Лучшие AI-инструменты для парсинга в 2025 году: ключевые решения, функции и цены

Свежие записи

  • Парсинг Google Maps и интеллектуальные права
  • Будущее фудтеха: как ИИ и парсинг меняют отрасль
  • Лучшие компании по парсингу данных в 2025 году
  • Как работает парсинг сайтов и почему ИИ всё меняет
  • Что важно учитывать перед парсингом сайтов в ЕС

Свежие комментарии

Нет комментариев для просмотра.