Какие компоненты включает поисковый робот. Поисковые роботы G o o g l e

Поисковый робот – это программа, автоматически путешествующая по веб, запрашивая документы и рекурсивно получая все документы, на которые они ссылаются.

Заметьте, что слово «рекурсивно » здесь не относится к конкретной реализации алгоритмов. Робот может, например, случайным образом выбирать документ который будет обработан следующим, или посещать их через значительные промежутки времени, тем неменее он считается роботом.

Обычные веб-браузеры к роботам не относятся, поскольку управляются человеком и не получают документы, на которые стоят ссылки, автоматически (за исключением картинок, скриптов и т.п.).

Поисковых роботов иногда называют пауками, Web Wanderers или Web Crawlers. Такие названия вносят некоторую путаницу, так как создаётся впечатление, что программы перемещаются по интернету самостоятельно, на манер вирусов. Это не так, робот «посещает» сайты, попросту запрашивая с них документы.

Что такое агент?

Слово «агент » имеет несколько значений. Например:

Автономные агенты

это программы, перемещающиеся от сайта к сайту и самостоятельно решающие, что делать дальше. Обычно они перемещаются между специализированными серверами, и практически не распространены в интернете.

Интелектуальные агенты

это программы, помогающие пользователям – например в выборе продукта, заполнении форм или даже в поиске. Такие программы имеют очень небольшое отношение к сетевому взаимодействию.

Пользовательские агенты

это техническое название программ, помогающих пользователям в межсетевых взаимодействиях. Это могут быть браузеры, такие как Internet Explorer, Firefox или Opera или почтовые программы, такие как Outlook Express, Thunderbird или Qualcomm Eudora.

Что такое поисковая система?

Какие другие виды роботов существуют?

Существуют роботы для различных целей:

Индексация
Проверка HTML
Проверка ссылок
Проверка обновлений
Зеркалирование

Пауки
то же, что и роботы, но звучит гораздо круче, поэтому больше нравится журналистам

Черви
то же, что и роботы, но в отличие от обычных роботов, являются самовоспроизводящимися

Муравьи
распределённые (пример: комариная стая) , взаимодействующие между собой роботы

Не вредят ли поисковые роботы интернету?

Есть несколько причин, по которым люди считают, что роботы вредят интернету:

Некоторые реализации роботов могут (и такие случаи были) перегрузить сети и сервера. Это может произойти, когда робота пишет неопытный программист. В настоящее время в сети достаточно информации о создании роботов, чтобы избегать таких ошибок.
Роботами управляют люди, которые могут ошибиться в настройках, или попросту не подумать о последствиях своих действий. Это значит, что людям стоит быть осторожнее, а авторы роботов должны создавать программы таким образом, чтобы избежать такого рода ошибок.
Индексирующие роботы обычно складывают данные в централизированную базу данных, что не очень масштабируется на миллионы документов на миллионах сайтов

В то же время бОльшая часть роботов хорошо спроектирована, профессионально управляется, не создает никаких проблем и предоставляет прекрасный сервис, особенно учитывая отсутствие альтернативных решений.

Поэтому роботы по своей природе не плохие и не хорошие, и посему требуют внимательного к себе отношения.

Существуют ли книги о поисковых роботах?

Да. Для справки: если вы купите книгу по нижепреведенной ссылке, интернет-магазин заплатит автору robotstxt.org немного денег, которые пойдут на поддержание сайта. Книги преведены в алфавитном порядке.

Индексирующие роботы

Каким образом роботы выбирают, какую страницу индексировать?

Это зависит от робота – каждый использует свои критерии для выбора. В общем случае, они начинают с документов, с которых идет много ссылок – например, каталогов, новостных сайтов и наиболее популярных сайтов в сети.

Большинство поисковых систем позволяют добавлять URL вручную. После добавления они добавляются в очередь и через некоторое время индексируются.

Иногда используются иные источники URL, например рассылки USENET, опубликованные архивы e-mail рассылок и т.д.
Сейчас архивы USENET доступны на http://groups.google.com .

Как робот решает, что ему индексировать?

Если индексирующий робот знает о существовании документа, он может решить распарсить его (разобрать, как разбирают предложения) и добавить в базу. Сам процесс зависит от конкретного робота: некоторые роботы читают только Title документов, некоторые берут первые несколько параграфов, некоторые – берут весь документ, индексируют все слова с различным весом, в зависимости от html-разметки. Некоторые разбирают мета-теги или другие специальные скрытые теги.

Надеемся, что с развитием интернета, появится больше возможностей эффективно связать мета-данные документа с самим документом. Работа в этом направлении ведется.

Как мне добавить мой сайт для индексирования?

Это зависит от поисковой системы. Многие системы размещают ссылку на добавление сайта на странице поиска или в одном из разделов сайта. Например:

У Яндекса есть страница Добавить URL
У Google есть раздел Information for Webmasters
У Рамблера есть Форма регистрации сайта

Для администраторов

Как мне узнать, что на мой сайт заходил робот?

Вы можете проверить логи на предмет того, что за очень короткое время было запрошено множество документов.

Если ваш сервер заности в логе user-agent-ы, можете проверить в логах необычные user-agent-ы.

И наконец, если с сайта запрашивался файл «/robots.txt», вероятно, это был робот.

Ко мне на сайт заходил робот! Что мне делать?

Хмм, в принципе ничего:-). Суть в том, что они полностью автоматические. Вам не требуется ничего делать.

Если вам кажется, что вы нашли нового робота (т.е. он не указан в списке действующих роботов и он заходит с некоторой периодичностью, напишите мне, чтобы я мог внести его в список. Но пожалуйста, не пишите мне о каждом замеченном вами роботе!

Робот чересчур быстро забирает весь мой сайт!

Такие роботы называют «скорострельными», и пользователи, просматривающие лог-файлы, обычно их сразу замечают.

Прежде всего проверьте, действительно ли это проблема, измерив нагрузку на сервер и просмотрев журнал ошибок на предмет отказов в соединении. Если ваш сервер достаточно мощный, такие нагрузки не будут для него сколь-либо заметной проблемой.

Однако, если вы используете в качестве веб-сервера свой персональный компьютер или у вас медленное серверное ПО, или много долго формируемых документов (например, CGI-скрипты или просто очень большие документы), то такие проблемы проявляются в отказах в соединении, высоких нагрузках, замедлении работы или в самом худшем случае в отказах системы.

В таких случаях надо сделать несколько вещей. Глваное, начните записывать информацию – когда вы это заметили, что показывают логи, что вы сделали – это поможет позже разобраться в проблеме. Далее выясните, откуда пришел робот, какие у него IP и доменное имя, и посмотрите, указаны ли они в списке действующих роботов . Если вы таким образом определили что это за робот, вы можете написать e-mail ответственному за него человеку и спросить его, что происходит. Если это не поможет, поищите у них на сайте телефоны или напишите на адрес postmaster @ домен.

Если робот не указан в списке, пришлите мне собраную вами информацию, включая предпринятые вами действия. Даже я не смогу помочь, я напишу об этом роботе и тем самым предупрежу других пользователей.

Как мне заставить роботов держаться подальше от моего сайта?

Об этом в следующем разделе.

Стандарт исключения роботов

Почему у меня в логах появляются запросы файла robots.txt?

Это запросы от роботов, которые пробоуют получить инструкции для обработки сайта в соответствии со .

Если вы не хотите давать роботам никаких инструкций, и в то-же время хотите убрать эти сообщения из логов, попросту создайте в корне сайта пустой файл robots.txt.

Не стоит писать туда html или текст, типа «Кто там?» – вероятнее всего его никто никогда не прочтет:-).

Как запретить роботам индексировать мой сайт?

Самый простой способ – поместить в /robots.txt следующие строчки:

User-agent: *
Disallow: /

Более точечные ограничения задаются также просто.

Где мне узнать как работает файл /robots.txt?

Где я могу достать робота для себя?

Где я могу достать исходный код робота?

Смотрите предыдущий абзац – для некоторых общедоступных роботов может предоставляться исходный код.

Либо посмотрите libwww-perl5 – с ним идет небольшой пример.

Я пишу робота, на что мне стоит обратить особое внимание?

О, на многое. Для начала, прочитайте все материалы этого сайта, потом – отчеты с прошедших WWW-конференций, и спецификации HTML и HTTP..

Ежедневно в интернете появляется огромное количество новых материалов: создаются сайты, обновляются старые веб-страницы, загружаются фотографии и видеофайлы. Без невидимых поисковых роботов невозможно было бы найти во всемирной паутине ни один из этих документов. Альтернативы подобным роботизированным программам на данный момент времени не существует. Что такое поисковый робот, зачем он нужен и как функционируют?

Что такое поисковый робот

Поисковый робот сайтов (поисковых систем) - это автоматическая программа, которая способна посещать миллионы веб-страниц, быстро перемещаясь по интернету без вмешательства оператора. Боты постоянно сканируют пространство находят новые интернет-страницы и регулярно посещают уже проиндексированные. Другие названия поисковых роботов: пауки, краулеры, боты.

Зачем нужны поисковые роботы

Основная функция, которую выполняют поисковые роботы, - индексация веб-страниц, а также текстов, изображений, аудио- и видеофайлов, находящихся на них. Боты проверяют ссылки, зеркала сайтов (копии) и обновления. Роботы также осуществляют контроль HTML-кода на предмет соотвествия нормам Всемирной организации, которая разрабатывает и внедряет технологические стандарты для Всемирной паутины.

Что такое индексация и зачем она нужна

Индексация - это, собственно, и есть процесс посещения определенной веб-страницы поисковыми роботами. Программа сканирует тексты, размещенные на сайте, изображения, видео, исходящие ссылки, после чего страница появляется в результатах поиска. В некоторых случаях сайт не может быть просканирован автоматически, тогда он может быть добавлен в поисковую систему вручную веб-мастером. Как правило, это происходит при отсутствии на определенную (часто только недавно созданную) страницу.

Как работают поисковые роботы

Каждая поисковая система имеет собственного бота, при этом поисковый робот Google может значительно отличаться по механизму работы от аналогичной программы "Яндекса" или других систем.

В общих чертах принцип работы робота заключается в следующем: программа «приходит» на сайт по внешним ссылкам и, начиная с главной страницы, «читает» веб-ресурс (в том числе просматривая те служебные данные, которые не видит пользователь). Бот может как перемещаться между страницами одного сайта, так и переходить на другие.

Как программа выбирает, какой Чаще всего «путешествие» паука начинается с новостных сайтов или крупных ресурсов, каталогов и агрегаторов с большой ссылочной массой. Поисковый робот непрерывно сканирует страницы одну за другой, на скорость и последовательность индексации влияют следующие факторы:

внутренние : перелиновка (внутренние ссылки между страницами одного и того же ресурса), размер сайта, правильность кода, удобство для пользователей и так далее;
внешние : общий объем ссылочной массы, которая ведет на сайт.

Первым делом поисковый робот ищет на любом сайте файл robots.txt. Дальнейшая индексация ресурса проводится, основываясь на информации, полученной именно от этого документа. Файл содержит точные инструкции для "пауков", что позволяет повысить шансы посещения страницы поисковыми роботами, а следовательно, и добиться скорейшего попадания сайта в выдачу "Яндекса" или Google.

Программы-аналоги поисковых роботов

Часто понятие «поисковый робот» путают с интеллектуальными, пользовательскими или автономными агентами, "муравьями" или "червями". Значительные отличия имееются только по сравнению с агентами, другие определения обозначают схожие виды роботов.

Так, агенты могут быть:

интеллектуальными : программы, которые перемещаются от сайта к сайту, самостоятельно решая, как поступать дальше; они мало распространены в интернете;
автономными : такие агенты помогают пользователю в выборе продукта, поиске или заполнении форм, это так называемые фильтры, которые мало относятся к сетевым программам.;
пользовательскими : программы способствуют взаимодействию пользователя со Всемирной паутиной, это браузеры (например, Opera, IE, Google Chrome, Firefox), мессенджеры (Viber, Telegram) или почтовые программы (MS Outlook или Qualcomm).

"Муравьи" и "черви" больше схожи с поисковыми "пауками". Первые образуют между собой сеть и слаженно взаимодействуют подобно настоящей муравьиной колонии, "черви" же способны самовоспроизводиться, в остальном действуют так же, как и стандартный поисковый робот.

Разновидности поисковых роботов

Различают множество разновидностей поисковых роботов. В зависимости от назначения программы они бывают:

«Зеркальными» - просматривают дубликаты сайтов.
Мобильными - нацелены на мобильные версии интернет-страниц.
Быстродействующими - фиксируют новую информацию оперативно, просматривая последние обновления.
Ссылочными - индексируют ссылки, подсчитывают их количество.
Индексаторами различных типов контента - отдельных программ для текста, аудио- и видеозаписей, изображений.
«Шпионскими» - ищут страницы, которые еще не отображаются в поисковой системе.
«Дятлами» - периодически посещают сайты, чтобы проверить их актуальность и работоспособность.
Национальными - просматривают веб-ресурсы, расположенные на доменах одной страны (например, .ru, .kz или.ua).
Глобальными - индексируют все национальные сайты.

Роботы основных поисковых систем

Существуют также отдельные роботы поисковых систем. В теории их функциональность может значительно различаться, но на практике программы практически идентичны. Основные отличия индексации интернет-страниц роботами двух основных поисковых систем состоят в следующем:

Строгость проверки. Считается, что механизм поискового робота "Яндекса" несколько строже оценивает сайт на соответствие стандартам Всемирной паутины.
Сохранение целостности сайта. Поисковый робот Google индексирует сайт целиком (в том числе медиаконтент), "Яндекс" же может просматривать страницы выборочно.
Скорость проверки новых страниц. Google добавляет новый ресурс в поисковую выдачу в течение нескольких дней, в случае с "Яндексом" процесс может растянуться на две недели и более.
Частота переиндексации. Поисковый робот "Яндекса" проверяет наличие обновлений пару раз в неделю, а Google - один раз в 14 дней.

Интернет, конечно же, не ограничивается двумя поисковыми системами. Другие поисковики имеют своих роботов, которые следуют собственным параметрам индексации. Кроме того, существует несколько "пауков", которые разработаны не крупными поисковыми ресурсами, а отдельными командами или веб-мастерами.

Распространенные заблуждения

Вопреки распространенному мнению, "пауки" не обрабатывают полученную информацию. Программа только сканирует и сохраняет веб-страницы, а дальнейшей обработкой занимаются совершенно другие роботы.

Также многие пользователи считают, что поисковые роботы оказывают негативное воздействие и «вредны» интернету. Действительно, отдельные версии "пауков" могут значительно перегружать сервера. Имеет место и человеческий фактор - веб-мастер, который создавал программу, может допускать ошибки в настройках робота. Все же большинство действующих программ хорошо спроектированы и профессионально управляются, а любые возникающие неполадки оперативно устраняются.

Как управлять индексацией

Поисковые роботы являются автоматическими программами, но процесс индексации может частично контролироваться веб-мастером. В этом значительно помогает внешняя и ресурса. Кроме того, можно вручную добавить новый сайт в поисковую систему: крупные ресурсы имеют специальные формы регистрации веб-страниц.

Для сканирования веб-сайтов поисковые системы используют роботов (пауков, краулеров) — программы для индексации страниц и занесения полученной информации в базу данных. Принцип действия паука похож на работу браузера: он оценивает содержимое страницы, сохраняет ее на сервере поисковика и переходит по гиперссылкам в другие разделы.

Разработчики поисковых систем могут ограничивать максимальный объем сканируемого текста и глубину проникновения робота внутрь ресурса. Поэтому для эффективной раскрутки сайта эти параметры корректируют в соответствии с особенностями индексации страниц различными пауками.

Частота визитов, порядок обхода сайтов и критерии определения релевантности информации запросам пользователей задаются поисковыми алгоритмами. Если на продвигаемый ресурс ведет хотя бы одна ссылка с другого веб-сайта, роботы со временем его проиндексируют (чем больше вес линка, тем быстрее). В обратном случае для ускорения раскрутки сайта его URL добавляют в базу данных поисковых систем вручную.

Виды пауков

В зависимости от назначения различают следующие виды поисковых роботов.

национальные, или главные . Собирают информацию с одного национального домена, например, .ru или.su, и принятых к индексации сайтов;
глобальные . Осуществляют сбор данных со всех национальных сайтов;
индексаторы картинок, аудио и видео файлов ;
зеркальщики . Определяют зеркала ресурсов;
ссылочные . Подсчитывают число ссылок на сайте;
подсветчики . Оформляют результаты поисковых систем, например, выделяют в тексте запрашиваемые словосочетания;
проверяющие . Контролируют наличие ресурса в базе данных поисковика и число проиндексированных документов;
стукачи (или дятлы) . Периодически определяют доступность сайта, страницы или документа, на который ведет ссылка;
шпионы . Выполняют поиск ссылок на ресурсы, еще не проиндексированные поисковыми системами;
смотрители . Запускаются в ручном режиме и перепроверяют полученные результаты;
исследователи . Используются для отладки поисковых алгоритмов и изучения отдельных сайтов;
быстрые роботы . В автоматическом режиме проверяют дату последнего обновления и оперативно индексируют новую информацию.

Обозначения

При поисковой оптимизации сайта часть контента закрывают от индексации роботами (личную переписку посетителей, корзины заказов, страницы с профилями зарегистрированных пользователей и т.д.). Для этого в файле robots.txt в поле User-agent прописывают имена роботов: для поисковой системы Яндекс - Yandex, для Google - Googlebot, для Rambler - StackRambler, для Yahoo - Yahoo! Slurp или Slurp, для MSN - MSNBot, для Alexa - ia_archiver и т.д.

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Как функционируют роботы поисковых систем

Поисковый робот (паук, бот) представляет собой небольшую программу, способную без участия оператора посещать миллионы web-сайтов и сканировать гигабайты текстов. Считывание страниц и сохранение их текстовых копий – это первая стадия индексации новых документов. Следует отметить, что роботы поисковых систем не осуществляют какую-либо обработку полученных данных. В их задачу входит только сохранение текстовой информации.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Список поисковых роботов

Из всех поисковиков, занимающихся сканированием Рунета, самой большой коллекцией ботов располагает Яндекс. За индексацию отвечают следующие боты:

главный индексирующий робот, собирающий данные со страниц web-сайтов;
бот, способный распознавать зеркала;
поисковый робот Яндекс, осуществляющий индексацию картинок;
паук, просматривающий страницы сайтов, принятых в РСЯ;
робот, сканирующий иконки favicon;
несколько пауков, определяющих доступность страниц сайта.

Главный поисковый робот Google занимается сбором текстовой информации. В основном он просматривает html-файлы, с определенной периодичностью анализирует JS и CSS. Способен воспринимать любые типы контента, разрешенные к индексации. ПС Гугл располагает пауком, контролирующим индексацию изображений. Есть также поисковый робот – программа, поддерживающая функционирование мобильной версии поиска.

Увидеть сайт глазами поискового робота

Чтобы исправить погрешности кода и прочие недочеты, вебмастер может узнать, как видит сайт поисковый робот. Эту возможность предоставляет ПС Google. Потребуется перейти в инструменты для вебмастеров, а затем кликнуть на вкладку «сканирование». В открывшемся окне нужно выбрать строчку «просмотреть как Googlebot». Далее нужно завести адрес исследуемой страницы в поисковую форму (без указания домена и протокола http://).

Выбрав команду «получить и отобразить», вебмастер сможет визуально оценить состояние страницы сайта. Для этого понадобится кликнуть по галочке «запрос на отображение». Откроется окно с двумя версиями web-документа. Вебмастер узнает, как видит страницу обычный посетитель, и в каком виде она доступна для поискового паука.

Совет!Если анализируемый web-документ еще не проиндексирован, то можно воспользоваться командой «добавить в индекс» >> «сканировать только этот URL». Паук проанализирует документ через несколько минут, в ближайшем времени web-страница появится в выдаче. Месячный лимит запросов на индексацию составляет 500 документов.

Как повлиять на скорость индексирования

Выяснив, как работают поисковые роботы, вебмастер сможет гораздо результативнее продвигать свой сайт. Одной из основных проблем многих молодых web-проектов является плохая индексация. Роботы поисковых систем неохотно посещают неавторитетные интернет ресурсы.
Установлено, что скорость индексации напрямую зависит от того, с какой интенсивностью обновляется сайт. Регулярное добавление уникальных текстовых материалов позволит привлечь внимание поисковика.

Для ускорения индексации можно воспользоваться соцзакладками и сервисом twitter. Рекомендуется сформировать карту сайта Sitemap и загрузить ее в корневую директорию web-проекта.

Поисковый паук (другие наименования - робот, веб-паук, краулер) - программа поисковой системы, сканирующая веб-ресурсы для отражения сведений о них в базе данных.

С какой целью создают поисковых пауков?

Приведём элементарный пример. Представим себе Иванова Валерия, который регулярно посещает сайт http://it-ebooks.info/ , где ежедневно публикуются новые электронные книги. Заходя на ресурс, Валерий выполняет заданную последовательность действий:

1) открывает главную страницу;

2) заходит в раздел «Последние загруженные произведения»;

3) оценивает новинки из списка;

4) при появлении интересных заголовков, проходит по ссылкам;

5) читает аннотацию и, если она интересна, скачивает файл.

Указанные действия отнимают у Валерия 10 минут. Однако, если тратить на поиск 10 минут в день, в месяц это уже 5 часов. Вместо этого к задаче можно привлечь программу, отслеживающую новинки по расписанию. По механизму действия она будет представлять собой простейшего веб-паука, заточенного под выполнение определенных функций. Без краулеров не выживет никакая поисковая система, будь то лидеры Google и «Яндекс» или предприимчивые стартапы. Боты перемещаются по сайтам, отыскивая сырье для поисковой системы. При этом чем с большей отдачей трудится паук, тем актуальнее результаты выдачи (рис. 1) .

Рис. 1. Схема работы краулера

Рис. 2. Различия в проверках краулера (схема)

Рис. 3. Пример простого файла robots.txt

Функции веб-пауков

В зависимости от поисковой системы, функции, которые мы перечислим ниже, могут выполнять один или несколько роботов.

1. Сканирование контента сайта. Функция краулера первого порядка - обнаружение вновь созданных страниц и сбор размещенной текстовой информации.

2. Считывание графики. Если поисковая система подразумевает поиск графических файлов, для этой цели может быть введен отдельный веб-паук.

3. Сканирование зеркал. Робот находит идентичные по содержанию, но разные по адресу, ресурсы. «Работник», наделенный такими должностными полномочиями, есть у «Яндекса».

Виды поисковый роботов

У поисковых систем есть несколько пауков, каждый из которых поддерживает выполнение запрограммированных функций (рис. 2) .

Пауки «Яндекс»

Yandex/1.01.001 (compatible; Win16; I) - центральный поисковый продукт «Яндекса», который индексирует контент.
Yandex/1.01.001 (compatible; Win16; P) - робот, который индексирует картинки и фотографии.
Yandex/1.01.001 (compatible; Win16; H) - отыскивает зеркала и дубли ресурса.
Yandex/1.03.003 (compatible; Win16; D) - первый паук, который приходит на ресурс после добавления его через раздел вебмастера. Его задачи - проверка добавленных параметров, указанных в панели, на соответствие.
Yandex/1.03.000 (compatible; Win16; M) - краулер, который посещает страницу после ее загрузки по ссылке «Найденные слова» в поисковой выдаче.
YaDirectBot/1.0 (compatible; Win16; I) - индексирует сайты из рекламной сети «Яндекса» (РСЯ).
Yandex/1.02.000 (compatible; Win16; F) - бот сканирует фавиконы сайтов.

Пауки Google

Googlebot - центральный робот.
Googlebot News - бот, который находит и индексирует новости.
Google Mobile - анализирует версии сайтов для смартфонов.
Googlebot Images - веб-паук, индексирующий графику.
Googlebot Video - сканирует видеоролики и индексирует их.
Google AdsBot - оценивает страницу по качественным параметрам.
Google Mobile AdSense и Google AdSense - индексируют сайты рекламной сети Google.

Вежливые пауки - как научить роботов правилам поведения

Вежливыми называют краулеров, которые действуют, придерживаясь существующих правил поведения на сайте. Эти правила пишут вебмастеры, размещая их в файле robots.txt (рис. 3) . Пауки, которые попадают на сайт, на начальном этапе изучают информацию в указанном файле, где перечислены страницы, содержание которых не подлежит разглашению (регистрационные данные пользователей, административные сведения). Получив указания, паук приступает к индексации сайта, либо покидает его.

В robots.txt прописывают:

Вежливый робот всегда представляется и указывает в заголовке запроса реквизиты, которые дают возможность вебмастеру связаться с владельцем. Для чего вводятся ограничения? Владельцы ресурсов заинтересованы в привлечении реальных пользователей и не желают, чтобы программы строили на их контенте свой бизнес. Для этих целей сайты часто настраивают на обслуживание браузерных HTTP-запросов и лишь за тем - запросов от программ.