Скребок Google, извлечение данных с веб-сайтов

Скребок Google, извлечение данных с веб-сайтов

В руководстве я расскажу о другом бесплатном инструменте, полезном в ситуациях, когда нам нужно получить данные из Google или других веб-сайтов. Простой Google Scraper имеет несколько модулей, базовый для извлечения данных из поисковой системы и экстента регулярного выражения для извлечения определенной информации с веб-сайтов, например, адресов прокси, а также адресов электронной почты. Программа очень полезна и доступна бесплатно.

Простая презентация Google Scraper

Наиболее важные особенности приложения:

  • быстро,
  • Поддерживает прокси,
  • Позволяет установить задержку между последующими запросами,
  • Поддерживает расширенные поисковые операторы, такие как сайт, intitle или inurl,
  • Он позволяет загружать только самые последние данные (с последних 24 часов),
  • Он предлагает возможность изменить местоположение поиска, например, изменить с .com на .pl,
  • Он имеет интеллектуальную поисковую систему, которая минимизирует риск запрета IP-адреса,
  • Он интеллектуально управляет потоками (количество одновременно выполняемых потоков зависит от количества ключевых слов и времени задержки),
  • Он содержит модуль для извлечения данных с веб-сайтов (с использованием регулярных выражений),
  • Он предлагает основные параметры фильтрации.

Простой Google Scraper можно загрузить с этого места.

Наиболее важные элементы:

  • Ключевые слова — список ключевых слов (следы), каждый новый набор из новой строки, вы можете использовать расширенные поисковые операторы,
  • Изменить местоположение Google — измените местоположение поиска,
  • Google Время — ограничение результатов на указанный временной диапазон: когда-либо / в течение последних 24 часов,
  • Proxy — список адресов прокси в стандартном IP-формате: PORT,
  • Load From File — загрузка набора слов / прокси из текстового файла,
  • Delay — время задержки в секундах,
  • Результаты — список результатов,
  • Экспорт в текстовый файл — сохранение извлеченных данных в текстовый файл,
  • Экспорт URL и PR в CSV — сохранение данных с PR в файл в формате CSV,
  • Инструменты — опции для фильтрации, загрузки PR, а также дополнительные модули, такие как RegEx Extractor.
  • Кнопка D — удаление и сортировка дубликатов,
  • Кнопка L — загружает список URL-адресов из текстового файла.
  • Пуск / Прервать скребку — Запуск / остановка выполнения задачи.

Мы начинаем работу с программой с введения следов. Если у нас большой список, стоит добавить не менее нескольких адресов прокси-сервера и установить время задержки. Как проверить, будет ли прокси работать с Google? Вы можете использовать Google Proxy Checker (также бесплатно). Тогда все, что вам нужно сделать, это указать на Start Scraping и выйти на кофе.

Программа страдает от одного довольно серьезного заболевания, а именно, нет кнопки сброса для списка результатов, единственным вариантом является использование функции «Удалить URL-адреса» (в меню «Инструменты»). Вы также можете заметить расхождения в результатах (запрос, сделанный в браузере, дает несколько разные результаты). До сих пор я не вникал в предмет, поэтому не могу сказать, в чем разница.

Несколько слов о … Регулятор экстренного выражения

Теперь пришло время , чтобы обсудить модуль регулярных выражений Extractor, который можно найти в меню Инструменты.

Загрузите список страниц (Загрузить из файла), в поле «Регулярное выражение» введите выражение в формате, совместимом с PCRE / PERL, и запустите процесс «Сброс».

Таким образом, вы можете быстро создать список каталогов, извлечь прокси с веб-сайтов или получить адреса электронной почты. К сожалению, у модуля есть та же проблема, что и основная форма, нет кнопки для сброса списка результатов, что еще хуже, мы не найдем функцию Remove URLs, а это означает, что для каждого нового проекта требуется перезапуск окна RegEx. Для этого раздражающего сообщения о закрытии окна экстрактора, но оно может быть испытано.

Лично мне не нравится RegEx, я предпочитаю использовать скребки XPath для получения данных, быстрее, точнее и проще формулировать в них. В одной из следующих статей я представляю одну из таких бесплатных программ, поэтому стоит следить за блогами на Facebook или через RSS-канал.

В заключение я считаю Simple Google Scraper очень интересным проектом. Это стоит проверить!