Извлечение ссылок с веб-сайтов, Google Chrome XPath Scraper

Извлечение ссылок с веб-сайтов, Google Chrome XPath Scraper

Очень часто вы можете найти веб-сайты, содержащие каталоги, крендели, домены или прокси. Иногда мы хотели бы получить только ссылки с такого сайта. С несколькими сотнями подстраниц, на каждые 20-100 ссылок, ручное копирование нереально … если у кого-то много свободного времени и терпения. Щелчок, копирование, вставка с помощью эхо-ноутбука … это не для нас. Я знаю лучший метод.

Мы будем использовать браузер Google Chrome, оснащенный дополнением Scraper, чтобы быстро получать ссылки с посещенных веб-сайтов.

Google Chrome Scraper — незаметный инструмент, предназначенный для получения конкретных данных с веб-сайтов и для экспорта информации в электронную таблицу Документов Google. Для обработки данных по умолчанию используются выражения XPath (язык пути XML), сложность которых намного сложнее традиционных регулярных выражений. Это не означает, что XPath страдает от недостатка функциональности, напротив, когда дело доходит до фильтрации данных, это сенсационно. Я не знаю, как это с вами, но я лично считаю, что гораздо проще записывать селектора XPath из памяти, чем классические правила, относящиеся к регулярным выражениям.

Мы запускаем браузер Chrome с установленным Скребком, и мы начинаем играть …

Списки каталогов, извлечение URL с помощью выражений XPath

Во-первых, мы будем заниматься каталогами. Я перейду к примерам. Первое заявление, возможно, одно из самых популярных www.katalogiseo.info

Перейдите на страницу, вызовите контекстное меню и выберите Scrape. Обычно мы должны выбрать выделенный текст (ссылку), а затем выбрать опцию, в случае расширенного соскабливания это необязательно, потому что правило должно быть определено с нуля в любом случае.

Мы назвали модуль Scraper, в левой части окна мы находим поле Reference XPath, в которое нужно ввести выражение, используемое для извлечения ссылок со страницы.

Чтобы построить выражение, стоит перейти к исходному коду и посмотреть, что скрипит в траве. Мы будем использовать Firebug для проверки данного фрагмента. Мы помещаем первую гиперссылку в каталог сверху и выбираем Inspect with Firebug Lite из контекстного меню.

Нас интересует иерархия маркеров, что есть в том, что это такое, какой класс отмечен. Это позволит вам указать, какой элемент сайта должен быть извлечен.

Для www.katalogiseo.info пример выражения XPath имеет форму …

//table/tbody/tr/td/a[@class='broken']

На экране, выделенном желтым цветом, я выбрал, какие элементы были использованы для построения выражения. Я не буду описывать правила правил и способы построения выражений, вы найдете этот тип информации в документации XPath.

Теоретически, если бы я ограничился указанием на [@ class = 'broken'] на выходе, я бы также получил набор ссылок, но я придерживаюсь принципа, тем точнее, тем лучше.

После создания выражения введите его в поле XPath Reference, затем нажмите Scrape или нажмите ENTER. Результатом команды является список URL-адресов.

Теперь самый интересный вариант. В правом нижнем углу находится кнопка «Экспорт в Документы Google». Любые захваченные данные могут быть легко сохранены в книге.

Дополнительным преимуществом плагина является запоминание выражений (пресетов). Сохранение диаграмм помогает при извлечении информации из нескольких страниц / подстраниц.

Если вы используете функции CTRL + A и CTRL + V, после того, как вы вставьте ссылки на ноутбук, будет создан нумерованный список, поэтому вам придется работать с регулярными выражениями, чтобы получить четкую информацию.

Несколько других образцов шаблонов XPath для использования:

  • www.katalogi.net.pl: // table / tbody / tr / td / a [@ class = 'tytul'] / @ href
  • dobre-katalogi.pl: // strong / a / @ href
  • autospis.pl: // div / table / tbody / tr / td / a [@ class = 'nazwaak'] / @ href
  • www.moje-katalogi.pl: // table / tbody / tr / td / table / tbody / tr / td / font [@color = '# 0000FF']

Получение ссылок из результатов поиска

Метод может использоваться для результатов поиска. Пример выражения XPath, которое извлекает URL-адреса из Google:

//div/div/ol/li/div/h3[@class='r']/a/@href

Для поисковой системы Bing …

//div[@class='sb_tlst']/h3/a/@href

Для Блекко …

//li/div/h2[@class='title']/a/@href

Иногда, чтобы получить некоторую информацию с веб-сайта, нет смысла использовать специализированные машины. Я представил этот метод извлечения ссылок как любопытство.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *