Описание тега corpse-party
Я всегда использовал обои (libwww-perl) или ВСП:механизировать рабочие места, как это - есть несколько видов задач по программированию я использовать Python, но я предпочитаю Perl для все, что связано с участием обработка текста.
Пожалуй, самая сложная я писал несколько лет назад, когда моему партнеру и мне принадлежит маленький книжный магазин - ей нужна программа для получения информации о книгах из книги дистрибьютора веб-сайта (ключом, ISBN или штрих-код) и вставить соответствующие данные в ней (в PostgreSQL) база данных.
Обратите внимание, что написание парсера может быть утомительно и отнимает много времени - вы тратите много времени на чтение HTML-код различных веб-страниц и выяснить, как идентифицировать и извлекать только ту информацию, которую вы ищете.
Это не особенно трудно, но это требует хорошего знания HTML и хотя бы среднего уровня навыков программирования.
Вполне вероятно, что вам придется писать разные скребок для каждой базы данных сайта, а не тот, который делает их всех - хотя вы могли бы написать скрипт-обертку, который либо включен их как функции или называют отдельные сценарии в зависимости от сайта.
Веб-сайты, как правило, тоже меняются. Скребок это было прекрасно работать в течение шести или двенадцати месяцев может внезапно перестать работать, потому что сайт был переработан, и он уже не работает так, как ваш скрипт ожидает от него.
Так что, если какой-либо из баз данных, иметь какой-то API для программного доступа (например, с помощью отдыха или мыло или даже РСС), а затем использовать это, а не выскабливание HTML-код. К сожалению, это довольно маловероятно для такой базы данных доступны через библиотеки (владельцы дБ склонны быть предварительно веб отношением к данным и более заинтересованы в контроле и ограничении доступа, чем все остальное). Они не хотят, чтобы сделать его легким для любого, чтобы получить доступ к своим данным через программу, а не браузер, и некоторые принимают значительные усилия, чтобы скрыть их сайты, чтобы сделать HTML код трудно понять, или требуют интерпретатора JavaScript для извлечения ссылок и другие данные.
Для наглядного примера этого, смотреть не дальше, чем на телевидении размещение сайтов - некоторые из них действительно не хочу, чтобы люди, используя их данных, чтобы автоматизировать запись по расписанию для программы, как сервера, так что текущие технологии войны между разработчиков сайтов и сайтов-скребок авторов.
Есть JavaScript интерпретаторы для Perl (в том числе для использования с www::механизируют назвать сайт www::сценарист, но иногда проще изучить на сайте JavaScript код себе, выяснить, что он делает, чтобы скрыть HTML и писать код на Perl, чтобы скрыть данные, не описаны.