Что такое парсер?

  • Автор темы MODERN
  • Дата начала
MODERN
Участник
Сообщения
756
Реакции
130
Парсер – это программа для автоматизации процесса парсинга, то есть обработки информации по определенному алгоритму.

  1. То же, что граббер, т. е. скрипт или программа, которые используются для сбора информации с сайтов для последующего размещения на собственных ресурсах.
  2. Первоначально под парсингом подразумевался процесс поиска определенной информации в большом фрагменте текста, а так же разбиение данных на смысловые части.
Примеры использования парсеров
Парсеры и грабберы используются в следующих случаях:

  • Поддержание информации в актуальном состоянии. Применимо в таких областях, где информация быстро теряет актуальность и уже неприменима спустя буквально несколько минут. В таких случаях ручное ее редактирование практически невозможно или требует колоссальных затрат человеческих ресурсов. Например, для отображения курса валют или погоды.
  • Полное или частичное копирование материалов сайта с последующим размещением этих материалов на своих ресурсах. Например, для использования на сателлитах. При этом текст может быть предварительно пропущен через синонимайзер или обработан рерайтером для повышения уникальности. Очень часто парсингу подвергаются сайты с отзывами о кино и книгах, а так же сайты с рецептами, текстами песен и стихов.
  • Объединение потоков информации из разных источников в одном месте и ее постоянное обновление. Например, существуют агрегаторы, которые собирают все предложения с сайтов по фрилансу в одном месте. Они позволяют моментально отслеживать все предложения и быть одним из первых откликнувшихся на предложение работодателя. Агрегирование новостных потоков из нескольких источников и так далее.
Как работают парсеры (грабберы)
Они могут писаться на любом языке программирования, где есть поддержка регулярных выражений. Например, на PHP. Кстати, я начал серию уроков по PHP для начинающих, можете ознакомиться хотя бы в общих чертах. Это полезно. Лично я предпочитаю работать с C#, т.к. привык к нему еще с университета. Да и к тому же это полноценный язык программирования…(problem?)
Сердцем любого парсера является регулярное выражение. Если коротко, то оно представляет собой набор метасимволов, которые служат своего рода маской для поиска информации.
Примеры регулярных выражений вы можете сами найти в интернете, т.к. их синтаксис зависит от конкретного языка программирования.
 
Сверху