DataparkSearch Engine 4.49: Поисковая машина; Справочное руководство | ||
---|---|---|
Пред. | Глава 4. HTML-парсер в DataparkSearch | След. |
Если вам нужно индексировать не всю страницу целиком, например, чтобы исключить навигацию, рекламу и т.п., вы можете использовать команду BodyPattern чтобы указать шаблон для извлечения контента для индексирования. Например:
BodyPattern "<!--content-->(.*)<!--/content-->" "$1"этот шаблон будут извлекать контент между двумя специальными комментариями, и только этот контен будет проиндексирован для этой страницы.
Вы можете задать несколько команд BodyPattern, но только первая по порядку подходящая будет применена к странице. Эти команды пытаются примениться к каждой индексируемой странице. Осторожно, большое число таких команд может замедлить скорость индексирования.
Пред. | Начало | След. |
Комментарии | Уровень выше | Хранение данных |