DataparkSearch Engine 4.49

Поисковая машина

Справочное руководство


Содержание
1. Введение
1.1. Возможности DataparkSearch
1.2. Где взять DataparkSearch
1.3. Disclaimer
1.4. Авторы
1.4.1. Помощники
2. Установка
2.1. Требования к SQL базе даных
2.2. Поддерживаемые операционные системы
2.3. Инструментарий, необходимый для установки
2.4. Инсталяция DataparkSearch
2.5. Возможные проблемы установки
2.6. Регистрация установки
3. Индексирование
3.1. Общая информация об индексировании
3.1.1. Конфигурирование
3.1.2. Запуск indexer
3.1.3. Создание SQL-таблиц
3.1.4. Удаление SQL-таблиц
3.1.5. Управление подсекциями
3.1.6. Как очистить базу данных
3.1.7. Статистика базы данных
3.1.8. Проверка ссылок
3.1.9. Параллельное индекирование
3.2. Реакция на коды HTTP-ответа
3.3. Поддержка Content-Encoding
3.4. Стопслова
3.4.1. Команда StopwordFile
3.5. Клоны документов
3.5.1. Команда DetectClones
3.6. Указание веб-пространства для индексирования
3.6.1. Команда Server
3.6.2. Команда Realm
3.6.3. Команда Subnet
3.6.4. Использование различным параметров для сервера и его подсекций
3.6.5. Использование indexer -f <filename>
3.6.6. Команды ServerDB, RealmDB, SubnetDB и URLDB
3.6.7. Команда URL
3.7. Алиасы
3.7.1. Команда Alias (из indexer.conf)
3.7.2. Алиасы для различных частей сервера
3.7.3. использование алиасов в команде Server
3.7.4. Использование алиасов в команде Realm
3.7.5. Команда AliasProg
3.7.6. Команда ReverseAlias
3.7.7. Алиасы в search.htm
3.8. ServerTable
3.8.1. Загрузка таблицы серверов
3.8.2. Структура таблицы серверов
3.8.3. Команда FlushServerTable
3.9. Внешние парсеры
3.9.1. Поддерживаемые типы парсеров
3.9.2. Установка парсеров
3.9.3. Воизбежание зависания парсера при выполнении
3.9.4. Конвееры в командных строках парсеров
3.9.5. Кодировки и парсеры
3.9.6. Переменная окружения DPS_URL
3.9.7. Некоторые внешние парсеры
3.10. Остальные команды, используемые в indexer.conf
3.10.1. Команда Include
3.10.2. Команда DBAddr
3.10.3. Команда VarDir
3.10.4. Команда NewsExtensions
3.10.5. Команда SyslogFacility
3.10.6. Команды указания длины слова
3.10.7. Команда MaxDocSize
3.10.8. Команда MinDocSize
3.10.9. Команда IndexDocSizeLimit
3.10.10. Команда URLSelectCacheSize
3.10.11. Команда URLDumpCacheSize
3.10.12. Команда UseCRC32URLId
3.10.13. Команда HTTPHeader
3.10.14. Команда Allow
3.10.15. Команда Disallow
3.10.16. Команда CheckOnly
3.10.17. Команда HrefOnly
3.10.18. Команда CheckMp3
3.10.19. Команда CheckMp3Only
3.10.20. Команда IndexIf
3.10.21. Команда NoIndexIf
3.10.22. Команда HoldBadHrefs
3.10.23. Команда DeleteOlder
3.10.24. Команда UseRemoteContentType
3.10.25. Команда AddType
3.10.26. Команда Period
3.10.27. Команда PeriodByHops
3.10.28. Команда ExpireAt
3.10.29. Команда UseDateHeader
3.10.30. Команда Tag
3.10.31. Команда TagIf
3.10.32. Команда Category
3.10.33. Команда CategoryIf
3.10.34. Команда MaxHops
3.10.35. Команда TrackHops
3.10.36. Команда MaxDepth
3.10.37. Команда MaxDocsPerServer
3.10.38. Команда MaxNetErrors
3.10.39. Команда ReadTimeOut
3.10.40. Команда DocTimeOut
3.10.41. Команда NetErrorDelayTime
3.10.42. Команда Cookies
3.10.43. Команда Robots
3.10.44. Команда RobotsPeriod
3.10.45. Команда CrawlDelay
3.10.46. Команда Section
3.10.47. Команда HrefSection
3.10.48. Команда Index
3.10.49. Команда ProxyAuthBasic
3.10.50. Команда Proxy
3.10.51. Команда AuthBasic
3.10.52. Команда ServerWeight
3.10.53. Команда OptimizeAtUpdate
3.10.54. Команда SkipUnreferred
3.10.55. Команда Bind
3.10.56. Команда ProvideReferer
3.11. Расширенные возможности индексирования
3.11.1. Индексирование таблиц SQL баз данных (виртуальная URL схема htdb:)
3.11.2. Индексирование вывода программ (виртуальные схемы URL exec: и cgi:)
3.11.3. Зеркалирование
3.12. Использование syslog
3.13. Хранение сжатых копий документов
3.13.1. Конфигурирование stored
3.13.2. Как работает stored
3.13.3. Использование stored при поиске
4. HTML-парсер в DataparkSearch
4.1. Tag-парсер
4.2. Специальные символы
4.3. META-тэги
4.4. Ссылки
4.5. Комментарии
4.6. Шаблоны для индексирования
5. Хранение данных
5.1. SQL режимы хранения
5.1.1. Общая инфоромация о хранении
5.1.2. Разнообразные способы хранения слов
5.1.3. Способ хранения single
5.1.4. Способ хранения multi
5.1.5. Способ хранения crc
5.1.6. Способ хранения crc-multi
5.1.7. Способ хранения cache
5.1.8. Замечание о стуктуре таблиц для SQL серверов
5.1.9. Дополнительные возможности не-CRC режимов хранения
5.2. Способ хранения Cache
5.2.1. Введение
5.2.2. Структура индексов слов при способе хранения Cache
5.2.3. Утилиты для способа хранения Cache
5.2.4. Запуск способа хранения cache
5.2.5. Использование нескольких splitter одновременно
5.2.6. Использование скрипта run-splitter
5.2.7. Поиск
5.2.8. Использование лимитов при поиске
5.3. К вопросу производительности DataparkSearch
5.3.1. Рекомендация использовать searchd
5.3.2. Рекомендация использовать файловую систему в памяти (mfs)
5.3.3. Команда URLInfoSQL
5.3.4. Команда MarkForIndex
5.3.5. Команда CheckInsertSQL
5.3.6. Производительность MySQL
5.3.7. Оптимизация после индексирования
5.3.8. Библиотека асинхронного резолвера
5.4. Поддержка SearchD
5.4.1. Для чего использовать searchd
5.4.2. Запуск searchd
5.5. Oracle notes
5.5.1. Introduction
5.5.2. Compilation, Installation and Configuration
6. Подсекции
6.1. Тэги
6.1.1. Тэги в SQL версии
6.2. Категории
7. Поддержка языков
7.1. Кодировки
7.1.1. Поддерживаемые кодировки
7.1.2. Разные названия кодировок
7.1.3. Перекодировка во время индексации
7.1.4. Выбор LocalCharset
7.1.5. Определение кодировки документа
7.1.6. Автоматическое распознавание кодировки
7.1.7. Кодировка документов по-умолчанию
7.1.8. Язык документов по-умолчанию
7.1.9. Перекодировка во время поиска
7.1.10. Команда LocalCharset
7.1.11. Команда RemoteCharset
7.1.12. Команда URLCharset
7.1.13. Команда CharsToEscape
7.2. Создание многоязычных страниц поиска
7.2.1. Как это работает ?
7.2.2. Возможные сложности
7.3. Сегментеры фраз японского, тайского, корейского и китайского языков
7.3.1. Сегментер фраз японского языка
7.3.2. Сегментер фраз китайского языка
7.3.3. Сегментер фраз тайского языка
7.3.4. Сегментер фраз корейского языка
7.4. Поддержка мультиязычных веб серверов
8. Поиск документов
8.1. Использование поисковых фронт-эндов
8.1.1. Осуществление поиска
8.1.2. Параметры поиска
8.1.3. Изменение весов различных частей документов во время поиска
8.1.4. Использование фронт-энда на страницах с SSI
8.1.5. Использование нескольких шаблонов
8.1.6. Булев поиск
8.1.7. Язык запросов Verity Query Language, VQL
8.1.8. Как используются при поиске устаревшие документы
8.2. Модуль mod_dpsearch для Apache httpd
8.2.1. Для чего использовать mod_dpsearch
8.2.2. Конфигурирование mod_dpsearch
8.3. Как создавать шаблоны результатов поиска
8.3.1. Секции шаблона
8.3.2. Секция Variables
8.3.3. Включения в шаблонах
8.3.4. Условные операторы в шаблонах
8.3.5. О безопасности
8.4. Дизайн search.html
8.4.1. Как создаётся страница результатов
8.4.2. Ваш HTML-шаблон
8.4.3. О формах
8.4.4. Относительные ссылки в search.htm
8.4.5. Добавление формы поиска на другие страницы
8.5. Релевантность
8.5.1. Упорядочивание документов
8.5.2. Расчёт релевантности
8.5.3. Рейтинг популярности
8.5.4. Булевы запросы
8.5.5. Crosswords
8.5.6. Алгоритм Построения Рефератов (SEA)
8.6. Регистрация поисковых запросов
8.7. Кэш результатов поиска
8.8. Нечёткий поиск
8.8.1. Ispell
8.8.2. Aspell
8.8.3. Синонимы
8.8.4. Поиск без учёта акцентов над буквами
8.8.5. Акронимы и аббревиатуры
9. Разное
9.1. Сообщение о багах
9.1.1. Посмертные дампы
9.2. Использование библиотеки libdpsearch
9.2.1. Скрипт dps-config
9.2.2. DataparkSearch API
9.3. Структура таблиц базы данных
Предметный указатель
Список таблиц
3-1. уровни подробности сообщений indexer'а
5-1. Типы лимитов способа хранения Cache
7-1. Кодировки и их языковые группы
7-2. Синонимы наименований кодировок
8-1. Параметры поиска
8-2. Операторы VQL, поддерживаемые DataparkSearch
8-3. Параметры расчёта релевантности, задаваемые при компиляции (ключи для configure)
9-1. Структура таблицы server
9-2. Значения некоторых параметров серверов в таблице srvinfo