понедельник, 30 апреля 2012 г.

Solr & Lucene


                                     Lucene Logo



Содержание
1.   Apache Solr & lucene
  • Что такое Lucene?
  • Что такое Solr?
  • История возникновения.
  • Текущее состояние. Последняя версия.
2.   Где используется
  • Кросплатформенность, примеры проектов(http://wiki.apache.org/solr/PublicServers)
  • Готовые клиенты для множества языков разработки (в том числе PHP)
3.   Возможности
  • Масштабирование - репликация и шардинг в составе платформы
  • Высокая скорость индексации
  • Индексация в реальном времени
  • Поддержка языков
  • Гибкость благодаря мощной системе конфигурации
  • RunTime конфигурация
  • Работа с различными форматами данных(pdf, doc, json, xml)
  • Индексирование баз данных
  • Кэширование
  • Фильтрация
  • Backup индекса
  • Web панель администрирования
  • Расширяемость благодаря поддержке плагинов
  • Текстовый анализ (разнообразные текстовые фильтры)
  • Язык запросов (фильтры, сортировки, работа с датой/временем, функциональные запросы и многое другое)
  • Приблизительный поиск (неточные совпадения) и проверка запросов на ошибки (подсказки вариантов)
4.   Работа с базами данных
  • Поддержка различных типов баз данных
  • Структура базы данных
  • Оптимизация работы с базой данных, нормализация.
5.   Конфигурация
  • Файлы конфигурации
  • Понятие Документ
  • Stemming, lemmatization - tokenization
  • Анализаторы
  • Schema.xml
  • Создание типов полей
  • Описание полей
  • SolrConfig.xml
  • Файлы конфигурации импорта
  • Описание сущностей документа
  • Парсер запросов Dismax
  • Конфигурация работы в режиме многоядерности
  • Настройка Фильтрации
  • Настройка сортировки
  • Использование расширенного парсера запросов Edismax
6.   Тестирование
  • ПП для измерения производительности: индексирование, поиск
  • Debug режим