18-02-2019 00:04

Поисковая машина Sphinx: основные возможности, применение

Содержание статьи:

В наши дни вряд ли кто-то захочет выбирать товары в интернет-магазине, где нужно разбираться в категориях или прокручивать длинные списки товаров.

Существует множество доступных инструментов, которые могут сделать внутренний поиск по сайту быстрым, интуитивно понятным и адаптированным к любым потребностям клиентов.

поисковая машина Shpinx

Поисковая машина Sphinx, кажется, обещает именно это. Полнотекстовая поисковая система является одновременно гибкой и быстрой.

Вам будет интересно:Как записать видеозвонок в «Ватсапе», что для этого нужно

Sphinx работает как автономный сервер и не хранит текст для себя. Он создает индекс, основанный на запросе SQL, который извлекает документы из базы данных, сохраняет индексы и на более позднем этапе возвращает строки, соответствующие запросу.

поиск информации

Что такое Sphinx

Поисковая машина Sphinx – это полнотекстовая поисковая система, которая бесплатна, быстра и масштабируема. Она предназначена для производительности и актуальности. Не имеет аналогов ни в одной традиционной базе данных.

Вам будет интересно:Как отключить DEP в Windows 10 и ниже: основные методы

Большое количество известных сайтов с высоким трафиком полагаются на него для продвинутого уровня поиска и масштабируемости

Основные возможности Sphinx

Sphinx помогает включить и повысить ценность поиска и масштабируемости благодаря следующим характеристикам, которые делают его популярным среди тысяч разработчиков и продавцов электронной коммерции.

Высокая скорость поиска (до 150-250 Мбит/с на ядре с 1 000 000 документов).

Поддержка распределенного поиска в реальном времени.

Высокая скорость индексации (до 10-15 Мбит/с на одно ядро).

Высокая масштабируемость (самый большой из известных кластеров способен индексировать до 3 000 000 000 документов и может обрабатывать более 50 миллионов запросов в день).

Одновременная поддержка нескольких полей (до 32 по умолчанию) для полнотекстового поиска документов.

Возможность поддерживать ряд дополнительных атрибутов для каждого документа (например, группы, метки времени и т. д.).

Использование стоп-слов.

Поддержка различных API языков программирования (например, для PHP, Python, Java, Perl, Ruby, .NET и C ++ и т. д.).

Возможность обрабатывать как однобайтовые кодировки, так и UTF-8.

Морфологический поиск.

Интеграция с наиболее популярными системами управления базами данных (например, MySQL, PostgreSQL)

Вам будет интересно:Windows 10: удаление учетной записи. Описание и способы

В целом поисковая машина Sphinx имеет более 50 различных функций (и это число постоянно растет).

поиск информации

Как работает Sphinx

Вся сложность схемы работы поисковика суммируется в 2 ключевых моментах:

используя исходную таблицу, Sphinx создает собственную базу данных индексов;
затем, когда пользователь отправляет запрос API, Sphinx возвращает массив идентификаторов, которые соответствуют идентификаторам в исходной таблице.

Зачем использовать Sphinx

Основная причина, по которой следует его использовать, - скорость поиска. Обычные поиски пользователя в MySQL занимают значительно больше времени, чем поиск в Sphinx. Пользователь начинает замечать разницу, как только его база данных будет иметь миллионы записей. Если база данных небольшая (например, форум из 100 пользователей), это не совсем то, что нужно. Хотя можно попробовать. Плюс есть интересные функции, такие как морфология слова (если пользователь ищет кошек, это будет соответствовать кошке, если он ищет бега, это будет соответствовать бегу, бегам и т. д.).

Другая причина – это полнотекстовый поиск. Задумывался ли кто-то о том, что во время осуществления поиска двух слов в Google он будет искать их в том же абзаце или в двух абзацах (или в предложении), но не по всей странице? Sphinx же позволяет делать похожие вещи.

поисковая система

Масштабируемость заключается в следующем. Если у пользователя большие базы данных на многих серверах, Sphinx позаботится об этом. И приложение будет считать, что оно работает на одном сервере. Sphinx может снять большую часть нагрузки с PHP-серверов с точки зрения обработки и поиска информации.

Sphinx немного отличается от того, к чему пользователь привык с запросами MySQL. Так что не стоит ожидать получить все мгновенно.

Что такое индексация

Sphinx извлекает данные из таблицы в базе данных MySQL и выполняет для них процесс, называемый индексацией. Индексация создает файл, который можно легко найти с помощью Sphinx. Например, если пользователь попытается найти документ в Microsoft Word, он будет искать слова одно за другим в тексте документа. В очень больших документах поиск может быть очень медленным. С другой стороны, Sphinx производит индексацию перед выполнением любых поисков. Это создает индекс, который можно эффективно искать, а не отыскивать слово за словом по всему документу. Хорошим примером является индекс энциклопедии. Если пользователь хочет найти информацию о кошках, он мог бы делать то же, что и Microsoft Word, и читать каждую страницу энциклопедии в поисках появления слова «кошка». Или он может посмотреть алфавитный указатель в конце книги, где написано, что о кошках информация размещена на страницах 104, 195 и 653. Так гораздо проще.

Shpinx поисковая машина

Можно искать только то, что проиндексировано

Что необходимо помнить, так это то, что Sphinx может искать только в индексе. Это означает, что каждый раз, когда пользователь хочет найти последние результаты, он должен обновить индекс.

Доступ к данным

Если пользователь уже работал с PHP с MySQL, ему будет намного проще. В противном случае ему, вероятно, следует изучить PHP и MySQL.

Поисковая машина Sphinx обычно возвращает идентификаторы MySQL, а не данные.

Главное, что необходимо помнить о Sphinx, это то, что он не извлекает данные. В первую очередь он получает идентификаторы документов. Sphinx делает интенсивную часть, которая ищет конкретные записи. Затем пользователь может выполнить простую часть через MySQL, который получает этот документ. Так, например, если Sphinx извлекает идентификаторы документов 1, 5 и 7 из индекса, то потребуется выполнить запрос в MySQL для получения записей (вероятно, с идентификаторами 1,5 и 7). Можно подумать, что это примитивно, но MySQL требует очень мало ресурсов для поиска идентификатора документа по сравнению с поиском слова.

Пример. Скажем, Sphinx вытаскивает документы с идентификаторами 1, 5, 7 (SELECT * FROM documents WHERE id IN (1,5,7)).

Пользователь сообщает MySQL, что нужно выбрать все столбцы из таблицы документов (или любой другой, в которой был результат), где идентификатор (или то, что было названо его полем) равен 1, 5 или 7. И затем можно использовать mysql_fetch_array в PHP, дабы посмотреть на данные и делать с ними, что угодно.

После того как будет освоена работа в Sphinx для упорядочивания результатов, можно сохранить порядок следующим образом:

Сохранение порядка результатов в массиве (просто сохранить свойство id для совпадений).

Выполнение IMPLODE для массива с использованием $result = implode(",", $array), где $array – это массив результатов пользователя. Result будет хранить строку идентификаторов результатов, разделенных запятой. · SELECT * FROM documents WHERE id IN ($result) ORDER BY FIELD(id,$result).

Здесь пользователь сообщает MySQL, что необходимо упорядочить результаты по полю id в порядке, указанном в $result.

Это может показаться сложным, но к этому быстро привыкаешь, и вскоре пользователь сам напишет функции, которые справятся со всем этим для него.

поисковая система

Заключительные выводы

Использование Sphinx вместо MySQL может обеспечить значительные преимущества в скорости. Sphinx идеально подходит для поиска статических таблиц. Но в то же время для часто обновляемых строк возможность использования простых индексных файлов отсутствует. Вместо этого нужно либо внедрить дельта-файлы, либо перейти на индексацию в реальном времени. И то, и другое решение несет дополнительные затраты производительности. И в заключение: для более эффективной работы в Sphinx необходимо планирование, потому что пользователь должен заблаговременно установить все необходимые источники и индексные файлы.

Замена Sphinx для MySQL не тривиальна, но и не так сложна, чтобы отказаться от этой возможности. В случае если необходима высокая скорость поиска, следует подумать о переходе с MySQL на Sphinx, даже когда пользователь не нуждается в полнотекстовом поиске.

Источник

Автор:

Анжелика Зайцева 18-02-2019 00:04

Жду ваши вопросы и мнения в комментариях

Выгодные кредиты в МФО

Преимущества кредитования в МФО МФО, вопреки мнению многих людей, могут быть выгодными организациями для получения кредитных денежных средств. Например, в отличие от банков, процесс рассмотрения заявки здесь происходит мгновенно. Наличие большого спектра документации или хорошей кредитной истории также не является обязательными условиями выдачи займа. Особенно выгодными такие компании становятся, когда нужно срочно взять в долго небольшие денежные

Маргарита Сочинская

07-02-2024 16:49

Программное обеспечение

Подробнее

Как подключить "Яндекс.Диск" как сетевой в стационарных Windows-системах и мобильных ОС Android?

Как известно, сегодня необычайно широкое распространение получили всевозможные сервисы удаленного хранения данных в виде популярных облачных хранилищ. Все они представляют собой специальные серверные ресурсы, на которых пользователям выделяется определенный объем дискового пространства для закачки туда собственных файлов и папок или загрузки из них сохраненных объектов на жестки диски собственного компьютера, лэптопа или мобильного девайса. Все это

Август Герасимов

01-07-2019 12:36

Программное обеспечение

Подробнее

Как с "Гугл.Диска" скачивать целые папки или отдельные файлы: несколько простых способов

Сегодня все большей популярностью пользуются облачные сервисы хранения информации, представляющие собой не что иное, как жесткие диски на удаленных серверах компаний, предоставляющих такие услуги, с определенным выделяемым каждому зарегистрированному пользователю объемом пространства для выгрузки на него собственных файлов или папок для последующего хранения и загрузки обратно на собственный компьютер, когда это требуется. Одним из самых востребованных

Август Герасимов

30-06-2019 13:00

Программное обеспечение

Подробнее

Браузер "Тор" не запускается: нюансы установки, использования и устранения проблем

Средства обеспечения безопасности и анонимности пользователей при работе в Интернете в последнее время набирают небывалую популярность и актуальность, поскольку решение проблем защиты серфинга или получения доступа к заблокированным на государственном уровне ресурсам становятся первоочередной задачей любого пользователя. Специально для этого разрабатываются всевозможные средства вроде VPN-клиентов или используются анонимные прокси-серверы. Однако

Август Герасимов

29-06-2019 14:54

Программное обеспечение

Подробнее

Драйвер SPTD: что это такое и как его удалить?

Наверное, не нужно говорить, что в повседневной работе многим пользователям очень часто приходиться использовать программы или встроенные инструменты Windows-систем, позволяющие работать с виртуальными дисковыми приводами и накопителями любого другого типа. Особо популярными являются приложения вроде Alcohol 120% и DAEMON Tools. Но в процессе их инсталляции обычно в систему интегрируется многим непонятный дополнительных драйвер SPTD. Что это такое,

Агата Жукова

11-06-2019 03:10

Программное обеспечение

Подробнее

Как подключить "Яндекс.Диск" как сетевой в стационарных Windows-системах и мобильных ОС Android?

Регина Островская

11-06-2019 03:10

Программное обеспечение

Подробнее

Как посмотреть жесткий диск в БИОСе на компьютере: инструкция проверки

О том, как посмотреть жесткий диск в БИОСе, многие пользователи не знают практически ничего, считая, что параметры первичной системы, установленные по умолчанию, никогда изменять не нужно. Но ведь иногда можно встретить достаточно специфичные ситуации, когда вам крайне необходимо определить модель собственного винчестера, выполнить установку операционной системы, воспользоваться средствами проверки состояния диска или выставить какие-то конкретные

Адриан Белоусов

10-06-2019 03:12

Программное обеспечение

Подробнее

Как настроить эквалайзер на Windows 7 и выше: нюансы выбора опций и программного обеспечения

На современном этапе развития аудиотехники, компьютерных и мобильных устройств, которые могут быть использованы для прослушивания музыки, невозможно себе представить, чтобы хоть кто-то из пользователей или заядлых меломанов не пользовался эквалайзером. Естественно, если речь идет о воспроизведении музыкальных треков именно на компьютере, пользователи тут же начинают искать соответствующие настройки и… не находят их (а если и находят, то не

Адам Исаев

10-06-2019 03:11

Программное обеспечение

Подробнее

Ошибка статуса VPN в "Хамачи": способы быстрого решения проблемы

Небольшая, но достаточно мощная программа «Хамачи» является инструментом для быстрого создания виртуальных сетей, работающим по принципу своеобразного эмулятора, позволяющего объединить в локальную сетевую систему компьютеры, которые подключены к интернету. Несмотря на то что в этом приложении имеется возможность использовать так называемые серые IP-адреса и организовывать обмен данными по принципам, несколько напоминающим технологии Р2Р

Всеслав Киселёв

10-06-2019 03:11

Программное обеспечение

Подробнее

Ошибка статуса VPN в "Хамачи": способы быстрого решения проблемы

Елизар Артемьев

10-06-2019 03:11

Программное обеспечение

Подробнее