Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Сравнение СУБД Новый топик    Ответить
Топик располагается на нескольких страницах: Ctrl  назад   1 [2] 3 4 5 6   вперед  Ctrl      все
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Кому и это не понятно, курить здесь до просвятления...
21 июл 09, 09:56    [7438504]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Ggg_old
Member

Откуда: Одесса
Сообщений: 1342
Di_LIne, вы действительно не умеете общаться и доводить свою мысль по-человечески. Маты, оскорбления и так дале.
Под полнотекстовым поиском понимается, то что в субд называется full text search и там действительно нет учета морфологии языка(ов). И да, это очень продвинутый like по сути.
Все остальное, надо думать писать или заказывать на стороне.
Это ведь так просто выражать свои мысли вежливо.
21 июл 09, 11:22    [7439087]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
SergSuper
Member

Откуда: SPb
Сообщений: 5488
Реалист
Di_LIne,

Знаешь, мне твои посты читать противно, не зависимо от того, что ты туда написал.
Можешь сам с собой разговаривать, пока с другими людьми общаться не научишься.
"пиписко в растопырку, мля" ;-)

присоединяюсь
21 июл 09, 14:27    [7440477]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Реалист
пока с другими людьми общаться не научишься.

Общение - Взаимные сношения, деловая или дружеская связь.
Ожегов С.И. "Толковый словарь..." Москва, 2000 г.
- Вопросов не имею.
21 июл 09, 14:59    [7440723]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Ggg_old
Маты, оскорбления и так дале.

За это модератор отвинчивают кой-чего. Так что не надо бочку катить.

Ggg_old
Под полнотекстовым поиском понимается, то что в субд называется full text search и там действительно нет учета морфологии языка(ов). И да, это очень продвинутый like по сути.
И чьи это проблемы?
Так же как в аглицком всё сервер, и программа, и железо.
Ну и? А по сему или указывай контекст, или границы применения термина.
Типо:
Ggg_old
..full text search ... это очень продвинутый like по сути...

- Ну и кто ССЗБ?
21 июл 09, 15:04    [7440760]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Кста, именно из-за глубокой убежденности, что тот "full text search" и есть настоящий поиск и упорствовал Реалист.
- Нет?

А про лайке я еще тут говорил, но чела не хватило это признать.

Ну и?

Все приведенные "аргуметы" и на слабые попытки доказать не доказуемое - дан четкий и однако_кватный ответ.
21 июл 09, 15:14    [7440822]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
S.G.
Member

Откуда: cartoon network
Сообщений: 30611
Di_LIne,
Будь любезен, покажи определение понятия "полнотекстовый поиск" и то, что в него входит и морфология. Я вот, не нашел. Нашел другое:

1. вики
автор
Полноте́кстовый по́иск — поиск документа в базе данных текстов на основании содержимого этих документов, а также совокупность методов оптимизации этого процесса.

Полнотекстовый индекс

Первые версии программ полнотекстового поиска предполагали сканирование всего содержимого всех документов в поиске заданного слова или фразы. При использовании такой технологии поиск занимал очень много времени (в зависимости от размера базы), а в интернете был бы невыполним. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс — словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются.
Так, тут ничего про морфологию, только про то, что технология дает быстрое сканирование при поиске заданного слова или фразы

2. search-tech.net/
автор
Виды поиска

Полнотекстовый поиск — поиск по всему содержимому документа. ... Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.
и тут ничего про морфологию.

3. www.offliner.com
автор
Использование морфологии является одним из важнейших приемов интеллектуального поиска текста.
Так, тут про морфологию. И уже поиск называется не "полнотекстовый", а "интеллектуальный".

так что- ждем линк на определения.
имея ввиду:
автор
Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска.
как мне кажется, твой случай именно такой. но, может и ошибаюсь, конечно.
21 июл 09, 22:41    [7442602]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
ОКТОГЕН
Member

Откуда:
Сообщений: 2498
S.G., А может , он хочет поиск по звучанию(SOUNDEX)?
21 июл 09, 23:41    [7442702]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
servit
Member

Откуда: г. Кишинёв, Республика Молдова
Сообщений: 3148
Блог
21_01
Реалист
[quot 21_01]
СУБД это только часть решения. Выбор СУБД и Решение поставленной задачи - это разные вещи, не находите?

Конечно, и я рассматриваю различные СУБД, чтобы представлять возможные пути решения.
В последнем сообщении я спросил: отличаются ли возможности перечисленных СУБД в плане полнотекстового поиска. Возможно есть реализации, в которых присутствует часть требуемого функционала. Это будет плюсом - если в основе будет реляционная СУБД, то проще будет выбрать разработчика. Однако я не отметаю сразу вариант с чем-то другим, но мне нужно время на то, чтобы хотя бы в общих чертах составить представление о новой для меня системе.

Взгляните на СУБД "Caché" с полнотекстовым поиском. Поддерживаются следующие языки: английский, немецкий, французский, испанский, итальянский, португальский и японский.
Есть исходники и для русского языка с небольшим описанием морфологического анализатора.
22 июл 09, 14:03    [7445296]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
S.G.
Di_LIne,
Будь любезен, покажи определение понятия "полнотекстовый поиск" и то, что в него входит и морфология. Я вот, не нашел. Нашел другое:

1. вики
Так, тут ничего про морфологию, только про то, что технология дает быстрое сканирование при поиске заданного слова или фразы


Тошь мне, нашел аф_таритет, педивикию...
Ладно, давай даже их определение рассмотрим, но ВНИМАТЕЛЬНО, по существу, а не поверхностно, на поиск набора букв "морфология"...
педивикия

Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс — словарь, в котором перечислены все слова и указано, в каких местах они встречаются.
(выделение от меня.)

И так. Технология называется "Full Text Search".
Дайте дословный перевод этого названия на русский и его смысл.

А пока - немножко теории.
В русском языке слово может иметь 12 форм: по 6 падежных форм для единственного и множественного числа для существительных.
(Другие - пока отложим, так как существительные - наиболее простой вариант)
Существительное обозначает всю туже сущность (не просто так оно называется СУЩЕствительное), вне зависимости от словоформы.
Значит речь идет о поиску сущностей, то и искать мы должны СУЩНОСТЬ.

Убожество указанных "фулл текст серч" технологий применительно к русскому языку дает безобразный вариант с огромным числов ошибок.
Пример: Человеку безразницы как написана фраза в документе:
Документ 1. Библиотеку по адресу (тыр-пыр-дыр).
Документ 2. Библиотека по адресу (тых-дрых-кышь).

При применении указанной аппонетами технологии, какой результат поиска будет при
поиске слова "БИБЛИОТЕКА"?

1. Будут ли в них, в результатах, указанные документы или нет?
Если в результатах поиска указанные документы отсутствуют, то укажите на основании
чего данные документы выборашены из результатов поиска.
И не на основании машинных технологий, а с точки зрения обычногго Человек.
Бо ПО все же для людей делается. ;-)

2. Почему технология называентся "FULL" (ПОЛНЫЙ) применительно к рускому языку, если она дает такие, принципиальные с точки зрения Русского Языка ошибки?!

Остальное - отпишу чуть позже...
22 июл 09, 14:10    [7445354]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
ОКТОГЕН
S.G., А может , он хочет поиск по звучанию(SOUNDEX)?

Ну?! А не слабО' залезть в учебник Русского языка и увмидеть, что разные словформы одного слова звучат по разному?
Примеры - все слова с беглыми гласными и согластными в суфиксах:
ребенок -> ребенка;
камень -> камнями;
боец -> бойца;
буек -> буйком

остальные случаи - для самостоятельного изучения...
Для особо страждущих - Числительные...
А серьезный разговор пойдет только о глаголах.
22 июл 09, 14:18    [7445426]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
SergSuper
Member

Откуда: SPb
Сообщений: 5488
Di_LIne
Существительное обозначает всю туже сущность (не просто так оно называется СУЩЕствительное), вне зависимости от словоформы.
Значит речь идет о поиску сущностей, то и искать мы должны СУЩНОСТЬ.

Гениально.
Я так понимаю для глаголов полнотекстовый поиск тогда не предполагает поиск для разных форм?
22 июл 09, 14:36    [7445562]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Ёш
Member

Откуда:
Сообщений: 2892
Di_LIne
Пример: Человеку безразницы как написана фраза в документе:
Документ 1. Библиотеку по адресу (тыр-пыр-дыр).
Документ 2. Библиотека по адресу (тых-дрых-кышь).

При применении указанной аппонетами технологии, какой результат поиска будет при
поиске слова "БИБЛИОТЕКА"?
это очень простой случай, с ним справится и snowball:
select to_tsvector('Библиотеку') @@ plainto_tsquery('БИБЛИОТЕКА') as match;
 match
-------
 t
22 июл 09, 14:48    [7445663]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Dimitry Sibiryakov
Member

Откуда:
Сообщений: 54791

SergSuper

Я так понимаю для глаголов полнотекстовый поиск тогда не предполагает
поиск для разных форм?

Нет, Диля просто оставил глаголы на сладкое. Как ку-де-гра, так сказать...

Posted via ActualForum NNTP Server 1.4

22 июл 09, 14:49    [7445670]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
... ну а тех, кто шибко боек - прикрутили к спинкам коек...
(С)лассик. Против не попрешь.

Яндекс
Зачем нужны морфология и синтаксис или Как искать ветра в поле
Распространено мнение, что шаблон "*", означающий любой набор символов, достаточен для поиска в русских текстах. То есть все проблемы, связанные с особенностями морфологии (п. 5.3), решаются путем обеспечения развитого языка запросов (п. 2.2). Но представьте себе - Вы узнали, что искали ветер в поле и нашли. Чтобы найти эту информацию, Вы, вероятно, попросите компьютер поискать слова "ветер" и "поле". Но если в тексте были формы "ветра" или "полях"? Остается вариант шаблона - "вет*" и "пол*", что тут же выдаст Вам материалы о польской ветчине и политике вето! Отсутствие морфологии сильно, а иногда катастрофически влияет на чувствительность и избирательность поиска. Запрос "ветер И поле" уменьшает чувствительность, а "вет* И пол*" - избирательность.

Случаи, когда шаблон не спасает:

Слова, у которых в разных формах меняется основа (супплетивные формы): идти-шел, плохо хуже, я-меня, человек-люди, ребенок-дети

Слова с большим количеством словоформ. Привести список всех словоформ русского глагола (с причастными и деепричастными формами - до 250 различных форм) человеку, не имеющему лингвистического образования, очень трудно. Понять, все ли словоформы из этого списка "накрываются" шаблоном "*" - ещё труднее.

Слова с беглыми гласными и чередованиями. В словаре на 90000 слов, используемом в нашей системе, примерно четверть слов имеет чередования, которые не позволяют найти слово по шаблонам: (искать-ищу, окно-окон, расти-рос: запрос и* или ок* или р* даст много мусора)

Короткие (три-четыре буквы) слова: дом, хор, ... . Во всех языках, в том числе и в русском, имеется общая закономерность: чем чаще слова используются, тем они короче. Применение шаблона "*" в коротких словах приводит к большому количеству ненужных ссылок в списке найденных документов.

Цитировано по тут
22 июл 09, 15:04    [7445812]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
SergSuper
Я так понимаю для глаголов полнотекстовый поиск тогда не предполагает поиск для разных форм?

- А типо ВНИМАТЕЛЬНО читать тут, ась?
Di_LIne
Другие - пока отложим, так как существительные - наиболее простой вариант
22 июл 09, 15:06    [7445832]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
ЗЫ: - Компетентнось Яндекса в поисковых технологиях применительно к Русскому языку, надеюсь, не вызывает сомнений?
Это не педивикия...
22 июл 09, 15:09    [7445858]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Ёш
это очень простой случай, с ним справится и snowball:
select to_tsvector('Библиотеку') @@ plainto_tsquery('БИБЛИОТЕКА') as match;
 match
-------
 t

Ок!
А с данными примерами - оно справится?
22 июл 09, 15:11    [7445876]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Dimitry Sibiryakov

SergSuper

Я так понимаю для глаголов полнотекстовый поиск тогда не предполагает
поиск для разных форм?

Нет, Диля просто оставил глаголы на сладкое. Как ку-де-гра, так сказать...

А буде дюже выошиваться - есть наречия, дее и не очень причастия.
А так же "слова-исключения" из Правил Русского языка.
22 июл 09, 15:17    [7445942]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
ОКТОГЕН
Member

Откуда:
Сообщений: 2498
Di_LIne, а, тогда тебе нужен не FTS,а поиск по морфологии , причём для разных языков.
Кстати, а что это за задача такая? Хитросложная супер-система поиска?
22 июл 09, 16:09    [7446387]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Ёш
Member

Откуда:
Сообщений: 2892
Di_LIne
Ёш
это очень простой случай, с ним справится и snowball:
select to_tsvector('Библиотеку') @@ plainto_tsquery('БИБЛИОТЕКА') as match;
 match
-------
 t

Ок!
А с данными примерами - оно справится?
snowball ? точно нет, snowball же просто выделяет окончания и т.п.
Если использовать словарь, видимо зависит от словаря, например в стандартном aspell/ispell слово «вша» отсутствует, соответственно не обрабатывается.
22 июл 09, 16:12    [7446414]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Ёш
например в стандартном aspell/ispell слово «вша» отсутствует, соответственно не обрабатывается.

- Балбес ты, Шарик. (М)ультик
Ссылки-то смотрел, что я приводил, али точно не смотрел.

Бо мну там говорил, что в ispell - нету (НЕ-ТУ!!!) более 30.000 фамилий.
- Ну и какой "документооборот" можно строить на сём фуфеле?
22 июл 09, 17:34    [7446965]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
ОКТОГЕН
Di_LIne, а, тогда тебе нужен не FTS,а поиск по морфологии , причём для разных языков.

Что мне надо - уже работает не первый год в режиме продакшен.
(FB-шный люд про то какбэ в курсе)

ОКТОГЕН
Кстати, а что это за задача такая?
Хитросложная супер-система поиска?

- Задача елементарная, Уотсон!
Доказать, что тот самый Тьху_Серчь - полный ацтой и панацея для ламеров.
22 июл 09, 17:39    [7447011]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Реалист
Member

Откуда:
Сообщений: 2540
Блог
Di_LIne,

В этом топике - скоро Ваших сообщений будет половина от общего числа. Вы случайно не сам с собой спорите ;-) ?
22 июл 09, 17:49    [7447087]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Реалист
Di_LIne,

В этом топике - скоро Ваших сообщений будет половина от общего числа. Вы случайно не сам с собой спорите ;-) ?

А что, кто-то что-то может по существу вопроса возразить?
Если нет, то вот такую ХНЮ больше нести не стоит ...
- Ы?
А так... Слиф защитан, живи...
22 июл 09, 17:53    [7447112]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: Ctrl  назад   1 [2] 3 4 5 6   вперед  Ctrl      все
Все форумы / Сравнение СУБД Ответить