Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Сравнение СУБД Новый топик    Ответить
Топик располагается на нескольких страницах: Ctrl  назад   1 2 3 4 [5] 6   вперед  Ctrl      все
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Senya_L
Member

Откуда: Москва
Сообщений: 5381
Di_LIne,

Вопрос к тебе, коль опыт имеется в данной области. И коль ты звезда данного топика (по-доброму, канешна)

Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД?
22 июл 09, 21:16    [7447759]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Понравился мне PostgreSQL в приведенной ссылке:
автор
Сами парсеры и словари также хранятся в системе, их можно добавлять, изменять и удалять с помощью SQL команд.

У меня Словарь составляет на сегодняшний день чуть больше 6 млн. общеупотребительных слов, в основной морфеме: именительный падеж единственного числа.
Не считая спец. терминов по разным отраслям науки и производтсва.
Я это к тому, что размер системы в мегабайтах должен составлять не так и мало.

Текст написан на русском, а вот в примерах - почему-то только английские слова используются..

В Ispell от Alexander Lebedev, который есть в свободном доступе, кучи слов просто нет (про фамилии - я уже говорил), а в affix наличие кучу ошибок и неполностью описаны все схемы...
Хорошо, если он дополнен в PostgreSQL и исправлен.
Далее можно углубляться в нюансы. Но не думаю, что это интересно широкой публике.

ИМХО:
GiST индекс - все недостатки хеширования наглядно продемонстрированы в MnogoSearch.
И как программисты, все знают, что коллизий при таком подходе не избежать.

GIN индекс - сами авторы данного документа отмечают:
автор
Этот индекс используется практически всеми большими поисковыми машинами, однако его использование в базах данных для индексирования изменяющихся документов затруднено, так как любые изменения ... приводят к большому количеству обновлений индекса.
22 июл 09, 21:23    [7447773]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Senya_L
И коль ты звезда данного топика (по-доброму, канешна)

Меня можно обвинить лишь в буратиндии...
Видишь, я еще слово придумал - Буратиндия.
И у носителей языка оно не вызывает трудностей, как в восприятии, так и в морфологии.

Senya_L

Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД?

Может я не правильно понял вопрос...
По нашим приблизительным оценкам емкость Русского языка составляет 20-25 миллионов слов.
Средне-статистическое слово имеет всреднем 11-14 словоформ.
Если взять длинну слова равную 8-10 знакам, то можешь подсчитать объем в мегабайтах.
Плюс к этому нужно учесть постоянное развитие языка и появление новых слов, как родных, так и заимствованных из других, в часности английского, языков.
22 июл 09, 21:36    [7447784]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Реалист
Member

Откуда:
Сообщений: 2540
Блог
Di_LIne
Реалист, для начала:
Толковый словарь Ожегова

Морфология - раздел граматики, наука о частях речи, об их категориях и о формах слов


Реалист
Действительно, там есть поиск с учетом морфологии языка...

Морфология языка - это как?
Это так, на заметку что бы взять...

Реалист
действительно учитывать при поиске морфологию нужно.

Ок! А если она НЕ учитывается, как в случае FTS, тогда что?

Реалист
Но анализ морфологии...

Анализ морфологии СЛОВА - сделают лингвисты, напишут Правила, внесут учебники, словари и тп.

Реалист
Но анализ морфологии - это следствие оптимизации FTS. Но никак не на оборот.

То есть морфология слов в Языке появляется из-за оптимизации FTS?
Или же FTS должна быть оптимизирована под морфологию применяемую в конкретном Языке, литературном, разговорном и тд?

Какой ты виртуоз жонглировать словами!
Я перечитал каждое твое предложение несколько раз. Каждое слово понятно в отдельности, но я не смог постичь общего смысла. Все, я слил, ты во всем абсолютно прав, думаю, что это мой последний ответ в данном топике.
22 июл 09, 21:50    [7447816]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Senya_L
Member

Откуда: Москва
Сообщений: 5381
Di_LIne
Senya_L

Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД?

Может я не правильно понял вопрос...
Да нет, ты все правильно понял. Я надеюсь. :)

Я когда-то давно этим вопросом интересовался, но в частном, так сказать, порядке (в смысле денег мне за это никто не платил, глубоко не копал). У меня набралось не более 0,5 лимона словоформ, просто загоняя литературные произведения из библиотеки Мошкова. Естественно, морфологические связи никто не устанавливал.

Отсюда и интерес, чисто академический, как это работает.
22 июл 09, 21:52    [7447822]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
MySQL по приведенной выше ссылке.
(В порядке прочтения текста)

1.
MySQL
Полнотекстовые индексы в MySQL обозначаются как индексы типа FULLTEXT. Эти индексы могут быть созданы в столбцах VARCHAR и TEXT

То есть мой вопрос про поле таймстамп и его индексацию как текста - отвалился.

2.
MySQL
Для каждой строки столбца в заданной таблице команда MATCH() возвращает величину релевантности, т.е. степень сходства между строкой поиска и текстом

Понятие термина РЕЛЕВАНТНОСТЬ четко не определено и очень запутано.

3.
MySQL
Для разбивки текста на слова MySQL использует очень простой синтаксический анализатор...
Любое ``слово'', присутствующее в стоп-списке (stopword) или просто слишком короткое (3 символа или меньше), игнорируется.

То есть такие слова, как ХОР, МЕД и прочие - нафиг.

4. Про морфологию - ни чего вообще не сказано. Ни "да", ни "нет".
22 июл 09, 21:53    [7447825]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Реалист
Каждое слово понятно в отдельности, но я не смог постичь общего смысла.

Да ты не расстраивайся... Чес-слово - не только ты один.
У меня даже справка есть, что планетоитянин, выданая П02.
22 июл 09, 22:00    [7447845]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Senya_L
Отсюда и интерес, чисто академический, как это работает.

Если честно - афигительно.
И, если я правильно прочитал между строк, то в Яндексе есть целый отдел, который занимается ТОЛЬКО лингвистикой, укомплектованный, в том числе, и филологами по образованию...
22 июл 09, 22:05    [7447860]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
_vic_
Member

Откуда:
Сообщений: 28
Ребята, спор выглядит очень тупо.
Человек поимел не правильное представление о термине.
Он взялся его разбирать по "буквам". Я так понял у него большой опыт в этом :)
Но в реальности термин не всегда "математически" отражает реальную сущность.
Слово Full у каждого имеет свой "объем".
В реальности же, термин FTS означает только, что будет проводится поиск по вхождениям слов в тексте. Люди которые в программировании больше 20 лет, прекрасно знают об этом.
Это понятие появилось при них.
Другое дело, что в этом мире ничего постоянного нет и терминология тоже меняется.
Многие понятия становятся ширше (как говорил известный кино-герой).
Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче,
но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.
22 июл 09, 22:19    [7447901]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Senya_L
Member

Откуда: Москва
Сообщений: 5381
Di_LIne
Senya_L
Отсюда и интерес, чисто академический, как это работает.

Если честно - афигительно.
И, если я правильно прочитал между строк, то в Яндексе есть целый отдел, который занимается ТОЛЬКО лингвистикой, укомплектованный, в том числе, и филологами по образованию...
Я в Яндекс резюмов не писал, свой яндекс открывать не собирался ни в коем разе.

Просто попробовал такой вариант с составлением словаря словоформ. По правде сказать мне это нафик не надо было. Попробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный... Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности.
22 июл 09, 22:22    [7447909]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Senya_L
Попробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный... Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности.

Хошь верь, хошь не верь, но мы смогли добится, что 16 mСек тратится на обработку любого запроса, вне зависимости от кол-ва слов в запросе, ни от размера БД. Правда на Yaffil-е.
- Senya_L, ты вот честно скажи, свои собаки - сочтемся, ты проверял этот FTS от MSSQL на Not Found?
22 июл 09, 22:31    [7447940]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Senya_L
Member

Откуда: Москва
Сообщений: 5381
Di_LIne
Senya_L
Попробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный... Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности.

Хошь верь, хошь не верь, но мы смогли добится, что 16 mСек тратится на обработку любого запроса, вне зависимости от кол-ва слов в запросе, ни от размера БД. Правда на Yaffil-е.
Выражаю респект и пожелаю развития. Чем тот же черт нет шутит? Может выйдет в продакшн и заткнете Яndex за все места.
Di_LIne
- Senya_L, ты вот честно скажи, свои собаки - сочтемся, ты проверял этот FTS от MSSQL на Not Found?
Неа. Это была второстепенная примочка и большого жаренного петуха у меня за спиной не было чтобы особо напрягаться. А собственного интереса данная тема не вызвала. Попросту прикрутил - и забыл. :)
22 июл 09, 22:41    [7447977]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Senya_L
... заткнете Яndex за все места.

Его теперь ни кто не заткнет, дашь Гугля...

Senya_L
Попросту прикрутил - и забыл. :)

Во-во и большинство, имхо, так...

FTS-ы молчат насмерть, пора закругляться.
22 июл 09, 22:48    [7448008]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Senya_L
Member

Откуда: Москва
Сообщений: 5381
Di_LIne
Senya_L
... заткнете Яndex за все места.

Его теперь ни кто не заткнет, дашь Гугля...

Senya_L
Попросту прикрутил - и забыл. :)

Во-во и большинство, имхо, так...

FTS-ы молчат насмерть, пора закругляться.
Не знаю, что ты воюешь. Вообще-то не забывай, что цель все же должна оправдывать средства. Если ты вкладываешься в "настоящий FTS", то на это должны быть обоснованные (экономические) причины. У вас - были, у других - нет.

ЗЫ. Хотя рекламу сделал - можешь спать спокойно ;))).
22 июл 09, 22:54    [7448037]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Заметка на полях.
Как-то пришлось мне искать юридические документы в инете.
До сайта добрался быстро, но там...
Черт ногу сломит, а поиск локальный - хоть вешайся.
А официальную бумагу только у них скачать для распечатки можно.
И крутился сайтик на Мускуле с FTS-ом...
22 июл 09, 22:58    [7448069]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Senya_L
Вообще-то не забывай, что цель все же должна оправдывать средства.

С клавы реплику снял, редиска, пока заметку писал...
22 июл 09, 23:00    [7448083]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
S.G.
Member

Откуда: cartoon network
Сообщений: 30611
_vic_
Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче,
но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.
+1.
Вроде все это поняли, кроме одного человека.
22 июл 09, 23:28    [7448233]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
_vic_
Member

Откуда:
Сообщений: 28
Я специально прошарился в инете.
22 июл 09, 23:43    [7448279]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
_vic_
Member

Откуда:
Сообщений: 28
Сорри
Я специально прошарился в инете.
Оказывается под FTS в SQL действительно начинают понимать использование морфологии.
Миграция термина, блин. И опять Microsoft :)
[url=]http://blogs.msdn.com/alexejs/archive/2009/06/13/9745778.aspx[/url]
22 июл 09, 23:49    [7448300]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Senya_L
Member

Откуда: Москва
Сообщений: 5381
_vic_
Ребята, спор выглядит очень тупо.
Человек поимел не правильное представление о термине.
Он взялся его разбирать по "буквам". Я так понял у него большой опыт в этом :)
Но в реальности термин не всегда "математически" отражает реальную сущность.
Слово Full у каждого имеет свой "объем".
В реальности же, термин FTS означает только, что будет проводится поиск по вхождениям слов в тексте. Люди которые в программировании больше 20 лет, прекрасно знают об этом.
Это понятие появилось при них.
Другое дело, что в этом мире ничего постоянного нет и терминология тоже меняется.
Многие понятия становятся ширше (как говорил известный кино-герой).
Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче,
но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.
-1
По-моему - дешевая демагогия. Не потому, что поддерживаю Dj_Line'а, а потому что сплошное бла-бла-бла. Расскажите о всей этой "ширшине" - и люди поверят. А так - пустая говорильня. Диля хоть как-то пытался обосновать свое недоверие к оффициальным FTS. В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска. Сам же говорит - у Яндекса там целый отдел этим занимается, у него лично хватило собственного энтузиазма.

ЗЫ. Про недоработки в FTS у MSSQL косвенно говорит уже то, как подключаются словари русского языка. Это ж надо, Мелкософт рекомендует для этого прописывать ключи реестра "ручками"! Это уже какой-то линукс получается

_vic_
Сорри
Я специально прошарился в инете.
Оказывается под FTS в SQL действительно начинают понимать использование морфологии.
Миграция термина, блин. И опять Microsoft :)
[url=]http://blogs.msdn.com/alexejs/archive/2009/06/13/9745778.aspx[/url]
Да шо выговорите?! Неужели научились по filestream'овым полям шукать? Да вообще-то FTS у MSSQL был основан на системной службе полнотекстового поиска в файлах. Надо же, прикрутили... Если вот только вспомнить как коряво он работает... По-крайней мере в XP
22 июл 09, 23:54    [7448317]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
_vic_
Member

Откуда:
Сообщений: 28
Senya_L
В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.
23 июл 09, 00:05    [7448338]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
_vic_
Member

Откуда:
Сообщений: 28
Senya_L
В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.

Согласен. Догадливость гугла иногда раздражает :)
23 июл 09, 00:06    [7448341]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Senya_L
В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.

Нифига ни полразу!
С этим столкнулись все, кто серьезно работает On-Line.
Всяческие хоум-раги и сайтиги от школьнигаф - не считаются.
Особенно "погорели" те, кто юзает Мускул с его FTS-ом...
А альтернативы у них - нету.
Остается один путь - делать самим.
Есть не плохие реализации, но... ограниченные именно со стороны Мускула.
(Только без холивара "блокировочник-версионник". Для этого есть свой топиг.)

А так как у Yaffil нет родной такой приблуды (UDF очень старой разработки не в счет), то и пришлось с нуля начинать, пройдя весь путь, от попыток прикрутить какоре-либо из готовых решений - до реализации своего варианта, и продолжая дальше работать.
Те разработчики, кто работает на Off-Line, еще это не почувствовали, что значит Not Foud и в какие убытки оно выливается заказчику.
23 июл 09, 00:12    [7448351]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
_vic_
Senya_L
В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.

Согласен. Догадливость гугла иногда раздражает :)

Не стоит путать поисковые системы, которые находятся под мощным СЕО-прессингом и локальный поиск по сайту.
- Ага?
23 июл 09, 00:18    [7448374]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД с полнотекстовым поиском  [new]
Di_LIne
Member

Откуда: Тропик Скорпиона
Сообщений: 32554
Не в обиду Judge.
- Как вы расцениваете систему поиска на СКРУЛЬ.РУ по 10 бальной шкале?
23 июл 09, 00:24    [7448391]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: Ctrl  назад   1 2 3 4 [5] 6   вперед  Ctrl      все
Все форумы / Сравнение СУБД Ответить