Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Microsoft SQL Server Новый топик    Ответить
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
 Full-Text Search: Скорость построения индекса  [new]
remember82
Member

Откуда:
Сообщений: 13
Стоит задача организации полнотекстового поиска для значительных объемов данных - около 10Тб/сутки. Есть ли пример расчета конфигурации оборудования для подобных задач? Кто-то сталкивался с этим? Подскажите источники, которые помогли бы определиться с производительностью

Сообщение было отредактировано: 19 апр 13, 11:09
19 апр 13, 10:48    [14202196]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
alexeyvg
Member

Откуда: Moscow
Сообщений: 31430
remember82
Стоит задача организации полнотекстового поиска для значительных объемов данных - около 10Тб/сутки. Есть ли пример расчета конфигурации оборудования для подобных задач? Кто-то сталкивался с этим? Подскажите источники, которые помогли бы определиться с производительностью

Улучшение производительности полнотекстовых индексов
19 апр 13, 11:05    [14202290]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74925
Это что ж за данные такие - 10Тб в сутки? За месяц - 300 Тб, за год...
19 апр 13, 11:10    [14202322]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
remember82
Member

Откуда:
Сообщений: 13
pkarklin
Это что ж за данные такие - 10Тб в сутки? За месяц - 300 Тб, за год...

Данные хранятся только за месяц
19 апр 13, 11:17    [14202356]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
remember82
Member

Откуда:
Сообщений: 13
alexeyvg
Улучшение производительности полнотекстовых индексов

К сожалению в источнике ничего не говорится об объемах контента, который будет обрабатываться.
19 апр 13, 11:34    [14202468]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74925
Для примера совсем недавно всего 250 Gb данных (не только .txt но и документы многих типов) проиндексировались (с нуля) за 3 часа на массиве RAID10 из 128 SAS дисков.

Вот и прикиньте, примерно, какая Вам будет нужна СХД, учитывая объем и требования к скорости. И, смотрите в сторону версии 2012. Там внесли улучшения в FTS в части параллельного процессинга индексов.
19 апр 13, 11:36    [14202488]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
remember82
Member

Откуда:
Сообщений: 13
pkarklin
Для примера совсем недавно всего 250 Gb данных (не только .txt но и документы многих типов) проиндексировались (с нуля) за 3 часа на массиве RAID10 из 128 SAS дисков.


Благодарю, это уже конкретные значения. Не могли бы Вы более детально описать характеристики оборудования (CPU, RAM)?
19 апр 13, 12:34    [14203064]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74925
remember82
Благодарю, это уже конкретные значения. Не могли бы Вы более детально описать характеристики оборудования (CPU, RAM)?


DL380Gen8: 2x8 Core CPU + HT (Intel Xeon E5-2690), 256Gb RAM
19 апр 13, 12:46    [14203178]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
alexeyvg
Member

Откуда: Moscow
Сообщений: 31430
remember82
alexeyvg
Улучшение производительности полнотекстовых индексов

К сожалению в источнике ничего не говорится об объемах контента, который будет обрабатываться.
Да, официальных рекомендаций нету :-(

Но на самом деле сложновато спрогнозировать. Там по ссылке приведён пример, как ведёт себя индексатор, когда индексируются вордовские документы с вложениями PDF :-)
То есть зависит от форматов, сложности и размера записи (то есть милион записей по килобайту индексировать сложнее. чем тысячу по мегабайту)
pkarklin
Для примера совсем недавно всего 250 Gb данных (не только .txt но и документы многих типов) проиндексировались (с нуля) за 3 часа на массиве RAID10 из 128 SAS дисков.
А там разве основная нагрузка была не на процессоры? Неужели были большие очереди к дисковой системе, а процессоры остались ненагруженные?

Объём то для дисков сам по себе небольшой - очевидно, словарь можно разместить в памяти, а прочитать и записать 250 Gb на 128 дисках займёт 20 -40 секунд (если это конечно не SAN, там раз в ... дольше, но всё равно будет несопоставимо с 3 часами)
19 апр 13, 12:54    [14203242]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74925
alexeyvg,

Тормоза были в основном на фильтрах по типам документов.
19 апр 13, 13:02    [14203308]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
alexeyvg
Member

Откуда: Moscow
Сообщений: 31430
pkarklin
Тормоза были в основном на фильтрах по типам документов.
В смысле, как это на фильтрах? Не хватает либо процессора, либо дисков (или их хватает, но они не используются; вот как раз по ссылке было про настройки FTS, что бы загрузить по полной процессор).
19 апр 13, 13:08    [14203353]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
remember82
Member

Откуда:
Сообщений: 13
pkarklin
remember82
Благодарю, это уже конкретные значения. Не могли бы Вы более детально описать характеристики оборудования (CPU, RAM)?


DL380Gen8: 2x8 Core CPU + HT (Intel Xeon E5-2690), 256Gb RAM


Большое спасибо!
19 апр 13, 13:17    [14203437]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
remember82
Member

Откуда:
Сообщений: 13
pkarklin
remember82
Благодарю, это уже конкретные значения. Не могли бы Вы более детально описать характеристики оборудования (CPU, RAM)?


DL380Gen8: 2x8 Core CPU + HT (Intel Xeon E5-2690), 256Gb RAM


А есть ли информация по загрузке процессора и использованию памяти в процессе индексации?
19 апр 13, 13:20    [14203462]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74925
alexeyvg
В смысле, как это на фильтрах? Не хватает либо процессора, либо дисков (или их хватает, но они не используются; вот как раз по ссылке было про настройки FTS, что бы загрузить по полной процессор).


На фильтрах для разных типов документов (.doc, .xls, .pdf). Никаких дополнительных настроек не проводилось ибо это был тест при дефолтных настройках.

remember82
А есть ли информация по загрузке процессора и использованию памяти в процессе индексации?


Ну, запустили еще раз, ибо в прошлый раз не следили за этим. Грузятся в основном только 4ре ядра. Память скуль отъел сколько ему было дадено.

К сообщению приложен файл. Размер - 127Kb
19 апр 13, 13:34    [14203561]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
remember82
Member

Откуда:
Сообщений: 13
pkarklin
Ну, запустили еще раз, ибо в прошлый раз не следили за этим. Грузятся в основном только 4ре ядра. Память скуль отъел сколько ему было дадено.

Благодарю за повторное тестирование и результаты!
19 апр 13, 13:53    [14203749]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
alexeyvg
Member

Откуда: Moscow
Сообщений: 31430
pkarklin
Ну, запустили еще раз, ибо в прошлый раз не следили за этим.
Большое спасибо!

Да, похоже грузит мало ядер, эти фильтры (парсеры) недостаточно эффективно распаралеливают.

Там по ссылке как раз последняя часть "Устранение неполадок со снижением производительности индексации, связанных с фильтрами", может, поможет (хотя 3 часа, если это редко делается, наверное приемлимо)
19 апр 13, 14:42    [14204171]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74925
alexeyvg,

автор
Да, похоже грузит мало ядер, эти фильтры (парсеры) недостаточно эффективно распаралеливают.


Угу. Это дефолтная настройка max full-text crawl range = 4. Ее не трогали. Можно попробовать дать все ядра. Система пока все равно под тестами. На проде, естественно, такого делать не следует.
19 апр 13, 14:46    [14204220]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74925
alexeyvg
Там по ссылке как раз последняя часть "Устранение неполадок со снижением производительности индексации, связанных с фильтрами", может, поможет (хотя 3 часа, если это редко делается, наверное приемлимо)


Спасибо, погляжу. Ну, полный процессинг делается очень редко. В бою только инкрементальный.
19 апр 13, 14:47    [14204230]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
remember82
Member

Откуда:
Сообщений: 13
alexeyvg
pkarklin
Ну, запустили еще раз, ибо в прошлый раз не следили за этим.

Да, похоже грузит мало ядер, эти фильтры (парсеры) недостаточно эффективно распаралеливают.


Возможно фильтры не при чем, если использована конфигурация по умолчанию, то количество ядер для компонента полнотекстового поиска задано равным 4
19 апр 13, 14:54    [14204292]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74925
remember82,

При max full-text crawl range = 32:

К сообщению приложен файл. Размер - 118Kb
19 апр 13, 15:05    [14204405]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
pkarklin
Member

Откуда: Москва (Муром)
Сообщений: 74925
remember82,

По динамике должен построиться за час.
19 апр 13, 15:06    [14204413]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
remember82
Member

Откуда:
Сообщений: 13
pkarklin,

Большое спасибо за информацию и тесты!
19 апр 13, 15:15    [14204481]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
alexeyvg
Member

Откуда: Moscow
Сообщений: 31430
pkarklin
При max full-text crawl range = 32:
Круто, теперь сервер весь утилизирован, видно, что упирается в процессор.

Для remember82 это может ничего и не подсказать, т.к. это специфика сложных документов...
19 апр 13, 15:18    [14204504]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
remember82
Member

Откуда:
Сообщений: 13
alexeyvg
Для remember82 это может ничего и не подсказать, т.к. это специфика сложных документов...


Возможно я неверное оцениваю, но все-таки мне кажется, что такая оценка для "сложных" документов дает верхнюю границу производительности (условно конечно, т.к. необходимо точно знать соотношение "сложных" документов к "простым"). В моем случае, при максимальной загрузке приведенной конфигурации в сутки можно обработать порядка 5Тб, следовательно, добавив еще один сервер схожей конфигурации, я могу справится с суточной нагрузкой. Данные расчеты грешат погрешностью, но это лучше, чем ничего.
19 апр 13, 15:56    [14204885]     Ответить | Цитировать Сообщить модератору
 Re: Full-Text Search: Скорость построения индекса  [new]
alexeyvg
Member

Откуда: Moscow
Сообщений: 31430
remember82
мне кажется, что такая оценка для "сложных" документов дает верхнюю границу производительности
Ну это правильно, конечно. Просто можно сильно завысить требования к железу :-)
19 апр 13, 15:59    [14204903]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
Все форумы / Microsoft SQL Server Ответить