Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Сравнение СУБД Новый топик    Ответить
Топик располагается на нескольких страницах: [1] 2 3   вперед  Ctrl      все
 СУБД для хранения генома.  [new]
rigor mortis
Member

Откуда:
Сообщений: 82
Привет.
Встал вопрос выбора БД для хранения генома. Должна ли это быть sql или nosql БД, то же вопрос. Структура информации и работа с ней заключаются в следующем:

- геном представляет собой непрерывную цепочку четвертичных бит (ДНК-нуклеотидов), то есть каждый бит может содержать одно из
значений А, Т, Г, Ц;

- длина генома от 500 (некоторые бактерии) до нескольких миллиардов (3200000 у млекопитающих);

- геном содержит последовательности бит, представляющих собой функциональные участки: начало гена, пустые участки гена,
кодирующие участки гена, "хвост" гена. А так же прочие сервисные и пустые последовательности, которые должны иметь
характеристику;

- в геноме должна быть возможность поиска определённой последовательности по 40-60% совпадений (искомая последовательность до
2000 бит) и по точному совпадению более коротких последовательность (искомая последовательность до 50 бит). А так же сравнение
двух последовательностей.
9 июн 18, 12:42    [21481595]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
softwarer
Member

Откуда: 127.0.0.1
Сообщений: 67534
Блог
rigor mortis,

задача как она описана вообще не особо для БД, имхо. По сути нужен список blob-ов и какой-то хитрый индекс по нему. Реализовывать этот индекс на 99.99% всё равно придётся самостоятельно, а в остальном функциональность БД просто не требуется.
9 июн 18, 20:26    [21482770]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
Siemargl
Member

Откуда: 010100
Сообщений: 6645
гуглим gene database

похоже, много людей уже решали эти вопросы
9 июн 18, 23:07    [21482981]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
Щиче
Member

Откуда: Чебоксары
Сообщений: 768
rigor mortis, NoSQL обслуживают специфические случаи. Берите реляционку, она универсальна. У вас геном сводится к хранению чисел, которые надо хранить в блобах (как целое). Несколько миллиардов записей на организм для любой СУБД слишком круто. Но вот держать таблицу с данными организма и в отдельном поле геном будет удобно.
9 июн 18, 23:09    [21482987]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
982183
Member

Откуда: VL
Сообщений: 3387
Снова попытки изобрести велосипед.
Хорошо, что если в учебных целях.
10 июн 18, 04:54    [21483103]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
H5N1
Member

Откуда: Yo.! из "Сравнения субд"
Сообщений: 605
читай про hadoop и map-reduce, типичная для него задача.
10 июн 18, 10:22    [21483217]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
tip78
Member

Откуда: Москва
Сообщений: 1266
а как же РНК?
по последним исследованиям, ДНК хранит много базовых инструкций, а вся инфа по специфике конкретного вида - в РНК
10 июн 18, 13:46    [21483419]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
rigor mortis
Member

Откуда:
Сообщений: 82
tip78
а как же РНК?
по последним исследованиям, ДНК хранит много базовых инструкций, а вся инфа по специфике конкретного вида - в РНК

Ну это вообще ни в какие ворота.
11 июн 18, 00:21    [21484145]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
mayton
Member

Откуда: loopback
Сообщений: 53057
Давайте пока забъем болт на возможную экономию.
И представим геном текстовой строкой из алфавита 4х букв.

Просто нам так будет проще с терминологией.
14 июн 18, 20:01    [21492121]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
Leonid Kudryavtsev
Member

Откуда:
Сообщений: 9907
mayton
Давайте пока забъем болт на возможную экономию.
И представим геном текстовой строкой из алфавита 4х букв.

Просто нам так будет проще с терминологией.

Ну не 4, а все же больше.

Про РНК уже вспомнили.

И AFAIK в целом оснований больше и в редких ситуациях основания вроде могут быть и другими (пруф. не дам, даже не помню, где это читал)

последовательности по 40-60% совпадений

Совершенно НЕ понятно. Как считать % совпадений и что вообще подразумевается под "совпадением"

Насколько я помню ДНК - парная. Т.ч. не очень понятно, как считать "совпадения". Никто же не мешает, в одной БД основания из одной цепочки выписать, а искать по основаниям из паралелльной цепочки. В общем, не знаю, как принято в генной инженерии кодировать.

Задача очень похоже на индексацию текста и нечеткий поиск. Вполне возможно, какие-то существующие алгоритмы вполне могут подойти.

Побить каким-то образом миллиардную последовательность на маленькие кусочки и искать по ним (в принципе, никто не мешает резать куски, что бы они взаимно накладывались друг на друга). Тогда БД будет осмысленна. Сначала находим сопадающие кусочки, потом SELECT'ами определяем какому гену они принадлежат.
14 июн 18, 20:30    [21492183]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
mayton
Member

Откуда: loopback
Сообщений: 53057
Автор пишет
- длина генома от 500 (некоторые бактерии) до нескольких миллиардов (3 200 000 у млекопитающих); 

Переводя на наш язык. БД должна хранить строки от 500 символов до 3 мега-символов.

Здесь особо нечего выбирать. Здесь нужно key-value хранилище.

Типа

keyvalue
Саблезубая мышь.genomATGCATGCATGCATGCATGC.....
Комар писклявый кусачий.genomAAAAAGGGGGTTTTTCCCCCC....

Согласен с softwarer по поводу акцента на алгоритмах. По большему счету здесь даже СУБД особо не нужна.
Нужен эффективный алгоритм индексирования. Учитывая специфику - это не текстовый поиск. Могу чуть
позже аргументировать почему. Но сперава задам вопросы Ригор-Мортису.

По поводу специализированных СУБД для генетики. Здесь я не готов ничего комментировать.
Но скорее всего их сила не в хранении а в обработке. Тоесть в алгоритмах сопоставления нечетких ключей.
И я вангую что подобных проектов очень мало и они стоят денег.

Сообщение было отредактировано: 15 июн 18, 08:15
15 июн 18, 08:14    [21492624]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
982183
Member

Откуда: VL
Сообщений: 3387
mayton
И я вангую что подобных проектов очень мало и они стоят денег.

На практике мало кто оперирует полностью расшифрованным геномом.
Используется технология "полосок" на маркере.
15 июн 18, 09:20    [21492746]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
mayton
Member

Откуда: loopback
Сообщений: 53057
А мы можем уйти от биологии и плавно подойти к.. Терминологии которая общепринята в it?
15 июн 18, 09:36    [21492794]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
982183
Member

Откуда: VL
Сообщений: 3387
mayton
А мы можем уйти от биологии и плавно подойти к.. Терминологии которая общепринята в it?

Чаще всего на практике используются аналоговые технологии, а не цифровые.
15 июн 18, 09:49    [21492832]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
mayton
Member

Откуда: loopback
Сообщений: 53057
982183,

Как энтузиаст и бывший радио-любитель я готов поддержать тему аналоговой техники. Но мне кажется будет разумным обсуждать здесь постановку в терминах it и в русле Сравнения СУБД.

Рнк-днк и и прочаа биологическая атрибутика - В форум биологов. Аналоговая техника - тоже оффтоп.

Поверьте старому модератору.
15 июн 18, 11:24    [21493184]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
SergSuper
Member

Откуда: SPb
Сообщений: 5488
mayton
А мы можем уйти от биологии и плавно подойти к.. Терминологии которая общепринята в it?
мне кажется тут как раз именно проблема как перейти
т.е. пока нет модели
15 июн 18, 14:29    [21493907]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
tip78
Member

Откуда: Москва
Сообщений: 1266
во1, надо буквы в цифры перевести - 1234
во2, bigint-ами хранить геном под индексами 001 002 003 - как то так
поиск достаточно по первому bigint-у сделать, думаю там уник будет
ну или 2й подключить на крайняк
15 июн 18, 15:13    [21494089]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
tip78
Member

Откуда: Москва
Сообщений: 1266
по 18 цифр это 177 777 778 записей для генома в несколько ярдов
но ещё есть вариант в битах хранить: 00 01 11 10
15 июн 18, 15:16    [21494106]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
tip78
Member

Откуда: Москва
Сообщений: 1266
т.е. 1 байт будет содержать аж 4 нуклеотида
15 июн 18, 15:19    [21494117]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
tip78
Member

Откуда: Москва
Сообщений: 1266
4 нуклеотида это всего 16 уникальных блоков так то
т.е. hex

кстати, интересный способ хранения данных - по горизонтали верхние 3 строчки, по вертикали - нижние
https://youtu.be/L_YByJ2QtUc?t=1h14m34s
15 июн 18, 15:56    [21494255]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
Leonid Kudryavtsev
Member

Откуда:
Сообщений: 9907
mayton
...it и в русле Сравнения СУБД.
....
Рнк-днк и и прочаа биологическая атрибутика - В форум биологов.
....
Поверьте старому модератору.

в общем, все предметная область - в топку

будем обсуждать чем битики и байтики в БД MySQL отличаются от битиков и байтиков в PostgreSQL ? :-)

На последний вопрос, могу сразу дать ответ - ничем. И то и то маленькие кусочки намагниченного жесткого диска. При этом в русле IT и Сравнения СУБД даже ничем не будут отличаться от битиков и байтиков просто в текстовом файле.

СУБД это все же только и не столько система хранения. Сколько система управления и ПОИСКА (SELECT) данных. А вот критерии, алгоритмы и требования к поису как раз очень расплывчатые.
15 июн 18, 19:17    [21495064]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
kealon(Ruslan)
Member

Откуда: Нижневартовск
Сообщений: 6645
rigor mortis,

задача то какая? восстановление полного генома по отдельным участкам или всё же поиск вхождений из базы?
15 июн 18, 20:27    [21495151]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
mayton
Member

Откуда: loopback
Сообщений: 53057
Leonid Kudryavtsev
будем обсуждать чем битики и байтики в БД MySQL отличаются от битиков и байтиков в PostgreSQL ? :-)

А я объясню. Я считаю что это очень важно. На самом старте ТЗ договорится о терминологии.

Автор пишет.
- геном представляет собой непрерывную цепочку четвертичных бит (ДНК-нуклеотидов), то есть каждый бит может содержать одно из
значений А, Т, Г, Ц;

Четверичных бит? Вы слышали нечто подобное? И я задаю вам дальше вопрос. Мы будем оперировать символами?
Или битами? Битами какими? В нашем общепринятом понимании или в том в котором мыслит топик-стартер.

Далее. По поводу строк и целых чисел. Другой господин в топике пишет
bigint-ами хранить геном под индексами 001 002 003 - как то так
поиск достаточно по первому bigint-у сделать, думаю там уник будет
ну или 2й подключить на крайняк 

Отвечу сразу. Никакого смысла. Вообще никакого. Можно искать пользу в экономии места. Но не забывайте
что нам надо двигать шаблон по геному и искать совпадения или частичные совпадения. Как вы их будете искать?
Двигать биты в четверичных целых? Хм... Ну я-б подумал. Для 3 200 000 нуклеотидов мы получим 3-х мегабайтную
строку в классическом представлении + аппарат строковых операций. Или мы можем децл сэкономить и получить
в 4 раза меньше тоесть 3 200 000 / 4 = 800 000 или 800 килобайт упакованных бит. И кучу головняка с тем
как это матчить. Не забывайте что нам надо двигать информацию кратно позиции нуклеотида а не байта.
Вобщем думайте.
15 июн 18, 23:10    [21495495]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
tip78
Member

Откуда: Москва
Сообщений: 1266
mayton, вы утверждаете, что первые 20-40 нуклеотидов не будут уникальными?
16 июн 18, 00:19    [21495598]     Ответить | Цитировать Сообщить модератору
 Re: СУБД для хранения генома.  [new]
kealon(Ruslan)
Member

Откуда: Нижневартовск
Сообщений: 6645
mayton,

вот просто интересно, второй раз за день упоминаю


если мы применим Преобразование Барроуза — Уилера к сохраняемому геному, то вроде уже и не всё так печально с поиском

копать можно в сторону "Суффиксный массив и BWT"

ещё тынц прямо из области ТС
16 июн 18, 00:21    [21495600]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: [1] 2 3   вперед  Ctrl      все
Все форумы / Сравнение СУБД Ответить