Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Сравнение СУБД Новый топик    Ответить
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
 Выбор СУБД для Лингвистического Корпуса  [new]
DM05
Member

Откуда:
Сообщений: 5
Привет.

Я лингвист, пишу текстовой корпус (приведенные в построчное соответствие тексты на нескольких языках с возможностью поиска по заданному слову/фразе и/или грамматическому феномену и возможностью запросов онлайн через сайт). Пишу из любви к искусству )), поэтому могу полагаться только на себя (бюджет минимальный). В детстве любил программировать на первых версиях Basic на Yamaha MSX (крейсер 80х); знаю, сегодня это звучит смешно, но других познаний в написании кода нет... Логику БД создаю сам и в этом смысле вопросов нет. Пытался разобраться самостоятельно, но многие вопросы рассудком не возьмешь - нужен только многолетний опыт. Поэтому, хочу просить совета профессионалов, а именно:

1. Какая СУБД (можно платная) не требует написания кода и имеет графические конструкторы для команд SQL (чтобы не изучать синтаксис SQL)?;

2. Если есть выбор вышеупомянутых СУБД, какая более проста и надежна - даже за счет поражения в функциональности?;

3. В каком формате (файле, редакторе) можно начать "заливать" содержимое базы данных уже сейчас, не ожидая начало работы с СУБД. Дело в том, что мне предстоит большая и кропотливая работа по "ручному" внесению данных в таблицы: одна строка текста - привязка по ключу - другая "привязанная" строка текста другой таблицы и т.д... Может MS EXCELL или ACCESS ? И можно ли будет легко экспортировать заполненные таблицы из этих редакторов в тот же, например, PHPmyadmin?;

4. Если я предоставлю логику БД, а также все заполненные таблицы - о каких порядках цифр можно говорить чтобы нанять профи для сборки БД и подготовки ее публикации в сети?


Заранее очень благодарен,

Денис
16 сен 16, 16:21    [19674604]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
Leonid Kudryavtsev
Member

Откуда:
Сообщений: 9882
DM05
1. Какая СУБД (можно платная) не требует написания кода и имеет графические конструкторы для команд SQL (чтобы не изучать синтаксис SQL)?;

IMHO Таких нет.

Т.е. многие предлагают "графический конструктор" но по факту, после него все равно нужно SQL проверять/корректировать. Да и более-менее средней сложности конструкции - уже проще сразу на SQL писать, чем с интерфейсом разбираться, где какая галочка к чему приводит.

Т.ч. минимальный синтаксис SQL изучать все равно нужно.
DM05
2. Если есть выбор вышеупомянутых СУБД, какая более проста и надежна - даже за счет поражения в функциональности?;

Если бесплатные и распространенные,то выбор не такой уж и большой:
1. PostgresSQL
2. MySQL

Ну или бесплатные версии от вендоров:
Oracle XE
MS SQL

DM05
3. Может MS EXCELL или ACCESS ?

Access и сама по себе УЖЕ СУБД. Если Вы его используете как клиента, проблем никаких нет.

Создавайте таблички/запросы в Access, или сразу или позже таблички перенесете в другую СУБД и подцепитесь к ней через ODBC. (лучше сразу)

Импорт из CSV поддерживают почти все СУБД. Т.ч. с Excell'ем тоже проблем нет (если задача простая и по уму все делать, лишний бардак не разводить).

DM05
4. Если я предоставлю логику БД, а также все заполненные таблицы - о каких порядках цифр можно говорить чтобы нанять профи для сборки БД и подготовки ее публикации в сети?

От бесплатно до сотен миллионов рублей )))

Понятия публикация БД в сети - нет. Есть сайты. Есть сайты на основе БД. Но в любом случае требуется:
1. дизайнер / дизайн - можно обратиться к Артему Лебедеву )))
2. верстка - преобразование дизайна в HTML вид
3. backend приложение - которое данные из БД будет объединять с версткой и отдавать пользователю красивую страничку
4. администратор - который в дальнейшем будет поддерживать сайт, вдруг что упало

IMHO & AFAIK
16 сен 16, 20:38    [19675764]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
miksoft
Member

Откуда:
Сообщений: 38918
DM05
Дело в том, что мне предстоит большая и кропотливая работа по "ручному" внесению данных в таблицы: одна строка текста - привязка по ключу - другая "привязанная" строка текста другой таблицы и т.д...
Зачем этот ужас?
Загрузить текстовый файл в таблицу построчно - в большинстве СУБД это дело одной команды.
Или имеется в виду что-то хитрое?
16 сен 16, 21:36    [19675933]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
DM05
Member

Откуда:
Сообщений: 5
Leonid Kudryavtsev,

Спасибо большое за обстоятельный ответ. Я не из лени пытаюсь избежать написание запросов на SQL. Самоучитель по SQL я осилил и осмыслил, но чтобы на нем писать понадобится длительная практика.

По Access и .CSV я понял.

Еще раз спасибо.
17 сен 16, 03:47    [19676371]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
DM05
Member

Откуда:
Сообщений: 5
miksoft,

То есть, если я правильно вас понял, СУБД способна проанализировать текстовой файл, вычленить все фразы (допустим, по пунктуации текста), принять от пользователя указание сколько фраз и в каком порядке поместить в строку таблицы, а также каким шагом автоматически увеличивать индексацию строк. Далее, СУБД может то же самое проделать для следующего текстового файла и привязать таблицу созданную из этого следующего файла к первичному ключу первой таблицы.

Правильно ли я понял?

Если да, то значит СУБД должны обладать подстройкой условий анализа текста. То есть, например : 1) вычленить фразу как знаковое пространство между точкой и точкой...2) различать запятые и пр. знаки препинания; 3) различать заглавные и прописные ...

Иначе говоря, СУБД сможет выполнить команду:

1) Найди 3 первые фразы в текстовом файле ХХ1 и помести их в строку А1; 2) Найди 3 первые фразы в тесктовом файле ХХ2 и помести их в новую таблицу в строку А12; 3) Свяжи строки А1 и А2 по ключу А1.

Если все так, это упростит мне задачу. И небольшое уточнение: есть ли в библиотеке процедур SQL средства для обработки текстов и на каком языке их можно написать и вставить в БД для, например, идентификации и вычленения частей речи и заданных синтаксических форм, т.е. как дополнить тесктовые инструменты SQL?

В любом случае, спасибо за подсказку ))
17 сен 16, 04:10    [19676388]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
mad_nazgul
Member

Откуда:
Сообщений: 5824
DM05,

Давным давно был Clarion (хотя вроде бы он и сейчас есть), который позволял нарисовать БД и приложение к нему.
У Access не плохой построитель запросов.
Visual FoxPro тоже имеет встроенный построитель запросов.
Не плохая свзяка IBExpert + Firebird.

А так рекомендую все таки изучить SQL.
А БД взять PostgreSQL.
17 сен 16, 07:18    [19676433]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
schi
Member

Откуда: Москва
Сообщений: 2601
DM05
miksoft,

То есть, если я правильно вас понял, СУБД способна проанализировать текстовой файл, вычленить все фразы (допустим, по пунктуации текста), принять от пользователя указание сколько фраз и в каком порядке поместить в строку таблицы, а также каким шагом автоматически увеличивать индексацию строк. Далее, СУБД может то же самое проделать для следующего текстового файла и привязать таблицу созданную из этого следующего файла к первичному ключу первой таблицы.


Вам точно СУБД нужна ?

Я могу порекомендовать посмотреть в сторону Oracle с его Oracle Text (в XE вроде есть), но мне кажется, у вас СУБД - это лишнее звено.
17 сен 16, 10:34    [19676510]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
defragmentator
Member

Откуда:
Сообщений: 20504
DM05
есть ли в библиотеке процедур SQL средства для обработки текстов и на каком языке их можно написать и вставить в БД для, например, идентификации и вычленения частей речи и заданных синтаксических форм, т.е. как дополнить тесктовые инструменты SQL?

Не, этого нет.
Это задача для отдельного приложения.
Хотя, при желании, можно и это запрограммировать чисто средствами SQL в любой развитой СУБД, где процедуры, функции
17 сен 16, 12:14    [19676631]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
Dimitry Sibiryakov
Member

Откуда:
Сообщений: 54761

DM05
Правильно ли я понял?

Нет. СУБД занимается хранением данных. Всё. Больше она ничего не умеет.

Posted via ActualForum NNTP Server 1.5

17 сен 16, 12:21    [19676641]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
Yo.!
Guest
DM05,

описывай задачу подробней. пока нифига не ясно. о каком размере хранилища идет речь ? если у тебя пара тысяч книг, то это запросто влезет пару гб оперативной памяти (plain text). значит такое можно запросто каждый раз сканировать полностью и не заморачиваться с какой-то индексацией.
oracle xe есть oracle text, он строит индекс и дает возможность делать запросы как у гугла - типа что бы тексте встечалось то, но не встречалось это и т.п. при этом он знает языки и находит с учетом разных окончаний, приставок и т.п. но там даже с опытом sql тяжко разобраться.
скорее всего тебе разумней какую-то базу с map-reduce поискать, которая будет каждый раз все хранилище целиком сканировать, только как этот map-reduce подружить с нюансами языка, всякими окончаниями, союзами и прочими я слабо представляю
17 сен 16, 14:00    [19676781]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
kinzak
Member

Откуда:
Сообщений: 7
DM05,

если задача действительно интересная - могу помочь бесплатно.
17 сен 16, 14:17    [19676808]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
Yo.!
Guest
DM05,

кажется у нас где-то вот такое использовали https://en.wikipedia.org/wiki/Elasticsearch

может его с чем-то попроще чем hadoop можно использовать
17 сен 16, 14:32    [19676833]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
skyANA
Member

Откуда: Зеленоград
Сообщений: 28355
Yo.!
DM05,

кажется у нас где-то вот такое использовали https://en.wikipedia.org/wiki/Elasticsearch

может его с чем-то попроще чем hadoop можно использовать

Не может можно, а точно можно. И не обязательно с чем-то.
18 сен 16, 12:17    [19678998]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
skyANA
Member

Откуда: Зеленоград
Сообщений: 28355
И гуглится на раз два: text corpora with elasticsearch.
18 сен 16, 12:19    [19679000]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
miksoft
Member

Откуда:
Сообщений: 38918
DM05
То есть, если я правильно вас понял, СУБД способна проанализировать текстовой файл, вычленить все фразы (допустим, по пунктуации текста), принять от пользователя указание сколько фраз и в каком порядке поместить в строку таблицы, а также каким шагом автоматически увеличивать индексацию строк. Далее, СУБД может то же самое проделать для следующего текстового файла и привязать таблицу созданную из этого следующего файла к первичному ключу первой таблицы.

Правильно ли я понял?
Не совсем.
Я говорил о построчной загрузке, всего лишь.
А дальше уже можно дробить строки на фразы и т.д. Хотя обычные РСУБД - не лучший инструмент для этого.
18 сен 16, 22:15    [19680546]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
servit
Member

Откуда: г. Кишинёв, Республика Молдова
Сообщений: 3148
Блог
DM05,

Посмотрите в сторону технологии iKnow, встроенную в СУБД Caché (платная).
На хабре есть ряд статей с примерами и описанием возможностей iKnow/iFind.
Также на youtube есть краткое описание этой технологии (в том числе на русском), включая вебинары от автора статей на хабре.

PS: ещё есть облачные сервисы по анализу текста с помощью ИИ, например: Анализ Корана при помощи AI
19 сен 16, 09:07    [19681326]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
Fantomny
Member

Откуда: Санкт Петербург
Сообщений: 695
Leonid Kudryavtsev,

Я бы рекомендовал Firebird + ibexpert
19 сен 16, 09:15    [19681351]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
BlackGnomeГуест
Member

Откуда:
Сообщений: 1202
Fantomny,

Сначала не плохобы проанализировать список мелких бесплатных утилит, список бесплатного апи на яве и питоне касательно аналища текста, и тогда имя субд всплывет само
9 дек 16, 12:43    [19984277]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
Vladimir Baskakov
Member

Откуда:
Сообщений: 2006
автор
возможностью запросов онлайн через сайт


хостинги, на которые можно поставить что хочется - они возможно дороже, может и не принципиально, но все таки. а если на хостинге экономить - там будет mySql и возможно Postgress

данные под заливку вероятно стоит готовить в чисто-текстовом виде.

может быть есть смысл посмотреть Сфинкс
https://www.ibm.com/developerworks/ru/library/os-sphinx/
9 дек 16, 13:56    [19984793]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
BlackGnomeГуест
Member

Откуда:
Сообщений: 1202
Fantomny,

Сначала не плохобы проанализировать список мелких бесплатных утилит, список бесплатного апи на яве и питоне касательно аналища текста, и тогда имя субд всплывет само
9 дек 16, 17:04    [19985813]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
DriveSoft
Member

Откуда:
Сообщений: 224
Посмотрите на мой велосипед, в принципе конкурент акцессу
http://drive-software.com/myvisualdatabase_ru.html


после просмотра пару видео уроков станет ясно как пользоваться.
10 дек 16, 17:19    [19988176]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
битый
Member

Откуда:
Сообщений: 29553
DM05

2. Если есть выбор вышеупомянутых СУБД, какая более проста и надежна - даже за счет поражения в функциональности?;

Попробуйте Firebird. Бесплатная, простая, надёжная, вся функциональность есть, включая оконные функции.
DM05
4. Если я предоставлю логику БД, а также все заполненные таблицы - о каких порядках цифр можно говорить чтобы нанять профи для сборки БД и подготовки ее публикации в сети?
Если бы Вы объяснили, что за задача такая, ради которой из любви к искусству готовы работать бесплатно. может быть я всё сделал бы для Вас тоже бесплатно, так что многие трудности просто исчезли бы.
Идёт ли речь о русских летописях, например?
Или о религиозных текстах?
ЗЫ. Я серьёзно.
2 мар 17, 13:11    [20257270]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
rockclimber
Member

Откуда: у меня в голове опилки?
Сообщений: 11085
DM05
4. Если я предоставлю логику БД, а также все заполненные таблицы - о каких порядках цифр можно говорить чтобы нанять профи для сборки БД и подготовки ее публикации в сети?
Для "публикации в сети" могу порекомендовать Oracle Application Express. Он бесплатный, можно использовать в комплекте с Oracle XE. Порог входа минимальный, примерно как у аксесса. А SQL учить не бойтесь, чтобы что-то начать делать, там не так много надо.
3 мар 17, 18:22    [20261455]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
Ы2
Member

Откуда:
Сообщений: 251
Тему явно лучше закрыть, т.к. ТС давно уже удалился под сень струй и не реагирует, а к БД корпусная тема прямого отношения не имеет.

Если нет каких-то страшно специфических хотелок, нужно брать готовое ПО, которого полно, в т.ч. и свободного, почти на все случаи жизни: корпусные менеджеры как использующие БД, так и обходящиеся без нее (есть на Java, на PHP, даже на R), конструкторы (GATE), библиотеки для разного рода обработки ЕЯ (NLTK и аналоги, XSFT/SFST/OpenFST/foma, реализация грамматики связей от Abisource и т.п.), системы машинного перевода (MOSES, Apertium)…
3 мар 17, 18:52    [20261528]     Ответить | Цитировать Сообщить модератору
 Re: Выбор СУБД для Лингвистического Корпуса  [new]
Бредятина
Member [заблокирован]

Откуда: Москва
Сообщений: 2497
DM05
Привет.

Я лингвист, пишу текстовой корпус (приведенные в построчное соответствие тексты на нескольких языках с возможностью поиска по заданному слову/фразе и/или грамматическому феномену и возможностью запросов онлайн через сайт). Пишу из любви к искусству )), поэтому могу полагаться только на себя (бюджет минимальный). В детстве любил программировать на первых версиях Basic на Yamaha MSX (крейсер 80х); знаю, сегодня это звучит смешно, но других познаний в написании кода нет... Логику БД создаю сам и в этом смысле вопросов нет. Пытался разобраться самостоятельно, но многие вопросы рассудком не возьмешь - нужен только многолетний опыт. Поэтому, хочу просить совета профессионалов, а именно:

1. Какая СУБД (можно платная) не требует написания кода и имеет графические конструкторы для команд SQL (чтобы не изучать синтаксис SQL)?;

2. Если есть выбор вышеупомянутых СУБД, какая более проста и надежна - даже за счет поражения в функциональности?;

3. В каком формате (файле, редакторе) можно начать "заливать" содержимое базы данных уже сейчас, не ожидая начало работы с СУБД. Дело в том, что мне предстоит большая и кропотливая работа по "ручному" внесению данных в таблицы: одна строка текста - привязка по ключу - другая "привязанная" строка текста другой таблицы и т.д... Может MS EXCELL или ACCESS ? И можно ли будет легко экспортировать заполненные таблицы из этих редакторов в тот же, например, PHPmyadmin?;

4. Если я предоставлю логику БД, а также все заполненные таблицы - о каких порядках цифр можно говорить чтобы нанять профи для сборки БД и подготовки ее публикации в сети?


Заранее очень благодарен,

Денис

1. Вам не нужен SQL. За 50 лет не было найдено ни одной прикладной задачи, для которой SQL имело бы смысл использовать.
2. MUMPS - идеальный инструмент для подобных задач. Вероятно, придется иметь дело с Cache. Или GT.M. Это зависит от Вашего помощника (п. 4).
3. Excel, конечно, подойдет.
4. От 0 (студенты МИФИ - обратитесь через Intersystems и обоснуйте актуальность) до 100 тыс. руб.
30 июл 17, 15:25    [20685804]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
Все форумы / Сравнение СУБД Ответить