Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Microsoft SQL Server Новый топик    Ответить
 поиск нетривиальных связей в базе данных  [new]
iliyev
Member

Откуда: Лондон
Сообщений: 152
Сразу прошу прошения за абстрактную постановку задачи.
База данных. Клиенты, люди, текстовая информация...
Хотелось бы нарисовать алгоритм нахождения связей - анализ текста, построение причинно - следственных зависимостей. Предупреждение вероятних событий...
Естественно не ожидаю решения, надеюсь кто нибудь уже с такой работой сталкивался.
21 дек 09, 18:44    [8097850]     Ответить | Цитировать Сообщить модератору
 Re: поиск нетривиальных связей в базе данных  [new]
Паганель
Member

Откуда: Винница
Сообщений: 22552
Информацию о связях между таблицами Вашей БД
рекомендую запросить у Вашего сотрудника,
который эту БД проектировал
21 дек 09, 18:47    [8097865]     Ответить | Цитировать Сообщить модератору
 Re: поиск нетривиальных связей в базе данных  [new]
iliyev
Member

Откуда: Лондон
Сообщений: 152
Паганель
Информацию о связях между таблицами Вашей БД
рекомендую запросить у Вашего сотрудника,
который эту БД проектировал


Спасибо. Обязателно запрошу :)
Ишем нетривиалние связи. Построение деревьев по ключам ето не ответ. Интересует поиск информации которая сушествует в системе, но не описана в структуре базы.
Например: Остап работает на Рога и Копыта Лимитед. В беседе упомянул своего знакомого Корейко, Александра. Некто Балоганов тоже его упомянул в своем разговоре с учереждением Геркулес. Вероятность встречи Остапа с сотрудниками Геркулеса?
21 дек 09, 18:55    [8097901]     Ответить | Цитировать Сообщить модератору
 Re: поиск нетривиальных связей в базе данных  [new]
Паганель
Member

Откуда: Винница
Сообщений: 22552
Ага, вот что нужно
К сожалению, опыта такого у меня нет, ничем помочь не могу
Я даже не знаю, из какой это области знаний... искусственный интеллект что ли...
21 дек 09, 18:58    [8097909]     Ответить | Цитировать Сообщить модератору
 Re: поиск нетривиальных связей в базе данных  [new]
iliyev
Member

Откуда: Лондон
Сообщений: 152
100% AI.
Задача интересная. Надеюсь я не первый кто с етим сталкивается
21 дек 09, 19:04    [8097930]     Ответить | Цитировать Сообщить модератору
 Re: поиск нетривиальных связей в базе данных  [new]
alexeyvg
Member

Откуда: Moscow
Сообщений: 31161
iliyev
100% AI.
Задача интересная. Надеюсь я не первый кто с етим сталкивается
Да, я знаю одну из занимающихся этим фирм - Медиалогия
22 дек 09, 09:28    [8099241]     Ответить | Цитировать Сообщить модератору
 Re: поиск нетривиальных связей в базе данных  [new]
iliyev
Member

Откуда: Лондон
Сообщений: 152
alexeyvg,

я над таким проектом лет 8 назад работал. Анализ новостей ето полуавтоматический рубрикатор текста.
Мне нужно прикрутить к реляционным данным текстовые для "обогошения" информации.
22 дек 09, 13:32    [8101431]     Ответить | Цитировать Сообщить модератору
 Re: поиск нетривиальных связей в базе данных  [new]
Slider_spb
Member

Откуда:
Сообщений: 800
Если рабочая база, то анализом SQL запросов к ней и поиском в них связей... Правда тут конечно не всё отловиться...
22 дек 09, 14:31    [8102003]     Ответить | Цитировать Сообщить модератору
 Re: поиск нетривиальных связей в базе данных  [new]
iliyev
Member

Откуда: Лондон
Сообщений: 152
Slider_spb,

http://www.springerlink.com/content/n1m185892p346w81/

Я Вас правильно понял?
22 дек 09, 15:16    [8102413]     Ответить | Цитировать Сообщить модератору
 Re: поиск нетривиальных связей в базе данных  [new]
Dmitry V. Liseev
Member [заблокирован]

Откуда: Санкт-Петербург
Сообщений: 5490
iliyev
Ишем нетривиалние связи. Построение деревьев по ключам ето не ответ. Интересует поиск информации которая сушествует в системе, но не описана в структуре базы.
Если у информации совсем нет структуры, то это не информация, а мусор. Структура может быть достаточно жесткая реляционная, может быть мягкая в виде XML-схемы, может быть описана грамматикой языка, регекспами или еще как. Но она все равно должна быть.

Сейчас вот, как раз, занимаюсь выцеплением полезной информации из базы контактов. Прямо в тексте могут быть прописаны номера телефонов в виде 253-1-45-67 или 8(815-53) 145-67, или +78155314567 или еще как. Во всех трех случаях это один и тот-же телефон. Выцепляем регэкспами, преобразуем голый текст в относительно структурированный xml, с тегами, где есть тег для номера телефона. У тега атрибуты: исходный текстовый формат, получаемые из него канонический (т.е. +78155314567), страна (т.е. 7), зона (т.е. 81553), локальный (т.е. 14567). Полученный xml текст с тегами уже можно индексировать и строить связи. Т.е. мы можем связать все места в тексте, которые связаны с городом "Полярный" (код 81551) или "Североморск" (81537). Зная, что это одно и то-же ЗАТО, мы понимаем, что речь идет о проектах по оборонке.

Аналогично выцепляются адреса и преобразуются в каноническую форму по КЛАДР, фамилии, имена, названия компаний. Строится граф семантических связей.

iliyev
Например: Остап работает на Рога и Копыта Лимитед. В беседе упомянул своего знакомого Корейко, Александра. Некто Балоганов тоже его упомянул в своем разговоре с учереждением Геркулес. Вероятность встречи Остапа с сотрудниками Геркулеса?
Есть существительные, есть глаголы, есть грамматика русского языка. Сначала надо заняться анализом текста и его парсингом для выделения этих сущностей. Потом строить базу и индексировать.

На самом деле задача довольно интересная и, как ни странно, распространенная. Около 90% корпоративной информации - слабоструктурированный мусор. Представим активные продажи. Менеджеру пришло письмо, он забил контакт: Петров, зам. генерального, e-mail: a@b.c, героин крупным оптом. Другому менеджеру позвонил кто-то, он записал: тел: 1-23-45 (доб. 67 или 78) спросить Петра Петровича, решает вопросы о поставках оружия.

Обе эти записи могут быть контактами одного и того-же человека: Петра Петровича Петрова. Потому возникает многочисленное дублирование и неполная информация. Казалось бы, можно заставить людей вести единую строго организованную базу с констрейнами, жесткими требованиями к форматам данных, канонической записью адресов и телефонов, всех реквизитов организаций (ИНН, ОГРН и т.д.). Парадокс в том, что такой математически правильной системой никто не будет пользоваться. Часто известно только Имя человека или только фамилия, если система требует обязательного задания и того и другого и третьего, чтобы гарантировать уникальность, то неполную информацию в нее не ввести (что и требовалось). Однако, по своей природе 90% информации является неполной. Потому в нашей славной корпоративной системе ничего не будет, а все будет у менеджеров на бумажках и в головах. Такова селяви.
23 дек 09, 13:02    [8106818]     Ответить | Цитировать Сообщить модератору
Все форумы / Microsoft SQL Server Ответить