Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Вопрос-Ответ Новый топик    Ответить
 Поиск похожих написаний в датасете  [new]
Bazilisk
Member

Откуда:
Сообщений: 5
Уважаемые форумчане, добрый день!

Я сейчас учусь в институте и у меня проходит курс по интеллектуальным системам.

Я выбрал тему поиска похожих написаний в датасете (датасет имеет больше миллиона записей), а именно есть таблица, в которой около 15 полей и каждое поле дает какой то вес при определение схожести написаний и в последующем унификации похожих строк в одну на основании существующей таблицы унификаций, в случае если в таблице унификаций нет подходящей строки по схожести, то добавлять новую строку в таблицу унификаций. (суть в том, что в исходной таблице с 15 полями данные забиваются вручную операторами и поэтому там возможны либо ошибки, либо перепутаны местами данные в полях, либо не полный набор данных во всех полях)

Я прочитал много теории по поводу поиска похожих написаний и везде описывают варианты с использованием регулярных выражений, а хотелось бы попробовать внедрить нейронные сети для поиска и унификации записей (так как унификацией занимаются тоже операторы), но пока по нейронным сетям знания только набираю и хотелось бы узнать Ваше мнение по поводу внедрения данной технологии для данного проекта, есть ли смысл и насколько оптимален данный вариант?
Может кто уже пробовал.

Или был бы рад узнать о каких то других вариантах поиска похожих написаний.

Заранее благодарю за помощь.
22 фев 21, 22:09    [22284937]     Ответить | Цитировать Сообщить модератору
 Re: Поиск похожих написаний в датасете  [new]
Dimitry Sibiryakov
Member

Откуда:
Сообщений: 52449
Bazilisk
хотелось бы узнать Ваше мнение по поводу внедрения данной технологии для данного проекта

Это тянет на докторскую диссертацию, а не курсовик. Бесперспективняк.
23 фев 21, 14:42    [22285147]     Ответить | Цитировать Сообщить модератору
 Re: Поиск похожих написаний в датасете  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 34723
Блог
Bazilisk,

А у вас есть ресурсы на обучение сети?

Грубо говоря, вам потребуется прогнать миллион итераций на обучение нейросети и по завершению каждой итерации вы или кто-то другой должны "сказать" нейросети "да" или "нет"
23 фев 21, 21:28    [22285362]     Ответить | Цитировать Сообщить модератору
 Re: Поиск похожих написаний в датасете  [new]
Akina
Member

Откуда: Зеленоград, Москва, Россия
Сообщений: 20960
Левенштейн-Дамерау и иже с ими.
23 фев 21, 22:02    [22285370]     Ответить | Цитировать Сообщить модератору
 Re: Поиск похожих написаний в датасете  [new]
Bazilisk
Member

Откуда:
Сообщений: 5
Критик,

на текущий момент унификацией занимаются тоже операторы (забыл сказать, что в таблице уже есть какие то унификации/привязки и я так полагаю, что учить с нуля нет необходимости, наверное), поэтому думаю если внедрять нейронные сети то уже для новых или для проверки уже привязанных записей в таблице.

И вот в момент добавления абсолютно новой записи по которой нет похожей строки в истории, идея такая, чтобы нейронка сама искала похожую запись в таблице унификации и если её нет, то добавить в таблицу унификации новую строку, предварительно обработав и привязавшись к ней.
А если в истории и в таблице унификаций есть похожие записи, но они разные в двух случаях, то чтобы нейронка оценила самую подходящую (допустим по количеству одинаковых слов/символом) запись и привязалась к победившей.
23 фев 21, 22:12    [22285375]     Ответить | Цитировать Сообщить модератору
 Re: Поиск похожих написаний в датасете  [new]
Bazilisk
Member

Откуда:
Сообщений: 5
Akina,

Про данный поиск я читал, есть еще подходящий под моё условие Алгоритм Шинглов вроде как, но суть в том, что полей, которые участвуют в определении похожей записи несколько и у каждого поля можно сказать есть свой вес, то есть если допустим 2 поля совпали со строкой в таблице унификаций, то 3 поле которое не совпало и имеет больший вес не даст привязаться к той самой подходящей по 2 полям строке.
23 фев 21, 22:23    [22285379]     Ответить | Цитировать Сообщить модератору
 Re: Поиск похожих написаний в датасете  [new]
Akina
Member

Откуда: Зеленоград, Москва, Россия
Сообщений: 20960
Ну так кто мешает оценить "похожесть" полей по отдельности, замножить на вес, и получить финальный критерий отбора? ну или более сложное выражение... по-любому, сколько бы полей не было, тебе надо сформировать один критерий, к которому уже применить отбор по некоему порогу.

Сообщение было отредактировано: 23 фев 21, 23:21
23 фев 21, 23:28    [22285401]     Ответить | Цитировать Сообщить модератору
 Re: Поиск похожих написаний в датасете  [new]
exp98
Member

Откуда:
Сообщений: 2845
Как всегда ничаво не понятно кроме того, но и это догадка, что ставится задача, похожая на кластеризацию. Сколько будет кластеров заранее неизвестно. Есть какие-то критерии, к-рые непонятным образом должны участвовать в кластеризации.
Причём здесь какая-то таблица, поля таблицы? Зачем это нам нужно?

Адекватность выбора метода решения (данная хотелка нервосетки) определится не тем, есть ли 15 полей или 333.
Какие умения должно развивать это учебное задание?
Вообще, учебное ли оно? Кто такие операторы? Они что, сидят при институте специально для студентов и набивают им в 15 полей критерии? Больше похоже, что в конторе есть текстовая база, к-рую девочкам или менеджерам долго или впадлу править ручками. И затребовалось почистить базу. Однажды я сталкивался с таким.

Да, кластеризовать можно в т.ч. и нервосетками. Нужно ли? а хр3.

Прочитав "много теории", почему решил работать на сетках? Я предполагаю что как всегда, алгоритмы надо трудиться прогать и отлаживать, а сферическая сетка сама всё сделает. Иначе, ежли прочитано много теории, почему не прочитано самого главного про сетки. Читано в виде дайджестов?

Откуда берутся сравниваемые строки? наугад из инета, из томика Чехова, из БМедЭнц, операторы придумывают, преп дал и не сказал откуда.
Если псевдооператор "ошибётся", то как это узнать? какова модель их ошибок?
Оценивать качество результатов кластеризации глазками?

Кластеризовать можно и сетками. Только надо сперва составить мат- и информационную модель задачи, и потом уже говорить о 100500 полях в таблице. И конечно же изучить теорию по сеткам, потому что следующий вопрос будет "какую сетку выбрать"?
24 фев 21, 16:11    [22285852]     Ответить | Цитировать Сообщить модератору
 Re: Поиск похожих написаний в датасете  [new]
Dimitry Sibiryakov
Member

Откуда:
Сообщений: 52449
Да нет, обычный fuzzy search.
25 фев 21, 14:55    [22286360]     Ответить | Цитировать Сообщить модератору
 Re: Поиск похожих написаний в датасете  [new]
exp98
Member

Откуда:
Сообщений: 2845
Dimitry Sibiryakov, есессно. С той поправкой,что обычных фуззи не бывает. Автору придётся поизобретать, учитывая те самые ошибки операторов. Но если автор очень хочет сеть, то пусть себе делает.
25 фев 21, 17:31    [22286422]     Ответить | Цитировать Сообщить модератору
Все форумы / Вопрос-Ответ Ответить