Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Вопрос-Ответ Новый топик    Ответить
 Расстояние Махаланобиса - как это будет простым языком?  [new]
Ролг Хупин
Member

Откуда: Чебаркуль
Сообщений: 3801
Интересуте с точки зрения кластеризации документов и т.д.

Объясните, кто в курсе. Вот есть такое, но мне не доходит полностью:

Расстояние Махаланобиса является многомерным обобщением количества стандартных отклонений, отделяющих конкретную точку от распределения точек. В результате происходит сдвиг и масштабирование координат с учетом характеристик распределения. То есть расстояние Махаланобиса дает немного более гибкий способ определения расстояний между документами; например, позволяет определять сходство высказываний разной длины.
14 ноя 20, 13:43    [22232029]     Ответить | Цитировать Сообщить модератору
 Re: Расстояние Махаланобиса - как это будет простым языком?  [new]
Dimitry Sibiryakov
Member

Откуда:
Сообщений: 51775
Обычное бла-бла. "Эта гравицаппа позволяет определить насколько данный документ отличается от пачки остальных."
14 ноя 20, 15:08    [22232062]     Ответить | Цитировать Сообщить модератору
 Re: Расстояние Махаланобиса - как это будет простым языком?  [new]
Ролг Хупин
Member

Откуда: Чебаркуль
Сообщений: 3801
Dimitry Sibiryakov
Обычное бла-бла. "Эта гравицаппа позволяет определить насколько данный документ отличается от пачки остальных."


Если звезды зажигают(ц)

К примеру, я понимаю, в каких случаях нужно Манхэттенское расстояние вместо Эвклидового, а когда применяется Махаланобиса? как оно считается? Ведь , если индус придумал такую фигню и ею пользуются, то видно, что-то в этом есть
14 ноя 20, 15:11    [22232066]     Ответить | Цитировать Сообщить модератору
 Re: Расстояние Махаланобиса - как это будет простым языком?  [new]
x1ca4064
Member

Откуда:
Сообщений: 1210
Ролг Хупин

К примеру, я понимаю, в каких случаях нужно Манхэттенское расстояние вместо Эвклидового, а когда применяется Махаланобиса? как оно считается? Ведь , если индус придумал такую фигню и ею пользуются, то видно, что-то в этом есть


Если не трогать ковариации и прочую статистику, то

Ex1. Представьте, что есть 2 перпендикулярные оси, но на них разный масштаб: по оси X сантиметры, по Y - дюймы, тогда квадрат расстояния между точками будет a*(X1-X2)^2+b*(Y1-Y2)^2, где a,b - некоторые коэффициенты, зависящие от того, в каких единицах нужен ответ (a=1,b=(1/2.54)^2, если хотим в сантиметрах).

Ex2. Представьте, что 2 оси не перпендикулярны ("косоугольная система"), тогда квадрат расстояния будет: a*(X1-X2)^2+b*(Y1-Y2)^2+c*(X1-X2)*(Y1-Y2), где "c" определяется углом между осями.

Умозрительный пример с документами: допустим, что количество букв "А" и "Ъ" в тексте независимы (так ли это в реальности, я не знаю), интуитивно ясно, что букв "А" больше, чем "Ъ". Будем классифицировать документы так: 1й класс - мало "А" и мало "Ъ", 2й класс много "А" и много "Ъ".
Понятия "много" и "мало", выраженные в частотах встречаемости для данного текста, для выбранных букв отличаются, поэтому для классикации придется использовать вариант эвклидова расстояния с весами R^2=(ЧА-ЧА0)^2+b*(ЧЪ-ЧЪ0)^2, что соотвествует Ex1 (я положил a=1): если R<R0 - значит 1й класс, иначе 2й. ЧА,ЧЪ - частоты "А" и "Ъ" в классифицируемом документе, ЧА0,ЧЪ0 - параметры классификатора (частоты в "эталонных" документах)

Теперь рассмотрим аналогичный пример с буквами "А" и "Н": про них уже нельзя сказать, что они независимы, поэтому для расстояния придется использовать формулу расстояния из Ex2: R^2=(ЧА-ЧА0)^2+b*(ЧН-ЧН0)^2+c*(ЧА-ЧА0)*(ЧН-ЧН0), опять положил a=1, c - коэффициент связывающий влияние частоты одной буквы на частоту другой.

Как-то так, в моем понимании.
14 ноя 20, 16:47    [22232092]     Ответить | Цитировать Сообщить модератору
 Re: Расстояние Махаланобиса - как это будет простым языком?  [new]
Ролг Хупин
Member

Откуда: Чебаркуль
Сообщений: 3801
Т.е. проясняется, исходя из примера1,
расстояния Махаланобиса - это обобщение расстояния Эвклида, и
расстояние Э. - это частный случай расстояния М. при a=1, b=1
14 ноя 20, 18:39    [22232111]     Ответить | Цитировать Сообщить модератору
 Re: Расстояние Махаланобиса - как это будет простым языком?  [new]
x1ca4064
Member

Откуда:
Сообщений: 1210
Ролг Хупин
Т.е. проясняется, исходя из примера1,
расстояния Махаланобиса - это обобщение расстояния Эвклида, и
расстояние Э. - это частный случай расстояния М. при a=1, b=1

Ролг Хупин
Т.е. проясняется, исходя из примера1,
расстояния Махаланобиса - это обобщение расстояния Эвклида, и
расстояние Э. - это частный случай расстояния М. при a=1, b=1


Что-то сообщение грохнулось с ошибкой 500 :(

Да, расстояние М. - это расстояние при разных масштабах на осях и "косоугольности".

Прямоугольность означает, что величины независимы, угол между осями - отражает зависимость величин. Если угол=0, величины пропорциональны

Еще
Будем классифицировать документы так: 1й класс - мало "А" и мало "Ъ", 2й класс много "А" и много "Ъ".


Неверная фраза, следует понимать: мало отличается от частот в "эталонных" документах. Sorry
15 ноя 20, 00:04    [22232218]     Ответить | Цитировать Сообщить модератору
 Re: Расстояние Махаланобиса - как это будет простым языком?  [new]
Ролг Хупин
Member

Откуда: Чебаркуль
Сообщений: 3801
x1ca4064
Ролг Хупин
Т.е. проясняется, исходя из примера1,
расстояния Махаланобиса - это обобщение расстояния Эвклида, и
расстояние Э. - это частный случай расстояния М. при a=1, b=1

Ролг Хупин
Т.е. проясняется, исходя из примера1,
расстояния Махаланобиса - это обобщение расстояния Эвклида, и
расстояние Э. - это частный случай расстояния М. при a=1, b=1


Что-то сообщение грохнулось с ошибкой 500 :(

Да, расстояние М. - это расстояние при разных масштабах на осях и "косоугольности".

Прямоугольность означает, что величины независимы, угол между осями - отражает зависимость величин. Если угол=0, величины пропорциональны

Еще
Будем классифицировать документы так: 1й класс - мало "А" и мало "Ъ", 2й класс много "А" и много "Ъ".


Неверная фраза, следует понимать: мало отличается от частот в "эталонных" документах. Sorry


Спасибо, проясняется.
Зацепился заодно, а в реальности, где афинные системы координат применяются?
15 ноя 20, 09:14    [22232270]     Ответить | Цитировать Сообщить модератору
 Re: Расстояние Махаланобиса - как это будет простым языком?  [new]
exp98
Member

Откуда:
Сообщений: 2699
Ролг Хупин, что именно вам не подходит и почему, вы не сказали. Остаётся думать, что в целом всё ясно.
Специально для детализации. Из инета легко грузится книжка "Айвазян + Мешалкин + Классификация и снижение размерности".
Приложил вырезку из её индексного списка. В вырезке несколько ссылок на термин "махаланобис". Как дальше действовать, надеюсь понятно.
Упомянута ковариационная матрица. Это для общего случая, если компоненты выборки зависимы. Если независимы, то м-ца становится диагональной, и на диагонали - дисперсии по каждой компоненте.
Частными случаями метрик такого типа являются Евкл (взвешенная и обычная) и Хэмм.

А цитату, что вы привели - её не надо было вырывать из общего контекста используемого фреймворка. Вот и получилась дивергенция ротора векторного поля.
15 ноя 20, 22:36    [22232521]     Ответить | Цитировать Сообщить модератору
 Re: Расстояние Махаланобиса - как это будет простым языком?  [new]
exp98
Member

Откуда:
Сообщений: 2699
Ролг Хупин
а в реальности, где афинные системы координат применяются?
В какой такой реальности? В принципе везде в околоевклидовой геометрии. Например в кручении-верчении-сжатии-растяжении фигур, в модели освещённости или отражения поверхности, вообще при афинных преобразованиях координат ... GPS например, радиолокация ...

Сообщение было отредактировано: 15 ноя 20, 22:39
15 ноя 20, 22:41    [22232525]     Ответить | Цитировать Сообщить модератору
 Re: Расстояние Махаланобиса - как это будет простым языком?  [new]
exp98
Member

Откуда:
Сообщений: 2699
Ах, ну да, вырезка та самая, из книжки.

К сообщению приложен файл. Размер - 115Kb
15 ноя 20, 22:46    [22232528]     Ответить | Цитировать Сообщить модератору
 Re: Расстояние Махаланобиса - как это будет простым языком?  [new]
Ролг Хупин
Member

Откуда: Чебаркуль
Сообщений: 3801
exp98
Ролг Хупин, что именно вам не подходит и почему, вы не сказали. Остаётся думать, что в целом всё ясно.
Специально для детализации. Из инета легко грузится книжка "Айвазян + Мешалкин + Классификация и снижение размерности".
Приложил вырезку из её индексного списка. В вырезке несколько ссылок на термин "махаланобис". Как дальше действовать, надеюсь понятно.
Упомянута ковариационная матрица. Это для общего случая, если компоненты выборки зависимы. Если независимы, то м-ца становится диагональной, и на диагонали - дисперсии по каждой компоненте.
Частными случаями метрик такого типа являются Евкл (взвешенная и обычная) и Хэмм.

А цитату, что вы привели - её не надо было вырывать из общего контекста используемого фреймворка. Вот и получилась дивергенция ротора векторного поля.


Спасибо за ответ.
Я, собственно, цитату не вырывал из конекста используемого фреймворка, а взял из книги. Там фреймворки описываются, но в данном случае привязки не было.
Книга:
"Бенджамин Бенгфорт, Ребекка Билбро, Тони Охеда. Прикладной анализ текстовых данных на Python"
16 ноя 20, 09:03    [22232602]     Ответить | Цитировать Сообщить модератору
Все форумы / Вопрос-Ответ Ответить