Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Oracle Новый топик    Ответить
 Как распознать язык текста?  [new]
Ловец Стрекоз
Member

Откуда: Москва
Сообщений: 236
Есть ли способ определения языка текста, передаваемого функции как CLOB?
Понимаю задача не тривиальная, но может быть кто то встречался с подобным?

Если есть знатоки RCO, то возможно ли сделать подобное путем создания рубрицирования? Где каждая рубрика - язык, а профиль рубрики наполняется самыми частыми словами данного языка?

У кого есть какие соображения?
31 окт 06, 18:32    [3337808]     Ответить | Цитировать Сообщить модератору
 Re: Как распознать язык текста?  [new]
contr
Member

Откуда:
Сообщений: 1909
Что-то мне подсказывает, что сложнее всего будет различать английский английский от американского английского :)
Многие другие языки можно вычислять по встречающимся в тексте страницам unicode.
Ну и всегода под вопросом остаются двуязычные документы с цитатами из латыни :)

О! Идея. Берете текст, прикидываете по номерам встречаемых кодовых страниц перечень возможных языков, потом используете переводчик для перевода с каждого из языков на некий эталонный, к примеру, на русский.
Чем меньше непереведенных (т.е. процитированных в оригинале) слов встретилось в машинном переводе - тем вероятнее, что язык угадали верно
31 окт 06, 18:42    [3337873]     Ответить | Цитировать Сообщить модератору
 Re: Как распознать язык текста?  [new]
Двоюшник
Member

Откуда: Киев
Сообщений: 1135
Спросить у пользователя при вводе текста :)
---
Ну ты заходи ежели чё...
31 окт 06, 18:44    [3337892]     Ответить | Цитировать Сообщить модератору
 Re: Как распознать язык текста?  [new]
Elic
Member

Откуда:
Сообщений: 29990
STFF Узнать кодировку
31 окт 06, 18:44    [3337893]     Ответить | Цитировать Сообщить модератору
 Re: Как распознать язык текста?  [new]
Ловец Стрекоз
Member

Откуда: Москва
Сообщений: 236
ну, положим, кодировку распознавать не надо - UTF8
31 окт 06, 18:59    [3337968]     Ответить | Цитировать Сообщить модератору
 Re: Как распознать язык текста?  [new]
Амаразм
Member

Откуда:
Сообщений: 299
можно создать таблицу для каждого возможного языка - для всех символов юникода собрать статистику частоты встречаемости символа в тексте.
Я думаю, таким образом можно будет отделить английский от американского :)
При условии что будет точная статистика и размер текста CLOB подходящий.
31 окт 06, 19:26    [3338057]     Ответить | Цитировать Сообщить модератору
Все форумы / Oracle Ответить