Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Oracle Новый топик    Ответить
 синхронизация данных через web (парс HTML)  [new]
Свалка
Guest
Добрый вечер.

Есть СУБД - Oracle. Есть сайт, на страницах которого есть данные, которые нужно закачать в СУБД.

Как я понимаю основной способ :
Через UTL_HTTP посредством HTTP запросов получать текст HTML страницы и парсить нужные реквизиты ?

Причем HTML страница имеет сложную структуру - со множеством тэгов/атрибутов/элементов и парс такой страницы будет очень сложным и в конечном итоге (в совокупности общего кол-ва страниц) очень долгим.

Т.е этапы :
1. Получить текст HTML страницы (или текст тэга <body>).
2. Парсить нужные строки и парсить атрибуты с помощью регулярных выражений.

Есть механизмы по проще?
26 фев 16, 20:38    [18869511]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
Dimitry Sibiryakov
Member

Откуда:
Сообщений: 51780

Свалка
Есть механизмы по проще?

Договориться с владельцем сайта о предоставлении доступа к данным в более удобоваримой для
закачки форме. CSV, например.

Posted via ActualForum NNTP Server 1.5

26 фев 16, 20:42    [18869522]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
Свалка
Guest
Dimitry Sibiryakov,

Да... Но заказчик хочет. чтобы владелец сайта не знал что кто - то использует предоставляемые им данные для формирования своей БД :).
26 фев 16, 20:47    [18869530]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
--Eugene--
Member

Откуда: Боярышник
Сообщений: 2170
Свалка,
XML Functions
26 фев 16, 20:53    [18869543]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
--Eugene--
Member

Откуда: Боярышник
Сообщений: 2170
XMLQUERY and XMLTABLE Examples
26 фев 16, 20:54    [18869550]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
Свалка
Guest
--Eugene--,

Любой (X)HTML можно конвертнуть в XML ?
Я не понимаю причем тут функции для работы с форматом XML...
26 фев 16, 20:56    [18869561]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
аяхи и жкуери
Guest
Свалка
Есть механизмы по проще?
Возьми любой рендерер на С или java и напиши батник с их использованием. Данные на странице могут формироваться вообще скриптами.
Реляционная база предназначена для обработки структурированных данных, а не анализа свалок.
26 фев 16, 21:03    [18869582]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
--Eugene--
Member

Откуда: Боярышник
Сообщений: 2170
Свалка
Любой (X)HTML можно конвертнуть в XML ?
ставлю 10р. на то что любой
26 фев 16, 21:08    [18869596]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
Свалка
Guest
--Eugene--
Свалка
Любой (X)HTML можно конвертнуть в XML ?
ставлю 10р. на то что любой


Страницу со стилями, скриптами врятли можно привести к xml. Если только находить отдельные фрагменты текста с помощью регулярных вражений и потом только конвертить содержимое фрагмента в XML. Это имелось в виду ?
26 фев 16, 21:15    [18869610]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
Свалка
Guest
аяхи и жкуери,

У меня смутные познания насчет того что такое рендерер...
26 фев 16, 21:18    [18869615]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
втрице
Guest
--Eugene--
Свалка
Любой (X)HTML можно конвертнуть в XML ?
ставлю 10р. на то что любой
<html><body>
<p>Не<br>любой
<а что не понял, не покажу>
</body></html>
26 фев 16, 21:20    [18869621]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
--Eugene--
Member

Откуда: Боярышник
Сообщений: 2170
Свалка
врятли можно
HTML есть суть подмножество XML.
а что касается стилей и проч. - это всё обернуто в тэги.
26 фев 16, 21:21    [18869627]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
--Eugene--
Member

Откуда: Боярышник
Сообщений: 2170
втрице
<html><body>
<p>Не<br>любой
<а что не понял, не покажу>
</body></html>
ok. любой, который wellformed
26 фев 16, 21:23    [18869632]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
Leonid Kudryavtsev
Member

Откуда:
Сообщений: 9251
--Eugene--
HTML есть суть подмножество XML.

Неправда. В HTML полно тегов для которых нет закрывающих тегов. В XML такое запрещено

--Eugene--
ok. любой, который wellformed

Wellformed HTML != XHTML
27 фев 16, 00:10    [18870239]     Ответить | Цитировать Сообщить модератору
 Re: синхронизация данных через web (парс HTML)  [new]
Cristiano_Rivaldo
Member

Откуда:
Сообщений: 346
Если объем парсируемых страниц очень большой, то смысла такого обмена нет - по времени будет очень долго + надо будет обходить возможную защиту на сайте - количество подряд запросов от одного IP. Надо искать обходной путь. Возможно нужно договорится с создателем сайта о более приемлемом формате (за деньги естественно) либо искать другой источник данных...
27 фев 16, 11:22    [18870929]     Ответить | Цитировать Сообщить модератору
Все форумы / Oracle Ответить