Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / WinForms, .Net Framework Новый топик    Ответить
 Данные из html  [new]
andix
Member

Откуда:
Сообщений: 27
Ситуация такая: мне нужно выбирать некоторые данные из web-страничек разных сайтов в сети.

На данный момент я это делаю следующим способом: загружаю необходимую страницу в поток (с помощью WebResponse и WebRequest), далее последовательно прохожу по этому потоку в поисках неких ориентиров (определенных заранее при анализе данного типа страниц) и, свигаясь от них на необходимое расстояние (опять же определенное при анализе) в одну или другую сторону, выгребаю нужные мне данные. В принципе, работает... Но проблема в том, что разных типов страниц со временем все больше и больше, а анализ их кода и поиск ориентиров - очень трудоемкая операция (и зачастую небезошибочная - с помощью неправильно определенных ориентиров или смещений невозможно в последующем выгребать данные из других страниц такого же типа).

Вопрос:
Можно сделать данный процесс как-либо эффективнее???, например:
1. Сконвертировать страницу в xml (опять же - КАК?) и по xml вести анализ и в последствии - выбор данных;
2. Работать не со всем кодом страницы, а только с той ее частью, которая выводится на экран при просмотре в браузере (все необходимые мне данные так или иначе отображаются при просмотре исходной страницы в браузере) - возможно есть встренный парсер, позволяющий выделить только отображаемые данные?;
3. Ваш вариант.

Заранее спасибо.
5 ноя 06, 19:39    [3358167]     Ответить | Цитировать Сообщить модератору
 Re: Данные из html  [new]
Sv219
Member

Откуда: Омск
Сообщений: 976
по пунктам:
1. можно сматри аттач, тока там без примера, сами классы для конверта... примеры можно поискать в инете, так как сам скачал и исправил ошибку (если HTML содержал не закрытые теги то XML был с ошибкой, помоему такая бага была) и еще помоему что то для себя подправил, отказался от такой идеи, так как сильно падала производительность, уж больно долго в XML конвертил, помимо этого еще есть есть конверторы в XML.
2. помоему находил либы которые позволяют рабоать не совсем кодм.... например выдирала тег BODY и потом его еще на составные теги можно было разбить... чем то мне тоже не понравился...
3. мой вариант было бы хорошо юзать веб службы.

К сообщению приложен файл (htmlToXml.rar - 2Kb) cкачать
6 ноя 06, 11:34    [3358925]     Ответить | Цитировать Сообщить модератору
 Re: Данные из html  [new]
andix
Member

Откуда:
Сообщений: 27
Sv219

...
3. мой вариант было бы хорошо юзать веб службы.


А поконкретнее? (если можно - с примером).
Насколько я понял - Вы тоже сталкивались с этой проблемой. Хотелось бы узнать как Вам удалось решить ее.
Заранее спасибо.
7 ноя 06, 10:50    [3361739]     Ответить | Цитировать Сообщить модератору
 Re: Данные из html  [new]
Sv219
Member

Откуда: Омск
Сообщений: 976
andix
Sv219

...
3. мой вариант было бы хорошо юзать веб службы.


А поконкретнее? (если можно - с примером).

найти инфу просто и примеры также
andix

Насколько я понял - Вы тоже сталкивались с этой проблемой. Хотелось бы узнать как Вам удалось решить ее.
Заранее спасибо.

да, сталкивался, но у меня попроще, каждая прога работает только с одним сайтом, поэтому писал парсер под каждый сайт отдельно.
7 ноя 06, 11:16    [3361962]     Ответить | Цитировать Сообщить модератору
 Re: Данные из html  [new]
andix
Member

Откуда:
Сообщений: 27
Спасибо :), буду изучать
7 ноя 06, 13:07    [3362746]     Ответить | Цитировать Сообщить модератору
Все форумы / WinForms, .Net Framework Ответить