Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Работа Новый топик    Ответить
 Парсер сайтов  [new]
boris_borisych
Member

Откуда:
Сообщений: 46
Необходимо написать парсер сайтов, что бы можно было натравить на сайт и все данные получить в табличке?
Кто вощьмется, пишите для начала тут
28 ноя 17, 09:52    [20987514]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
bbx1389
Member

Откуда: Русија
Сообщений: 23947
купите готовый, цены смешные сейчас на это дело.
28 ноя 17, 10:00    [20987530]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
monstrU
Member

Откуда: Москва
Сообщений: 1033
boris_borisych,
можешь дать пример страницы стаблицей, где есть такие данные ?
28 ноя 17, 10:01    [20987532]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
boris_borisych
Member

Откуда:
Сообщений: 46
bbx1389,

а где продается? яб купил без вопросов
28 ноя 17, 10:05    [20987543]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
boris_borisych
Member

Откуда:
Сообщений: 46
monstrU,

google, вконтакте, сайты любые административные, поисковики и все что угодно
28 ноя 17, 10:06    [20987545]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
azsx
Member

Откуда:
Сообщений: 524
автор
google, вконтакте, сайты любые административные, поисковики и все что угодно

Важное уточнение, некоторые сайты, например, поисковые системы защищают себя от парсинга. В отличии от "любых административных". То есть Вам потребуется аккаунт на капче ломалках каких-нибудь.
зы
я ради интереса парсил главные, типа поисковик по кодам писал. Сейчас миллионов 16 доменов есть.
28 ноя 17, 10:49    [20987655]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
azsx
Member

Откуда:
Сообщений: 524
Ещё важный момент, надо ли Вам js на страницах выполнять? Надо всё выполнять или только некоторые js.
28 ноя 17, 10:52    [20987666]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
boris_borisych
Member

Откуда:
Сообщений: 46
azsx
Ещё важный момент, надо ли Вам js на страницах выполнять? Надо всё выполнять или только некоторые js.


Думаю да, страница с данными должна предстать в конечном варианте, в том, в котором она предстает перед пользователем
28 ноя 17, 11:09    [20987710]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
azsx
Member

Откуда:
Сообщений: 524
Тогда смотрите.
Вы хотите универсальный парсер для любых сайтов, который при парсинге будет выполнять js и самостоятельно выделять со страницы смысловые единицы (знания), которые можно записать в таблицу. При этом суть ТЗ: с любых сайтов и любые знания. Сделать такое можно (я бы делал на пхп), надо нанимать программиста в штат.
28 ноя 17, 11:38    [20987816]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
azsx
Member

Откуда:
Сообщений: 524
забыл добавить. И работа будет вечной...
28 ноя 17, 11:38    [20987821]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
boris_borisych
Member

Откуда:
Сообщений: 46
bbx1389
купите готовый, цены смешные сейчас на это дело.


Какой порекомендуете?
28 ноя 17, 11:39    [20987824]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
boris_borisych
Member

Откуда:
Сообщений: 46
azsx,

понял, хорошо, я понимаю, что могу быть неправ, я готов к диалогу,давайте обсудим что и как можно сделать, и как вы сможете решить эту задачу? если возьметесь, буду рад
28 ноя 17, 11:46    [20987847]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
monstrU
Member

Откуда: Москва
Сообщений: 1033
boris_borisych,

лучше озвучьте бюджет вашего проекта.
28 ноя 17, 11:48    [20987851]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
azsx
Member

Откуда:
Сообщений: 524
К моему сожалению вынужден отказаться, так как времени на всякие "шалости" нет.
автор
я готов к диалогу

Рекомендую более чётко обозначить типы сайтов и характер выделяемых данных.
Ну или обозначьте бюджет для написания ТЗ, кто то ответит на эти вопросы "за вас".
28 ноя 17, 11:53    [20987869]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
AndrF
Member

Откуда:
Сообщений: 1851
azsx
забыл добавить. И работа будет вечной...


Да, универсального тут не сделать.

Приходилось в свое время делать парсеры для нескольких сайтов.

А товарищ у меня делал обратное - его сайт распознавал парсеры и подсовывал им искаженную информацию...
28 ноя 17, 15:38    [20988694]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
Zenden1
Member

Откуда:
Сообщений: 16
azsx
Тогда смотрите.
Вы хотите универсальный парсер для любых сайтов, который при парсинге будет выполнять js и самостоятельно выделять со страницы смысловые единицы (знания), которые можно записать в таблицу. При этом суть ТЗ: с любых сайтов и любые знания. Сделать такое можно (я бы делал на пхп), надо нанимать программиста в штат.


Интерпретирует ли парсер разметку страницы? Если нет то как любые знания определяются как любые. Если да, то как он определяет вариативность разметки, заголовков, я к тому что разметка дело житейское, а h1,h2,h3 и hn, я понимаю что можно вариативность определять на примерах каких то шаблонов, а если на сайте h1='', а все другие заполнены.
28 ноя 17, 16:08    [20988804]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
Туман войны
Member

Откуда: Москва
Сообщений: 17
Как то писал парсер сайта с результатами разных игр: футбол, волейбол, и тд. Изучил структуру станиц html, написал xslt шаблон, и парсил страницы, данные сохранял в базу.
Опишите какой сайт, какие данные...
28 ноя 17, 16:44    [20988903]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
4d5a90
Member

Откуда:
Сообщений: 1
boris_borisych
Необходимо написать парсер сайтов, что бы можно было натравить на сайт и все данные получить в табличке?
Кто вощьмется, пишите для начала тут


Есть один способ.
Если интересно - напишите мне на

К сообщению приложен файл. Размер - 970bytes
28 ноя 17, 19:45    [20989402]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
alexpo1986
Member

Откуда: Ежики кололись, но продолжали жрать кактус
Сообщений: 234
А я хочу написать парсер интернета! Чтобы можно было натравить его на любой тырнет, что есть сейчас в глобальной сети! skynet.customer@hell.org
28 ноя 17, 23:26    [20989937]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
bbx1389
Member

Откуда: Русија
Сообщений: 23947
boris_borisych
bbx1389
купите готовый, цены смешные сейчас на это дело.


Какой порекомендуете?

неужели вам гугл ничего не выдал?
смотрите, у меня была задача парсинга розничных магазинов (штук 350 примерно) , где-то 85% распарено 2 готовыми программами, причем цена вопроса 7тыр в год за одну и 200$ за другую (2 виртуалки 24/7 пашут) , настраивать можно отдать любому джуниору. Еще примерно 15% парсилось руками. С парой сайтов заключили прямые договоры об отдаче данных.
29 ноя 17, 11:49    [20991173]     Ответить | Цитировать Сообщить модератору
 Re: Парсер сайтов  [new]
boris_borisych
Member

Откуда:
Сообщений: 46
bbx1389,

А как называются эти программы?
1 дек 17, 10:00    [20997429]     Ответить | Цитировать Сообщить модератору
Все форумы / Работа Ответить