Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Работа Новый топик    Ответить
 Доработка программы-парсера сайтов (Delphi)  [new]
Andrey Simagin
Member

Откуда: Москва
Сообщений: 71
Имеется программа для сканирования всех страниц сайта и его структуры (парсер).
Сейчас сканирование сайтов выполняется в основном потоке, что очень долго.
Необходимо добавить многопоточность + убрать текущие баги парсера.

Т.е. ищется человек на исправление текущих багов и в будущем на развитие и поддержку программы.

Принцип работы программы:
- указываем URL сайта
- программа (краулер) по ссылкам находит все страницы сайта и получает из них всю необходимую информацию

Среда разработки: Delphi XE.

Жду ваши предложения по срокам и цене.

ПС. Желателен опыт разработки многопоточных приложений - использование критических секций, семафоров и т.п. и уход от synchronize.
20 апр 17, 21:25    [20420299]     Ответить | Цитировать Сообщить модератору
 Re: Доработка программы-парсера сайтов (Delphi)  [new]
cyx
Member

Откуда: Москва
Сообщений: 9674
Andrey Simagin,

Вы считаете этой информации достаточно, чтобы зафиксировать сроки и ценник? И только после этого назовете сайт и "всю необходимую информацию"...
21 апр 17, 11:24    [20421517]     Ответить | Цитировать Сообщить модератору
 Re: Доработка программы-парсера сайтов (Delphi)  [new]
сКакун
Member

Откуда:
Сообщений: 408
Andrey Simagin,

Бюджет 1 800 000 руб, срок 6 месяцев (может быть увеличен и сумма пропорционально).
21 апр 17, 12:33    [20421821]     Ответить | Цитировать Сообщить модератору
 Re: Доработка программы-парсера сайтов (Delphi)  [new]
Andrey Simagin
Member

Откуда: Москва
Сообщений: 71
cyx
Andrey Simagin,

Вы считаете этой информации достаточно, чтобы зафиксировать сроки и ценник? И только после этого назовете сайт и "всю необходимую информацию"...

Для доп. информации есть личка, спрашивайте, в чем проблема?
21 апр 17, 13:56    [20422363]     Ответить | Цитировать Сообщить модератору
 Re: Доработка программы-парсера сайтов (Delphi)  [new]
Andrey Simagin
Member

Откуда: Москва
Сообщений: 71
сКакун
Andrey Simagin,

Бюджет 1 800 000 руб, срок 6 месяцев (может быть увеличен и сумма пропорционально).

А лабораторные работы для школьников вы наверное тысяч за 100 делаете ))
21 апр 17, 13:58    [20422375]     Ответить | Цитировать Сообщить модератору
 Re: Доработка программы-парсера сайтов (Delphi)  [new]
сКакун
Member

Откуда:
Сообщений: 408
Andrey Simagin
сКакун
Andrey Simagin,

Бюджет 1 800 000 руб, срок 6 месяцев (может быть увеличен и сумма пропорционально).

А лабораторные работы для школьников вы наверное тысяч за 100 делаете ))



Гибкий парсинг довольно нетривиальная вещь. И я не знаю как там он написан. Раз человек ушёл, то скорее всего, фирма захотела чтоб он крутяк какой наворотил за типовую з/п. А ещё более вероятный вариант - писал студент с соответствующим качеством. А теперь им захотелось крутяков, да нет никого. Отсюда я делаю вывод, что эту парсилку, да для любого сайта, придётся писать с нуля. Это как минимум полгода. А раз по договору, то не за з/п, а по цене выше. Сумма, кстати, разумная получается. Да, и это на руки.
21 апр 17, 14:21    [20422495]     Ответить | Цитировать Сообщить модератору
 Re: Доработка программы-парсера сайтов (Delphi)  [new]
CawaSPb
Member

Откуда: Питер/Москва/Wroclaw
Сообщений: 705
сКакун
Andrey Simagin
пропущено...

А лабораторные работы для школьников вы наверное тысяч за 100 делаете ))


Гибкий парсинг довольно нетривиальная вещь...

Ну, вообще, гибкий парсинг - довольно тривиальная вещь. Если подходить с нужной стороны.
HTML->XHTML (стандартными средствами) + XSLT/XQuery/XPath -> ...

В принципе, задача хорошо раскладывается на любой функциональный язык. И боже упаси писать на каких-нибудь Delphi/C/C++/Java/...
21 апр 17, 14:40    [20422582]     Ответить | Цитировать Сообщить модератору
 Re: Доработка программы-парсера сайтов (Delphi)  [new]
сКакун
Member

Откуда:
Сообщений: 408
CawaSPb
сКакун
пропущено...


Гибкий парсинг довольно нетривиальная вещь...

Ну, вообще, гибкий парсинг - довольно тривиальная вещь. Если подходить с нужной стороны.
HTML->XHTML (стандартными средствами) + XSLT/XQuery/XPath -> ...

В принципе, задача хорошо раскладывается на любой функциональный язык. И боже упаси писать на каких-нибудь Delphi/C/C++/Java/...


Авто-парсинг XML-я это одно. А вот что на выходе, какой инфой стали обладать, так сказать классифицировать тип инфы. Им же это надо. И тут каждая страница становится особым источником информации, требующего отдельного подхода. И у них это написано на дэлфи :) Так что ценник еще поднять можно не задумываясь.
21 апр 17, 15:00    [20422699]     Ответить | Цитировать Сообщить модератору
 Re: Доработка программы-парсера сайтов (Delphi)  [new]
CawaSPb
Member

Откуда: Питер/Москва/Wroclaw
Сообщений: 705
сКакун
Авто-парсинг XML-я это одно. А вот что на выходе, какой инфой стали обладать, так сказать классифицировать тип инфы. Им же это надо. И тут каждая страница становится особым источником информации, требующего отдельного подхода. И у них это написано на дэлфи :) Так что ценник еще поднять можно не задумываясь.

IMHO Переоцениваете. Это просто парсинг ("программа для сканирования всех страниц сайта и его структуры"), отнюдь не семантический анализ.
21 апр 17, 15:16    [20422801]     Ответить | Цитировать Сообщить модератору
 Re: Доработка программы-парсера сайтов (Delphi)  [new]
Andrey Simagin
Member

Откуда: Москва
Сообщений: 71
сКакун
Andrey Simagin
пропущено...

А лабораторные работы для школьников вы наверное тысяч за 100 делаете ))



Гибкий парсинг довольно нетривиальная вещь. И я не знаю как там он написан. Раз человек ушёл, то скорее всего, фирма захотела чтоб он крутяк какой наворотил за типовую з/п. А ещё более вероятный вариант - писал студент с соответствующим качеством. А теперь им захотелось крутяков, да нет никого. Отсюда я делаю вывод, что эту парсилку, да для любого сайта, придётся писать с нуля. Это как минимум полгода. А раз по договору, то не за з/п, а по цене выше. Сумма, кстати, разумная получается. Да, и это на руки.

Все гораздо проще )
Я частное лицо, программа фриварная
У нее за все время, а это года 3 примерно было 3-4 программиста - фрилансеры, но весьма толковые
Вышли они по личным причинам и они тривиальны: на осн работе стал больше загруз, открытие собственного веб проекта, более денежный проект на фрилансе и более простецкий

Парсинг
- живая выдача (решение капч руками - ввод знаков + автоматом (рукапча и тп))
- яндекс XML - тут все понятно для тех кто в "теме"

Проблем две
- обход капч (прикинуться "шлангом" т.е. реальным браузером, куки и тп)
- привести работу с потоками для сбора позиций с Я, Г и Майл в более гибкий вид

В целом расписал.

ПС. Вот товарищ CawaSPb верно подметил - не нужно выдумывать сверх требований, хотя он видимо просто больше в теме парсинга поисковых систем.
21 апр 17, 15:34    [20422889]     Ответить | Цитировать Сообщить модератору
Все форумы / Работа Ответить