Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Разработка информационных систем Новый топик    Ответить
 Хаб для сбора и анализа информации с 15(!) сайтов  [new]
sqlart
Member

Откуда: London
Сообщений: 4
Всем доброго времени суток!

Много наслышана хорошего про данный форум, потому решила спросить совета у здешних профессионалов.

В рамках стартапа, которым сейчас занимаюсь, я хотела бы разработать платформу/хаб для сбора и анализа информации, собранной с нескольких сайтов онлайн-продаж (15 сайтов).
Идея состояла в том, чтобы регулярно получать сводку о новых товарах, размещенных на аукционах, сохранять эти детали в локальной базе данных и уже там производить различные манипуляции над собранной информацией (фильтры, сортировки и т.д.)
Звучит достаточно понятно, как мне казалось, но на практике заказала эту работу в одной IT компании и получила ну очень медленно работающий черновой вариант и комментарии, что это очень сложно реализуемый проект, в первую очередь из-за того, что должны одновременно анализироваться сразу 15 сайтов.
А каким будет ваше мнение?

Заранее спасибо за любые (дельные) советы и комментарии:)
28 авг 18, 17:13    [21656648]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
skyANA
Member

Откуда: Зеленоград
Сообщений: 26198
Картинка с другого сайта.

Сравни цены с сотен сайтов бронирования...
28 авг 18, 17:27    [21656669]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
skyANA
Member

Откуда: Зеленоград
Сообщений: 26198
sqlart,

вообщем врут Вам
28 авг 18, 17:27    [21656671]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 31114
Блог
skyANA
вообщем врут Вам


ну зачем же так, "просто очень хочется денег" )

А так выйдет что-то вроде (если дешево и сердито):
15 сайтов, по 3 дня на сайт для парсера, плюс неделю-другую для базы и уже можно анализировать сводными таблицами экселя
28 авг 18, 23:13    [21656985]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
Jurii
Member

Откуда: Moscow http://cognos.narod.ru
Сообщений: 3085
Некоторые сайты не любят, когда их парсят, и стараются защититься. Так что нужно смотреть, что это за конкретные 15 сайтов.
29 авг 18, 10:11    [21657205]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
sqlart
Member

Откуда: London
Сообщений: 4
Jurii
Некоторые сайты не любят, когда их парсят, и стараются защититься. Так что нужно смотреть, что это за конкретные 15 сайтов.

Как пример, такие сайты, как Ebay и Авито.

Совершенно верно! Я понимаю, что это и была одна из загвоздок - достаточно сложная архитектура сайтов+защиты, которые нужно было "обходить" в каждом отдельном случае по-разному.
29 авг 18, 17:27    [21657949]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
sqlart
Member

Откуда: London
Сообщений: 4
Что бы вы посоветовали в моем случае, где лучше искать специалистов для реализации этого проекта?
Возможно, опубликовать объявление в других разделах этого форума или может вы знакомы с кем-то, кому интересно/по силам это задание?
...Сайты фрилансеров уже пробовала, после первого неудачного опыта немного боязно, хотелось бы найти специалиста с хорошим подтвержденным референсом.

Заранее спасибо!
29 авг 18, 17:28    [21657951]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
alex55555
Member

Откуда:
Сообщений: 1727
sqlart
хотелось бы найти специалиста с хорошим подтвержденным референсом.

Во удивила, хочу сладко и много!

Но жизнь устроена так, что надо поработать, прежде чем будет сладко. И обычно бывает совсем не много.

Со спецами нужно работать. Отбор - есть обязательная составляющая любого прожекта. И если лень - вам стоит увольняться.
29 авг 18, 18:34    [21658029]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
sqlart
Member

Откуда: London
Сообщений: 4
alex55555
sqlart
хотелось бы найти специалиста с хорошим подтвержденным референсом.

Во удивила, хочу сладко и много!

Но жизнь устроена так, что надо поработать, прежде чем будет сладко. И обычно бывает совсем не много.

Со спецами нужно работать. Отбор - есть обязательная составляющая любого прожекта. И если лень - вам стоит увольняться.

Совсем не лень и была бы рада достойно заплатить за проделанную работу, но подскажите, пожалуйста - где их искать?
29 авг 18, 18:47    [21658042]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
alex55555
Member

Откуда:
Сообщений: 1727
sqlart
но подскажите, пожалуйста - где их искать?

Ну как бы это же азы HR работы. Я в этом не глубокий спец, но и то набор сайтов, где программисты смотрят объявления, могу перечислить достаточно легко. То есть идите туда, где место рыбное. Но и не забывайте, что "воды по колено, а рыбы до ...я" - таких мест вообще нет, а потому просто не стоит ожидать мгновенного отклика и очередей из страждущих. Минимум месяц на скромный отбор, а на серьёзный - объявления в крупные конторы вообще годами висят, и так вот годами они собирают народ, он работает, потом увольняется, конторы опять собирают, и так в режиме нон-стоп всё вертится.

Новички ожидают именно очередей из супер-специалистов, в которых новички хотят рыться и перебирать, вылавливая только самую вкусную рыбу. Но нет сегодня нерестовых рек с дурачками-программистами, косяками плывущими прямо в пасть поджидающих их медведей. Поэтому - масштабно забрасываете сети везде, где только можно.
30 авг 18, 09:13    [21658431]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
Jurii
Member

Откуда: Moscow http://cognos.narod.ru
Сообщений: 3085
2 sqlart:

Что бы вы посоветовали в моем случае, где лучше искать специалистов для реализации этого проекта?

Сообщите мне адреса этих 15 сайтов (мой адрес - cognos@yandex.ru ).
Если эти сайты будут интересны для обучаемого мною Искусственного интеллекта, то смогу Вам помочь.
31 авг 18, 12:26    [21660068]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
Alex_496
Member

Откуда:
Сообщений: 3806
sqlart,

напишите специалисту по hp1999@mail.ru
Укажите адреса этих 15 сайтов.

Сайты могут не только активно защищаться от парсинга, но и менять структуру данных, верстки, отслеживать простукивалки и т.п.

Юридический вопросы как по отношению к владельцам сайтов, так и по отношению к вам. Собранная вами инфа также может уйти к конкурентам через фирму-разработчик
31 авг 18, 16:00    [21660446]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
Злой Бобр
Member

Откуда: Украина, Кривой Рог
Сообщений: 3406
sqlart,

Все зависит от сайтов с которых брать данные. С некоторыми можно получить прямой доступ к БД на чтение, а некоторые пошлют подальше. В самой реализации ничего сложного нет, все уже придумано и реализовано. Повторить с вариантами невопрос даже для студента.
Начните с четкого ТЗ. Без ТЗ или с ТЗ на уровне "хочу" вы никого не найдете.
1 сен 18, 13:18    [21661147]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
waszkiewicz
Member

Откуда:
Сообщений: 981
Злой Бобр, а вот есть ли минимальные рекомендации, чтобы не попасть в категорию "С некоторыми можно получить прямой доступ к БД на чтение"
1 сен 18, 16:40    [21661258]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
azsx
Member

Откуда:
Сообщений: 719
автор
и получила ну очень медленно работающий черновой вариант и комментарии, что это очень сложно реализуемый проект, в первую очередь из-за того, что должны одновременно анализироваться сразу 15 сайтов.

В вашей задаче надо уточнить только одну вещь -- сколько в итоге строк данных и какой характер выборки? Может у вас 3 млрд записей и 500 параметров для выборки? В чём суть "медленно работающий проект"?
Как надо решить вашу задачу.
1. Узнайте, можно ли парсить данные сайты. И что Вам за это будет.
2. Сперва сделайте свой сайт с тестовыми данными. То есть идеал для Вас, который потом будете наполнять парсингом. Морду и базу.
3. Потом (если сторонним готовым софтом парсить не вариант) напишите в вакансиях на любом php форуме "Куплю скрипты для парсинга обновления на сайтах + заранее спарсенные данные. Для каждого сайта отдельный автономный скрипт. Спарсить в таблицу (структура)." Затем сайты списком.
Важно, отдельные скрипты, так как сами вы писать их не хотите, а с парсингом будут бороться.
---
Хотя с виду покупок будет много, но на самом деле, способ точно рабочий.
А вот эти слова (стартап, заказала проект в it компании, платформа) оставьте для гос. контор. Ваш 100500 агрегатор никак не вяжется с этими словами :)
1 сен 18, 17:45    [21661288]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
Злой Бобр
Member

Откуда: Украина, Кривой Рог
Сообщений: 3406
waszkiewicz
Злой Бобр, а вот есть ли минимальные рекомендации, чтобы не попасть в категорию "С некоторыми можно получить прямой доступ к БД на чтение"

Немного непонятен вопрос. Я не являюсь владельцем сайта и соответственно никак не могу влиять на ситуацию. Много сайтов прикручивают API как раз для сбора данных. Это тоже один из вариантов.
В любом случае автору начинать с ТЗ и потом идти например на одеску и там размещать заказ. Сейчас там индусы выгребают практически все подряд.
Размещать вариант тут - можно, но врядли будет выхлоп. Слишком тривиально и не интересно.
1 сен 18, 20:30    [21661354]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
полудух
Member

Откуда: планета орков, г.Зверополис
Сообщений: 491
sqlart
Звучит достаточно понятно, как мне казалось, но на практике заказала эту работу в одной IT компании и получила ну очень медленно работающий черновой вариант и комментарии, что это очень сложно реализуемый проект, в первую очередь из-за того, что должны одновременно анализироваться сразу 15 сайтов.
А каким будет ваше мнение?

Заранее спасибо за любые (дельные) советы и комментарии:)

асинхронно пофигу, сколько они там будут анализироваться парситься
в real-time намного сложнее дороже, чем раз в час, например
но главное - 15 сайтов это 15 разных проектов, с разными уровнями сложности
кое-где может и защита от парсинга быть, что, опять же, удорожает
1 сайт от 15тыр (ну это если перестать вестись на предложения за 3000 с предоплатой 100%) и до 50
в среднем будет 25 + сам агрегат + сервис = ещё 100+, вот и считайте
2 сен 18, 00:24    [21661504]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
alex55555
Member

Откуда:
Сообщений: 1727
azsx
3. Потом (если сторонним готовым софтом парсить не вариант) напишите в вакансиях на любом php форуме "Куплю скрипты для парсинга обновления на сайтах + заранее спарсенные данные. Для каждого сайта отдельный автономный скрипт. Спарсить в таблицу (структура)." Затем сайты списком.

Вот любопытно, авиты и прочие защищаются капчами, типа "выберите все картинки с мостами", плюс не дают с одного айпишника качать более какого-то скромного объёма (условно - тысяч 10 объявлений в сутки). Но бесплатные советчики смело предлагают купить магический скрипт на пыхе, который все капчи обойдёт и чудесным образом миллион объявлений с одного айпишника закачает.

Ну и суть любопытства - вы сами-то такие задачи решали? Решили? Миллион объявлений скачали?
2 сен 18, 15:40    [21661791]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
azsx
Member

Откуда:
Сообщений: 719
Насчёт авито. Сам парсинг элементарен.
Но Вы правы. Ваще не знаю как такие телефоны доставать, только получать скрин и распознавать картинку.
зы
но никто за это не платит.
Уверены, что под датакул шаблон не работает?
Уверены, что ТС надо парсить авито?
зызы
Тем, что я когда то парсил сайты я не горжусь. Я бы задачу ТС решал именно так, как написал.
2 сен 18, 16:47    [21661815]     Ответить | Цитировать Сообщить модератору
 Re: Хаб для сбора и анализа информации с 15(!) сайтов  [new]
alex55555
Member

Откуда:
Сообщений: 1727
azsx
Уверены, что под датакул шаблон не работает?
Уверены, что ТС надо парсить авито?

Ни в чём не уверен, но сложность вижу.
2 сен 18, 22:32    [21662005]     Ответить | Цитировать Сообщить модератору
Все форумы / Разработка информационных систем Ответить