ZebroidФорумПубличный разделБаги / ОшибкиАрхивИнтернет-картинки для больших проектов

Интернет-картинки для больших проектов

20 июля 2017, 10:17
Зарегистрирован: 12 июля 2016, 20:12
Здравствуйте. Столкнулся с непреодолимой для себя проблемой. Проект — 120к статей, открыт как большой. Запускаю инет-картинки-парсинг — делает до 22%-50% и виснет резко — перестает идти траффик и использоваться проц. Чем больше ставлю парсить картинок на каждом запросе (и чем больше для автовыбора) тем меньше %, который будет сделан до того как все зависнет, ну и наоборот — тогда до 50% доходило при 30 картинках на запрос (200-250 потоков — 1500 проксей). Если картинок ставить парсить штук 200 — вылетела один раз с ошибкой Out of memory: 8224 bytes (total allocated: 2018894140). А так все время просто виснет. Оперативки 16Гб, в момент ошибки этой с памятью Зеброид 2.5гб почти съедал, хоть и открыт как большой проект (но свободно еще процентов 40 было) — в других случаях, когда меньше картинок парсил и в меньшее кол-во потоков, то поменьше занимал, но все равно зависал безбожно.

Думал может как-то в потоках и прокси дело — взял пока на сутки еще ~1500шт не паблик (рабочих из них процентов 90) в довесок к 50 приватным, которые были — но та же история… 200-250 потоков ставил к этим 1500 проксям. Не знаю что прямо и делать — если делать кусками поочередно (25к статей выделял на тест — прекрасно обрабатываются) — то картинки дублироваться же все будут — такое не подходит.

З.Ы. Поставил только вот еще для нового теста 5 картинок на пост, 5 автовыбор и автовставка 1 картинки. Скачиваю только ссылки. Сделалось. Парсил только гугл. В итоге 5 картинок — работает, 30 — уже нет при 200-250 потоках на 1500 проксей. Промежуточные не проверял еще. Но 5шт это совсем ниочем…

И, кстати, еще по мелочи — обратил внимание, когда кусок в 25к постов обрабатывал, что «подгонять размеры рисунков» не работают в инет-картинках — что бы не ставил — просто ссылка вставляется без изменения размеров.

Комментарий отредактирован 2 раз(а). Последний раз редактировал Aurigo 22 июля 2017, 03:16. Причина: дополнение
22 июля 2017, 02:57
Зарегистрирован: 12 июля 2016, 20:12
Еще один свежий тест. те же 120к статей. первоначальные 50 приватных проксей. 30 картинок на запрос, только гугл — по заголовку, автовыбирать 30, автовставлять одну, сохранять только ссылки на картинки. 10 потоков поставил в этом тесте. 10 часов парсилось — дошло до 83% и опять зависание. Траффик 0, проц 0, память освобождается через некоторое небольшое время после зависания. Инет не падал. Прокси 99-100% зеленые как Зеброид показывал до зависания.

Вообщем, как я смотрю, влияет и кол-во потоков, и кол-во картинок на запрос. Но ставить мало картинок на запрос я не могу, иначе куча постов будет без картинок, учитывая, что еще на пост я хотел бы не 1, а 2-3. А мало потоков — будет несколько суток парсить, и дело даже не в этом, а в том, что малейшее падение инета или проксей вдруг — зеброид все прерывает и все зря и сначала надо. Вообщем прошу разобраться в чем причина.

Итого у меня пока такие тесты:

200 потоков-100 картинок-22% и зависание
200 потоков-50 картинок-42% и зависание
200 потоков-40 картинок-51% и зависание
250 потоков-40 картинок-47% и зависание
250 потоков-30 картинок-53% и зависание
250 потоков-5 картинок-сделалось
10 потоков-30 картинок-83% и зависание

Комментарий отредактирован 3 раз(а). Последний раз редактировал Aurigo 22 июля 2017, 03:26. Причина: дополнение
24 июля 2017, 11:31
Зарегистрирован: 10 апреля 2012, 00:00
Прошу прощение, что раньше не отвечал. Чтобы не сложилось впечатление, что проблема игнорируется опишу немного ситуацию: суть вашей проблемы я понял, буду выяснять причины, но к сожалению не могу обещать это сделать в кратчайшие сроки, так как в данный момент идёт работа на версией Зеброид 6 и на данном этапе я не могу вносить правки в другие инструменты. На сколько я могу догадываться по поводу причин возникновения проблемы — малой кровью это не исправить, нужно будет перерабатывать механизм работы инструмента и именно по этому я займусь реализацией этого функционала — как частью Зеброид 6.

24 июля 2017, 16:11
Зарегистрирован: 12 июля 2016, 20:12
Поставил все то же для теста в 5 потоков. 30 картинок, вставлять одну. За сутки отпарсилось таки и вот уже еще одни сутки, даже чуть больше висит на 100%, что-то думает, проц на 20% загружен как и память на 1гб… Ох и долго же блин. Подожду еще, интересно, чем закончится…

А когда планируется Зеброид 6?

Комментарий отредактирован 1 раз(а). Последний раз редактировал Aurigo 24 июля 2017, 16:13. Причина: дополнение
24 июля 2017, 17:52
Зарегистрирован: 10 апреля 2012, 00:00
А когда планируется Зеброид 6?
Где-то через месяц, но я по мере добавления нового функционала буду выкладывать в закрытой части форума бета версию, для тех, кто захочет опробовать его

27 июля 2017, 01:33
Зарегистрирован: 12 июля 2016, 20:12
Что ж, выбора нет, с нетерпением жду Зеброид 6 и очень расчитываю, что в нем это будет исправлено, т.к. работа стала. Хотелось бы видеть переработанный механизм в инет-картинках и, возможно, в инет-видео (еще не проверял полноценно на 120к статьях), чтобы была возможность корректно работать с намного большим числом потоков при большом количестве статей и чтобы это не занимало в идеале столько времени. Просто вот мой последний тест при 5 потоках и 30 картинках (единственный, который не завис) нашел по 1 картинке для 75000 статей из 120000 и делался 3 суток. Сутки, может чуть меньше, парсилось и потом 2 суток висело на 100%, не используя уже сеть, но в итоге доделалось — но уж очень долго это все — что оно там так долго думало я не знаю — и это при одной картинке в пост. А надо 2-3, значит больше 30 парсить надо ставить — сколько оно будет делаться страшно представить…

07 апреля 2018, 07:29
Зарегистрирован: 12 июля 2016, 20:12
Здравствуйте. Хотел бы узнать как дела обстоят с 6й версией? А то уже столько времени прошло, первоначально писали про сентябрь прошлого года…

09 апреля 2018, 11:57
Зарегистрирован: 12 февраля 2013, 19:56
И я очень жду).

09 апреля 2018, 16:49
Зарегистрирован: 10 апреля 2012, 00:00

Aurigo в своем сообщении писал(а):Здравствуйте. Хотел бы узнать как дела обстоят с 6й версией? А то уже столько времени прошло, первоначально писали про сентябрь прошлого года....


Если всё будет хорошо — на этих выходных выпущу первую бету, после чего возьмусь за реализацию всего, что наобещал на форуме. К сожалению объемы работы оказались большими, чем я ожидал, потому и так долго

17 февраля 2019, 16:38
Зарегистрирован: 10 апреля 2012, 00:00
Реализовано в Zebroid 6 BETA 9