ZebroidФорумПубличный разделБаги / ОшибкиАрхивне парсит картинки

не парсит картинки

26 июня 2016, 18:12
Зарегистрирован: 31 августа 2009, 17:11
при парсинге картинок на 2000 статей с гугла и яндекса выдает ошибку
Синтаксическая ошибка в имени файла, имени папки или метке тома (x-raw-image:///70b356eae1be4dbb4db91e76f2949d9fab44eac17d66c4c36712a2390b37c570 => C:\Zebroid\Temp\199320\414_1)
Синтаксическая ошибка в имени файла, имени папки или метке тома (x-raw-image:///1a243a3fa66b060042b8596b30bf6414c75436e41e00d410d0eb8c486df0ef76 => C:\Zebroid\Temp\199320\575_1)
Синтаксическая ошибка в имени файла, имени папки или метке тома (x-raw-image:///cd2a832303379e0fbae77ea29d5fae4c186a4dadc542ba82d9372fccdd47ea90 => C:\Zebroid\Temp\199320\1506_1)

примерно к половине статей парсит а дальше нет(прокси не использую капчи нет, настройки дефолтные)

28 июня 2016, 19:47
Зарегистрирован: 10 апреля 2012, 00:00
Можете скинуть свой проект?

28 июня 2016, 19:56
Зарегистрирован: 31 августа 2009, 17:11

admin в своем сообщении писал(а):Можете скинуть свой проект?


вот
проект.zipРазмер: 112,56 Кб


28 июня 2016, 22:29
Зарегистрирован: 11 сентября 2012, 21:18
У меня тоже такое бывает, это в основном если много статтей обрабатываете, скорее всего либо капча или чтото такое. Советую ставить 1 потом и делать в пару заходов.

30 июня 2016, 10:11
Зарегистрирован: 10 апреля 2012, 00:00
На сколько мне удалось узнать — это такие ссылки на картинки внутри PDF документов. К сожалению как их вытащить из PDF я не знаю, так что придется отсеивать подобные результаты поиска и оставлять только «нормальные» картинки.

02 июля 2016, 15:43
Зарегистрирован: 10 апреля 2012, 00:00
К сожалению мне не удалось подобрать ни один запрос, в котором были бы картинки с подобными ссылками, но я добавил в программу фильтр, который будет пропускать такие картинки во время парсинга выдачи.