ZebroidФорумПубличный разделВопросыкак автоматизированно очистить проект от статей с заголовками типа Рћс„рѕсЂрјр»рµр

как автоматизированно очистить проект от статей с заголовками типа Рћс„рѕсЂрјр»рµр

20 июня 2014, 11:05
Зарегистрирован: 04 ноября 2013, 18:44
как автоматизированно очистить проект от статей с заголовками такого вида Рћс„рѕсЂрјр»рµрЅрёрµ рІ сЃрѕр±сЃс‚рІрµрЅрЅрѕсЃс‚сЊ…

и вот такого
Граждан� (������ ����� ������������� � ����)�ко -

Комментарий отредактирован 1 раз(а). Последний раз редактировал konfuciy 20 июня 2014, 11:07.
20 июня 2014, 11:47
Зарегистрирован: 10 апреля 2012, 00:00




20 июня 2014, 14:12
Зарегистрирован: 04 ноября 2013, 18:44

admin в своем сообщении писал(а):


извините, но вариант не рабочий.

такого типа —
Рћс„рѕсЂрјр»рµрЅрёрµ рІ сЃрѕр±сЃс‚рІрµрЅрЅрѕсЃс‚сЊ…

— это не значит, что все одинаковые, в точности такие вплоть до каждого символа, общие какие-то последовательности есть во всех, таких трехбуквенных последовательностей штук 10, они практически везде в этих битых заголовках встречаются, но по большей части заголовки не совпадают.
поэтому эти заголовки не удалятся такими последовательностями, а лишь проредятся и останутся.

Комментарий отредактирован 2 раз(а). Последний раз редактировал konfuciy 20 июня 2014, 14:16.
20 июня 2014, 14:16
Зарегистрирован: 04 ноября 2013, 18:44
и еще вопрос тогда уж, есть у меня и статьи без названий — как сделать, чтобы только статьи без названия получили заголовки, а статьи с названиями уже — с ними ничего не происходило.

23 июня 2014, 11:44
Зарегистрирован: 10 апреля 2012, 00:00
извините, но вариант не рабочий.
Извините, но ничего другого я вам предложить не могу. С технической точки зрения коды символы в неверной кодировке ничем не отличаются от кодов символов верной кодировки и сделать универсальный инструмент, который гарантировано будет их удалять не возможно. Если бы это было возможно, то самой проблемы как «не верная кодировка» не существовало.

и еще вопрос тогда уж, есть у меня и статьи без названий — как сделать, чтобы только статьи без названия получили заголовки, а статьи с названиями уже — с ними ничего не происходило.
Для начала рекомендую почитать документацию: zebroid.com.ua/documentation/text-processing/text-and-title-cleaner/
Для этого есть соответствующие опции.

23 июня 2014, 17:54
Зарегистрирован: 04 ноября 2013, 18:44

admin в своем сообщении писал(а):

извините, но вариант не рабочий.
Извините, но ничего другого я вам предложить не могу. С технической точки зрения коды символы в неверной кодировке ничем не отличаются от кодов символов верной кодировки и сделать универсальный инструмент, который гарантировано будет их удалять не возможно. Если бы это было возможно, то самой проблемы как «не верная кодировка» не существовало.

и еще вопрос тогда уж, есть у меня и статьи без названий — как сделать, чтобы только статьи без названия получили заголовки, а статьи с названиями уже — с ними ничего не происходило.
Для начала рекомендую почитать документацию: zebroid.com.ua/documentation/text-processing/text-and-title-cleaner/
Для этого есть соответствующие опции.


1. «Извините, но ничего другого я вам предложить не могу. С технической точки зрения коды символы в неверной кодировке ничем не отличаются от кодов символов верной кодировки и сделать универсальный инструмент, который гарантировано будет их удалять не возможно. Если бы это было возможно, то самой проблемы как „не верная кодировка“ не существовало.»

но ведь это же не так! такой инструмент сделать элементарно в силу того, что заголовки и статьи не состоят из «битых» символов частично, а состоят из них полностью, либо не содержат битых символов совсем. именно об это случае я и писал.
достаточно сделать возможность удаления заголовков/статей, соответственно, заголовок или текст которых содержит какую-либо из частоповторяющихся последовательностей «битых» символов и все!
такая возможность в отношении статьи целиком в программе есть путем черного списка, а вот в отношении заголовков нет.

2. спасибо, нашел нужную информацию по ссылке!

24 июня 2014, 01:22
Зарегистрирован: 10 апреля 2012, 00:00
но ведь это же не так! такой инструмент сделать элементарно в силу того, что заголовки и статьи не состоят из «битых» символов частично, а состоят из них полностью, либо не содержат битых символов совсем. именно об это случае я и писал.
С точким зрения компьютера, такого понятия как «битый символ» не существует. Для вас битый символ, это тот, которого вы в текстах не видели, но раз он есть в кодой таблице символов, значит в текстах он использоваться может, а значит с ним всё нормально. Еще раз повторяю «коды символы в неверной кодировке ничем не отличаются от кодов символов верной кодировки». Код — это цифровое значение символа в кодовой таблице, вот скажите какой из этих символов битый 1338 или 4543?

достаточно сделать возможность удаления заголовков/статей, соответственно, заголовок или текст которых содержит какую-либо из частоповторяющихся последовательностей «битых» символов и все!
Я вам предложил именно такой вариант, он вам не понравился, ничего другого я предложить не могу.

24 июня 2014, 02:33
Зарегистрирован: 04 ноября 2013, 18:44
спасибо, понятно))

надеюсь вы так же подробно объясните, как писать скрипты автопостинга, тогда моему счастью не будет предела))

Комментарий отредактирован 2 раз(а). Последний раз редактировал konfuciy 24 июня 2014, 02:45.
24 июня 2014, 13:57
Зарегистрирован: 10 апреля 2012, 00:00

konfuciy в своем сообщении писал(а):надеюсь вы так же подробно объясните, как писать скрипты автопостинга, тогда моему счастью не будет предела))


Описание API для написания скриптов автопостинга есть в документации. Чтобы проще было разбиратся — можно для начала изучить принцип работы уже на готовых скриптах. Если будут конкретные вопросы — создайте тему, там и обсудим.

24 июня 2014, 14:04
Зарегистрирован: 04 ноября 2013, 18:44

admin в своем сообщении писал(а):

konfuciy в своем сообщении писал(а):надеюсь вы так же подробно объясните, как писать скрипты автопостинга, тогда моему счастью не будет предела))


Описание API для написания скриптов автопостинга есть в документации. Чтобы проще было разбиратся — можно для начала изучить принцип работы уже на готовых скриптах. Если будут конкретные вопросы — создайте тему, там и обсудим.



хорошо, буду биться)