и вот такого
Граждан� (������ ����� ������������� � ����)�ко -
Комментарий отредактирован 1 раз(а).
Последний раз редактировал
konfuciy
20 июня 2014, 11:07.
20 июня 2014, 11:05 | |
konfuciy Зарегистрирован: 04 ноября 2013, 18:44 |
как автоматизированно очистить проект от статей с заголовками такого вида Рћс„рѕсЂрјр»рµрЅрёрµ рІ сЃрѕр±сЃс‚рІрµрЅрЅрѕсЃс‚сЊ…
и вот такого Граждан� (������ ����� ������������� � ����)�ко -
Комментарий отредактирован 1 раз(а).
Последний раз редактировал
konfuciy
20 июня 2014, 11:07.
|
20 июня 2014, 11:47 | |
admin Зарегистрирован: 10 апреля 2012, 00:00 |
20 июня 2014, 14:12 | |
konfuciy Зарегистрирован: 04 ноября 2013, 18:44 |
извините, но вариант не рабочий. такого типа — Рћс„рѕсЂрјр»рµрЅрёрµ рІ сЃрѕр±сЃс‚рІрµрЅрЅрѕсЃс‚сЊ… — это не значит, что все одинаковые, в точности такие вплоть до каждого символа, общие какие-то последовательности есть во всех, таких трехбуквенных последовательностей штук 10, они практически везде в этих битых заголовках встречаются, но по большей части заголовки не совпадают. поэтому эти заголовки не удалятся такими последовательностями, а лишь проредятся и останутся.
Комментарий отредактирован 2 раз(а).
Последний раз редактировал
konfuciy
20 июня 2014, 14:16.
|
20 июня 2014, 14:16 | |
konfuciy Зарегистрирован: 04 ноября 2013, 18:44 |
и еще вопрос тогда уж, есть у меня и статьи без названий — как сделать, чтобы только статьи без названия получили заголовки, а статьи с названиями уже — с ними ничего не происходило.
|
23 июня 2014, 11:44 | |
admin Зарегистрирован: 10 апреля 2012, 00:00 |
извините, но вариант не рабочий.Извините, но ничего другого я вам предложить не могу. С технической точки зрения коды символы в неверной кодировке ничем не отличаются от кодов символов верной кодировки и сделать универсальный инструмент, который гарантировано будет их удалять не возможно. Если бы это было возможно, то самой проблемы как «не верная кодировка» не существовало. и еще вопрос тогда уж, есть у меня и статьи без названий — как сделать, чтобы только статьи без названия получили заголовки, а статьи с названиями уже — с ними ничего не происходило.Для начала рекомендую почитать документацию: zebroid.com.ua/documentation/text-processing/text-and-title-cleaner/ Для этого есть соответствующие опции. |
23 июня 2014, 17:54 | |
konfuciy Зарегистрирован: 04 ноября 2013, 18:44 |
1. «Извините, но ничего другого я вам предложить не могу. С технической точки зрения коды символы в неверной кодировке ничем не отличаются от кодов символов верной кодировки и сделать универсальный инструмент, который гарантировано будет их удалять не возможно. Если бы это было возможно, то самой проблемы как „не верная кодировка“ не существовало.» но ведь это же не так! такой инструмент сделать элементарно в силу того, что заголовки и статьи не состоят из «битых» символов частично, а состоят из них полностью, либо не содержат битых символов совсем. именно об это случае я и писал. достаточно сделать возможность удаления заголовков/статей, соответственно, заголовок или текст которых содержит какую-либо из частоповторяющихся последовательностей «битых» символов и все! такая возможность в отношении статьи целиком в программе есть путем черного списка, а вот в отношении заголовков нет. 2. спасибо, нашел нужную информацию по ссылке! |
24 июня 2014, 01:22 | |
admin Зарегистрирован: 10 апреля 2012, 00:00 |
но ведь это же не так! такой инструмент сделать элементарно в силу того, что заголовки и статьи не состоят из «битых» символов частично, а состоят из них полностью, либо не содержат битых символов совсем. именно об это случае я и писал.С точким зрения компьютера, такого понятия как «битый символ» не существует. Для вас битый символ, это тот, которого вы в текстах не видели, но раз он есть в кодой таблице символов, значит в текстах он использоваться может, а значит с ним всё нормально. Еще раз повторяю «коды символы в неверной кодировке ничем не отличаются от кодов символов верной кодировки». Код — это цифровое значение символа в кодовой таблице, вот скажите какой из этих символов битый 1338 или 4543? достаточно сделать возможность удаления заголовков/статей, соответственно, заголовок или текст которых содержит какую-либо из частоповторяющихся последовательностей «битых» символов и все!Я вам предложил именно такой вариант, он вам не понравился, ничего другого я предложить не могу. |
24 июня 2014, 02:33 | |
konfuciy Зарегистрирован: 04 ноября 2013, 18:44 |
спасибо, понятно))
надеюсь вы так же подробно объясните, как писать скрипты автопостинга, тогда моему счастью не будет предела))
Комментарий отредактирован 2 раз(а).
Последний раз редактировал
konfuciy
24 июня 2014, 02:45.
|
24 июня 2014, 13:57 | |
admin Зарегистрирован: 10 апреля 2012, 00:00 |
Описание API для написания скриптов автопостинга есть в документации. Чтобы проще было разбиратся — можно для начала изучить принцип работы уже на готовых скриптах. Если будут конкретные вопросы — создайте тему, там и обсудим. |
24 июня 2014, 14:04 | |
konfuciy Зарегистрирован: 04 ноября 2013, 18:44 |
хорошо, буду биться) |