ZebroidФорумПубличный разделВопросыИмпорт Word документов с картинками

Импорт Word документов с картинками

29 сентября 2010, 12:57
Зарегистрирован: 29 сентября 2010, 19:39
Я знакомлюсь с программой и использую вашу демо версию. Столкнулся с непонятным моментом. Если нетрудно - объясните:

1) При импорте, даже с включенной галкой "очищать атрибуты тегов", тег <p> - не очищается.

пример того что у меня получилось из обычного Вордовского документа:

.....

<p align=center style='text-align:center;text-indent:35.4pt'><b>Контрольная работа </b></p>

<p align=center style='text-align:center;text-indent:35.4pt'><b>по дисциплине «Экономика отрасли и предприятия»</b></p>

<p align=center style='text-align:center;text-indent:35.4pt'><b>&nbsp;</b></p>

<p align=center style='text-align:center;text-indent:35.4pt'><b>&nbsp;</b></p>

......

2) При импорте из HTML файла созданного в Worde получается вот что:

...............

<p class=MsoPlainText align=center style='text-align:center'><img width=100 height=100 src="~images\mu2_1.jpg" alt="foto_4"></p>

<p class=MsoPlainText align=center style='text-align:center'>&#1042;&#1042;&#1045;&#1044;&#1045;&#1053;&#1048;&#1045;</p>

<p class=MsoPlainText style='text-indent:36.0pt'>&nbsp;&#1055;&#1088;&#1086;&#1075;&#1088;&#1072;&#1084;&#1084;&#1072; &#1091;&#1095;&#1077;&#1073;&#1085;&#1086;&#1081; &#1076;&#1080;&#1089;&#1094;&#1080;&#1087;&#1083;&#1080;&#1085;&#1099; &quot;&#1048;&#1085;&#1092;&#1086;&#1088;&#1084;&#1072;&#1094;&#1080;&#1086;&#1085;&#1085;&#1099;&#1077; &#1090;&#1077;&#1093;&#1085;&#1086;&#1083;&#1086;&#1075;&#1080;&#1080; &#1074; &#1101;&#1082;&#1086;&#1085;&#1086;&#1084;&#1080;&#1082;&#1077;&quot;

.......................

и так далее....

Хотя текст в визуальном режиме отображается нормально.

3) Если НЕ убирать галку "делить на рубрики и посты" - не происходит вообще ничего. Только тогда когда она убрана - что то получается.

Причем я заметил данный момент распространяется только на доки с картинками. Если без картинок - то вроде все нормально: можно эту галку оставлять.

Не могли бы вы подсказать как правильно работать с вашей программой при импорте Документов из Word с картинками.

Прилагаю свой экспериментальный доковский файл.

P.S. Упс...У вас запрещены доковские файлы. Поэтому приложить его не смогу



30 сентября 2010, 03:26
Зарегистрирован: 10 апреля 2012, 00:00
1. Атрибуты тегов a, img, table, p, td и tr не очищаются, так как в них может быть нужные (а не мусорные) атрибуты. В вашем случае это выравнивание текста. Но вам всё равно никто не мешает поиском и заменой по удалять лишний мусор.

2. Это проблема ворда. Я не знаю по каким критериям он такое вытворяет, но при сохранении документа в HTML он иногда создаёт такую кашу. Можете сами проверить открыв документ ворда и сохранив его в формате HTML (через "Сохранить как..."), а потом откройте файл блокнотом. В ближайшее время я постараюсь научить программу конвертировать это в читаемый текст.

3. Эта галочка влияет на то, нужно ли делить текст документа на рубрики и статьи по тегам h1, h2. Если опция включенна, а таких тегов в статье нету, то и делить нету по чём, а значит программа такой файл пропускает.

Настоятельно рекомендую не угадывать предназначение той или иной опции, а читать документацию. По импорту она тут: http://zebroid.com.ua/page/import



30 сентября 2010, 05:34
Зарегистрирован: 29 сентября 2010, 19:39
1. Атрибуты тегов a, img, table, p, td и tr не очищаются, так как в них может быть нужные (а не мусорные) атрибуты. В вашем случае это выравнивание текста. Но вам всё равно никто не мешает поиском и заменой по удалять лишний мусор.



Вообще-то я думал раз уж "очищать атрибуты" - то значит очищать. А нужные они мне или ненужные - этого программа знать не может по определению. Ну ладно, раз вы сделали так - значит так.

Удалять поиском и заменой - это простите очень муторно, если у вас масса файлов. И смысл вашей проги в плане данного функционала - теряется. Но, ладно я эту проблему решил по другому - вообще тегов не оставляю в настройках вашей программы.



2. Это проблема ворда. ......В ближайшее время я постараюсь научить программу конвертировать это в читаемый текст.



Спасибо за разъяснения.



3. Эта галочка влияет на то, нужно ли делить текст документа на рубрики и статьи по тегам h1, h2. Если опция включенна, а таких тегов в статье нету, то и делить нету по чём, а значит программа такой файл пропускает.



Вообще-то, по логике вещей если "делить нету по чем" то и делить/разбивать просто ничего НЕ надо. Надо просто сконвертировать файл без этого разделения. А Вы же по факту получается - делите на ноль. И поэтому мы ничего не получаем.

Но я понял как действует данная опция. Спасибо за ответы.

Еще скажите: при экспорте в купленной версии из Worda в Joomla - картинки прописываются в папку image?

Можно указать другую? Несколько папок?



30 сентября 2010, 06:05
Зарегистрирован: 10 апреля 2012, 00:00
Вообще-то я думал раз уж "очищать атрибуты" - то значит очищать. А нужные они мне или ненужные - этого программа знать не может по определению. Ну ладно, раз вы сделали так - значит так.

Удалять поиском и заменой - это простите очень муторно, если у вас масса файлов. И смысл вашей проги в плане данного функционала - теряется. Но, ладно я эту проблему решил по другому - вообще тегов не оставляю в настройках вашей программы.


Хамить не нужно, у вас своё мнение по этому поводу у меня своё. Если хотите, я могу пояснить свою точку зрения и поверьте, в тех ситуациях про которые думал я удаление атрибутов тегов принесет больше проблем чем пользы.

А по поводу того, что через поиск и замену муторно, то вы не правы: во-первых в программе есть поддержка снипетов, что уже превращает процесс поиска и замены делом двух кликов. Регулярку по очищению абсолютно всех атрибутов тегов я могу вам написать. Так что поливариантность присутствует.

Плюс к тому вы всё равно в не зависимости от количества проектов будете их обрабатывать каким-то из инструментов, и тогда можно будет создать каплю-макрос для обработки частых действий в который можно включить снипет поиска и замены.

Потому не стоит говорить о смысле программы: смысл программы облегчать и автоматизировать множество действий, а не возможно создать универсальный инструмент только с парочкой кнопок, так что если есть желание умно пользоваться программой, то нужно сначала это научится.

Вообще-то, по логике вещей если "делить нету по чем" то и делить/разбивать просто ничего НЕ надо. Надо просто сконвертировать файл без этого разделения. А Вы же по факту получается - делите на ноль. И поэтому мы ничего не получаем.

Но я понял как действует данная опция. Спасибо за ответы.


Теги h1/2/3 определяют месторасположение статьи в проекте. Нету тегов - нету статьи.

Еще скажите: при экспорте в купленной версии из Worda в Joomla - картинки прописываются в папку image?

Можно указать другую? Несколько папок?


Другую указать можно в настройках проекта, несколько папок указать нельзя.