ZebroidФорумПубличный разделБаги / ОшибкиАрхивПри переводе гугл транслейт режутся и не закрываются теги

При переводе гугл транслейт режутся и не закрываются теги

13 мая 2012, 12:30
Зарегистрирован: 27 января 2012, 12:37
Проверял разные направления перевода, от языка не зависит. В конце текста вставлена картинка со скриншотом, например:

<img src='images/febe-scr.png' style='margin:2px' align='center' alt='febe-scr.png' title='FEBE-CLEO Combo Pack'>

После перевода получаем

<img src='images/febe-scr.png' style='margin:2px' align='center' alt='&lt;&lt; scr.png FEBE-FEBE, CLEO &gt;&gt; Combo Pack' title='

Причем за зависимо от того, что стоит дальше (например закрывающийся div), код режеться

<img src='images/nsis-installer.png' style='margin:2px' alt='nsis-installer.png' title='Nullsoft Scriptable Install System'><br />Дополнительные скрины: <a href='http://nsis.sourceforge.net/Screenshots' target='_blank'>NSIS</a>

После

<img src='images/nsis-installer.png' style='margin:2px' alt='&lt;&lt; installer.png NSIS, Nullsoft сценариев установки &gt;&gt; Система &gt;&gt; &lt;&lt; Дополнительные скрины:' title='&lt;&lt; NSIS&gt; &gt;

Проблема наблюдается в процентах 40 текстов.

Кстате странно что при импорте в пост обработке стоит альт по названию статьи, и очищать артибуты тегов, но тем не менее эти теги пролезли, и альт не проставлен.. но это уже другая история



13 мая 2012, 15:02
Зарегистрирован: 10 апреля 2012, 00:00
На самом деле решить эту проблему очень сложно: гугл не корректно обрабатывает текст с тегами, а когда пытаешься вырезать теги, то из-за произвольной перестановки слов со стороны гугла может получится вот такая ситуация. Я постараюсь что-то придумать, но не думаю, что будет 100% решение ситуации, потому моя рекомендация будет - старайтесь минимизировать количество тегов перед переводом.

Кстате странно что при импорте в пост обработке стоит альт по названию статьи, и очищать артибуты тегов, но тем не менее эти теги пролезли, и альт не проставлен.. но это уже другая история


Атрибуты тега IMG не очищаются по понятным причинам, а расстановка альтов срабатывает только для картинок без этих альтов, так что всё правильно.



13 мая 2012, 15:42
Зарегистрирован: 27 января 2012, 12:37
я так и понял, чищу, но в данном примере style='margin:2px' align='center' можно смело удалять, а вот альт и тайтл уже будет в ущерб себе удалять. Хотя бы свести к минимуму обрезания простых тегов - картинки (с альтом), ссылки (с тайтлом), абзаца, все без стилей, и отписать об этом пользователям.

Ну а по импорту, можно добавить опцию очищать все наголо.. я если честно так и думал, в опциях импорта конкретный список чего не очищать, если нет тега img ,почему его не чистим... не логично :)

Вопрос, какой регуляркой можно поудалять попросту незакрытые теги

img, например в конце текста остается такой кусок



<img alt="DriveImage" title="



и

a href

<a href='http://www.gimp.org/'>GIMP

или бывает

<a href='http://www.gimp.org/'>

Не могу вычистить этот мусор что остатеся :(



14 мая 2012, 03:10
Зарегистрирован: 10 апреля 2012, 00:00
Вопрос, какой регуляркой можно поудалять попросту незакрытые теги

img, например в конце текста остается такой кусок


Никакой, регулярки не подойдут для валидации тегов, да и вообще, я еще не видел алгоритмов, которые позволяют точно определить место не закрытого тега, максимум что есть - это подсчёт количества открытых и закрытых тегов для идентификации проблемы, но не её решения.



Тема закрыта