На основе трёхмесячного опыта и статистики пересмотрел алгоритм своей программки BreakBuster. Пересмотр получился достаточно радикальным, чтобы следующая версия получила номер с изменившейся первой цифрой — версия 2.0.
Что сделал:
- Значительно оптимизировал шаблоны, исключив экзотические и малоупотребительные слова. В то же время, добавил пару слов, упущенных ранее.
- Улучшил обработку слов с буквой «ё».
- Добавил обработку наиболее часто встречающихся ситуаций со словом «уж». В русскоязычном тексте оно может выполнять разные функции и, как следствие, должно присоединяться неразрывным пробелом то к предыдущему, то к следующему слову.
- Добавил правила насчёт коротких слов в конце предложений и абзацев. Последнее слово предложения, если оно короче четырёх букв, присоединяется теперь неразрывным пробелом к предыдущему слову. Аналогично последнее слово абзаца, если оно короче пяти букв.
- Добавил обработку нескольких ситуаций, удобно встроившихся в алгоритм. Падежи местоимений типа «них» и «неё» теперь присоединяются неразрывным пробелом к предыдущему слову.
- Всесторонне проверил и убедился, что обработанные тексты правильно и без проблем понимаются универсальным конвертором Pandoc.
На данный момент версия 2.0 реализована в виде плагина к используемому мной редактору WriteMonkey. Не знаю, надо ли делать её в виде самостоятельного приложения; если кому надо — можно сказать об этом комментарием.
Лицензионное соглашение не изменилось:
Вас никто не заставляет этим пользоваться.
Я вам в этой связи ничего не гарантирую и ничего не должен.
Я от вас в этой связи ничего не хочу и не прошу.
Я перед вами в этой связи никак и ни за что не отвечаю.
Скачайте архив и распакуйте его в папку plugins установочной директории WriteMonkey. Перезапустите редактор, если он был у вас открыт.
ВНИМАНИЕ: только зарегистрированная копия WriteMonkey позволяет пользоваться плагинами!
Чтобы расставить в тексте запреты разрывов, нажмите Ctrl+F10
, затем выберите из появившегося списка доступных плагинов BreakBuster. Если вам нужно убрать из текста ранее расставленные плагином HTML-теги, выберите из того же списка RemoveTags.