С помощью, например, этой программы можно составить словарь для целой группы файлов, выбирая буквосочетания по эффективности.
В результате пересчёта получается список вида X..X=NN:EE,
где:
X..X - буквосочетание
NN - количество раз, которое это буквосочетание встречается во всех файлах
EE - эффективность использования буквосочетания, вычисляется по формуле:
EE=NN*(длина(X..X)-1), то есть сколько байт мы сэкономим, если используем это буквосочетание в таблице MTE(DTE)
После отбора происходит сортировка списка по параметру эффективности использования буквосочетания.
Есть и модифицированная версия программы, которая в итоге составит таблицу для словаря, которую можно сразу подсунуть круптару (т.е. загружается оригинальная таблица словаря, а потом программа заполняет её новыми буквосочетаниями после анализа всех текстовых файлов). В ней есть ещё "одинарный" поиск, когда буквосочетания не должны повторяться через байт, как в игре Star Wars - The Empire Strikes Back на денди: