2
Juli
2026
11:09

Как найти в тексте символы, не соответствующие языку написания

2 Juli 2026 11:09

В тексте могут встречаться символы, похожи по внешнему виду, но не сооветствующие языку.

Например, русская "C" похожа на латинскую "c", русская "Х" на латинскую "x".
Пример: POCCOMAXA выглядит как русское слово, но состоит лишь из латинских букв.
Следующие команды помогут найти такие несоответстия.

Поиск в английском тексте русских букв

Первый вариант поиска русских букв в английском тексте:

Данный запрос найдет буквы, которые выходят за пределы 26 букв английского алфавита от A до Z:

sudo apt install pcregrep
pcregrep --color='auto' -n "[^[:ascii:]]" eng.txt

В данном варианте будут найдены слова с символами национальных языков.
Например: â (циркумфлекс), é (акут), ü (умлаут).

Второй вариант поиска русских букв в английском тесте

grep --color='auto' -n -P '[\x{0410}-\x{044f}]' eng.txt

Поиск в русском тексте английских букв

Первый вариант поиска английских букв в русском тексте:

Данный запрос найдет номера строк и подсветит слова с символами 26 букв английского алфавита A-Z:

sudo apt install pcregrep
pcregrep --color='auto' -n "[[:ascii:]]" rus.txt

Второй вариант поиска английских слов с буквами A-Z в русском тексте:

grep --color='auto' -n -P -v '[\x{0410}-\x{044f}]' rus.txt

Приложение: тестовые файлы rus.txt и eng.txt в архиве test.zip.



Verwandte Veröffentlichungen