Open Access BASE2022

The construction and analysis of the Russian language models for a cryptographic algorithm research ; Построение и анализ моделей русского языка в связи с исследованиями криптографических алгоритмов

Abstract

The article provides a statistical analysis of the properties of lexical and n-gram models of the Russian language based on the news text corpus. A specialized corpus of political news articles of recent years has been created, reflecting a narrow area of language use. The token and n-gram dictionaries are compiled, the coverage values are found, as well as the values ofentropy. Lemmatization of the original text corpus and extrapolation of the dictionary volumes are performed. ; При исследовании криптографических качеств алгоритмов защиты информации важным моментом является построение теоретических и экспериментальных моделей источников сообщений. В данной статье проводится статистический анализ свойств лексических и n-граммных моделей русского языка на основе новостного текстового корпуса. Созданспециализированный корпус из новостных статей последних лет политической направленности, отражающий узкую область употребления языка. Составлены словари токенов иn-грамм, найдены величины покрытия этих словарей, а также значения энтропии. Проведена лемматизация исходного текстового корпуса и экстраполяция роста объёма словарейв зависимости от увеличения размера корпуса.

Problem melden

Wenn Sie Probleme mit dem Zugriff auf einen gefundenen Titel haben, können Sie sich über dieses Formular gern an uns wenden. Schreiben Sie uns hierüber auch gern, wenn Ihnen Fehler in der Titelanzeige aufgefallen sind.