Оценка сложности русских правовых текстов: архитектура модели

Авторы

  • Ольга Владимировна Блинова Санкт-Петербургский государственный университет; Научно-исследовательский институт «Высшая школа экономики»

DOI:

https://doi.org/10.24412/1811-1629-2022-2-4-13

Аннотация

В статье описана основанная на метриках модель оценки сложности русских правовых текстов. Архитектура модели подразумевает использование 130 метрик, разделённых на следующие категории: «базовые метрики», «формулы читабельности», «учёт слов разных частеречных классов», «n-граммы частеречных помет», «частотность лемм», «словообразовательные модели», «отдельные граммемы», «лексические и семантические признаки, неоднословные выражения», «синтаксические признаки», «оценки связности». Две метрики учитывают гипертекстовые связи и наличие неопределённых контекстов. Модель способна оценивать и структурную, и понятийную, и интертекстуальную сложность, привлекая и традиционно используемые для предсказания сложности неспецифичные метрики, и метрики стилеспецифичные, разработанные с оглядкой на особенности организации официально-деловых текстов. При подсчёте морфологических и синтаксических признаков модель обращается к слоям разметки, выполненной UDPipe (“ru-syntagrus”) и pymorphy2. Для обеспечения работы модели создан ряд пользовательских словарей, среди которых: список лексических средств текстового дейксиса, список графических сокращений (1,5 тыс. единиц), список аббревиатур (2 тыс. единиц), список юридических терминов (10 тыс. единиц), список абстрактных лемм (17 тыс. единиц), список однословных лексических показателей деонтической возможности и необходимости, список конструкций с лёгкими глаголами. Значения метрик сложности подсчитаны для всех документов корпуса законов CorCodex, корпуса решений конституционного суда CorDeс и корпуса локальных актов СorRIDA (всего порядка 8 млн токенов). Размеченные юридические корпусы, значения метрик сложности и пользовательские словари доступны для скачивания с сайта plaindocument.org.

Ключевые слова:

русские правовые тексты, модель оценки сложности, языковые метрики, читабельность

Скачивания

Данные скачивания пока недоступны.
 

Загрузки

Опубликован

01.06.2022

Как цитировать

Блинова, О. В. (2022). Оценка сложности русских правовых текстов: архитектура модели. Мир русского слова, (2), 4–13. https://doi.org/10.24412/1811-1629-2022-2-4-13

Выпуск

Раздел

Лингвистика