Текстометр позволяет быстро получить информацию о тексте, актуальную для его подготовки к уроку русского языка: уровень сложности текста, ключевые слова, самые полезные слова, статистика по вхождению слов в лексические минимумы. Подробнее о том, как использовать эти данные при подготовке текста можно прочитать здесь [1].
Определение уровня по шкале CEFR от А1 до С2 происходит автоматически, с помощью регрессионной модели, обученной на корпусе из 700 текстов из пособий по РКИ. Подробнее о параметрах модели и признаках, на которых она обучалась, можно почитать здесь [2].
Может ли она ошибаться? Эксперименты показывают, что модель склонна немного завышать уровень сложности текста, поскольку она производит расчеты исходя из данных лексических минимумов. Практика же показывает, что студенты обычно знают (или угадывают из контекста) больше слов, чем в минимумах. Особенно это касается интернационализмов и слов, которые похоже звучат на родном языке ученика. Это стоит учитывать при подготовке текстов для славяно- или англоговорящих учеников. Подробнее об эксперименте со сравнением работы программы, мнения экспертов-преподавателей и самих студентов можно почитать здесь [3].
Уровни сложности текста для иностранцев хорошо стандартизированы и задокументированы. В текстах для носителей языка понятие сложности текста многограннее: текст бывает написан короткими словами и фразами, что позволяет стандартным формулам читабельности отнести его к простым, но “продраться” сквозь незнакомые слова или стилистические особенности затруднительно.
Поэтому тексты для чтения носителем языка наша система оценивает по двум критериям: структурная сложность и лексическая. Структурная сложность учитывает классическую формулу читабельности Флеша, адаптированную для русского языка, а также наличие частей речи и оборотов, затрудняющих чтение (причастия, пассивные формы и др.) Лексическая сложность рассчитывается на основании вхождения слов текста в специализированные частотные списки.