Анализ сложности текста

Текстометр помогает бесплатно определить уровень сложности и читабельности текста, посчитать количество слов и знаков, найти среднюю длину слова и предложения, ключевые слова текста, рассчитать коэффициент лексического разнообразия текста, получить список слов текста и рассчитать время его чтения.
Русский как иностранный
Русский как родной

О проекте

Текстометр помогает бесплатно определить уровень сложности текста на русском языке, рассчитать индексы удобочитаемости, узнать уровень текста по шкале CEFR, рассчитать посчитать количество слов и знаков, найти ключевые слова текста, рассчитать коэффициент лексического разнообразия текста, получить список слов из текста и рассчитать время его чтения, а также определить статистику по вхождению слов в лексические минимумы.

Уровень CEFR и ТРКИ/TORFL

Определение уровня сложности текста по шкале CEFR от А1 до С2 происходит автоматически, с помощью регрессионной модели, обученной на корпусе из 800 текстов из пособий по РКИ. В разделе Публикации вы можете найти статьи с более подробной информацией о том, как работает автоматическое определение сложности текста в нашем сервисе [2], о корпусе текстов из пособий РКИ RuFoLa [3] и о том, как использовать Текстометр на уроке русского языка [1].

Уровень ACTFL

Уровень сложности текста по шкале ACTFL предлагается с помощью таблицы соответствий CEFR и ACTFL в разделе рецептивных навыков. Подробнее о соответствиях здесь.

Может ли она ошибаться? Эксперименты показывают, что модель склонна немного завышать уровень сложности текста, поскольку она производит расчеты исходя из данных лексических минимумов. Практика же показывает, что студенты обычно знают (или угадывают из контекста) больше слов, чем в минимумах. Особенно это касается интернационализмов и слов, которые похоже звучат на родном языке ученика. Это стоит учитывать при подготовке текстов для славяно- или англоговорящих учеников. Подробнее об эксперименте со сравнением работы программы, мнения экспертов-преподавателей и самих студентов можно почитать здесь [4].

Оценка уровня сложности текста для школьников

Уровни сложности текста для иностранцев хорошо стандартизированы и задокументированы. В текстах для носителей языка понятие сложности текста многограннее: текст бывает написан короткими словами и фразами, что позволяет стандартным формулам читабельности отнести его к простым, но "продраться" сквозь незнакомые слова или стилистические особенности затруднительно.

Поэтому проверка текст на читабельность носителями языка наша система оценивает по двум критериям: структурная сложность и лексическая. Структурная сложность учитывает классическую формулу читабельности Флеша, адаптированную для русского языка, а также наличие частей речи и оборотов, затрудняющих чтение (причастия, пассивные формы и др.) Лексическая сложность рассчитывается на основании вхождения слов текста в специализированные частотные списки. Усредненная оценка по этим двум векторам сложности позволяет оценить уровень текста по возрасту и классу. Об этой технологии можно подробнее прочитать здесь [5].

Длина текста в словах, в знаках и предложениях

Объем текста в словах, знаках и предложениях являются базовыми характеристиками текста, особенно полезными для расчета времени, которое потребуется на его освоение, или при подготовке проверочных материалов, где объем текста обычно строго определен государственным стандартом по РКИ. Например, рекомендуемая длина текста для чтения уровня A1 составляет 250–300 слов, А2 – 600–700 слов и т.д.

Средняя длина слова и предложения

Подсчет средней длины слова и предложения служит для определения сложности текста или его отдельных фрагментов. Так, большое количество формул читабельности используют данные показатели в качестве основных (DuBay, 2004).

Коэффициент лексического разнообразия (lexical diversity)

Коэффициент лексического разнообразия рассчитывается как отношение количества уникальных слов текста к количеству всех слов текста и обозначается величиной от близкой к 0 до 1 (когда все слова в тексте уникальны и встретились только по одному разу). Эта мера полезна для оценки повторяемости, воспроизводимости лексики текста и также способна сигнализировать о его трудности. Например, коэффициент лексического разнообразия отрывка аутентичного публицистического текста в среднем составляет 0,8, а учебного текста уровня В1 – 0,5. Однако этот коэффициент стоит с осторожностью использовать на коротких учебных текстах: в одном абзаце, скорее всего, почти все знаменательные слова будут уникальны, тогда как в целом тексте более вероятно повторяются основные имена, локации, понятия и действия.

Поиск ключевых слов текста

Поиск ключевых слов текста вычисляется как отношение количества раз, которое слово встречается в анализируемом тексте к частоте слова по Национальному корпусу русского языка (мера TF/IDF с корректирующим коэффициентом). Наивысший рейтинг получают слова, которые часто встречаются в данном тексте, но редко – во всех других текстах корпуса, то есть максимально характерные именно для этого текста. Например, в тексте интервью с музыкантом слова музыка и рэп встречаются по три раза. Но при этом музыка встречается в Национальном корпусе 45 000 раз, а рэп – 270. С этой точки зрения, слово рэп является более характерным и необходимым для понимания данного текста. При этом появление слова в списке ключевых слов вовсе не означает, что оно должно остаться в тексте при адаптации: слово может быть заменено на синоним или снабжено толкованием. Его присутствие в списке говорит лишь о том, что оно играет важную роль для понимания данного текста и на него стоит обратить особое внимание при переработке текста.

Уровень сложности слов текста по шкале CEFR

Статистика по лексическим минимумам включает в себя информацию о том, сколько процентов текста покрывается лексическими минимумами того или иного уровня, а ниже указывается список слов, не вошедших в официальный лексический минимум стандартов ТРКИ данного уровня. Количество незнакомой лексики является важнейшим показателем языковой доступности текста: многочисленные исследования говорят о самой тесной связи знакомости лексики текста и успешности его понимания (Nation, 2006; Qian, 2002). Государственный стандарт по РКИ также содержит информацию о рекомендуемом количестве незнакомой лексики, который постепенно растет от 2–3% для уровня A1 до 10% для уровня C1.

Частотный анализ текста

Частотный анализ текста позволяет, во-первых, получить полный частотный список слов текста, а во-вторых, статистику по доле в тексте слов из списка 5 000 самых частотных слов русского языка. Для расчета статистики по частотности слов мы использовали Новый частотный словарь современного русского языка.

Расчетное время чтения текста

Расчет времени чтения текста опирается на информацию из государственного стандарта по РКИ и предлагает ориентировочное время чтения текста иностранным студентом в зависимости от задачи чтения – изучающего или просмотрового. Такая информация появляется в стандартах по РКИ начиная с уровня В1 и составляет для этого уровня 50 слов в минуту для изучающего чтения и 100 слов в минуту для просмотрового. Для уровней ниже В1 мы взяли на себя смелость продолжить эту шкалу расчетной скорости чтения исходя из педагогического опыта.

Виктория Максимова
преподаватель РКИ, основатель FB сообщества «Сторителлинг в РКИ»

Теперь, когда Текстометр появился, мне уже трудно представить, как бы я готовила тексты без него. Это незаменимый инструмент для моей работы: строгие объективные параметры оценки, простой и интуитивно понятный дизайн. Спасибо разработчикам проекта!

Анна Голубева
главный редактор издательства «Златоуст»

Сервис очень помогает в работе и при общении с авторами! Особенно полезен частотный список, объективирует, что целесообразно оставлять в тексте, а что адаптировать или тренировать. Спасибо коллегам из Института Пушкина!

Юлия Некрасова
преподаватель РКИ Университета Салерно

Очень ценная методическая находка! Огромный потенциал для подготовки заданий для уровней B1 — C1, диктантов, заданий для экзаменов и т.п. Прошу прощения за сленг, но огромный респект разработчикам!

Публикации

При ссылке на ресурс мы просим цитировать данную работу:

[1] Лапошина А. Н., Лебедева М. Ю. Текстометр: онлайн-инструмент определения уровня сложности текста по русскому языку как иностранному // Русистика. 2021. Т. 19. №3. C. 331-345

Ещё публикации о программе:

[2] Laposhina А. N., Veselovskaya Т. S., Lebedeva M. U., Kupreshchenko O. F. Automated Text Readability Assessment For Russian Second Language Learners // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii Сер. "Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2018". Issue 17 (24), 2018

[3] Лапошина А.Н. Корпус учебников РКИ как инструмент анализа учебных материалов // Русский язык за рубежом. 2020. № 6 (283). С. 22-28

[4] Лапошина А. Н. Опыт экспериментального исследования сложности текстов по РКИ // Динамика языковых и культурных процессов в современной России [Электронный ресурс]. — Вып. 6. Материалы VI Конгресса РОПРЯЛ (г. Уфа, 11–14 октября 2018 года). — СПб.: РОПРЯЛ, 2018. С. 1154-1179

[5] Лапошина А.Н., Лебедева М.Ю., Берлин Хенис А.А. Влияние частотности слов текста на его сложность: экспериментальное исследование читателей младшего школьного возраста методом айтрекинга // Russian Journal of Linguistics. - 2022. - Т. 26. - №2. - C. 493-514.

Контакты

Куратор проекта — Антонина Лапошина

Если у вас возник вопрос, вы нашли ошибку или считаете, что не хватает какой-то функции, обязательно напишите мне с пометкой "Текстометр". Мы очень любим и ценим обратную связь!

antonina.laposhina@gmail.com
antonina.laposhina