Анализ сложности текста

Текстометр позволяет оценить уровень сложности текста, провести частотный анализ слов, найти ключевые слова и самые полезные для изучения слова, коэффициент лексического разнообразия текста, а также статистику по вхождению слов в лексические минимумы для изучающих русский язык как иностранный.
Русский как иностранный
Русский как родной

О проекте

Текстометр позволяет быстро получить информацию о тексте, актуальную для его подготовки к уроку русского языка: уровень сложности текста, ключевые слова, самые полезные слова, статистика по вхождению слов в лексические минимумы. Подробнее о том, как использовать эти данные при подготовке текста можно прочитать здесь [1].

Определение уровня текста для иностранных учащихся

Определение уровня по шкале CEFR от А1 до С2 происходит автоматически, с помощью регрессионной модели, обученной на корпусе из 700 текстов из пособий по РКИ. Подробнее о параметрах модели и признаках, на которых она обучалась, можно почитать здесь [2].

Может ли она ошибаться? Эксперименты показывают, что модель склонна немного завышать уровень сложности текста, поскольку она производит расчеты исходя из данных лексических минимумов. Практика же показывает, что студенты обычно знают (или угадывают из контекста) больше слов, чем в минимумах. Особенно это касается интернационализмов и слов, которые похоже звучат на родном языке ученика. Это стоит учитывать при подготовке текстов для славяно- или англоговорящих учеников. Подробнее об эксперименте со сравнением работы программы, мнения экспертов-преподавателей и самих студентов можно почитать здесь [3].

Определение уровня текста для носителей языка

Уровни сложности текста для иностранцев хорошо стандартизированы и задокументированы. В текстах для носителей языка понятие сложности текста многограннее: текст бывает написан короткими словами и фразами, что позволяет стандартным формулам читабельности отнести его к простым, но “продраться” сквозь незнакомые слова или стилистические особенности затруднительно.

Поэтому тексты для чтения носителем языка наша система оценивает по двум критериям: структурная сложность и лексическая. Структурная сложность учитывает классическую формулу читабельности Флеша, адаптированную для русского языка, а также наличие частей речи и оборотов, затрудняющих чтение (причастия, пассивные формы и др.) Лексическая сложность рассчитывается на основании вхождения слов текста в специализированные частотные списки.

Виктория Максимова
преподаватель РКИ, основатель FB сообщества «Сторителлинг в РКИ»

Теперь, когда Текстометр появился, мне уже трудно представить, как бы я готовила тексты без него. Это незаменимый инструмент для моей работы: строгие объективные параметры оценки, простой и интуитивно понятный дизайн. Спасибо разработчикам проекта!

Анна Голубева
главный редактор издательства «Златоуст»

Сервис очень помогает в работе и при общении с авторами! Особенно полезен частотный список, объективирует, что целесообразно оставлять в тексте, а что адаптировать или тренировать. Спасибо коллегам из Института Пушкина!

Юлия Некрасова
преподаватель РКИ Университета Салерно

Очень ценная методическая находка! Огромный потенциал для подготовки заданий для уровней B1 — C1, диктантов, заданий для экзаменов и т.п. Прошу прощения за сленг, но огромный респект разработчикам!

Контакты

Куратор проекта — Антонина Лапошина

Если у вас возник вопрос, вы нашли ошибку или считаете, что не хватает какой-то функции, обязательно напишите мне с пометкой "Текстометр". Мы очень любим и ценим обратную связь!

antonina.laposhina@gmail.com
antonina.laposhina