Текстометр помогает бесплатно определить уровень сложности текста на русском языке, рассчитать индексы удобочитаемости, узнать уровень текста по шкале CEFR, рассчитать посчитать количество слов и знаков, найти ключевые слова текста, рассчитать коэффициент лексического разнообразия текста, получить список слов из текста и рассчитать время его чтения, а также определить статистику по вхождению слов в лексические минимумы.
Определение уровня сложности текста по шкале CEFR от А1 до С2 происходит автоматически, с помощью регрессионной модели, обученной на корпусе из 800 текстов из пособий по РКИ. В разделе Публикации вы можете найти статьи с более подробной информацией о том, как работает автоматическое определение сложности текста в нашем сервисе [2], о корпусе текстов из пособий РКИ RuFoLa [3] и о том, как использовать Текстометр на уроке русского языка [1].
Уровень сложности текста по шкале ACTFL предлагается с помощью таблицы соответствий CEFR и ACTFL в разделе рецептивных навыков. Подробнее о соответствиях здесь.
Может ли она ошибаться? Эксперименты показывают, что модель склонна немного завышать уровень сложности текста, поскольку она производит расчеты исходя из данных лексических минимумов. Практика же показывает, что студенты обычно знают (или угадывают из контекста) больше слов, чем в минимумах. Особенно это касается интернационализмов и слов, которые похоже звучат на родном языке ученика. Это стоит учитывать при подготовке текстов для славяно- или англоговорящих учеников. Подробнее об эксперименте со сравнением работы программы, мнения экспертов-преподавателей и самих студентов можно почитать здесь [4].
Уровни сложности текста для иностранцев хорошо стандартизированы и задокументированы. В текстах для носителей языка понятие сложности текста многограннее: текст бывает написан короткими словами и фразами, что позволяет стандартным формулам читабельности отнести его к простым, но "продраться" сквозь незнакомые слова или стилистические особенности затруднительно.
Поэтому проверка текст на читабельность носителями языка наша система оценивает по двум критериям: структурная сложность и лексическая. Структурная сложность учитывает классическую формулу читабельности Флеша, адаптированную для русского языка, а также наличие частей речи и оборотов, затрудняющих чтение (причастия, пассивные формы и др.) Лексическая сложность рассчитывается на основании вхождения слов текста в специализированные частотные списки. Усредненная оценка по этим двум векторам сложности позволяет оценить уровень текста по возрасту и классу. Об этой технологии можно подробнее прочитать здесь [5].
Объем текста в словах, знаках и предложениях являются базовыми характеристиками текста, особенно полезными для расчета времени, которое потребуется на его освоение, или при подготовке проверочных материалов, где объем текста обычно строго определен государственным стандартом по РКИ. Например, рекомендуемая длина текста для чтения уровня A1 составляет 250–300 слов, А2 – 600–700 слов и т.д.
Подсчет средней длины слова и предложения служит для определения сложности текста или его отдельных фрагментов. Так, большое количество формул читабельности используют данные показатели в качестве основных (DuBay, 2004).
Коэффициент лексического разнообразия рассчитывается как отношение количества уникальных слов текста к количеству всех слов текста и обозначается величиной от близкой к 0 до 1 (когда все слова в тексте уникальны и встретились только по одному разу). Эта мера полезна для оценки повторяемости, воспроизводимости лексики текста и также способна сигнализировать о его трудности. Например, коэффициент лексического разнообразия отрывка аутентичного публицистического текста в среднем составляет 0,8, а учебного текста уровня В1 – 0,5. Однако этот коэффициент стоит с осторожностью использовать на коротких учебных текстах: в одном абзаце, скорее всего, почти все знаменательные слова будут уникальны, тогда как в целом тексте более вероятно повторяются основные имена, локации, понятия и действия.
Поиск ключевых слов текста вычисляется как отношение количества раз, которое слово встречается в анализируемом тексте к частоте слова по Национальному корпусу русского языка (мера TF/IDF с корректирующим коэффициентом). Наивысший рейтинг получают слова, которые часто встречаются в данном тексте, но редко – во всех других текстах корпуса, то есть максимально характерные именно для этого текста. Например, в тексте интервью с музыкантом слова музыка и рэп встречаются по три раза. Но при этом музыка встречается в Национальном корпусе 45 000 раз, а рэп – 270. С этой точки зрения, слово рэп является более характерным и необходимым для понимания данного текста. При этом появление слова в списке ключевых слов вовсе не означает, что оно должно остаться в тексте при адаптации: слово может быть заменено на синоним или снабжено толкованием. Его присутствие в списке говорит лишь о том, что оно играет важную роль для понимания данного текста и на него стоит обратить особое внимание при переработке текста.
Статистика по лексическим минимумам включает в себя информацию о том, сколько процентов текста покрывается лексическими минимумами того или иного уровня, а ниже указывается список слов, не вошедших в официальный лексический минимум стандартов ТРКИ данного уровня. Количество незнакомой лексики является важнейшим показателем языковой доступности текста: многочисленные исследования говорят о самой тесной связи знакомости лексики текста и успешности его понимания (Nation, 2006; Qian, 2002). Государственный стандарт по РКИ также содержит информацию о рекомендуемом количестве незнакомой лексики, который постепенно растет от 2–3% для уровня A1 до 10% для уровня C1.
Частотный анализ текста позволяет, во-первых, получить полный частотный список слов текста, а во-вторых, статистику по доле в тексте слов из списка 5 000 самых частотных слов русского языка. Для расчета статистики по частотности слов мы использовали Новый частотный словарь современного русского языка.
Расчет времени чтения текста опирается на информацию из государственного стандарта по РКИ и предлагает ориентировочное время чтения текста иностранным студентом в зависимости от задачи чтения – изучающего или просмотрового. Такая информация появляется в стандартах по РКИ начиная с уровня В1 и составляет для этого уровня 50 слов в минуту для изучающего чтения и 100 слов в минуту для просмотрового. Для уровней ниже В1 мы взяли на себя смелость продолжить эту шкалу расчетной скорости чтения исходя из педагогического опыта.
Теперь, когда Текстометр появился, мне уже трудно представить, как бы я готовила тексты без него. Это незаменимый инструмент для моей работы: строгие объективные параметры оценки, простой и интуитивно понятный дизайн. Спасибо разработчикам проекта!
Сервис очень помогает в работе и при общении с авторами! Особенно полезен частотный список, объективирует, что целесообразно оставлять в тексте, а что адаптировать или тренировать. Спасибо коллегам из Института Пушкина!
Очень ценная методическая находка! Огромный потенциал для подготовки заданий для уровней B1 — C1, диктантов, заданий для экзаменов и т.п. Прошу прощения за сленг, но огромный респект разработчикам!
При ссылке на ресурс мы просим цитировать данную работу:
Ещё публикации о программе:
Автор проекта — Антонина Лапошина
Если у вас возник вопрос, вы нашли ошибку или считаете, что не хватает какой-то функции, обязательно напишите мне с пометкой "Текстометр". Мы очень любим и ценим обратную связь!