RuFoLa: корпус текстов из учебников русского языка как иностранного
Антонина Лапошина, 10 августа 2024
RuFoLa (Russian as a Foreign Language Corpus) — корпус текстов из учебников русского языка для иностранцев уровней A1-C2 и вариантов тестов ТРКИ. Источниками для корпуса послужили:
- Учебники и пособия общего курса русского языка как иностранного, изданные не ранее 2007 года;
- Тексты из тренировочных вариантов тестов ТРКИ;
- Материалы онлайн-ресурсов для изучения РКИ (портал “Образование на русском”, платформа “Youlang”);
- Материалы ресурса Learn Russian With Interest, продолжающего проект текстотеки ЦМО МГУ
Каждый текст корпуса снабжен разметкой по авторам и названию учебника, уровню сложности учебника на шкале CEFR, жанру, стилю и тематике.
Объём корпуса на данный момент составляет 2685 текстов и 665 тысяч словоупотреблений.
Поиск в корпусе осуществляется с помощью корпус-менеджера SketchEngine. Это позволяет искать интересующие лексемы, словоформы, сочетания и видеть статистику их появления в учебниках разных линеек и уровней.
Конкорданс к лексеме «возможность» в текстах корпуса
На материалах корпуса проводится широкий круг исследований:
- Автоматическое определение уровня сложности текстов
- Исследование лексического состава учебника РКИ
- Составление частотных списков лексики, встречающейся в учебниках РКИ
- Социокультурный анализ учебника РКИ
Тексты корпуса легли в основу обучения модели регрессии для автоматического определения уровня сложности текста с позиции иностранных учащихся, реализованный впоследствии в сервисе «Текстометр».
Разметка текстов также позволяет анализировать актуальность и аутентичность языковых материалов, представленных в учебнике РКИ, на основе сравнения большими корпусами текстов.
Для доступа к поиску в корпусе в исследовательских целях свяжитесь, пожалуйста, с нами по адресу: antonina.laposhina@gmail.com (Антонина Николаевна Лапошина).
Публикации по теме:
- Лапошина А. Н. Корпус текстов учебников РКИ как инструмент анализа учебных материалов. Русский язык за рубежом. 2020. № 6 (283). С. 22-28
- Лапошина, А. Н. Лингводидактическое обоснование применения автоматической оценки сложности учебного текста в преподавании РКИ: диссертация на соискание ученой степени кандидата педагогических наук / Лапошина Антонина Николаевна. – Москва, 2023. – 189 с.
- Лапошина А.Н., Лебедева М.Ю. Формирование частотного словаря-минимума русского языка для детей инофонов на основе корпусных данных // Мир русского слова. 2022. № 3, С. 90–99
- Лапошина А.Н., Лебедева М.Ю. Корпусный подход к решению проблемы отбора лексики в обучении РКИ. // SLAVICA HELSINGIENSIA 52, University of Helsinki, Finland, 2019, p. 359-368