TIRTEC (Text-Image Russian Textbook Corpus)

Антонина Лапошина, 1 июля 2024

TIRTEC (Text-Image Russian Textbook Corpus) — это корпус текстов из учебников русского языка для детей младшего школьного возраста (7-11 лет), предназначенных для учеников с разным уровнем владения русским языком (R-native: русский как родной язык, R-bilingual: русский как второй родной/семейный, R-foreign: русский как иностранный).

Каждый текст корпуса снабжен разметкой по по целевой аудитории учебника, классу, принадлежности аппарату учебника, авторству аутентичных фрагментов текстов, жанру и тематике текстовых фрагментов, наличию и типу иллюстраций к тексту.

TIRTEC

На материалах корпуса силами лаборатории когнитивных лингвистических исследований Гос.ИРЯ им. А.С.Пушкина проводится широкий круг исследований: поиск формальных признаков границ целевой аудитории учебника, в особенности размытой в методическом плане категории учебников для билингвов и детей с вторым/семейным русским, формирование словаря-минимума наиболее употребительной лексики на основе встречаемости лексики во всех трех категориях учебников, лексического портрета учебника русского языка, статистический анализ отдельных составляющих учебника русского языка, например, анализ формулировок заданий в учебнике как способ реализации методической мысли авторов, анализ визуального компонента учебника русского языка как источника социокультурной информации.

Материалы

Библиографический список учебников, входящих в корпус

Списки самых частотных слов в учебниках русского языка на материале корпуса:

R-foreign составлен из коллекции 29 учебников русского языка для детей-инофонов 7-11 лет.
R-bilingual составлен из коллекции 29 учебников русского языка для детей-билингвов, детей с семейным/вторым русским 7-11 лет.
R-native составлен из коллекции 61 учебника русского языка для 1-4 класса российских школ.
Объединенный частотный список, в котором удобно проводить сравнение частотности слова по разным коллекциям.

Для расчетов использовался весь текст учебника, поэтому в списке возможно появление терминов (буквенный, спряжение) и учебной лексики (записать, задание).

Условные обозначения

Frequency_ipm = это относительная частотность слова, сколько раз слово встретится на миллион слов в тексте. Эта величина удобна для сравнения частотности слова по нескольким коллекциям разных размеров или сравнения с другими корпусами русского языка. Подробнее о расчетах и значении величины можно посмотреть здесь.

Коэффициент R, представляет насколько универсально это слово, в скольких частях корпуса (в нашем случае - в скольких учебниках из коллекции) оно встретилось. Коэффициент R 100 означает, что слово встречается хотя бы один раз во всех учебниках коллекции: например, текст, девочка, ухо, добрый. Высокая частотность слова в сочетании с низким коэффициентом R помогает подсветить уникальные слова, возможно, составляющие концепцию авторов учебника: например, имена персонажей или излюбленные темы авторов. В списках R-foreign, R-bilingual и R-native частями корпуса для расчета коэффициента R считались учебники. В объединенном списке частями считались коллекции текстов: все учебники для детей-инофонов, все учебники русского как родного, корпус детской литературы и т.п.

DP (degree of dispersion) более детально характеризует равномерность распределения частотности слова по разным фрагментам корпуса. Например, слово фрукт встречается почти во всех учебниках и имеет высокий коэффициент R. Однако в одних учебниках оно встретилось всего 1 раз, а в других — более 25 раз. Это приводит к DP равному 0.51.

Rnc_ipm относительная частотность слова по Новому частотному словарю русской лексики, построенному на материале Национального корпуса русского языка.

Detcorpus_ipm относительная частотность слова по корпусу литературы для детей Деткорпус.

Публикации на материале корпуса

Лапошина А.Н., Лебедева М.Ю. Формирование частотного словаря-минимума русского языка для детей инофонов на основе корпусных данных // Мир русского слова. 2022. № 3, С. 90–99.
Веселовская, Т. С. Визуальный компонент учебника для начальной школы как источник социокультурной информации / Т. С. Веселовская // Славянская культура: истоки, традиции, взаимодействие. XХ Кирилло-Мефодиевские чтения : Материалы Международной научно-практической конференции (в рамках Международного Кирилло-Мефодиевского фестиваля славянских языков и культур), Москва, 22–24 мая 2019 года / Главный редактор М.Н. Русецкая. – Москва: Государственный институт русского языка им. А.С. Пушкина, 2019. – С. 105-110. – EDN DKELLC.
Лапошина А.Н., Веселовская Т.С., Лебедева М.Ю. Купрещенко О.Ф. Лексический состав текстов учебников русского языка для младшей школы: корпусное исследование//Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2019». Выпуск 18 (25), 2019, c. 351-363.
Лапошина А.Н., Веселовская Т.С., Купрещенко О.Ф. Иллюстративно-текстовый корпус учебников русского языка для детей младшего школьного возраста: концепция и методика создания//Труды международной конференции "Корпусная лингвистика - 2019". - СПб.: Изд-во С.-Петерб. ун-та, 2019.
Lebedeva M., Veselovskaya T., Kupreshchenko O., Laposhina A. (2021) Corpus-Based Evaluation of Textbook Content: A Case of Russian Language Primary School Textbooks for Migrants. In: Rokita-Jaśkow J., Wolanin A. (eds) Facing Diversity in Child Foreign Language Education. Second Language Learning and Teaching. Springer, Cham.
Лапошина А.Н., Веселовская Т.С., Жильцова Л.Ю., Купрещенко О.Ф., Лебедева М.Ю. Корпусное учебниковедение: в поисках объективных критериев оценки уровня учебников для билингвов. Сборник трудов 10-й Международной научной конференции «Корпусная лингвистика-2021» (Санкт-Петербург, СПбГУ, 1-3 июля 2021 г.)
Веселовская, Т. С. Визуальный компонент учебника для начальной школы как источник социокультурной информации / Т. С. Веселовская // Славянская культура: истоки, традиции, взаимодействие. XХ Кирилло-Мефодиевские чтения : Материалы Международной научно-практической конференции (в рамках Международного Кирилло-Мефодиевского фестиваля славянских языков и культур), Москва, 22–24 мая 2019 года / Главный редактор М.Н. Русецкая. – Москва: Государственный институт русского языка им. А.С. Пушкина, 2019. – С. 105-110. – EDN DKELLC.

Для доступа к поиску в корпусе в исследовательских целях свяжитесь, пожалуйста, с нами по адресу: antonina.laposhina@gmail.com (Антонина Николаевна Лапошина)

ENG

TIRTEC (Text-Image Russian Textbook Corpus) is a corpus of texts from Russian language textbooks for children aged 7-11 years (corresponding to the age of primary school students in the Russian education system), intended for three groups of children: Russian textbooks for native speakers (R-native), for bilingual children (R-bilingual), and for young learners of Russian as a foreign language (R-foreign). This corpus can be a useful tool for studying various strategies for text simplification, as well as for various linguodidactic and sociocultural studies. To access the corpus for research purposes, please contact us at: antonina.laposhina@gmail.com (Antonina Laposhina)

Присоединяйтесь к обсуждению сайта в нашей группе в Telegram