TIRTEC (Text-Image Russian Textbook Corpus) — это корпус текстов из учебников русского языка для детей младшего школьного возраста (7-11 лет), предназначенных для учеников с разным уровнем владения русским языком (R-native: русский как родной язык, R-bilingual: русский как второй родной/семейный, R-foreign: русский как иностранный).
Каждый текст корпуса снабжен разметкой по по целевой аудитории учебника, классу, принадлежности аппарату учебника, авторству аутентичных фрагментов текстов, жанру и тематике текстовых фрагментов, наличию и типу иллюстраций к тексту.
На материалах корпуса силами лаборатории когнитивных лингвистических исследований Гос.ИРЯ им. А.С.Пушкина проводится широкий круг исследований: поиск формальных признаков границ целевой аудитории учебника, в особенности размытой в методическом плане категории учебников для билингвов и детей с вторым/семейным русским, формирование словаря-минимума наиболее употребительной лексики на основе встречаемости лексики во всех трех категориях учебников, лексического портрета учебника русского языка, статистический анализ отдельных составляющих учебника русского языка, например, анализ формулировок заданий в учебнике как способ реализации методической мысли авторов, анализ визуального компонента учебника русского языка как источника социокультурной информации.
Библиографический список учебников, входящих в корпус
Списки самых частотных слов в учебниках русского языка на материале корпуса:
Для расчетов использовался весь текст учебника, поэтому в списке возможно появление терминов (буквенный, спряжение) и учебной лексики (записать, задание).
Frequency_ipm = это относительная частотность слова, сколько раз слово встретится на миллион слов в тексте. Эта величина удобна для сравнения частотности слова по нескольким коллекциям разных размеров или сравнения с другими корпусами русского языка. Подробнее о расчетах и значении величины можно посмотреть здесь.
Коэффициент R, представляет насколько универсально это слово, в скольких частях корпуса (в нашем случае - в скольких учебниках из коллекции) оно встретилось. Коэффициент R 100 означает, что слово встречается хотя бы один раз во всех учебниках коллекции: например, текст, девочка, ухо, добрый. Высокая частотность слова в сочетании с низким коэффициентом R помогает подсветить уникальные слова, возможно, составляющие концепцию авторов учебника: например, имена персонажей или излюбленные темы авторов. В списках R-foreign, R-bilingual и R-native частями корпуса для расчета коэффициента R считались учебники. В объединенном списке частями считались коллекции текстов: все учебники для детей-инофонов, все учебники русского как родного, корпус детской литературы и т.п.
DP (degree of dispersion) более детально характеризует равномерность распределения частотности слова по разным фрагментам корпуса. Например, слово фрукт встречается почти во всех учебниках и имеет высокий коэффициент R. Однако в одних учебниках оно встретилось всего 1 раз, а в других — более 25 раз. Это приводит к DP равному 0.51.
Rnc_ipm относительная частотность слова по Новому частотному словарю русской лексики, построенному на материале Национального корпуса русского языка.
Detcorpus_ipm относительная частотность слова по корпусу литературы для детей Деткорпус.
Для доступа к поиску в корпусе в исследовательских целях свяжитесь, пожалуйста, с нами по адресу: antonina.laposhina@gmail.com (Антонина Николаевна Лапошина)
TIRTEC (Text-Image Russian Textbook Corpus) is a corpus of texts from Russian language textbooks for children aged 7-11 years (corresponding to the age of primary school students in the Russian education system), intended for three groups of children: Russian textbooks for native speakers (R-native), for bilingual children (R-bilingual), and for young learners of Russian as a foreign language (R-foreign). This corpus can be a useful tool for studying various strategies for text simplification, as well as for various linguodidactic and sociocultural studies. To access the corpus for research purposes, please contact us at: antonina.laposhina@gmail.com (Antonina Laposhina)