Пиши и продавай!
как написать статью, книгу, рекламный текст на сайте копирайтеров

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56

2. ОБЩАЯ ХАРАКТЕРИСТИКА КОРПУСА ГАЗЕТНЫХ ТЕКСТОВ СОВРЕМЕННОГО РУССКОГО ЯЗЫКА

3. СИСТЕМА МАРКИРОВКИ ГАЗЕТНЫХ ТЕКСТОВ МАРКЕРАМИ КОНКРЕТНЫХ ЖАНРОВ И ЖАНРОВЫХ ТИПОВ

4. АВТОМАТИЗИРОВАННЫЙ АНАЛИЗ ЛЕКСИЧЕСКИХ, МОРФОЛОГИЧЕСКИХ И МОРФЕМНЫХ ХАРАКТЕРИСТИК ГАЗЕТНЫХ ТЕКСТОВ РАЗЛИЧНЫХ ЖАНРОВ

5. ЧАСТОТНО-РАСПРЕДЕЛИТЕЛЬНЫЙ (ПО ЖАНРОВЫМ ТИПАМ) СЛОВАРЬ ЛЕКСИЧЕСКИХ ЕДИНИЦ ПО ВСЕМУ КОРПУСУ

6. ОБЩАЯ СТАТИСТИКА ЛЕКСИКО-ГРАММАТИЧЕСКИХ КАТЕГОРИЙ В БОЛЬШОМ И ЯДЕРНОМ КОРПУСАХ

7. НОВЫЕ СЛОВА

ЛИТЕРАТУРА

1. ЧТО ТАКОЕ КОРПУС ТЕКСТОВ?

Корпус текстов – это не просто коллекция отобранных по определенной методике и представленных в электронном виде текстов определенных сфер употребления языка (подобных коллекций существует сейчас великое множество), но такая коллекция, которая категоризована как со стороны интегральных характеристик каждого текста (например, жанровых), так и со стороны специфических характеристик различных единиц его организации (лексемы, словоформы, морфемы и т.п.). Подобная характеризация позволяет вести развернутый анализ различного рода зависимостей в текстах некоторой области. Кроме того, подобная коллекция должна быть организована в виде некоторой базы данных. Это облегчает ее практическое использование и научный анализ.

В настоящем разделе представлен начальный лингвистический анализ материала корпуса. В равной мере на этом материале могут рассматриваться вопросы современной политической истории, социологии, социальной психологии, контент-анализа, теории рекламы и др. Основой для этого являются те словари, индексы и конкордансы, которые строятся из материала Корпуса с использованием специализированного программного инструментария.

в начало статьи << >> в начало

2. ОБЩАЯ ХАРАКТЕРИСТИКА КОРПУСА ГАЗЕТНЫХ ТЕКСТОВ СОВРЕМЕННОГО РУССКОГО ЯЗЫКА

В настоящей работе представлены результаты работы по созданию, категоризации и анализу «Компьютерного корпуса газетных текстов русского языка конца XX века», подготовленного в течение 2000–2002 гг. в Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ по грантам РФФИ 00-07-90007 и 01-07-90386. В ходе выполнения данного проекта реализована серия основных задач построения и анализа базы данных газетного материала в интересах получения объективной картины состояния современного русского газетного языка (а отчасти и картины состояния всего языка в целом, если иметь в виду то, что в наборе газетных жанров присутствуют многие жанры остальных родов словесности). Для этого был осуществлен подбор обширного газетного материала для корпуса (тексты общим объемом более 11 млн. словоупотреблений) на основе принципов включения в него полных номеров 13 российских газет на русском языке за 1994–1997 гг., представленности в нем ежедневных и неежедневных («МН», «Новая газета», «АиФ»), «левых» («Завтра», «Правда», «Правда-5») и «правых», центральных и местных, общих и профессионально ориентированных («Литературная газета») газет. Эти принципы позволяют получить относительно объективную и надежную картину соотношения в газетном материале текстов различного типа, их единиц и отношений между ними. В том числе это обеспечивает возможность анализа в дальнейшем не только общих для всего газетного языка характеристик, но и жанровой специфики представленности в нем лексико-фразеологической, грамматической и иной информации.

Корпус управляется СУБД, построенной на основе системы «Диктум-1» (разработанной в Лаборатории общей и компьютерной лексикологии и лексикографии МГУ). С помощью этой системы тексты и единицы корпуса автоматически и полуавтоматически маркируются различного рода маркерами: тексты (и, соответственно, каждое их словоупотребление) – маркерами газеты-источника, объема текста, его жанра, даты публикации и т.п.; словоупотребления – маркерами грамматических, лексических, морфемных и иных категорий.

Разработка и реализация на материале корпуса принципов жанровой классификации газетных текстов (включая типизацию жанров, а также определение характеристических признаков различных типовых жанров) позволила выявить профиль распределения объемов текстов разного жанрового и источникового состава и особенностей употребления в них единиц.

Проведенная автоматическая лемматизация и морфологическая квалификация словоупотреблений Ядерного корпуса (с последующими контролирующими процедурами), а также морфемная сегментация словоформ и лексем позволила автоматически получить для него алфавитно-частотные и частотно-распределительные словари словоформ, лемм, корней и морфемных моделей.

В таком объеме и с такой подробной разработкой различных характеристик корпуса текстов на русском материале еще не строились. Каждый текст Большого газетного корпуса характеризовался (а) датой публикации источника (газеты), (б) названием источника, (в) рубрикой (если есть), (г) автором (если указан), (д) жанром текста и его (е) жанровым типом (на основе классификации, разработанной в Лаборатории общей и компьютерной лексикологии и лексикографии, – см. ниже), (ж) объемом текста.

Каждое словоупотребление во всем корпусе характеризовалось (а) той формой словоизменения, которая ему свойственна, (б) леммой (исходная форма лексемы), (в) некоторыми лексико-грамматическими, лексико-семантическими, морфемными и иными характеристиками.

В составе Большого газетного корпуса находится часть, которая исторически раньше всего была сформирована и была более подробно охарактеризована со стороны квалификации лексем и словоформ, реализуемых в ее текстах. Эту часть мы называем Ядерный газетный корпус. Объем Ядерного корпуса – ок. 1 млн. 350 тыс. словоупотреблений.

При подготовке демонстрационного варианта корпуса для Интернета был выделен из Ядерного корпуса его фрагмент – так называемый «Микрокорпус русских газет» (около 200 тыс. словоупотреблений). Его единицы охарактеризованы наиболее подробно, но этот материал в рамках учебного пособия не рассматривается.

Общая картина источникового устройства Большого корпуса выглядит следующим образом. Всего в корпусе 23110 текстов по полным номерам 13-ти разных российских газет на русском языке.

Ниже приводится Таблица 1 по объемным характеристикам разных привлеченных газет.

Таблица 1

Соотношение источников по их объемам в Большом газетном корпусе русского языка

Название газеты

Объем в числе словоупотреблений

ЗАВТРА

1215968

ИЗВЕСТИЯ

1373682

ЛИТЕРАТУРНАЯ ГАЗЕТА

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56

сайт копирайтеров Евгений