На сьогоднішній день існує безліч корпусів, створених з різними цілями, на базі різного мовного матеріалу, охоплює від мільйонів до десятків мільярдів лексичних одиниць. Даний напрямок визнається перспективним і демонструє значні успіхи в досягненні прикладних і науково-дослідних цілей. Фахівцям, так чи інакше мають справу з природним мовою, рекомендується ознайомитися з корпусами текстів хоча б на базовому рівні.
Історія корпусної лінгвістики
Становлення цього напряму пов'язано із створенням в США Браунівського корпусу на початку 60-х років минулого століття. Зібрання текстів налічувало всього 1 мільйон словоформ, і сьогодні корпус такого обсягу був би абсолютно неконкурентоспроможний. В значній мірі це обумовлено темпами розвитку комп'ютерних технологій, а також зростаючими вимогами до новим дослідницьким ресурсів.У 90-х роках корпусна лінгвістика сформувалася в повноцінну і самостійну дисципліну, зібрання текстів були складені і розмічені для кількох десятків мов. В цей період був створений, наприклад, Британський національний корпус на 100 мільйонів слововживань.
![Що таке корпусна лінгвістика? Що таке корпусна лінгвістика?](/uploads/posts/2017-09/scho-take-korpusna-lngvstika_941.jpeg)
Які бувають корпусу
Типи корпусів в корпусній лінгвістиці можуть бути представлені за кількома підставами. Інтуїтивно зрозуміло, що базою для класифікації може бути мова текстів (українська, німецька), режим доступу (відкрите джерело, закритий, комерційний), жанр вихідного матеріалу (художня література, документальна, академічна, публіцистика). Цікавим чином здійснюється генерація матеріалів, що представляють усне мовлення. Оскільки навмисна запис такої промови створила б штучні умови для респондентів, і отриманий матеріал можна було б назвати «спонтанним», сучасна корпусна лінгвістика пішла іншим шляхом. Доброволець оснащується мікрофоном, та протягом доби виробляється запис усіх розмов, в яких він бере участь. Оточуючі люди, зрозуміло, не можуть знати, що в ході побутового розмови здійснюють внесок в розвиток науки.Пізніше отримані записи зберігаються в банку даних і супроводжуються друкованим текстом за типом стенограми. Таким чином, стає можливою розмітка, необхідна для створення корпусу усній повсякденної мови.
Застосування
Там, де можливе використання мови, можливо і використання корпусів текстів. Метою застосування корпусних методів у лінгвістиці може бути:Використання корпусів
Інтерфейс ресурсів схожий з типовою пошуковою системою і пропонує користувачеві ввести деяке слово або поєднання слів для пошуку по інформаційній базі. Крім форми точного запиту можна скористатися розширеною версією, яка дозволяє знаходити текстову інформацію практично по будь-яким лінгвістичним критеріям.![Що таке корпусна лінгвістика? Що таке корпусна лінгвістика?](/uploads/posts/2017-09/scho-take-korpusna-lngvstika_613.jpeg)
Процес створення
Сам пошук можна здійснювати як за всіма подкорпусам, так і по одному, конкретно обраному, в залежності від потреб при досягненні якоїсь певної мети:Складності при створенні корпусів
Важливо розуміти, що для отримання корпусу недостатньо зібрати воєдино безліч слів або пропозицій. З одного боку, зібрання текстів повинно бути збалансованим, тобто представляти різні типи текстів в певних пропорціях. З іншого – вміст корпусу має бути спеціальним чином розмічено.![Що таке корпусна лінгвістика? Що таке корпусна лінгвістика?](/uploads/posts/2017-09/scho-take-korpusna-lngvstika_814.jpeg)
Морфологічна розмітка
Зі шкільної лави ми пам'ятаємо, що в російській мові існують різні частини мови, і кожна з них має свої особливості. Наприклад, дієслово має категоріями способу і часу, яких немає у іменника. Носій мови не замислюючись схиляє відмінює іменники і дієслова, але для розмітки корпусу в 100 млн. слововживань ручна праця не підійде. Всі необхідні операції зможе виконати комп'ютер, щоправда, для цього його потрібно навчити. Морфологічна розмітка необхідна, щоб комп'ютер «розумів» кожне слово як певну частину мови, що має певні граматичні ознаки. Оскільки в російській (як і в будь-якому іншому) мові функціонує ряд регулярних правил, можливо побудувати автоматичну процедуру морфологічного аналізу, вклавши в машину деяка кількість алгоритмів. Проте існують і винятки з правил, а також різні ускладнюючі чинники. В результаті, чистий комп'ютерний аналіз сьогодні далекий від ідеалу, і навіть 4% помилок дає значення у 4 млн. слів на корпусі в 100 млн. одиниць, вимагаючи ручної доробки. Докладно цю проблему описує книга Захарова В. П. «Корпусна лінгвістика».Синтаксична розмітка
Синтаксичний аналіз або парсинг – це процедура, що визначає взаємовідносини слів у реченні. З допомогою набору алгоритмів стає можливим визначити в тексті підмет, присудок, доповнення, різні звороти. З'ясовуючи, які слова в послідовності є головними, а які – залежними, ми можемо ефективно отримувати інформацію з тексту та навчити машину видавати у відповідь на пошуковий запит тільки цікаву для нас інформацію. До речі, сучасні пошукові системи користуються цим, щоб видавати конкретні цифри замість розлогих текстів у відповідь на відповідні запити типу: «скільки калорій в яблуці» або «відстань від Москви до Петербурга». Втім, для розуміння навіть азів описуваного процесу потрібно ознайомитися з «Введенням у корпусні лінгвістику» або іншим базовим навчальним посібником.Семантична розмітка
Семантика слова – це, кажучи простою мовою, його сенс. Широко відповідним підходом у семантичному аналізі є приписування речі тегів, що відображають його приналежність до набору смислових категорій і підкатегорій. Подібна інформація є цінною для оптимізації алгоритмів аналізу тональності тексту, автоматичного реферування та виконання інших завдань методами корпусної лінгвістики. Існує деяка кількість «коріння» дерева, що представляють собою абстрактні слова, що мають дуже широку семантику. У міру розгалуження цього дерева утворюються вузли, що містять більш конкретні лексичні елементи. Наприклад, слово «істота» може бути пов'язане з такими поняттями, як «людина» та «тварина». Перше слово буде далі розгалужуватися на різні професії, терміни спорідненості, національності, а друге – на класи і види тварин.Застосування інформаційно-пошукових систем
Сфери використання корпусної лінгвістики охоплюють найрізноманітніші галузі діяльності. Корпуси використовуються для складання та коригування словників, створення автоматичних систем перекладу, реферування, вилучення фактів, визначення тональності та іншої обробки текстів. Крім того, подібні ресурси активно використовуються при дослідженні мов світу і механізмів функціонування мови в цілому. Доступ до великих обсягів попередньо підготовленої інформації сприяє оперативному і всебічному вивченню тенденцій в розвиток мов, утворення неологізмів і стійких мовних зворотів, зміні значень лексичних одиниць та ін. Оскільки робота з настільки великими обсягами даних потребує автоматизації, сьогодні здійснюється тісна взаємодія комп'ютерної та корпусної лінгвістики.Національний корпус російської мови
Даний корпус (скорочено, НКРЯ) включає в себе ряд подкорпусов, що дозволяють використовувати ресурс для вирішення найрізноманітніших завдань. Матеріали у базі НКРЯ поділяються:Перспективи
Фактом на користь визнання даного напрямку перспективним є наявність лабораторій корпусної лінгвістики в російських вузах, так само як і в іноземних. З застосуванням і дослідженнями в рамках розглянутих інформаційно-пошукових ресурсів пов'язане розвиток деяких напрямків в області високих технологій, питально-відповідних систем, однак це обговорювалося вище.![Що таке корпусна лінгвістика? Що таке корпусна лінгвістика?](/uploads/posts/2017-09/scho-take-korpusna-lngvstika_127.jpeg)