Львів
C
» » Що таке корпусна лінгвістика?

Що таке корпусна лінгвістика?

Ще кілька десятиліть назад про автоматизації лінгвістичних досліджень вчені могли тільки мріяти. Робота виконувалася вручну, до неї залучалася велика кількість студентів, існувала значна ймовірність помилки «за неуважність», а головне – на все це потрібно багато, дуже багато часу. З розвитком комп'ютерних технологій стало можливим проводити дослідження на порядок швидше, і сьогодні одним із перспективних напрямів у дослідженні мови є корпусна лінгвістика. Її основною особливістю є використання великих обсягів текстової інформації, зведеної в єдину базу, спеціальним чином розміченій і іменованої корпусом.


На сьогоднішній день існує безліч корпусів, створених з різними цілями, на базі різного мовного матеріалу, охоплює від мільйонів до десятків мільярдів лексичних одиниць. Даний напрямок визнається перспективним і демонструє значні успіхи в досягненні прикладних і науково-дослідних цілей. Фахівцям, так чи інакше мають справу з природним мовою, рекомендується ознайомитися з корпусами текстів хоча б на базовому рівні.

Історія корпусної лінгвістики

Становлення цього напряму пов'язано із створенням в США Браунівського корпусу на початку 60-х років минулого століття. Зібрання текстів налічувало всього 1 мільйон словоформ, і сьогодні корпус такого обсягу був би абсолютно неконкурентоспроможний. В значній мірі це обумовлено темпами розвитку комп'ютерних технологій, а також зростаючими вимогами до новим дослідницьким ресурсів.


У 90-х роках корпусна лінгвістика сформувалася в повноцінну і самостійну дисципліну, зібрання текстів були складені і розмічені для кількох десятків мов. В цей період був створений, наприклад, Британський національний корпус на 100 мільйонів слововживань.
Що таке корпусна лінгвістика?
По мірі розвитку даного напряму лінгвістики, обсяги текстів стають все більше і досягають мільярдів словникових одиниць), а розмітка виявляється все більш різноманітною. На сьогоднішній день в інтернет-просторі можна знайти корпуси письмової та усної мови, мультиязиковие і навчальні, орієнтовані на художню або академічну літературу, а також багато інші різновиди.

Які бувають корпусу

Типи корпусів в корпусній лінгвістиці можуть бути представлені за кількома підставами. Інтуїтивно зрозуміло, що базою для класифікації може бути мова текстів (українська, німецька), режим доступу (відкрите джерело, закритий, комерційний), жанр вихідного матеріалу (художня література, документальна, академічна, публіцистика).
Що таке корпусна лінгвістика?
Цікавим чином здійснюється генерація матеріалів, що представляють усне мовлення. Оскільки навмисна запис такої промови створила б штучні умови для респондентів, і отриманий матеріал можна було б назвати «спонтанним», сучасна корпусна лінгвістика пішла іншим шляхом. Доброволець оснащується мікрофоном, та протягом доби виробляється запис усіх розмов, в яких він бере участь. Оточуючі люди, зрозуміло, не можуть знати, що в ході побутового розмови здійснюють внесок в розвиток науки.
Пізніше отримані записи зберігаються в банку даних і супроводжуються друкованим текстом за типом стенограми. Таким чином, стає можливою розмітка, необхідна для створення корпусу усній повсякденної мови.

Застосування

Там, де можливе використання мови, можливо і використання корпусів текстів. Метою застосування корпусних методів у лінгвістиці може бути:
  • Створення програм визначення тональності, що активно використовуються в політиці і бізнесі для відстеження позитивних і негативних відгуків виборців і клієнтів, відповідно.
  • Підключення інформаційної системи до словників і перекладачів для покращення показників їх роботи.
  • Різноманітні науково-дослідні завдання, що сприяють розумінню пристрою мови, історії його розвитку та прогнозів його зміни у найближчому майбутньому.
  • Розробка систем вилучення інформації на підставі морфологічних, синтаксичних, семантичних та інших ознак.
  • Оптимізація роботи різних лінгвістичних систем та ін.
  • Використання корпусів

    Інтерфейс ресурсів схожий з типовою пошуковою системою і пропонує користувачеві ввести деяке слово або поєднання слів для пошуку по інформаційній базі. Крім форми точного запиту можна скористатися розширеною версією, яка дозволяє знаходити текстову інформацію практично по будь-яким лінгвістичним критеріям.
    Що таке корпусна лінгвістика?
    Підставою для пошуку може стати:
  • належність до певної групи частин мови;
  • граматичні ознаки;
  • семантика;
  • стилістична і емоційне забарвлення.
  • Крім того, можна поєднувати критерії пошуку для послідовності слів: наприклад, знайти всі входження дієслова в теперішньому часі, першої особи однини, після якого йде прийменник «в» і іменник у знахідному відмінку. Рішення такої простої задачі займає у користувача кілька секунд і вимагає лише кількох клацань мишею в заданих полях.

    Процес створення

    Сам пошук можна здійснювати як за всіма подкорпусам, так і по одному, конкретно обраному, в залежності від потреб при досягненні якоїсь певної мети:
  • Насамперед визначається, які тексти ляжуть в основу корпуса. У практичних цілях часто використовуються публіцистичні, газетні матеріали, інтернет-коментарі. В науково-дослідних проектах знаходять застосування найрізноманітніші типи корпусів, однак тексти повинні бути підібрані по деякому загальному основи.
  • Отримана сукупність текстів піддається предобработке, відбувається виправлення помилок, при їх наявності, готується бібліографічне та экстралингвистическое опис тексту.
  • Відсіюється вся нетекстовая інформація: видаляються графіки, картинки, таблиці.
  • Відбувається виділення токенів, зазвичай представляють собою слова, для їх подальшої обробки.
  • Нарешті, здійснюється морфологічна, синтаксична і інша розмітка отриманого безлічі елементів.
  • Результатом всіх здійснених операцій є синтаксична структура з розподіленим по ній безліччю елементів, для кожного з яких визначено частина мови, граматичні і, в деяких випадках, семантичні ознаки.

    Складності при створенні корпусів

    Важливо розуміти, що для отримання корпусу недостатньо зібрати воєдино безліч слів або пропозицій. З одного боку, зібрання текстів повинно бути збалансованим, тобто представляти різні типи текстів в певних пропорціях. З іншого – вміст корпусу має бути спеціальним чином розмічено.
    Що таке корпусна лінгвістика?
    Перше питання вирішується шляхом домовленості: наприклад, збори включається 60% художніх текстів, 20% документальних, певна частка відводиться письмовим поданням усного мовлення, законодавчим актів, наукових робіт і т. д. Ідеального рецепту збалансованого корпусу на сьогоднішній день не існує. Друге питання, що стосується розмітки вмісту, вирішується складніше. Існують спеціальні програми і алгоритми, що використовуються для автоматичної розмітки текстів, однак вони не дають стовідсоткового результату, можуть викликати збої і вимагають ручної доробки. Можливості і проблеми при рішенні даної задачі докладно описуються в роботі В. П. Захарова за корпусних лінгвістиці. Розмітка тексту здійснюється на декількох рівнях, які ми перерахуємо далі.

    Морфологічна розмітка

    Зі шкільної лави ми пам'ятаємо, що в російській мові існують різні частини мови, і кожна з них має свої особливості. Наприклад, дієслово має категоріями способу і часу, яких немає у іменника. Носій мови не замислюючись схиляє відмінює іменники і дієслова, але для розмітки корпусу в 100 млн. слововживань ручна праця не підійде. Всі необхідні операції зможе виконати комп'ютер, щоправда, для цього його потрібно навчити. Морфологічна розмітка необхідна, щоб комп'ютер «розумів» кожне слово як певну частину мови, що має певні граматичні ознаки. Оскільки в російській (як і в будь-якому іншому) мові функціонує ряд регулярних правил, можливо побудувати автоматичну процедуру морфологічного аналізу, вклавши в машину деяка кількість алгоритмів. Проте існують і винятки з правил, а також різні ускладнюючі чинники. В результаті, чистий комп'ютерний аналіз сьогодні далекий від ідеалу, і навіть 4% помилок дає значення у 4 млн. слів на корпусі в 100 млн. одиниць, вимагаючи ручної доробки. Докладно цю проблему описує книга Захарова В. П. «Корпусна лінгвістика».

    Синтаксична розмітка

    Синтаксичний аналіз або парсинг – це процедура, що визначає взаємовідносини слів у реченні. З допомогою набору алгоритмів стає можливим визначити в тексті підмет, присудок, доповнення, різні звороти. З'ясовуючи, які слова в послідовності є головними, а які – залежними, ми можемо ефективно отримувати інформацію з тексту та навчити машину видавати у відповідь на пошуковий запит тільки цікаву для нас інформацію.
    Що таке корпусна лінгвістика?
    До речі, сучасні пошукові системи користуються цим, щоб видавати конкретні цифри замість розлогих текстів у відповідь на відповідні запити типу: «скільки калорій в яблуці» або «відстань від Москви до Петербурга». Втім, для розуміння навіть азів описуваного процесу потрібно ознайомитися з «Введенням у корпусні лінгвістику» або іншим базовим навчальним посібником.

    Семантична розмітка

    Семантика слова – це, кажучи простою мовою, його сенс. Широко відповідним підходом у семантичному аналізі є приписування речі тегів, що відображають його приналежність до набору смислових категорій і підкатегорій. Подібна інформація є цінною для оптимізації алгоритмів аналізу тональності тексту, автоматичного реферування та виконання інших завдань методами корпусної лінгвістики. Існує деяка кількість «коріння» дерева, що представляють собою абстрактні слова, що мають дуже широку семантику. У міру розгалуження цього дерева утворюються вузли, що містять більш конкретні лексичні елементи. Наприклад, слово «істота» може бути пов'язане з такими поняттями, як «людина» та «тварина». Перше слово буде далі розгалужуватися на різні професії, терміни спорідненості, національності, а друге – на класи і види тварин.

    Застосування інформаційно-пошукових систем

    Сфери використання корпусної лінгвістики охоплюють найрізноманітніші галузі діяльності. Корпуси використовуються для складання та коригування словників, створення автоматичних систем перекладу, реферування, вилучення фактів, визначення тональності та іншої обробки текстів.
    Що таке корпусна лінгвістика?
    Крім того, подібні ресурси активно використовуються при дослідженні мов світу і механізмів функціонування мови в цілому. Доступ до великих обсягів попередньо підготовленої інформації сприяє оперативному і всебічному вивченню тенденцій в розвиток мов, утворення неологізмів і стійких мовних зворотів, зміні значень лексичних одиниць та ін. Оскільки робота з настільки великими обсягами даних потребує автоматизації, сьогодні здійснюється тісна взаємодія комп'ютерної та корпусної лінгвістики.

    Національний корпус російської мови

    Даний корпус (скорочено, НКРЯ) включає в себе ряд подкорпусов, що дозволяють використовувати ресурс для вирішення найрізноманітніших завдань. Матеріали у базі НКРЯ поділяються:
  • на публікації в ЗМІ 90-х і 2000-х років як вітчизняних, так і зарубіжних;
  • записи усного мовлення;
  • акцентологически розмічені тексти (тобто з відмітками про наголосі);
  • диалектную мова;
  • поетичні твори;
  • матеріали з синтаксичної розміткою та ін.
  • Інформаційна система включає також подкорпуса з паралельними перекладами творів з російської на англійську, німецьку, французьку та інші мови (і назад). Також в базі є розділ історичних текстів, що представляють письмову мову російською мовою в різні періоди його розвитку. Існує й навчальний корпус, який може бути корисний іноземним громадянам при оволодінні російською мовою. Національний корпус російської мови включає в себе 400 мільйонів лексичних одиниць і за багатьма параметрами випереджає значну частину корпусів мов Європи.

    Перспективи

    Фактом на користь визнання даного напрямку перспективним є наявність лабораторій корпусної лінгвістики в російських вузах, так само як і в іноземних. З застосуванням і дослідженнями в рамках розглянутих інформаційно-пошукових ресурсів пов'язане розвиток деяких напрямків в області високих технологій, питально-відповідних систем, однак це обговорювалося вище.
    Що таке корпусна лінгвістика?
    Подальший розвиток корпусної лінгвістики передбачається на всіх рівнях, починаючи від технічного, в плані впровадження нових алгоритмів, що оптимізують процеси пошуку та обробки інформації, розширення можливостей комп'ютерів, збільшення оперативної пам'яті, і закінчуючи побутовим, оскільки користувачі знаходять все більше способів застосування даного типу ресурсів в повсякденному житті і в роботі.

    На закінчення

    В середині минулого століття 2017 рік представлявся далеким майбутнім, у якому космольоти борознять простори Всесвіту і роботи виконують всю роботу за людей. Насправді ж наука рясніє «білими плямами» і робить відчайдушні спроби відповісти на питання, століттями що турбують людство. Питання функціонування мови тут займають почесне місце, і корпусні та комп'ютерна лінгвістика здатні допомогти нам відповісти на них. Обробка великих масивів даних дозволяє виявляти закономірності, недоступні раніше, передбачати розвиток певних мовних рис, відстежувати формування слів практично в реальному часі. На практичному глобальному рівні корпуси можуть розглядатися, наприклад, як потенційний інструмент оцінки суспільних настроїв, Інтернет являє собою безперервно яка поповнювалася б базу різних текстів, створених реальними користувачами: це і коментарі, і відгуки, і статті, і багато інші форми мовлення. Крім того, робота з корпусами сприяє розробці тих же технічних засобів, що беруть участь в інформаційному пошуку, знайомому нам сервісів Гугл або Яндекс», машинному перекладі, електронних словниках. Можна з упевненістю стверджувати, що корпусна лінгвістика робить лише перші кроки, і в найближчому майбутньому буде бурхливо розвиватися.