Эссе на английском языке содержат информацию о других языках.

Эта работа могла бы позволить компьютерам перебирать относительно доступные документы для получения приблизительных данных, на сбор которых у подготовленных лингвистов могут уйти месяцы. Но эти данные, в свою очередь, могут привести к созданию более совершенных вычислительных инструментов.«Эти [лингвистические] особенности, которые изучает наша система, конечно, с одной стороны, представляют хороший теоретический интерес для лингвистов, — говорит Борис Кац, главный научный сотрудник Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и один из руководителей новая работа. «Но с другой стороны, они начинают все чаще и чаще использоваться в приложениях. Все очень заинтересованы в создании вычислительных инструментов для мировых языков, но для их создания вам понадобятся эти функции.

Так что мы, возможно, сможем сделать гораздо больше, чем просто изучение лингвистических функций … Эти функции могут быть чрезвычайно ценными для создания более совершенных синтаксических анализаторов, более совершенных средств распознавания речи, более совершенных переводчиков естественного языка и т. д. ".Фактически, объясняет Кац, теоретическое открытие исследователей стало результатом их работы над практическим применением: около года назад Кац предложил одному из своих учеников, Евгению Берзаку, попытаться написать алгоритм, который мог бы автоматически определять родной язык. кто-то пишет по-английски. Была надежда разработать программное обеспечение для исправления грамматики, которое можно было бы адаптировать к конкретному языковому образованию пользователя.

Семейное сходствоС помощью Каца и Рои Райхарт, профессора инженерии Техниона, которая работала постдоком в Массачусетском технологическом институте, Берзак построил систему, которая проанализировала более 1000 англоязычных эссе, написанных носителями 14 разных языков. Во-первых, он проанализировал части речи слов в каждом предложении каждого эссе и отношения между ними.

Затем он искал закономерности в этих отношениях, которые коррелировали с родным языком писателей.Как и большинство алгоритмов классификации машинного обучения, Берзак приписывал вероятности своим выводам. Например, можно сделать вывод, что конкретное эссе с вероятностью 51% было написано носителем русского языка, с вероятностью 33% было написано носителем польского языка и только с вероятностью 16% было написано. от носителя японского языка.

Анализируя результаты своих экспериментов, Берзак, Кац и Райхарт заметили примечательную вещь: оценки вероятности алгоритма давали количественную меру того, насколько тесно связаны любые два языка; Например, синтаксические модели русскоязычных более похожи на синтаксические образцы польских, чем японских.Когда они использовали эту меру для создания генеалогического дерева 14 языков в своем наборе данных, оно было почти идентично генеалогическому древу, созданному на основе данных, собранных лингвистами. Например, девять языков, входящих в индоевропейскую семью, четко отличались от пяти, а романские языки и славянские языки были более похожи друг на друга, чем на другие индоевропейские языки. .Какой ты тип?

«Самое поразительное в этом дереве то, что наша система выявила его, не увидев ни единого слова ни на одном из этих языков», — говорит Берзак. «По сути, мы получаем структуру подобия бесплатно. Теперь мы можем сделать еще один шаг и использовать это дерево для прогнозирования типологических особенностей языка, для которого у нас нет лингвистических знаний».

Под «типологическими особенностями» Берзак подразумевает типы синтаксических паттернов, которые лингвисты используют для характеристики языков — такие вещи, как типичный порядок субъекта, объекта и глагола; как формируются отрицания; или есть ли у существительных артикль. Широко используемая онлайновая лингвистическая база данных под названием World Atlas of Language Structures (WALS) определяет около 200 таких функций и включает данные по более чем 2000 языков.

Но, как говорит Берзак, для некоторых из этих языков WALS включает лишь несколько типологических функций; остальные просто еще не определены.

Даже широко изучаемые европейские языки могут иметь десятки пропущенных записей в базе данных WALS. Берзак указывает, что на момент своего исследования только 14 процентов записей в WALS были заполнены.

Новая система может помочь восполнить пробелы. В работе, представленной в прошлом месяце на конференции по компьютерному изучению естественного языка, Берзак, Кац и Райхарт провели серию экспериментов, в которых исследовали каждый из 14 языков проанализированных ими эссе, пытаясь предсказать его типологические особенности, исходя из таковых из эссе. другие 13 языков, основываясь исключительно на оценках сходства, полученных системой. В среднем эти прогнозы были точными примерно на 72 процента.Разветвляясь

14 языков первоначальных экспериментов исследователей были теми, для которых адекватное количество эссе — в среднем по 88 каждый — было общедоступным. Но Кац уверен, что при достаточном количестве обучающих данных система будет так же хорошо работать на других языках. Берзак отмечает, что африканский язык тсвана, который имеет только пять записей в WALS, тем не менее, имеет 6 миллионов носителей во всем мире. Берзак утверждает, что не должно быть слишком сложно найти больше англоязычных эссе, написанных носителями языка тсвана.

Этот документ можно найти в Интернете по адресу: http://acl2014.org/acl2014/W14-16/pdf/W14-1603.pdf.


Новости со всего мира