Язык: новый анализ противоречит более ранним выводам

Анализ Спроута является ответом на ряд статей, опубликованных в известных научных публикациях, в которых утверждается, что статистический анализ комбинаций символов может дать представление о происхождении письменного языка. Одна статья Раджеша Рао (Вашингтонский университет), Ираватама Махадевана (Индийский исследовательский центр) и коллег из Института ТАТА в Мумбаи, Индия, появилась в 2009 году в журнале Science. Он утверждал, что особая статистическая мера — условная энтропия биграмм — показала, что символы долины Инда ведут себя больше как символы в лингвистических текстах, чем символы неязыковых систем. В другой статье в Proceedings of the Royal Society Роб Ли и его коллеги (Университет Эксетера) утверждали, что более сложный набор энтропийных мер помещает пиктские символы в ту же категорию, что и лингвистические тексты.

Обе статьи (и другие последующие статьи Рао и его коллег) привлекли большое внимание средств массовой информации. В этих популярных СМИ методы часто представлялись как демонстрация того, что рассматриваемые системы символов были письменным языком, хотя это не обязательно входило в намерения авторов.Понимание статистических методов анализа систем символов и того, что они показывают и чего не показывают, имеет фундаментальное значение для науки о языке, поскольку существует множество старых или древних систем символов, функция которых в значительной степени или полностью неизвестна. Примеры включают надписи ронгоронго с острова Пасхи (XIX век), пиктские символы Шотландии (VI век и позже) и символы долины Инда (Северная Индия, Пакистан, III тысячелетие до нашей эры).

В рамках своей работы над вопросом о том, являются ли системы символов, подобные этим, примером письменного языка, Спроут разработал большие структурированные коллекции текста или корпусов из множества нелингвистических систем, как древних, так и современных, включая символы месопотамских божеств ( Вавилония), тотемные столбы (северо-запад Тихого океана), звезды амбаров Пенсильвании («шестнадцатеричные знаки»), последовательности значков прогноза погоды с сайта http://www.wunderground.com и символы Unicode для азиатских смайлов. Он сравнил их с корпусами, разработанными на четырнадцати языках, представляющих множество различных типов систем письма, как древних, так и современных.С точки зрения мер, предложенных в предыдущей литературе, все неязыковые системы символов в коллекции или корпусах Спроута вели себя так же, как лингвистические системы.

Однако он также обнаружил, что новая мера количества локального повторения и версия одной из энтропийных мер Ли и его коллег с другой настройкой, чем они использовали, могут точно различать две разные категории систем символов. Более того, его статистическая процедура, в отличие от предыдущих, классифицирует символы пиктов и долины Инда как нелингвистические.

Несмотря на эти многообещающие результаты, Спроут предостерегает от чрезмерного использования статистических показателей для анализа древних систем символов, которые не были расшифрованы. На все статистические показатели в значительной степени влияют, среди прочего, размер корпуса, длина текстов и тип текста. Например, списки покупок обладают статистическими свойствами, которые отличают их от бегущей прозы из романа. Он утверждает, что по-настоящему надежная демонстрация того, что набор символов служит примером письменного языка, требует подтверждающих эмпирических данных, таких как достоверная дешифровка или независимые археологические свидетельства родственной культуры активной грамотности.

Однако ясно то, что ранее предложенные статистические методы просто не работают по назначению.