Поддержи Openmeetings

вторник, 20 марта 2012 г.

C помощью Google обнаружили «темную материю» в языке

Могут ли физики обнаружить в языке то, что ускользало от лингвистов? На прошлой неделе группа физиков опубликовала статью, в которой, опираясь на гугловский массив отсканированных книг, описали универсальные законы рождения, жизни и смерти слов.

Авторы определили переломный момент в жизненном цикле новых слов. Примерно через 30–50 лет после рождения они либо закрепляются в долгосрочной лексике, либо уходят в небытие. Возможно, из-за того, что за этот период производители словарей одобряют или не одобряют новые кандидатуры для включения в очередное издание. Или сказывается смена поколений: дети принимают или отвергают неологизмы родителей.

В прошлом году группа социологов и эволюционных теоретиков, а также команда Google Books, продемонстрировали, что можно сделать с данным Google, в том числе — с содержанием пять с лишним миллионов книг, вышедших с 1800 года.

Опубликованная в Science статья дала оценку истинного числа слов в английском языке — миллион, гораздо больше, чем записано в любом словаре (в Третьем Новом Международном Словаре Вебстера 2002 г. — 348 000). Большая часть языка, пишут авторы, является «темной материей», которая не вошла в стандартные словари.

В статье также отслеживались словоупотребления во времени (каждый год, например, 1% англоговорящего населения в мире переходит от формы прошедшего времени глагола «красться» «sneaked» к неправильной форме«snuck», вопреки общепринятому тезису, что неправильные глаголы в английском языке больше не появляются). Он также показал, что мы, кажется, оставляем прошлое позади все быстрее, судя по скорости, с которой термины выпадают из использования. Отсылки к «1880» упали в два раза через 32 года после этой даты, а период полураспада после «1973» занял лишь десять лет.

В новой статье Александр Петерсон, Джоэл Тененбаум и их соавторы проследили приливы и отливы словоупотребления в различных областях. «Слова сражаются со своим синонимами, вариантами написания и связанными словами», — говорит г-н Тененбаум. — Это по сути конкурентная, эволюционная среда».

Когда ученые проанализировали данные, они обнаружили сталкивающиеся структуры не только в английском языке, но и в испанском языке и в иврите. В них наблюдаются, говорят авторы, «драматические изменения в рождаемости и смертности от слова». Смертность увеличилась, а рождаемость замедлились.

Английский продолжает расти, в 2011 году указывался уровень — 8500 новых слов в год. Новая работа, однако, отмечает, что темпы роста замедляются. Отчасти потому, что язык уже настолько богат, что «предельная полезность» новых слов снижается. Существующие вещи уже хорошо описаны. Но слова, которые управляют новыми производными сейчас, более популярны, чем обычно используемые неологизмы. Возможно, потому что описывают нечто принципиально новое (вспомните «IPOD», «Интернет», «Twitter»).

Смертность слова, говорят авторы, в значительной степени вопрос гомогенизации. Исследователь Уильям Кларк (Льюис и Кларк) пишет название индейского племени «Сиу» 27 различными способам («Sieoux», «Seaux», «Souixx» и т.д.), и некоторые из этих вариантов, должно быть, возникли в книгах 19 века. Сегодня программы проверки орфографии и бдительные редакторы задушат такое хаотические разнообразие гораздо быстрее, в силу ускорения естественного отбора слов.

Синонимы тоже проходят дарвиновский отбор. Например, слово «рентгенограмма» было самым популярным термином для «X-лучей» на протяжении большей части 20-го века, но он стал резко выходить из употребления в 1960 году и теперь является мертвым. («Смерть», в языке, не является окончательной, как это бывает с человеком: до крайности доходит редко.)

Эти исследования впечатляют, но пока еще слишком новы, чтобы оценить их в полном объеме, говорит Марк Либерман, профессор лингвистики Университета Пенсильвании. Среди вопросов, поднятых критикой: насколько «смерть» слова — результат искажения в выдаче Google?

wsj

Комментариев нет :

Отправить комментарий