Сложность естественных языков

Естественные языки более сложны, чем это строго необходимо, и на это есть веские причины.

Почему языки такие сложные?

В мире существует около 7 000 языков, некоторые из которых имеют лишь несколько носителей, в то время как другие, такие как китайский, английский, испанский и хинди, используются миллиардами людей. Несмотря на глубокие различия, все они выполняют общую функцию: передают информацию, комбинируя отдельные слова во фразы — группы связанных слов, которые затем складываются в предложения.

Профессор Майкл Хан, специалист по компьютерной лингвистике в Саарландском университете, вместе со своим коллегой Ричардом Футреллом из Калифорнийского университета в Ирвайне исследовал вопрос о том, почему мозг кодирует лингвистическую информацию таким сложным образом, а не в цифровом формате, как компьютер. Их статья опубликована в журнале Nature Human Behaviour.

Цифровая эффективность против языковой сложности

Кодирование информации в классической двоичной последовательности из единиц и нулей теоретически было бы гораздо более эффективным, поскольку сжимает информацию гораздо плотнее, чем естественные языки. Но почему мы не общаемся, выражаясь метафорически, как R2-D2 из «Звёздных войн», а вместо этого говорим так, как мы это делаем?

Хан и Футрелл нашли ответ на этот вопрос. Они объясняют, что человеческий язык формируется под влиянием реалий жизни вокруг нас. Если бы я говорил о половине кошки в сочетании с половиной собаки и называл это абстрактным термином «гол», никто бы не понял, о чём идёт речь.

Знакомые слова и фразы

«Человеческий язык формируется под влиянием реалий жизни вокруг нас», — говорит Хан. «Если бы я говорил о половине кошки в сочетании с половиной собаки и называл это абстрактным термином ‘гол’, никто бы не понял, о чём идёт речь. Это просто не отражает чей-либо жизненный опыт».

«В равной степени не имеет смысла смешивать слова ‘cat’ (кошка) и ‘dog’ (собака) в строку символов, которая использует те же буквы, но её невозможно интерпретировать», — продолжает он.

«Мы просто не смогли бы обработать строку вроде ‘gadcot’, даже если технически она содержит буквы обоих слов. В отличие от этого, фраза ‘cat and dog’ (кошка и собака) действительно образует осмысленную лингвистическую единицу, потому что два слова ‘cat’ и ‘dog’ относятся к животным, с которыми практически каждый знаком».

Основные выводы исследования

Хан резюмирует основные выводы исследования следующим образом: «Проще говоря, нашему мозгу легче выбрать более сложный путь».

Хотя информация представлена не в наиболее сжатой форме, вычислительная нагрузка для мозга значительно ниже, поскольку человеческий мозг обрабатывает язык в постоянном взаимодействии со знакомой естественной средой.

Пример из немецкого языка

Хан предлагает другой пример: «Когда я говорю по-немецки фразу ‘Die fünf grünen Autos’ (англ.: ‘the five green cars’), эта фраза почти наверняка будет иметь смысл для другого носителя немецкого языка, в то время как ‘Grünen fünf die Autos’ (англ.: ‘green five the cars’) — нет», — говорит он.

Когда говорящий произносит фразу «Die fünf grünen Autos», она начинается с определённого артикля «Die». В этот момент говорящий на немецком языке уже знает, что слово «Die» скорее всего сигнализирует о существительном в женском роде единственного числа или существительном в любом роде множественного числа. Это позволяет мозгу сразу исключить существительные в мужском или среднем роде единственного числа.

Следующее слово, «ünf», с большой вероятностью относится к чему-то исчисляемому, что исключает неисчисляемые понятия, такие как «любовь» или «жажда». Следующее слово в последовательности, «grünen», говорит слушателю, что пока неизвестное существительное будет во множественном числе и зелёного цвета. Это могут быть машины, но так же легко могут быть бананы или лягушки.

Только когда произносится последнее слово в последовательности, «Autos», мозг разрешает оставшуюся двусмысленность. По мере развёртывания фразы количество интерпретативных возможностей сужается до тех пор, пока (в большинстве случаев) не останется только одна окончательная интерпретация.

Однако в фразе «Grünen fünf die Autos» (англ.: «green five the cars») эта логическая цепочка предсказаний и корреляций нарушается. Наш мозг не может построить смысл из высказывания, потому что ожидаемая последовательность сигналов нарушена.

Значение исследования для больших языковых моделей

Хан и его американский коллега Футрелл математически продемонстрировали эти взаимосвязи. Их выводы могут оказаться ценными, например, для дальнейшего развития больших языковых моделей (LLMs), которые лежат в основе таких систем генеративного искусственного интеллекта, как ChatGPT или Copilot от Microsoft.

Предоставлено Саарландским университетом.

Источник