Тревор Кокс Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта
Посвящается Деборе, Дженни, Майклу, Натану и Питеру
Trevor Cox
NOW YOU’RE TALKING
Human Conversation from the Neanderthals to Artificial Intelligence
This edition published by arrangement with The Science Factory, Louisa Pritchard Associates and The Van Lear Agency LLC
Copyright © Trevor Cox, 2018
© Мягкова Е. Ю., перевод на русский язык, 2019
© Издание на русском языке, оформление. ООО «Издательская Группа «Азбука-Аттикус», 2019
КоЛибри®
* * *
Книга, полная невероятных озарений… Живая, умная и убедительная история человеческой речи.
The TimesБлестяще… Кокс знает, как увлечь читателя.
Daily MailМногообразие издаваемых людьми звуков – это не только материя разговора; звуки восходят к основам того, кто мы такие и откуда мы явились. Тревор Кокс, инженер-акустик и ведущий радиопрограмм BBC, демонстрирует это крупным планом…
Psychology TodayКокс – прирожденный рассказчик, и его виртуозно изложенная история даст немало интересных тем для обсуждения.
Publishers WeeklyДоступное объяснение научных знаний о человеческой коммуникации… Главный результат чтения этой книги – приятная мысль о том, что лучшие моменты нашего общения состоят в обычных беседах, «банальных повседневных действиях, которые позволяют передавать друг другу знания о том, как выжить и преуспеть». В представленном Коксом исключительно занимательном исследовании того, как мы приобретаем свой голос и понимаем голоса других, есть над чем задуматься.
Kirkus ReviewsДетальное исследование физиологии голосового аппарата и подробный разбор самых современных теорий эволюции речи ранних гоминини… Книга, которая заставит читателей задуматься о многом.
BooklistЗахватывающе… Блестяще… Эта книга опирается на самые современные научные исследования и изобилует поразительными статистическими данными.
Daily MailИнтересный и поучительный рассказ о нашей способности разговаривать, и столь необходимое разоблачение нашей неспособности делать выводы из того, как говорят другие.
The SpectatorЗахватывающее исследование того, как природа голоса связана с предрассудками и предубеждениями.
New StatesmanПолезное для мозга и занимательное чтение. Увлеченность Кокса своим предметом проявляется на каждой странице. Увлекательное чтение для всех.
UK Press SyndicationИсследование Кокса простирается от предполагаемого протоязыка человеческого предка Homo heidelbergensis до вероятности творческого алгоритмического дискурса.
NatureЭпическая история, в которой переплетается множество тем… Кокс умело и увлекательно исследует политические и культурные аспекты того, как мы говорим.
New ScientistГрандиозно… На всем протяжении книги Кокс ведет повествование в доступной манере, со ссылками на поп-культуру, что демонстрирует его любовь к музыке и кино.
Physics WorldЭто книга, в которой знания переливаются через край – ее можно читать снова и снова.
Sunday TimesВведение
Это изобретение я считаю эпохальным в истории науки <…> огромная благодарность <…> за исключительное удовольствие, которое доставило нам прослушивание инструмента мистера Эдисона [1].
Ваше поразительное изобретение настолько овладело моим разумом, что я не могу собраться с мыслями и продолжить работать. Результаты (с научной точки зрения) – далеко идущие, а возможности – безграничные [2].
В декабре 1877 года Томас Эдисон вошел в историю, записав и проиграв на фонографе песенку «У Мэри был маленький барашек». Это была не просто «эпоха в истории развития науки», а революционное событие для человеческого голоса. Раньше услышать речь можно было только вживую, из уст другого человека. До появления фонографа можно было читать знаменитые речи, например «Геттисбергское послание» Авраама Линкольна, но ка́к именно говорил президент, утеряно навеки. Фонограф записал, как произносятся слова, а это может быть настолько же важно, как и сами слова. Когда кто-то говорит: «Со мной все в порядке», тон его голоса может на самом деле свидетельствовать о том, что в порядке далеко не все.
Голос определяет нашу индивидуальность. Чтобы узнать друга или любимого человека по телефону, достаточно услышать всего несколько слов – это потрясающая способность! Если звонит незнакомый человек, мы сразу же начинаем схватывать особенности произношения и интонацию, что дает возможность предположить, каково образование, происхождение и социальный статус нашего собеседника. Кроме того, мы примерно определяем возраст, рост и личностные характеристики, хотя часто эти выводы оказываются ошибочными, поскольку подвержены влиянию предрассудков и предубеждений. Мы приспосабливаем и изменяем свою речь, чтобы нас воспринимали по-разному. По сути, в речи мы – хамелеоны. Мы подсознательно «включаем» особенности произношения, когда приезжаем в родной город, и «выключаем» их в других местах, чтобы не выбиваться из массы. Наш голос не столь постоянен, как можно себе представить.
Прослушивание записи собственной речи, обычно сбивающее нас с толку, показывает, как голос формирует наше представление о себе. Мы всегда воспринимаем собственный голос более гулким, чем его слышат другие, потому что вибрации костей передают звук от гортани к уху и усиливают басовое звучание. Но запись сразу же демонстрирует, что те особенности нашего голоса, которые улавливают другие, не соответствуют нашему представлению о внутреннем голосе. До изобретения Эдисона мы пребывали в счастливом неведении относительно этого факта.
«Устную историю» человечества можно разбить на три периода, и фонограф отмечает в ней смену эпохи. Вначале мы, подобно животным, издавали простые звуки, с помощью которых воздействовали на других: держали на расстоянии соперников, предупреждали об опасности, призывали свою пару. Второй период начался с возникновения языка, что привело к коллективным достижениям и позволило человеку господствовать над миром. В большей степени человеческая речь все еще предназначалась для того, чтобы оказывать влияние на мысли и поступки других – в равной степени это относится и к родителю, запрещающему малышу выбегать на дорогу, и к Генриху V, призывающему войска кличем: «Что ж, снова ринемся, друзья, в пролом»[1]. Но мы разговариваем и для удовольствия, и чтобы развлекать других, общаться с миром или объявить о своей любви. Возникновение технологий, таких как фонограф, обозначивший начало третьего периода, позволило людям обращаться уже к группам людей, что иногда приводило к разрушительным последствиям. На Нюрнбергском процессе один из германских министров заявил, что нацистская диктатура впервые «в полной мере использовала все возможные технические средства для господства над собственной страной. С помощью технических устройств, таких как радио и громкоговоритель, 80 миллионов человек были лишены возможности самостоятельно мыслить» [3]. Сейчас мы стоим на пороге новой захватывающей эпохи. Создание искусственного интеллекта означает, что мы начинаем общаться с компьютерами. Хорошо это или нет, но наше умение пользоваться словами с целью общения перестает быть исключительным по мере того, как мы передаем его машинам.
Эта книга – история о том, как эволюционируют говорение и слуховое восприятие, как человек развивает эти замечательные способности в детстве и как человеческое общение изменяется с возникновением новых технологий. Кажется, что вести беседу – это просто, потому что мы хорошо умеем это делать! Однако на самом деле говорение и слушание представляют собой, пожалуй, две самые сложные задачи, которые приходится решать нашему телу и разуму. Говорение требует точного исполнения анатомических упражнений, и за каждое из них отвечают различные отделы мозга. Понимание того, что произносит говорящий, а также распознавание передаваемых тоном голоса сигналов, указывающих на смыслы и настроение говорящего, тоже чрезвычайно сложно. Эти процессы в норме скрыты от внешнего наблюдения, но психологи, нейробиологи и биологи обнаруживают все больше данных о том, как они протекают. В современном мире разговоры с глазу на глаз все чаще замещаются общением с помощью технологий, когда речь передается и преобразуется техническими приспособлениями. И это влияние технологии будет расти по мере того, как разговоры с компьютерами станут обычным делом. Какие секреты мы можем невольно выдать своим девайсам? Как слушает и разговаривает искусственный интеллект? Как это повлияет на человеческую речь в будущем?
Фонограф – это лишь один пример того, как технология повлияла на речь и слух. Впервые фонограф был представлен британской аудитории в 1878 году. Демонстрация происходила в Королевском институте, где в Викторианскую эпоху великие и достойные люди собирались, чтобы насладиться новейшими достижениями науки и техники. Лекционный зал был набит битком, когда Уильям Генри Прис, главный инженер Британского почтово-телеграфного ведомства, демонстрировал модель изобретения Эдисона. За неделю до этого события ее в спешке собрали на месте, потому что отправленный из Америки фонограф задержался в пути. Как и Эдисон, для тестирования устройства Прис использовал популярную детскую потешку и продекламировал: «Играет кот на скрипке, на блюде пляшут рыбки». Как сообщалось в газете London Weekly Graphic, «слова можно было легко понять, но сам голос был очень слабым и как будто карикатурным». Выбрать детские потешки для демонстрации революционного технологического изобретения – умный шаг: слушатели настолько хорошо знали слова, что могли подсознательно подставить те из них, которые были слышны плохо из-за царапания иглы по оловянной фольге. Новое изобретение имело грандиозный успех. «Вокруг стола собралась толпа: все хотели увидеть фонограф, что-то сказать, чтобы записать это и потом услышать, – писала Graphic. – И люди оставались в зале до 11 часов, пока не выключили газ: явный намек на то, что пора и честь знать» [4].
Второй фонограф, созданный Эдисоном, прибыл в Англию через две недели. Обычно его не показывают публике, но мне выпала честь рассмотреть его поближе, когда я принимал участие в радиопередаче BBC. С правой стороны у аппарата имеется заводная рукоятка, которая вращает центральный цилиндр, покрытый оловянной фольгой. С левой стороны находится большое маховое колесо, обеспечивающее плавность движения. Говорить нужно в простую воронку, направляющую звук в небольшую мембрану, которая начинает вибрировать. К задней стороне мембраны прикреплена игла, которая по мере вращения фольги вычерчивает спиральную дорожку. Все удивительно просто: колебания воздуха, которые создают звук голоса, преобразуются в колебания иглы, а следы от движения иглы запечатлеваются на фольге в виде волнистой бороздки. Чтобы воспроизвести звук, необходимо проследовать в обратном направлении: сначала воспроизводящая игла движется по бороздке, повторяя ее углубления и выпуклости, это создает вибрации сначала мембраны, а затем и молекул воздуха, которые достигают ушей слушателя.
Фонограф Эдисона – музейный экспонат и больше не используется, но во время посещения Королевского института Великобритании я на другом аппарате записал «Рассвет» Альфреда Теннисона. Я выбрал именно это стихотворение, потому что сам Теннисон наблюдал, как его записывали на фонограф, когда новое изобретение в первый раз представляли в Королевском институте. Чтобы запись получилась, приходилось наклоняться очень близко к рупору и кричать, чтобы оставляемые иглой бороздки были достаточно глубокими, в противном случае при воспроизведении слова́ заглушались поверхностными шумами. Мой голос звучал очень слабо, но слова были отчетливо слышны даже на фоне неизбежного царапающего звука.
Томас Эдисон и его фонограф [5]
Первые демонстрации фонографа сопровождались веселыми экспериментами. Коронным номером в то время было изменение скорости вращения ручки во время воспроизведения звука. Один из очевидцев рассказывал, что слышал голос «рассерженной старой женщины», когда цилиндр вращался слишком быстро, и «немощного старика, набравшего в рот воды», когда воспроизведение замедлялось [6]. The Beatles прославились своими новаторскими экспериментами со звуком – наложением голосов, проигрыванием записей наоборот и на разной скорости. В 1970-е годы отдельные религиозные группы были возмущены тем, что при проигрывании некоторых песен в обратном порядке, например «Лестницы в небо» группы Led Zeppelin, якобы передавались сатанинские стихи. Но ведь первым был Эдисон: именно он так проиграл Mad dog! Mad dog! Mad dog![2].
Индеец пиеган и этнолог Фрэнсис Денсмор, 1916
Влияние технологии на голос оказалось очень значительным, она не просто позволила нам дурачиться с записями речи, но изменила то, как мы говорим и поем. Я сравнил историческую запись на фонографе, на которой актер сэр Генри Ирвинг читает «Зима тревоги нашей позади»[3], с современной интерпретацией Дэвида Моррисси. На записи XIX века Ирвинг усиливает свой аристократический голос, используя специальную вокальную технику, разработанную для большой сцены театра. Микрофон же, напротив, освобождает Моррисси от необходимости говорить очень громко, и он произносит строки так, будто выступает перед небольшой аудиторией, при этом четко различимы особенности его хрипловатого голоса. Существенно изменилось и пение. Можно сравнить ранние записи на фонографе оперной суперзвезды Аделины Патти с записями великолепных современных певиц, например Эми Уайнхаус. Оперный голос Патти исключительно чистый и приятный, а исполнение Эми Уайнхаус в большей степени выражает ее индивидуальность и обнажает душу. Патти приходилось анатомически точно выстраивать звуки, чтобы звучать громко. У Уайнхаус было больше свободы для самовыражения, потому что электроника взяла на себя нагрузку на голос. Технология позволила огромному разнообразию голосов появиться в современной музыке.
По своей природе звук быстротечен, но все изменилось с появлением звукозаписи. Теперь ученые могут анализировать богатую историю устной речи. Они обнаружили культурные изменения, такие как понижение тона женского голоса за последние десятилетия, или замену гнусавости кокни в лондонском Ист-Энде смешанными акцентами из разных культур. Голос трансформировался на протяжении всей истории человечества, но лишь сейчас мы можем непосредственно фиксировать эти изменения. Ученые могут сравнивать старые и новые записи, чтобы понять, как на протяжении жизни, в течение которой человек говорит и слушает, изменяется его голос. К счастью, наша голосовая анатомия хорошо справляется с возрастными изменениями: морщины и седые волосы появляются значительно раньше, чем деградирует голос.
Для своего изобретения Эдисон предусмотрел множество сфер применения, но сильнее всего ему хотелось записывать голоса людей незадолго до их смерти. Голос выражает личность в значительно большей степени, чем изображение, потому что голос – живой. Как предсказывал Эдисон, «фонограф, несомненно, превзойдет фотографию в смысле сохранения высказываний, голосов и последних слов умирающих членов семьи – и великих людей» [7]. Хотя это пророчество не сбылось, в наши дни люди все чаще сохраняют голоса любимых, записывая их на видео. Мобильные телефоны и другие гаджеты привели к тому, что анимированные изображения и звукозаписи стали серьезно конкурировать с неподвижными фотографиями.
Сегодня искусственный интеллект позволяет создавать голосовые воспоминания, имитирующие беседу с умершими людьми. Ведется множество разговоров о том, что искусственный интеллект лишит людей рабочих мест, но кто бы мог подумать, что прорицатели, проводящие спиритические сеансы, столкнутся с сокращением штата? (Хотя, по-видимому, они уже об этом знают и начали переквалифицироваться.)
В 2015 году в Москве трагически погиб под колесами автомобиля редактор интернет-журнала Роман Мазуренко. Его близкий друг, предприниматель Евгения Куйда, создала чат-бот, чтобы в последний раз поговорить с Романом. У Евгении были тысячи текстовых сообщений от друга, и все они были загружены в компьютерную программу, с помощью которой искусственный интеллект создал робота, использующего стиль речи Романа. Слова Теннисона навеки запечатлены в воске, но робот Романа может отвечать фразами, которые никогда не существовали в текстовых сообщениях [8]. Вот типичный пример:
Евгения. Как дела?
Бот Роман. Я в порядке. Настроение не очень. Надеюсь, ты там без меня ничем интересным не занимаешься?
Евгения. Тут много всего происходит. Жизнь продолжается, но нам тебя не хватает.
Бот Роман. И мне вас не хватает. Похоже, это и называется любовью [9].
Как к этому относиться? Нет ничего необычного в том, чтобы разговаривать с ушедшим любимым, вслух или про себя, но при мысли, что машина отвечает, бросает в дрожь. Технология разделила друзей и семью Романа: кому-то это понравилось, кто-то счел это неприемлемым. А теперь представьте, что мы сделали еще шаг вперед и используем технологии для реконструкции голоса Романа. Это вполне реально: персонализированные искусственные голоса все чаще используются людьми, потерявшими голос из-за болезни, например, двигательного нерва. Если вам неприятна мысль об обмене сообщениями с умершим человеком, представьте страшную машину, способную «оживить» голос любимого. Это поднимает множество этических вопросов – например, можно ли вторгаться в чей-то цифровой след, чтобы создать иллюзию бессмертия?
Искусственный интеллект уже готов в корне изменить наши разговоры. Для людей говорение и слушание – это не просто способы передачи фактической информации. Фраза «я тебя люблю» полна коннотаций. Вряд ли такое скажешь компьютеру, но каждый день тысячи людей признаются в любви Алексе, понимающему голос персональному ассистенту компании Amazon [10]. По мере того как будут появляться машины, способные понимать и изображать эмоции или даже просто убедительно их копировать, наши взаимоотношения с этими устройствами изменятся навсегда. Мы уже не так далеки от реализации сценария фильма 2013 года «Она», где одинокий мужчина влюбляется в интеллектуальную операционную систему по имени Саманта.
Кто потеряет работу, когда технологии позволят улучшить качество разговора? В начале XIX века луддиты громили новые машины – детища промышленной революции, которые угрожали их благосостоянию. Когда в начале XX века музыкальные записи стали привычным делом, композитор Джон Филип Суза опасался, что скоро «никто не отважится подвергнуть себя благородному занятию обучения музыке» [11]. В 2014 году постановка «Кольца нибелунга» Рихарда Вагнера в Хартфорде, штат Коннектикут, была отложена из-за скандала, связанного с использованием компьютера вместо живого оркестра [12]. Если машины освоят эмоции, увидим ли мы, как последователи луддитов штурмуют театр «Глобус», чтобы уничтожить андроидов, декламирующих Шекспира? Сможет ли искусственный интеллект пойти еще дальше и заменить Барда, написав пьесу, в которой будут играть андроиды?
В театре существует давняя традиция использования животных, призраков или марионеток для демонстрации человеческих качеств. Когда компьютеры начнут общаться с нами, технологии тоже позволят нам больше узнать о себе. Сравните сложности, с которыми сталкиваются ученые, пытаясь научить компьютер слушать и говорить, с тем, как дети развивают эти способности естественным путем. Мы думаем, что решать арифметические задачи трудно, а разговаривать – легко. Но когда мы пытаемся научить этому машины, оказывается, что как раз арифметические задачи не представляют трудностей. Способность человека вести беседу кажется очень примитивной, но на самом деле это поразительное свойство.
Сегодня речевая деятельность часто тесно связана с технологией, но если мы хотим разобраться в способности человека разговаривать, нам нужно знать, что происходило задолго до того, как был изобретен фонограф. Как возникла человеческая речь? Могли ли неандертальцы разговаривать с «современным человеком», Homo sapiens? Эта актуальная тема обсуждается в первой главе.
1 Эволюция
«Язык – это Рубикон, разделяющий человека и животное, и ни одно животное никогда его не перейдет», – заявил оксфордский профессор Макс Мюллер в 1861 году [1]. Именно способность мыслить посредством языка отличает человека от других животных. Мюллер сформулировал это так: «Нет разума без речи, нет речи без разума» [2]. Профессор полагал, что природа языка божественна, и был страстным противником дарвиновской теории эволюции путем естественного отбора [3]. Он был настолько уверен в своей победе в этом споре, что заключил: «Наука о языке когда-нибудь даст нам возможность противостоять экстремистским теориям дарвинистов». Десять лет спустя Дарвин принял вызов и описал, как язык мог возникнуть путем естественного отбора, в своей замечательной книге «Происхождение человека и половой отбор». Но споры продолжались. Через два года Парижское общество лингвистов запретило дискуссии о происхождении языка, чтобы ограничить поток постоянно возникающих новых теорий, основанных на ничтожно малом количестве убедительных доказательств.
Именно язык делает нас людьми, поэтому неудивительно, что многие ученые выдвигали теории возникновения способности людей разговаривать. Но заглянуть в прошлое на сотни тысяч лет, чтобы выяснить, умел ли кто-то из наших предков говорить, – крайне сложная задача. Звук эфемерен, исчезает, едва возникнув, поэтому трудно (если вообще возможно) узнать, что наши древние предки могли сказать или услышать. Ископаемые свидетельства играют важную роль в понимании многих аспектов эволюции, но они не столь полезны в сфере исследования языка: мозг не становится окаменелостью, и речевой аппарат тоже. Тем не менее нехватка доказательств создает благодатную почву для возникновения и последующего обсуждения разнообразных увлекательных теорий. Как писал популяризатор науки Филип Болл о подобных спорах относительно эволюции музыки, «решительность, с которой отстаивается точка зрения, по-видимому, имеет обратную зависимость от количества и качества подтверждающих ее данных» [4]. Даже сегодня публикуются научные статьи и книги, вызывающие раздражение у академических ученых, которые в ответ пишут резкие критические статьи. В данной области знаний результаты непредсказуемы, и это показательный пример развития науки: выдвигаются разнообразные гипотезы, которые предельно тщательно анализируются разными учеными, причем многие из них с удовольствием выискивают недостатки в идеях своих соперников. Рецензия, опубликованная в одном из номеров научного журнала Frontiers of Psychology, в самом заголовке уже демонстрировала презрение: «Язык неандертальцев? В центре внимания – сказки».
Если отвлечься от подобных споров, становится ясно, что современная наука все же может разобраться в этом вопросе намного лучше, чем популярные теории и догадки. Как мы увидим дальше, ученые разработали оригинальные способы исследования истории эволюции. И хотя точный ответ на вопрос, когда возникло речевое общение, пока неизвестен, наука уже может проникнуть в тайны развития этой потрясающей способности.
Устная речь включает в себя как говорение, так и слушание, но именно говорение обычно исследуется как уникальное свойство человека. Похоже, мы не боимся, что животные могут понимать наши разговоры. Возможно, это одна из причин, по которой эволюция слуха вызывает гораздо меньше споров, чем развитие речи. Кроме того, имеются значительно более полные ископаемые свидетельства развития уха млекопитающих, что в значительной степени ограничивает возможности для построения умозрительных теорий [5].
Когда наши позвоночные предки (тетраподы) вышли из моря около 350 миллионов лет назад, возможно, из воды их выманили обитающие на суше беспозвоночные, которые были прекрасной пищей. Acanthostega – пример таких ранних тетрапод. Она похожа на расплющенного уродливого угря с коротенькими ножками [6]. У тетрапод, возможно, были и жабры, и легкие, что позволяло им дышать как под, так и над водой. Однако слышать они могли только под водой. Их анатомия органа слуха формировалась для подводной жизни и была совершенно бесполезна, когда голова высовывалась из воды. Звуковые волны – это очень маленькие колебания давления. Под водой они передаются движением молекул воды, а на суше – молекул воздуха. Воздух и вода – разные субстанции, поэтому тетраподам нужно было прилагать максимум усилий, чтобы почувствовать слабые движения молекул воздуха. И мы с вами сталкиваемся с подобным: слух человека устроен так, чтобы хорошо работать в воздушной среде, но погрузите голову под воду в бассейне, и звуки станут приглушенными.
Двоякодышащие рыбы – ближайшие родственники тетрапод, поэтому их изучение дает нам некоторое представление о развитии слуха. Вот почему Кристиан Кристенсен для своей докторской диссертации, которую он защищал в Орхусском университете, экспериментировал именно с этой группой рыб [7]. Он хотел понять, как развивался их слух, если в воздушной среде двоякодышащие рыбы абсолютно глухи. Для своих экспериментов он заворачивал находящуюся под легким наркозом рыбу во влажные бумажные полотенца и помещал в гамак в центре звукоизолированной комнаты. Кристиан хотел убедиться, что рыба реагирует только на те звуки, которые он проигрывал через громкоговорители. На голове рыбы размещались электроды, позволяющие контролировать нейроны головного мозга.
Вопреки ожиданиям Кристиана оказалось, что двоякодышащие рыбы не совсем глухие. При низких частотах, ниже 200 Гц, рыба могла улавливать звуки выше 85 дБ. Представьте, что блуждающий тромбонист случайно проходит мимо и извлекает из своего инструмента громкий звук прямо в вашей комнате. Хотя у двоякодышащей рыбы нет чувствительных ушей, все же она может «слышать» этот звук: он заставит голову рыбы вибрировать, и именно это движение может передаваться в мозг. «Хотя органы слуха двоякодышащих рыб совершенно не приспособлены к воздушной среде, эти рыбы тем не менее могут слышать издаваемые в этой среде звуки, что было для меня полной неожиданностью, – говорит Кристиан. – Это может свидетельствовать о том, что даже ранние тетраподы и, возможно, их обитавшие в воде предки могли различать передаваемые по воздуху звуки». Однако для тетрапод такой примитивный наземный слух был бы слишком слабым и поэтому бесполезным. Они могли не услышать подбирающегося хищника – если, конечно, он не играл на тромбоне. Но даже если от такого рудиментарного слуха было мало пользы, эволюции уже было над чем поработать.
Строение человеческого уха
В отличие от ранних тетрапод слух млекопитающих значительно более чувствителен, и причиной этого являются многочисленные эволюционные адаптации. Сначала звук усиливается резонансом в наружном слуховом проходе и ушной раковине, небольшом, имеющем форму чаши углублении во внешнем ухе. Усиление составляет не более 20 дБ, что приблизительно соответствует повышению громкости в четыре раза. Второе усиление происходит в среднем ухе, которое состоит из барабанной перепонки и трех крохотных косточек: молоточка, наковальни и стремечка, которые называются слуховыми косточками. Здесь незначительные движения воздуха, представляющие собой звуковые волны, преобразуются в физические колебания, исходящие от частей тела. Наконец, еще одно усиление происходит в улитке внутреннего уха, где вибрации преобразуются в электрические импульсы, которые затем передаются мозгу по слуховому нерву.
В изучении эволюции слуха в воздушной среде основное внимание, как правило, уделяется тому, как для выживания на суше адаптировалось среднее ухо. Барабанная перепонка – это очень тонкая мембрана примерно 9 мм шириной. Она собирает звук почти всей поверхностью, и даже при восприятии резонансных частот барабанная перепонка смещается менее чем на диаметр атома водорода. Барабанная перепонка – настолько полезное приспособление, что она развивалась у млекопитающих, рептилий и птиц независимо друг от друга [8]. Затем звук заставляет двигаться молоточек и наковальню, которые работают как система рычагов для увеличения силы, вызывающей вибрацию косточки стремечка. Усиление от среднего уха возникает в основном за счет разницы в размерах барабанной перепонки и основания стремечка, которое воздействует на вход во внутреннее ухо. Чтобы понять, как это происходит, можно представить себе многоножку, у которой сто ног, но которая по какой-то причине балансирует только на шести. На каждую из шести стоящих на земле ног воздействует большая сила, чем если бы все ножки стояли на земле: давление увеличивается примерно в 17 раз (100 разделить на 6). Это сравнимо с усилением, которое входящий звук получает благодаря тому, что сила, распределенная по площади барабанной перепонки, концентрируется на меньшей площади основания стремечка. В целом среднее ухо усиливает звук примерно на 30 дБ – такова разница в громкости между обычным разговором и криком [9].
Очень соблазнительно было бы все упростить и представить историю эволюции слуха как линейный процесс, в котором для усиления звука анатомия млекопитающих изменялась по описанным выше механизмам. Однако на самом деле эволюция более сложная штука. Системы органов приспосабливаются к тому, для чего они не были предназначены первоначально. Ученые называют этот процесс экзаптацией. По иронии судьбы человек, который первым задокументировал развитие слуховых костей и выдвинул блестящие идеи относительно эволюции слуха, Карл Богуслав Рейхерт, не был поклонником работ Чарльза Дарвина.
Рейхерт – немецкий анатом, живший в XIX веке. На фотографиях мы видим его с гривой зачесанных назад волос и в овальных очках в металлической оправе. На некоторых снимках у него впечатляющая вандейковская бородка. Несмотря на то что Рейхерт сделал одно из важнейших открытий в биологии позвоночных, сегодня о нем мало вспоминают и даже довольно жестко описывают как «серьезного, но не слишком блещущего умом» ученого [10]. В начале своей научной карьеры Рейхерт препарировал эмбрионы свиньи и понял, что две слуховые косточки, молоточек и наковальня, формируются в виде хряща, присоединенного к задней части челюсти эмбриона. По мере развития эмбриона хрящ костенеет, уменьшается и отделяется от челюсти, формируя две косточки среднего уха. В 1837 году Рейхерт писал: «Редко можно найти часть живого организма, в которой изменения по сравнению с первоначальным видом были бы столь очевидны, как изменения слуховых костей млекопитающих». Однако прошло два десятилетия, а Рейхерт все же не смог выйти за рамки своих наблюдений и принять тот факт, что дарвиновская теория эволюции путем естественного отбора могла бы объяснить то, что он увидел с помощью микроскопа.
Итак, как же изучение развития современного животного от эмбриона до взрослой особи помогает нам понимать эволюцию, которая происходила миллионы лет назад? Я беседовал с экспертом в области эволюционной биологии развития Верой Вайсбекер из Квинслендского университета. Она рассказала, что в ходе развития организма могут сохраняться наследственные характеристики. «Эволюция к старым процессам добавляет новые. Внешне мы не слишком отличаемся от обезьян, у нас общие прародители, и на многих стадиях развития мы представляли собой обезьяну лишь с незначительными изменениями». Это означает, что когда мы анализируем собственное развитие, то видим какую-то часть своего эволюционного прошлого. Вот почему наблюдения Рейхерта, описавшего развитие эмбриона свиньи, настолько важны: они показали, что у млекопитающих имеется зачаток челюсти рептилии, из которого затем формируются и развиваются кости среднего уха.
Сам Рейхерт этого не понял. Он был убежден: «То, что эмбрион высших животных в своем индивидуальном развитии проходит через стадии развития низших животных… не подтверждается данными современной науки». Это означает, что хотя Рейхерт, будучи студентом, сделал выдающиеся наблюдения, он остался на прежних позициях, когда теория эволюции трансформировала биологию. Один из его противников, Эрнст Геккель, жестко заметил: «Я ясно продемонстрировал совершенную несостоятельность утверждений Рейхерта и извращенность его ложных представлений… Читая Рейхерта, мы попадаем примерно на полвека назад» [11].
То, что Рейхерт увидел в наблюдениях за свиньями, – лишь одно из свидетельств того, как крупный сустав челюсти древнейших предков-рептилий в результате эволюции превратился в тоненькие косточки среднего уха. Эта эволюция начинается чуть меньше 300 миллионов лет назад с синапсид, группы существ, из которых позднее развились млекопитающие. Одним из ранних представителей этого класса был диметродон, который из-за располагавшегося на спине кожистого «паруса» был больше похож на динозавра, чем на млекопитающее. По мере того как в течение примерно 80 миллионов лет синапсиды эволюционировали в млекопитающих, сустав челюсти несколько раз менялся [12]. Эти изменения включали уменьшение двух костей челюстного сустава и их смещение в область уха, где они сформировали две слуховые косточки.
Ключевым свидетельством этого являются окаменелые останки яноконодона, крошечного млекопитающего длиной чуть больше 10 см, которые были обнаружены в Яншане, горной цепи в Китае [13]. Яноконодон, чьи останки датируются возрастом 125 миллионов лет (мезозойская эра, когда на Земле обитали динозавры), жил, вероятно, в подлеске и питался насекомыми и червями. Окаменелость является, по-видимому, переходной структурой, сформировавшейся до того, как слуховые косточки отделились от челюсти. Поэтому яноконодон уже должен был слышать передающиеся по воздуху звуки высокой частоты, но все еще обладал присущей рептилиям способностью ощущать вибрации почвы через кости челюсти.
Было бы замечательно, если бы яноконодон обладал промежуточной между органами слуха рептилий и млекопитающих структурой. Но его окаменелые останки настолько редко обнаруживаются, что такой вывод является чрезмерным упрощением эволюционного пути. Такое соединение костей могло быть специфической чертой яноконодона и не передавалось по наследству. Может быть, в ходе эволюционного развития существовало еще одно млекопитающее, окаменелые останки которого не были найдены? К сожалению, останки костей среднего уха редко обнаруживаются in situ[4]. В процессе разложения и фоссилизации (окаменения) скелеты часто подвергаются множеству негативных воздействий: их уносят реки, обгладывают падальщики, на них просто наступают и раздавливают [14]. Неудивительно, что мелкие кости часто утрачиваются.
Чтобы дополнить редкие ископаемые свидетельства, ученые обращаются к эволюционной биологии развития, которую для краткости называют evo-devo. В рамках этой науки для лучшего понимания эволюционного развития организма изучается развитие эмбриона. Именно поэтому я позвонил Вере Вайсбекер, которая недавно опубликовала статью о несостоятельности одной из распространенных теорий эволюционной биологии развития. Как объяснила Вера, произвольная интерпретация данных о развитии может повести эволюционную биологию по ложному пути. Однако, если интерпретировать данные правильно, evo-devo обладает огромным потенциалом. Вера изучала развитие сумчатых. У новорожденных детенышей происходит похожий переход от челюсти к уху, и это может объяснить ход эволюции млекопитающих. В первые недели после рождения сумчатые сосут молоко с помощью челюстного сустава, сформированного между косточками наковальни и молоточка. Однако в последующие недели челюстной сустав изменяет конфигурацию, эти косточки мигрируют и становятся частью среднего уха.
Вера и ее коллеги отобрали молодых особей сумчатых разного возраста[5]. Используя компьютерную томографию, которая позволяет получать серию рентгеновских снимков, они изучили, в какой момент косточки среднего уха отделяются от челюсти, а также определили размеры этих косточек. Маленькие косточки участвуют в создании слуховой чувствительности, поскольку высокочастотные звуковые волны не могут приводить в движение крупные кости. Если слух был одной из причин возникновения маленьких косточек, то, как предполагала Вера, уменьшение костей запустило бы процесс отделения молоточка и наковальни от челюсти. Однако на самом деле эти две косточки сначала отделяются от челюсти, а уже потом уменьшаются. Это означает, что здесь задействован другой эволюционный процесс, который не связан со слухом. Учитывая, что отделение происходит в определенный момент развития животного, вероятно, оно связано с появлением задних моляров.
Если эволюция млекопитающих шла по тому же пути, что и развитие сумчатых, это может означать, что две косточки в нашем среднем ухе сформировались в первую очередь ради питания, а не ради слуха. Согласно одной теории, толчком к этому явились изменения в рационе и необходимость разгрызать и перетирать семена. И только позднее отделившиеся кости уменьшились в размере, изменили функцию и стали использоваться для слуха. Это типичный пример экзаптации.
У человеческого слуха имеется одна необычная особенность: он охватывает более широкий диапазон частот, чем нужно для коммуникации. Молодой человек может слышать в диапазоне около 20 000 Гц, но на самом деле для понимания речи нужна только нижняя пятая часть. (Именно эту особенность используют телефонные компании, чтобы сократить диапазон частот телефонных звонков.) Какими условиями отбора можно объяснить нашу остроту слуха на высоких частотах? Миллионы лет назад млекопитающие были мелкими животными, снующими туда-сюда в траве в попытках скрыться от динозавров. Им нужны были высокие частоты, чтобы слышать писк сородичей. Но почему слуховой диапазон не изменился, когда млекопитающие стали крупнее и появились люди? По мнению Рики и Генри Хефнер с кафедры психологии Толедского университета в Огайо, высокие частоты необходимы для определения направления источника звука, и сохранение диапазона частот обеспечило избирательное эволюционное воздействие, сформировавшее слух.
Локализация звуков важна для животных, как для охотящихся хищников, так и для уязвимых созданий, которые стараются не стать их ужином [15]. Некоторые приемы, которыми млекопитающие могут пользоваться для локализации звуков, помогают объяснить, почему у нас два уха: они помогают сравнивать то, что мы улавливаем каждым ухом по отдельности. Когда источник звука находится спереди, путь, по которому звук проходит через оба уха, одинаковый, так как голова симметрична и сигналы, идущие к мозгу по левому и правому слуховым нервам, будут идентичными. Но звук, источник которого находится сбоку, будет другим. Более удаленное ухо будет улавливать его позже, поскольку звуку требуется дополнительное время, чтобы туда попасть. Этот показатель локализации звука особенно полезен на низких частотах. При низких частотах звук в дальнем ухе еще и тише: ему приходится огибать голову. И это еще один сигнал для определения источника звука [16].
Качество этих двух показателей зависит от того, насколько далеко друг от друга расположены уши. Если это крупное млекопитающее, например слон, то звуку приходится огибать большую голову, что приводит к большей разнице во времени между сигналами, регистрируемыми обоими ушами, причем ухо, расположенное дальше, получает вдобавок и более тихий звук. Это означает, что слоны могут локализовать звук даже при низких частотах. Наоборот, мелкие млекопитающие, например землеройка, должны использовать для этого более высокие частоты[6].
Можно подумать, что способность к локализации звука будет сильно зависеть от размера головы, но это не так. Окружите человека громкоговорителями, и он с поразительной точностью скажет, какой из них производит звук. Человек может определить источник звука, исходящего строго спереди, с точностью до 1–2°. Проведите такой же эксперимент с лошадью, и вы удивитесь, что она гораздо хуже определяет источник звука, ошибка будет составлять около 25°. Ширина головы лошади примерно равна ширине головы человека, так что лошадь получает такие же сильные сигналы для локализации звука. Но по непонятной причине эволюция сделала так, что локализация звука в воздушной среде более точная у людей, а не у лошадей.
«Лошади и крупный рогатый скот очень плохо определяют источники звука», – выпалила Рики Хефнер мне в трубку, когда я позвонил ей, чтобы обсудить исследование. Рики – пример упорного экспериментатора, такие люди очень важны для развития науки. Только представьте тщательную подготовку, которая необходима для получения надежных экспериментальных данных от таких разных животных, как слон, летучая лисица и песчанка. Иногда требуется целый год, чтобы получить необходимые данные только по одному виду.
Для Рики результат эксперимента (то, что лошади плохо локализуют звук) оказался совершенно неожиданным, и она сначала подумала, что ошибка кроется в самом эксперименте. Представьте лошадь на водопое, где она слышит щелканье хлыста. Конечно, было бы очень полезно определить источник звука. Один из коллег-профессоров предостерег Рики: «Никто не поверит, если ты не продемонстрируешь это разными способами». После того как Рики протестировала разных лошадей, используя разные процедуры, она решилась опубликовать результаты. Тем не менее реакция на публикацию была неоднозначной, кого-то результаты не убедили. Единственный способ убедить скептиков – дополнить факты объяснением результатов экспериментов.
Однажды вечером, когда Рики уже лежала в постели, ей в голову вдруг пришла мысль: «Уши нужны для того, чтобы обнаружить животное и передать эту информацию глазам, чтобы они смогли его увидеть». Возможно, естественный отбор, направлявший эволюцию локализации звука, был связан с широтой зрительного поля, в котором зрение животного является наиболее острым? Лошади обладают отличным горизонтальным полем зрения более 180°. Таким образом, их ушам нет необходимости сообщать точную информацию по локализации: это могут сделать глаза. И слух им требуется лишь для того, чтобы улавливать тихие звуки. Человек устроен совершенно иначе. Даже при самом остром зрении у нас очень узкий обзор, который обеспечивается небольшим углублением в сетчатке, и поле зрения составляет всего 1–2°. Чтобы точно ориентировать глаза, нам необходима хорошая звуковая локализация.
На самой важной диаграмме из исследования Хефнеров показаны результаты примерно по 30 видам млекопитающих и отмечена поразительная корреляция между точностью, с которой животное может локализовать звук, и широтой поля зрения. На одном конце располагается человек, а на другом – животные, подобные лошади. Я спросил Рики, помогла ли эта диаграмма убедить сомневающихся. «Конечно, мне хотелось бы так думать, – уклончиво ответила она. – Тогда я была молода. Вы же знаете, чтобы победить, нужно пережить своих врагов!»
Как показывает работа Хефнеров, исключительная способность человека слышать возникла для того, чтобы локализовать звук и таким образом позволить нам охотиться и не стать жертвами хищников. Но зачем нам внешнее ухо? А ушная раковина? Какие эволюционные процессы создали эту характерную форму? И здесь тоже есть связь с локализацией. Уши улавливают идентичные сигналы, указывающие на источники звука спереди и сзади, потому что голова симметрична. Но нельзя перепутать, спереди или сзади находится замаскировавшийся хищник: можно попасть к нему в лапы. Асимметричная форма ушной раковины означает, что звуки спереди и сзади воспринимаются по-разному, и это помогает их различить и не перепутать[7]. Рики говорит: «[Ушная раковина] такая невыразительная, потому что это просто лоскут кожи и хрящ, торчащие наружу, люди вообще не обращают на нее внимания. Но она играет большую роль в нашей способности локализовать звуки». Однако поскольку ушная раковина человека небольшого размера, для локализации требуются звуки высокой частоты. Это помогает объяснить, почему мы можем улавливать звуки за пределами диапазона частот речи.
На изображениях первых млекопитающих и их предков часто можно увидеть ушные раковины, но это – вольность художника, поскольку обычно внешнее ухо не превращается в окаменелость. Самые ранние ископаемые останки ушной раковины принадлежали Spinolestes, похожему на мышь животному, которое обитало в болотистой местности. Его рацион, вероятно, состоял из мелких насекомых и животных, которых оно выкапывало мощными задними ногами. Это млекопитающее, останки которого были обнаружены в Испании в 2015 году, жило 125 миллионов лет назад, в одно время с динозаврами. Его тело поразительно хорошо сохранилось. Была найдена не только одна ушная раковина, но и шипы, напоминающие иглы дикобраза, мех и волосяные фолликулы, а также внутренние органы [17].
Поскольку способность слышать жизненно важна для нахождения добычи и локализации хищников, основные строительные элементы органа слуха уже существовали и заняли свое место в структуре организма миллионы лет назад, задолго до возникновения речи. До недавнего времени было известно только это, но затем ученые придумали оригинальный способ оценить остроту слуха древнего человека по ископаемым останкам. Обнаружился интересный факт: для того чтобы улавливать речь, слуховые способности изменились в значительном диапазоне частот. Было ли это реакцией на обретенную способность говорить? Или это лишь результат влияния других факторов естественного отбора в эволюции человека?
Рольф Кьюам, палеоантрополог из Бингемтонского университета, и его коллеги использовали снимки, полученные методом компьютерной томографии, чтобы оценить размер ушей древних людей. Затем они использовали физическую модель, чтобы представить, как звуковые волны могли воздействовать на древние ушные кости, и таким образом сделать выводы относительно чувствительности слуха. Они исследовали ископаемые останки двух первых южноафриканских гоминини, Paranthropus robustus и Australopithecus africanus [18]. Оба вида обитали в лесах и саваннах. По сравнению с современным человеком они обладали относительно небольшим по размеру мозгом[8]. Australopithecus africanus жил около трех миллионов лет назад. Таунгский ребенок, представитель этого вида, череп которого был найден, – первый из обнаруженных предков человека, живших на Земле до появления современных людей [19]. Paranthropus robustus получил свое название из-за мощной нижней челюсти и моляров. Он жил позже, около полутора миллионов лет назад. Реконструкции лиц обоих видов гоминини представляют собой сочетание черт обезьяны и человека и напоминают персонажей фильма «Планета обезьян».
Слуховые кости этих ранних гоминини имеют много общего с костями современного человека и шимпанзе. Молоточек похож на молоточек современного человека, но наковальня и стремечко более примитивны, как у шимпанзе. Ушной канал отличается по форме от ушного канала и человека, и шимпанзе. Эти особенности, вероятно, дали ранним гоминини преимущество в виде большего усиления звука в необходимых для устной речи частотах, около 1500–3000 Гц [20]. Но эти гоминини слишком древние, у них не могло быть языка, так что такое усовершенствование слуха по сравнению с шимпанзе произошло, вероятно, по другим причинам. Кьюам предположил, что это было связано с необходимостью оптимизации общения на близком расстоянии в саванне с помощью простых вокализаций.
Проводились исследования и более поздних гоминини [21]. У Homo heidelbergensis обнаруживаются характеристики скелета, более близкие к современным людям. Это первый вид людей, который населял холодные климатические зоны. Он начал формироваться примерно 700 000 лет назад и, возможно, является последним общим предком современного человека и неандертальцев [22]. Позднее (около 120 000 лет назад) европейские популяции Homo heidelbergensis эволюционировали в неандертальцев, в то время как отдельная популяция в Африке – в Homo sapiens примерно 200 000 лет назад [23]. Поиски самого позднего общего предка имеют важное значение для понимания эволюции. В этом случае слуховое сходство Homo heidelbergensis и Homo sapiens подразумевает, что неандертальцы отлично могли улавливать речь. Этот вывод был подтвержден исследованиями слуховых косточек неандертальцев. В 2016 году Александр Стессель из Института эволюционной антропологии Общества Макса Планка в Лейпциге и сотрудники продемонстрировали, что хотя у неандертальцев и современных людей слуховые косточки немного различаются, обе конфигурации обеспечили бы схожие слуховые способности [24]. По-видимому, когда почти полмиллиона лет назад появился Homo heidelbergensis, все адаптации среднего уха как реакция на вокализации уже были завершены [25]. Следовательно, речь развивалась, используя преимущества уже существовавшей способности к слуху, а не наоборот [26].
Эволюция устной речи более противоречива, чем эволюция слуха. Сегодня споры ведутся в основном о роли неандертальцев, живших в Европе в ледниковый период и вымерших около 35 000 лет назад [27]. Homo sapiens мигрировал из Африки и распространился по миру около 60 000 лет назад. Поскольку язык существовал еще до того, как Homo sapiens покинул Африку, это означает, что современные люди обладали способностью говорить, еще когда существовали неандертальцы [28]. Последние явно могли слышать речь. Но могли ли они присоединиться к беседе?
Одни ученые считают, что язык возник недавно, с появлением Homo sapiens, и что именно эта языковая способность дала человеку возможность превзойти остальных доисторических людей [29]. Другие ученые утверждают, что неандертальцы были умнее, чем принято считать, обладали некоторой способностью к производству речи и скрещивались с нашими предками, а не просто были ими вытеснены. Некоторые идут даже дальше и утверждают, что Homo heidelbergensis, общий предок обоих видов, уже умел говорить. Если это правда, то язык гоминини мог возникнуть сотни тысяч лет назад. Таким образом, эти две соперничающие теории определяют возникновение языка промежутком между 700 000 и 70 000 лет назад – более полумиллиона лет! Какие данные имеются в пользу обеих точек зрения? Может ли наука вообще разрешить эту проблему?
Речевой аппарат человека не особенно отличается от того, как производят звуки другие млекопитающие. Рассмотрим простой гласный звук [э]. Когда этот звук произносится, воздух выходит из легких и проходит через голосовые складки (часто называемые голосовыми связками), которые расположены в гортани. Голосовые связки быстро раскрываются и закрываются, перекрывая путь воздушной струе, выходящей из легких, таким образом создается вибрирующий звук. Скорость, с которой голосовые связки раскрываются и закрываются, определяет высоту голоса. Например, взрослая женщина раскрывает и закрывает голосовые связки в среднем двести раз в секунду, что соответствует частоте 200 Гц (частота мужского голоса ниже, около 110 Гц).
Вибрация голосовых связок далее переходит в голосовой тракт. Так называется воздушное пространство, которое составляют верхняя часть горла, рот и носовые ходы, и именно здесь звук изменяется. Подобно большинству звуков, вибрация голосовых связок происходит как на базовой частоте, так и на обертонах, которые кратны следующим величинам: 400, 600, 800 Гц и т. д. Эти обертоны необходимы для производства речи, потому что именно их относительная сила используется горлом, языком, ртом и носовыми ходами для получения разных гласных звуков. От других приматов человека отличает именно ловкость и скорость, с которой он может изменять голосовой тракт. Познавательные способности дают человеку возможность совершать невероятно быстрые и сложные изменения голосового тракта, скоординированные с изменением дыхания и мускулов, поддерживающих голосовые связки; именно это обеспечивает плавность речи.
Анатомия звука
Создание гласного звука с частотой 200 Гц и первым формантным резонансом 500 Гц [30]
Голосовой тракт подобен воздушной колонке внутри трубы: он имеет набор частот, при которых воздух внутри громко вибрирует. Это – резонансные частоты, и любые гармоники вибрации голосовой складки, которые совпадают с этими частотами, усиливаются. (Другие гармоники выравниваются не столь успешно и подавляются.) Резонансы голосового тракта называются формантами. Произнесите «ток – так – тень», и вы заметите, как изменяется форма рта при произнесении разных гласных. Мягкое нёбо, язык и губы, которые в совокупности называются артикуляторами, формируют голосовой тракт таким образом, чтобы получить подходящие для каждой гласной форманты.
Голосовой тракт должен обладать большой гибкостью, чтобы изменять форму для произнесения разных гласных звуков. Изображения получены методом ядерного магнитного резонанса [31]
Можно говорить скучным монотонным голосом и производить членораздельную речь, просто изменяя форманты с помощью артикуляторов. Поскольку высота звука определяется голосовыми связками, их можно заставить колебаться одинаково для каждого слова. Это пригодилось Клинту Иствуду в фильме «Хороший, плохой, злой», где его герой Блондин разговаривает хриплым монотонным голосом [32]. Как это демонстрирует Иствуд, высота голоса отличается от формантов, которые фильтруют звук и сообщают слушателю, какая из гласных произносится. Еще одна хорошая демонстрация этого явления – поющий синтезатор, который можно услышать на записях хитов, таких как Mr Blue Sky группы ELO или Harder, Better, Faster, Stronger группы Daft Punk. В этом случае используются специальные приемы музыкальной индустрии, и здесь вибрация голосовых связок заменяется музыкальными нотами; в то же время форманты, которые позволяют нам слышать и понимать слова, остаются неизменными[9].
Чтобы лучше понять эволюцию речи, можно сравнить человека с другими видами. Между тем, как производят звуки шимпанзе и как это делают современные люди, имеются два важнейших отличия. Гортань современного человека расположена значительно ниже, чем гортань шимпанзе, у обезьяны вдоль горла располагаются воздушные мешки. Многие исследователи пытались точно определить, когда гортань опустилась, в надежде, что именно это поможет определить момент возникновения речи.
У большинства млекопитающих гортань расположена достаточно высоко, что позволяет дышать через нос и одновременно глотать. Это очень важно и для человеческого детеныша, которому нужно одновременно сосать и дышать. В возрасте от трех месяцев до четырех лет гортань человека опускается и занимает более низкое положение [33]. У мужчин в период полового созревания гортань опускается еще ниже.
По сравнению с человеком гортань шимпанзе расположена выше, кроме того, у шимпанзе имеются воздушные мешки
Такое низкое расположение гортани жизненно необходимо, поскольку именно это позволяет языку использовать свои возможности: иначе мы не могли бы производить гласные звуки в словах «бал» и «бил». Низкое расположение гортани позволяет языку округляться и двигаться во всех направлениях, обеспечивая быстрые изменения верхней части горла и рта, что необходимо для быстрых и четких изменений формантов во время акта говорения. Если гортань расположена низко, корень языка оттягивается вниз, что позволяет глотке (верхней части горла) изменяться независимо от положения полости рта. Без этого речь была бы более медленной и нечеткой.
В своей книге «Биология и эволюция языка» (The Biology and Evolution of Language) Филип Либерман описывает простой эксперимент, который демонстрирует эффективность речи в передаче информации. Чтобы повторить этот эксперимент, вам понадобится помощь друга. Попросите его очень быстро постукивать карандашом, а сами оценивайте скорость, подсчитывая количество постукиваний за пять секунд. Ваш друг сможет стучать значительно быстрее, чем вы – считать, особенно если он немножко попрактикуется. Самая большая скорость счета составляет около девяти постукиваний в секунду. Но, слушая речь, мы схватываем изменения со скоростью примерно от 20 до 30 звуков в секунду, примерно в три раза быстрее. Произнося, например, слово «кот», мы не произносим каждый звук отдельно ([к] – [о] – [т]), потому что это будет слишком медленно. Вместо этого мы позволяем звукам набегать друг на друга, что дает возможность передавать информацию очень быстро.
Чтобы речь была плавной и членораздельной, оральная и фарингальная трубки должны быть примерно одной длины. Горизонтальное расстояние от губ до задней части ротовой полости должно быть таким же, как расстояние от голосовых связок до мягкого нёба (задней части нёба). В таком случае чрезвычайно подвижный язык может изменять площадь поперечного сечения этих трубок независимо друг от друга. Посмотрите видео МРТ поперечного сечения головы: в покое язык представляет собой круглое пятно. Но как только человек начинает разговаривать, язык быстро трансформируется, принимая различные формы, движется назад и вперед, вверх и вниз, изменяя форму голосового тракта. Попробуйте сказать «вид», а потом «мам» и обратите внимание, как меняется положение языка при производстве гласных звуков. При произнесении слова «вид» язык двигается вверх, ограничивая полость рта, а для «мам» он опускается и расширяет трубку. Гораздо труднее ощутить, как изменяется вертикальная фарингальная трубка. Для «вид» язык движется во рту вперед и открывает фарингальную трубку, но для «мам» он сдвигается назад и ограничивает фарингальную трубку.
Гласный звук в слове «вид» называется гласным сверхвысокого уровня, потому что он играет решающую роль в способности понимать разговор разных людей. У людей голосовые тракты различаются, а это означает, что различаются и частоты формантов. Если вы скажете «бис – бес», различия в частотах гласных очень четкие, и это помогает слушателю догадаться, какие слова произносятся. Но эта разница может быть не такой ясной у разных людей. Когда человек маленького роста говорит «бес», может получиться так, что это будет похоже на то, как человек высокого роста говорит «бис», потому что различия в длинах голосовых трактов создадут схожие частоты первого форманта. Чтобы избежать такой путаницы, слушатель подсознательно оценивает длину голосового тракта говорящего. Когда мы произносим гласную в слове «липа», язык поднимается вверх и как можно дальше вперед. Попробуйте сказать «липа», а потом чуть-чуть продвинуть язык вперед: звук начнет дрожать. Эта гласная сверхвысокого уровня ставит язык в его самое крайнее положение: он не может продвинуться дальше, потому что звук не будет чистым, а именно это позволяет слушателю оценить длину голосового тракта говорящего и таким образом настроить свое восприятие.
Относительная длина оральной и фарингальной трубок играет решающую роль в плавности речи, так что обнаружение этих параметров у наших предков могло бы стать весьма полезным в понимании эволюции речи. Но измерение этих параметров у вымерших гоминини вряд ли возможно. Речевой аппарат «подвешен» на прикрепленных к основанию черепа связках и мускулах, а они не становятся окаменелостями. Подъязычная кость (U-образная косточка, на которой закреплен корень языка) – единственная структура, которая может сохраниться, но интерпретация таких данных вызывает много разногласий. Эта косточка не связана непосредственно с другими частями скелета и поэтому часто отсутствует в ископаемых останках. У одного из ископаемых неандертальцев, найденных в Израиле (возраст находки – 60 000 лет), имеется подъязычная кость такой же формы, как у современного человека [34]. Такие экземпляры невероятно редки, поэтому находка вызвала большой ажиотаж. Но если учесть, что форма подъязычной кости может быть лишь весьма приблизительным показателем способности гоминини разговаривать, даже большая коллекция ископаемых подъязычных костей вряд ли прольет свет на эволюцию речи[10].
Исследования эволюции современного человека подтверждают, что анатомия голоса Homo heidelbergensis могла обеспечить его способностью разговаривать. По мере роста ребенка соотношение длины вертикальной и горизонтальной трубок в голосовом тракте изменяется приблизительно от 1:½ к первому месяцу жизни до идеального соотношения 1:1 к девяти годам [35]. Дикция ребенка хуже дикции взрослого, но дети начинают говорить задолго до того, как им исполнится девять. Это показывает, что, даже если у ранних гоминини гортань не была полностью развита, это не помешало бы им говорить. Тем не менее их речь, возможно, не была бы такой плавной, как у современных людей.
Одно из новаторских исследований последних лет пошло еще дальше и продемонстрировало, что анатомия голоса у обезьян прекрасно приспособлена для создания слов. Так почему же они не разговаривают? Ответ прост: у них отсутствуют когнитивные способности, которые позволили бы им контролировать артикуляцию. Текумсе Фитч из Венского университета и его сотрудники создали модели того, что мог бы делать голосовой тракт макаки, если бы у нее имелся хороший мышечный контроль [36]. Они сделали рентгеновские снимки обезьяны в те моменты, когда она ворковала, причмокивала губами и ела. Полученные данные позволили им определить, какую форму мог бы принимать голосовой тракт и какие бы получились частоты формантов. Результаты показали, что обезьяна способна производить широкий диапазон частот формантов и гласных звуков. Чтобы подтвердить этот вывод, Фитч пропустил полученную информацию через синтезатор речи и показал, что́ мог бы делать голосовой тракт обезьяны, если бы не имелось когнитивных ограничений. Я не знаю, почему для демонстрации была выбрана фраза «ты выйдешь за меня?», но получившаяся в итоге запись похожа на то, как если бы предложение руки и сердца делал Голлум из «Властелина колец». Конечно, фраза звучит не так отчетливо, как речь человека, но эксперимент демонстрирует, что приматы обладают голосовым трактом, способным производить членораздельную речь.
По-видимому, эти исследования не подтверждают гипотезу, что опущение гортани является важным маркером эволюции речи. Но эту идею нельзя просто отвергнуть, не выдвинув альтернативного предположения о том, что явилось причиной изменения анатомии. И какой бы ни была причина эволюционных изменений, она должна была быть достаточно веской, чтобы компенсировать риск, обусловленный тем, что низко расположенная гортань увеличивает вероятность удушья. Однако люди не единственные животные с опущенной гортанью: эта черта свойственна также коалам и зобастым антилопам. У собак и других животных, когда они издают звуки, гортань тоже опускается [37]. Обычно у собаки гортань расположена высоко, но когда она лает, звуковой аппарат перестраивается и напоминает человеческий. Для чего?
Когда гортань опускается, голосовой тракт удлиняется и частоты формантов крика животного понижаются. Это создает иллюзию более крупного животного. Возможность сообщить размеры тела могла стать мощным фактором отбора, который привел к опущению гортани – и навсегда, и на время производства звуков [38]. Эта точка зрения поддерживается тем, что анатомия голоса человека меняется в период полового созревания. Это второе опущение гортани, которое происходит только у мужчин, не сопровождается улучшением способности говорить (это подтвердит любой, кто знаком с мальчиком-подростком). Возможно, это нужно для того, чтобы сделать голос мужчин более гулким и создать иллюзию крупного тела для лучшего привлечения женского пола [39]. (Я вернусь к вопросу о привлекательности голоса в одной из следующих глав.) Следовательно, у гоминини глотка, возможно, опустилась для привлечения самок, а не для производства речи.
У горилл, шимпанзе и бонобо в дыхательном горле имеются воздушные мешки, которые человек утратил в процессе эволюции. Эти воздушные мешки создают дополнительные форманты низких частот, которые эффективно распространяются через стенки горла и создают звуки, издаваемые как будто более крупным и устрашающего вида животным [40]. Подъязычная кость обезьян имеет небольшой отросток в форме чашечки (буллу), который, как считается, делает соединение между голосовым трактом и воздушным мешком открытым. Поскольку у Homo heidelbergensis на подъязычной кости такого отростка нет, можно предположить, что воздушные мешки гоминини исчезли где-то в промежутке от 3,3 миллиона до 530 000 лет назад. Возможно, это потребовалось для создания членораздельной речи, поскольку у обезьяны голосовой мешок модифицирует вибрацию голосовых связок. Барт де Бур из Амстердамского университета проверил, как воздушные мешки могли затруднять речь [41]. Он использовал трубки из плексигласа, чтобы создать модели голосового тракта для конкретных гласных. В одних моделях воздушные мешки имелись; в других – отсутствовали. Через трубки он пропускал типичные вибрации голосовых связок, что позволило точно воспроизвести различные гласные звуки. Когда получившиеся в итоге звуки проиграли слушателям, оказалось, что различить гласные не так-то просто, особенно если имелся воздушный мешок. Из этого можно сделать вывод, что, возможно, воздушные мешки были утрачены для того, чтобы сделать речь более беглой. По-видимому, уже 500 000 лет назад, а может, и миллионы лет, голосовая анатомия для производства некоторых форм речи была достаточно сформированной. Хотя сегодня наука располагает относительно полными данными о теории эволюции голосовой анатомии, у ученых все еще недостаточно фактов, чтобы определить временны́е параметры.
Если в исследованиях анатомии голоса и слуха имеются ограничения, то к каким еще свидетельствам можно обратиться? В «Происхождении человека» Чарльз Дарвин писал, что изучение эволюции языка должно сфокусироваться на усовершенствовании познавательных функций, а не на изменениях анатомии голоса и слуха: «Тот факт, что высшие приматы не использовали изменения своих голосовых органов для речи, без сомнения, обусловлен тем, что их интеллект не был достаточно развит» [42]. На примере попугаев – «известных имитаторов любых часто слышимых звуков» – Дарвин доказывал, что сама по себе артикуляция не позволяет объяснить сложность устройства языка. Хотя со времени этих наблюдений прошло почти 150 лет и сегодня мы знаем об эволюции речи и слуха значительно больше, завет Дарвина о необходимости сфокусировать внимание на познавательной деятельности все еще актуален.
Основываясь на эмпирических наблюдениях, Дарвин настаивал на том, что существовал песенный протоязык, предшественник современных языков, который еще не содержал всех грамматических элементов развитого языка. Дарвин полагал, что для создания такого языка требовалось развитие умственных способностей гоминини, а это, в свою очередь, позже позволило протоязыку развиться по мере его использования для поиска партнера. В дальнейшем развитии интеллекта, которое отчасти стимулировалось развитием и языка, песням начали придаваться более сложные значения.
Предположение о том, что формирование познавательных способностей началось до развития протоязыков, согласуется с множеством современных теорий. Мозг Homo sapiens примерно в четыре раза больше мозга шимпанзе – и изменения начали происходить около двух миллионов лет назад [43]. В Музее естественной истории в Лондоне можно увидеть родословное древо гоминини, представленное 16 слепками черепов. Когда я посмотрел на эти черепа спереди, первое, что бросилось мне в глаза, – изменения вокруг глазниц. По сравнению с Homo sapiens надбровные дуги у многих гоминини выступали вперед намного сильнее. Однако если посмотреть на них сбоку, то становятся более очевидными различия в объеме черепной коробки. У более поздних видов Homo задняя часть черепа больше и более выпуклая. Тем не менее определять объем черепной коробки нужно с осторожностью, поскольку по мере укрупнения тела Homo его мозг, естественно, тоже увеличивался, подстраиваясь под эти изменения. Но что самое интересное – у неандертальцев объем черепной коробки примерно на 10 % больше, чем у Homo sapiens [44]. Объяснить это можно тем, что они были более коренастыми и массивными, что, возможно, было результатом приспособления к выживанию в более холодных климатических условиях Европы.
Дарвин полагал, что протоязык был во многом схож с пением птиц и использовался для привлечения самок, защиты территории и выражения «различных эмоций, таких как любовь, ревность и ликование». Способность человека подражать звукам очень важна для эволюции речи, она отличает нас от других приматов, которые обладают весьма ограниченными возможностями голосового репертуара, и их способность к подражанию не выходит за рамки присущего их виду набора звуков. Однако голосовая имитация встречается и у других видов животных, например у колибри и бутылконосых дельфинов. Великолепный лирохвост славится своей способностью имитировать не только пение других птиц, но и звуки, которые он слышит в тропических лесах Австралии, включая щелчки фотоаппаратов туристов, звуки бензопил, используемых для валки леса, а также пронзительное визжание автомобильных противоугонных систем. Дарвин считал, что язык человека мог возникнуть из имитации звуков природы, голосов людей и других животных. Но, обладая более развитыми когнитивными способностями, люди смогли придать звукам более сложные значения. Дарвин писал: «Не могло ли какое-то необычайно умное человекоподобное животное сымитировать рычание хищника и таким образом передать своим соплеменникам характер возможной опасности? Это было бы первым шагом в формировании языка» [45]. Как следует из этой цитаты, в развитии языка участвовал не только половой отбор. У многих видов животных самец во время ухаживания использует большое количество разнообразных звуков, но у человека разнообразие звуков в языке одинаково у мужчин и женщин, потому что мы выживаем за счет умения передавать знания, и в этом наше преимущество[11].
С учетом того, что голосовая мимикрия развивалась у разных видов независимо, можно предположить, что в процессе возникновения речи гоминини могли имитировать звуки. Как же мы перешли от имитации рычания льва к сложным грамматическим конструкциям современного языка? По одной версии, все началось с вокализаций, передающих простые сообщения, например: «Опасность: хищник!» [46] Со временем мозг предков начал отделять эти вокализации и присваивать значения разным частям звука – именно так постепенно появились существительные, глаголы и прилагательные, а также другие языковые структуры, которыми мы пользуемся сегодня [47].
Но как наука может подтвердить эту версию, если у нее нет машины времени? В последние десятилетия были изобретены новые методы исследования, и один из них – компьютерное моделирование – является особенно эффективным. Он позволяет исследователям анализировать любые сценарии и проверять идеи возникновения синтаксиса. Одним из пионеров в этой области является Саймон Кирби из Эдинбургского университета. Его работа продолжает революционные исследования, проведенные в 1980-х годах его научным руководителем Джеймсом Херфордом.
Компьютер Саймона создает популяции говорливых персонажей, называемых «агентами». Подобно естественным популяциям, агенты меняются, некоторые умирают, и рождаются новые. Они также занимаются воспитанием потомства и передают ему информацию. Со временем в эксперименте начинают происходить удивительные события: беспорядочная болтовня агентов друг с другом постепенно становится похожей на простой язык. Фразы, которыми агенты перекидываются вначале, представляют собой случайные цепочки текста, например kihemiwi. Каждой из таких фраз присваивается значение. Например, цепочка текста может означать геометрическую фигуру, двигающуюся определенным образом, скажем, «квадрат, движущийся слева направо». В ходе своей «жизни» один агент слышит высказывания других агентов; его задача – запомнить эти высказывания и связанные с ними значения, а потом их повторить. Конечно, каждый агент может в точности сохранить нужную цепочку текста и ее значение в памяти компьютера, тогда воспроизведение будет абсолютно точным, но не произойдет ничего интересного. Но если компьютеру позволяют запоминать и воспроизводить фразы неточно, агентам приходится искать более эффективные и надежные способы кодирования значений в тексте. Со временем части текста внутри высказывания начинают приобретать особые коннотации, эквивалентные словам, потому что это эффективнее. Возьмем в качестве образца текст kihemiwi. Конец фразы, miwi, означает «квадрат», а начало, kihe, – движение «слева направо» [48].
Саймон объяснил мне, что сначала такие новаторские имитации вызывали насмешки, но постепенно с ними стали считаться, поскольку они представляли собой «антидот чистой интуиции». Проблема сложных систем состоит в том, что трудно предугадать, какой вид поведения возникнет в итоге. Нужно очень сильно верить в результат, чтобы предположить, что структура языка может просто случайно возникнуть из набора простых правил, руководствуясь которыми агенты передают и запоминают сообщения. Но компьютерная модель демонстрирует, что это возможно. Легко догадаться, что многие исследователи относились к такому подходу скептически, но в конце концов счастливый случай привел к эксперименту, давшему идее широкое признание.
В этом эксперименте (а он проводился неохотно) впервые в лабораторных условиях был продемонстрирован культурный обмен языковыми структурами между людьми. Саймон руководил работой студентки Ханны Корниш, которая должна была провести физический эксперимент в рамках дипломной работы. Корниш хотела провести еще больше компьютерных тестов, но такой вариант не предусматривался. Поэтому она решила провести один из тестов не на компьютере, а с реальными людьми в лаборатории. Эксперимент был похож на игру в испорченный телефон с использованием бессмысленных текстов. Саймон прямо заявил мне: «Мы думали, что ничего не выйдет». Однако, на его удивление, эксперимент оказался успешным. Результаты соответствовали тем, что были получены с помощью компьютерного моделирования: произвольные цепочки текста превращались со временем в простой язык. Теперь у других исследователей появилась возможность разобраться в происходящем, потому что в эксперименте участвовали реальные люди, а не непонятные компьютерные коды и алгоритмы. В наши дни методика одновременного использования компьютеров и реальных людей в исследованиях такого типа широко распространена [49].
Имеются и вполне убедительные аргументы в пользу того, что важной составляющей ранней формы языка являлись жесты. Возможно, они вообще были первым языком, но речь более универсальна, чем язык жестов, она позволяет обмениваться сообщениями в темное время суток и освобождает руки для других занятий. Кроме того, она более эффективна, поскольку требует меньших затрат энергии. Если ранние гоминини обладали такими же вокальными способностями, как другие большие обезьяны, в ходе естественного отбора предпочтение было отдано вербальному протоязыку. Как только возник этот протоязык, должна была сформироваться эффективная эволюционная спираль, в которой для увеличения скорости речи должны были усовершенствоваться, с одной стороны, нейронные связи и голосовая анатомия, а с другой – язык, позволивший обдумывать длинные цепочки мыслей, которые в свою очередь стимулировали развитие когнитивных способностей. Но эволюция языка должна была протекать в большей степени как культурное, а не биологическое явление. С появлением языка люди могут адаптировать свое поведение, чтобы повысить шансы на выживание и воспроизведение за счет научения, а не какого-либо генетического преимущества. Биологический естественный отбор сдерживается достижениями культуры. На самом деле язык помог человеку в значительной мере обойти медленное течение биологического естественного отбора.
Когда же примитивный протоязык превратился во всеобъемлющий человеческий язык? Здесь тоже доступна только косвенная информация. Можно ли определить время такой трансформации, отыскав свидетельства наличия высших познавательных способностей, невозможных без наличия мышления, опирающегося на современный язык? Возможно, такими свидетельствами являются краски и украшения, которые демонстрируют наличие символического художественного мышления, или инструменты, создание которых требует сложного планирования, или ритуальные похоронные обряды. В свое время считалось, что археологические находки свидетельствуют о том, что около 40 000 лет назад произошла внезапная культурная революция, но, по-видимому, эта точка зрения была обусловлена местом, где эти самые раскопки проводились. В последние годы все больше исследований переносится за пределы развитого мира – и там тоже обнаруживаются свидетельства абстрактного искусства ранних времен. В различных местах Африки найдены бусины из ракушек с проделанными в них отверстиями, возраст которых примерно 100 000 лет, а в пещере Бломбос в Южной Африке обнаружены таблички с вырезанными на них геометрическими узорами; возраст этих табличек – примерно 80 000 лет [50]. По-видимому, изменения в характере археологических находок 40 000-летней давности были связаны не с резким скачком в когнитивных способностях, вызванным появлением языка, а тем, что современные люди распространились за пределы Африки.
Результаты раскопок показывают, что у неандертальцев практически не было искусства, и нет свидетельств иного символического поведения. Были найдены фрагменты красок и, возможно, рисунки – и все. При этом у человека разумного, жившего в одно время с неандертальцами, уже были музыкальные инструменты и прекрасная наскальная живопись. Многие считают это свидетельством того, что у современных людей, в отличие от неандертальцев, был значительно более сложный язык.
Ранее считалось, что только Homo sapiens обладал развитым интеллектом. В 1866 году Эрнст Геккель составил эволюционное древо, на котором изобразил вид Homo stupidus, обитавший на Земле до Homo sapiens. Когда при раскопках был найден первый почти полный скелет неандертальца («старик из Ла-Шапель»), при реконструкции обнаружилось, что он был больше похож на человекообразную обезьяну, чем на современного человека [51]. В 1920 году в своей книге «Очерки истории цивилизации» Герберт Уэллс предположил: «В отличие от большинства первобытных дикарей, которые, победив враждебное племя, забирали себе его женщин и совокуплялись с ними, настоящие люди, по-видимому, не имели бы ничего общего с неандертальской расой». По мнению Уэллса, Homo sapiens не мог совокупляться с неандертальскими женщинами, потому что они были «исключительно волосатыми, крайне уродливыми или отталкивающе странными» [52].
Такие предрассудки не вполне согласуются с открытиями современной генетики. ДНК свидетельствует о том, что от 1 до 3 % в нашем с вами геноме получены от неандертальцев [53]. Кроме того, благодаря возможности извлекать ДНК из ископаемых останков, исследователи способны изучать прародителей древних гоминини. Кость челюсти современного человека, жившего 40 000 лет назад, которую обнаружили в Пештера-ку-Оасе (Пещера с костями) в Румынии, показала, что его геном на 6–9 % совпадает с геномом неандертальца. Большие сегменты хромосом принадлежали неандертальцам, а это означает, что где-то за четыре-шесть поколений до появления этого человека в его генеалогическом древе был неандертальский предок.
Данные генетики неопровержимо доказывают внутривидовое скрещивание между Homo sapiens и неандертальцем, но могло ли это произойти, если два вида не общались друг с другом? Конечно, сексуальные связи не обязательно возникают по обоюдному согласию. И дети, и женщины могли просто быть захвачены в плен при набегах. Но если предположить более дружественные отношения, то это означает, что неандертальцы и современные люди могли разговаривать друг с другом. Возможно, по мере накопления генетического материала новые исследования ДНК позволят понять, от кого в большей степени происходила передача генетического материала – от мужчин, женщин или от тех и других. Это могло бы пролить свет на социальную динамику между современным человеком и неандертальцем [54].
В последние годы реконструированный облик неандертальца радикально изменился, даже больше, чем если бы он принял участие в телевизионном реалити-шоу «На десять лет моложе» (Ten Years Younger). В Музее естественной истории была сделана реконструкция неандертальца в полный рост, к которой применимы следующие слова профессора эволюционной биологии человека Даниэля Либермана: «Хорошо причесанного неандертальца в костюме и шляпе вы не заметили бы в вагоне метро» [55]. Неандерталец, представленный в музее, ниже современного человека и более коренастый, но у него задумчивое выражение лица и хипстерская бородка.
Эволюция языка – очень противоречивая область исследования, и лишь немногие из занятых в ней ученых готовы обсуждать теории друг друга, не выражая при этом презрения к отличным от их собственных точкам зрения. Саймон Керби говорит об этом так: «Почти все отстаивают позиции, которые, возможно, ошибочны». Позвольте и мне с трепетом внести свою лепту в это разнообразие мнений.
Многие эксперты сегодня согласны, что у неандертальцев была некоторая форма протоязыка. Возможно, это указывает на то, что и у Homo heidelbergensis тоже был протоязык, ведь это последний общий предок неандертальцев и Homo sapiens. Поскольку имеются свидетельства «настройки» голосовой анатомии, размеров мозга и внутривидового скрещивания между неандертальцами и Homo sapiens, вероятно, еще примерно полмиллиона лет назад существовала какая-то форма разговорного протоязыка. Но что-то изменилось, когда 200 000 лет назад появился Homo sapiens. Развитие познавательных способностей, возможно, спровоцированное какими-то генетическими изменениями, привело к возникновению сообщества, в котором более сложно устроенный язык привел к более сложному мышлению, что и позволило современному человеку перехитрить и превзойти неандертальца.
Есть ли шанс точно узнать, какая из теорий верна? Ученые уже продемонстрировали свою исключительную изобретательность в разработке новых способов исследования эволюции языка, поэтому я надеюсь на более точные ответы в будущем. Генетика должна помочь нам понять роль биологической эволюции в этом аспекте. Когда в 2001 году был обнаружен ген FOXP2, играющий важную роль в артикуляции речи, это стало сенсацией. (Об этом гене будет более подробно рассказано в одной из следующих глав.) Был найден даже вариант FOXP2, извлеченный из ископаемых останков неандертальца [56]. Но прежде чем генетика сможет пролить свет на эволюцию языка, ученым необходимо раскрыть сложные взаимосвязи между нашими генами и способностью говорить. Нам также потребуется больше ДНК гоминини. Поиски в области эволюции речи могут осложниться тем, что органы речи не становятся ископаемыми останками, но археологи все равно должны продолжать раскопки.
2 Три возраста голоса
С первого крика в момент рождения до последних слов перед уходом в мир иной – голос сопровождает нас. В среднем за всю жизнь человек произносит около 500 миллионов слов, и вопреки распространенному мнению количество сказанных слов у женщин и мужчин примерно одинаково [1]. Я, возможно, уже превысил эту норму, поскольку в детстве был ужасно болтливым. Мама вспоминала: «У тебя было два старших брата, ты должен был как-то пробивать себе дорогу, вот ты и говорил не переставая».
На своей знаменитой картине «Три возраста человека» Тициан изобразил три стадии жизни: младенчество, зрелость и старость. Наш голос проходит те же стадии, и все начинается в раннем детстве, когда формируются язык и речь. Сегодня я веду программы на радио, но забавно вспоминать, что в детстве мне приходилось заниматься с логопедом. Похоже, я не выговаривал окончания слов. Мой дядя Лес однажды заметил, что я говорил очень много, но при этом умудрялся сказать очень мало, значительно меньше, чем любой из тех, кого он когда-либо знал. На самом деле никакой проблемы не было: я просто не заботился о правильной артикуляции звуков. Не всем так везет, и мы это увидим, когда начнем более детально исследовать первый возраст голоса.
На второй возраст голоса, зрелость, самое большое влияние оказывает половое созревание, когда тело становится сексуально привлекательным, а голос адаптируется так, чтобы наилучшим образом привлекать партнера. Что нравится вам больше: низкий голос Барри Уайта или высокий голос Дэвида Бекхэма? Кажется ли вам хриплый голос Мэрилин Монро более привлекательным, чем страстные нотки в речи Джессики Рэббит в фильме «Кто подставил кролика Роджера?» Конечно, индивидуальные предпочтения имеют большое значение, но, как мы увидим, существуют и универсальные предпочтения, свойственные большинству людей. А что, если нормальный процесс полового созревания нарушается? Один из самых страшных примеров – итальянская опера, где кастрированных мужчин превращали в оперных звезд.
На третьей стадии, старости, постепенное изнашивание тела влияет и на голос. Исследуя некоторые известные голоса – Алистера Кука, The Queen и Фрэнка Синатры, – мы увидим, что хотя у профессионала необычайно сильный голос, даже он постепенно поддается влиянию старения.
Голос достается человеку в момент рождения. До прихода в этот мир наши легкие сплющены и заполнены околоплодными водами. С третьего триместра беременности зародыш в матке может слышать, но не может говорить. Хотя в наши дни доктору не обязательно шлепать младенца, чтобы он издал свой первый крик (обычно бывает достаточно более мягких мер), этот решающий первый крик отмечается медиками. Это важный признак здорового дыхания, входящий в шкалу Апгар, которая используется для оценки здоровья новорожденного в первые минуты после рождения. Я прекрасно помню этот момент, поскольку один из моих сыновей показал очень низкие результаты и его срочно отправили в специальную палату для оказания медицинской помощи[12].
Голос младенца при рождении сформирован в значительно меньшей степени, чем его слух. У него плохо развита гортань, поэтому даже если бы умственные способности младенцев давали им возможность разговаривать, с точки зрения анатомии и неврологии они не были бы готовы произносить слова. Голосовой тракт младенца больше похож на голосовой тракт шимпанзе, а не взрослого человека, гортань расположена высоко. Между тремя месяцами и четырьмя годами гортань опускается, что позволяет лучше контролировать язык и артикулировать звуки.
Исследование 9000 младенцев показало, что они плачут примерно по два часа в день в первые недели жизни, но к 12-й неделе это время сокращается до чуть больше часа [2]. Сначала плач новорожденного представляет собой простейшую вокализацию [3]. Каждая часть этой вокализации представляет собой сначала повышение, а потом резкое понижение тона и громкости. На рисунке на с. 65 показаны три разных крика. В верхней части рисунка дается обычное изображение речи в виде изменения давления по оси времени. Для вокализаций показательным является нижний рисунок, поскольку он демонстрирует изменения в разных частях звука. Гармоники плача показаны темными линиями, которые то повышаются, то понижаются по частоте, создавая слышимые тоновые различия. Новорожденный не может контролировать голосовые связки, так что звук определяется преимущественно тем, насколько сильно воздух выталкивается из легких. Движение голосовых связок осуществляется по закону Бернулли. Этот закон, названный по имени швейцарского математика XVIII века Даниила Бернулли, устанавливает зависимость между скоростью потока воздуха и его давлением. Когда поток воздуха выходит из легких, он должен ускориться, чтобы проникнуть через небольшой просвет в голосовой щели, позволяющий голосовым связкам смыкаться. В этот момент воздух, выходящий из легких, открывает голосовые связки, после чего по закону Бернулли они снова закрываются – так повторяется снова и снова. В середине крика младенец обычно выталкивает воздух из легких с большей силой, поэтому голосовые связки открываются и закрываются быстрее, что приводит к повышению высоты и громкости голоса.
Акустическая характеристика крика новорожденного с последующим более сложным криком, заканчивающимся скрипучим звуком, в котором исчезают отчетливые гармоники
Удивительно, что уже в первых криках проявляется индивидуальность. Результаты одного исследования показывают, что это может быть связано с тем, какие звуки зародыш слышит в утробе. Хотя младенец плохо контролирует свои голосовые связки (его нервная система еще не вполне сформирована), он может изменять дыхание, а от этого зависит, насколько быстро тон и громкость будут сначала повышаться, а затем понижаться. Так младенец меняет интонацию плача. Это выяснили Биргит Мампе и ее коллеги из Вюрцбургского университета в Германии. Они сравнили крики 30 новорожденных из Франции и Германии [4]. Французским младенцам требовалось время, чтобы достигнуть пиковой высоты тона и громкости, а немецким требовалось меньше времени; значит, они дольше задерживались во второй фазе крика, где высота тона и громкость постепенно снижаются. Исследователи показали, что такие интонационные рисунки копируют, соответственно, родные языки. Во французском языке высота тона обычно поднимается от начала предложения до последнего фрагмента, где она снижается; в немецком языке высота тона и громкость снижаются на протяжении всего предложения. Каждый младенец уже начал улавливать интонации голоса матери, слушая ее еще в утробе, и был готов имитировать их после рождения. Это первый признак того, что для установления тесной связи с матерью младенец имитирует ее поведение. Плач очень важен для выживания, поскольку дает возможность беспомощному новорожденному получить поддержку от взрослых. Все родители знают, как трудно игнорировать берущие за душу вопли собственных чад.
Нам известно, что к 24-й неделе беременности плод уже способен слышать звуки и реагировать на них. Несколько недель спустя он может слышать в диапазоне больше октавы, это примерно десятая часть диапазона частот, которые может слышать взрослый человек. В разнообразии звуков преобладают шумы тела матери, такие как «грохотание» ее голоса, бульканье желудка и кишечника, а также ритмичный стук сердца. Прежде чем достигнуть ушей плода, эти звуки приглушаются, проходя через тело матери и околоплодную жидкость. Видимо, это можно сравнить с тем, как и что мы слышим, когда погружаемся с головой в ванну. Для одной из программ BBC я брал интервью у представителей компании, производившей CD с записями имитации утробных звуков в сочетании со спокойной электронной музыкой. В компании считали, что такие записи помогают ребенку уснуть. Я не уверен, что эти диски проходили проверку с научной точки зрения, но исследования доказали, что утробные звуки могут сократить сердцебиение и успокоить недоношенных младенцев в отделении интенсивной терапии [5]. Кроме того, имеются данные о том, что проигрывание приглушенного голоса матери в инкубаторе способствует развитию слуховой зоны коры головного мозга у таких детей. Как показывают исследования плача новорожденных, плод различает ритм и интонацию речи матери, поэтому разумно считать, что недоношенным младенцам также полезно слушать голоса.
А как насчет тех младенцев, которые рождаются в срок? Продаются специальные динамики, которые можно прикрепить к животу или поместить во влагалище и проигрывать музыку, но достоверных сведений о том, что это пойдет на пользу плоду, нет [6]. Скорее наоборот: я бы предположил, что такие устройства могут быть опасны для слуха, потому что мы не знаем, насколько уязвимы уши плода. Будет ли проигрывание музыки способствовать его умственному развитию или замедлит его? Мы не можем ответить на эти вопросы, потому что у нас нет соответствующих научных данных. Поэтому я полагаю, что лучше оставить плод в традиционном звуковом окружении материнского тела и ничего больше не добавлять. Чаще и отчетливее всего плод различает голос матери, и это объясняет, почему новорожденный узнает ее голос и отдает ему предпочтение по сравнению с другими людьми, в том числе с отцом.
Хотя прошли уже годы, но я отчетливо помню собственные безнадежные попытки понять, что означает плач моего сына, и догадаться, как его остановить. Обычно детский плач имеет частоту около 250–450 Гц, эти частоты равны нижнему диапазону скрипки. Но иногда младенец внезапно переключается на значительно более высокие частоты – 1000–2000 Гц – и производит звук, похожий на тонкий писк, что приближается к верхнему диапазону скрипки. Это можно сравнить с тем, как взрослый певец переходит с нормального пения на фальцет [7]. У ребенка бывает и третий тип плача, похожий на скрип. Считается, что он возникает, когда голосовые связки перестают контролироваться, то есть ритмично открываться и закрываться [8].
За первые несколько месяцев жизни младенец расширяет репертуар, соединяя различные виды плача и добавляя ритмические вариации. По мере развития нервной системы сокращается заливистость, поскольку улучшается контроль голосовых мышц. Теперь плач может передавать более сложную информацию – например, голоден ребенок или испытывает дискомфорт. В настоящее время существуют приложения, которые, как утверждается, анализируют эти звуки и вычисляют причину стресса малыша. Например, разработчики Infant Cries Translator обещают, что в 92 % случаев их приложение успешно определит причину плача двухнедельных младенцев и отличит голод от сонливости, стресса, недовольства и скуки [9]. Тем не менее независимые научные исследования эффективности таких приложений не проводились, и даже их производители признают, что от них есть толк лишь в первые шесть месяцев. Я очень удивлюсь, если подобные приложения будут работать лучше слуха и проницательности родителей, которым надо приобретать уверенность в том, что они правильно реагируют на плач своего ребенка.
Легко отмахнуться от плача, посчитав, что он всего лишь сигнализирует о дискомфорте, но в следующий раз, когда ваш малыш зайдется в крике, стоит, пусть и нехотя, насладиться его акустическими характеристиками. Продолжительный приступ гнева состоит из последовательности простых отдельных криков, и у них есть мелодическая линия. Такая интонация является универсальной характеристикой языка, потому что она легко передает эмоции. Когда ребенок делает намеренную паузу в крике, на мгновение закрывая голосовую щель, он демонстрирует способность разбивать звуки на отрывки, а это имеющий решающее значение навык, который понадобится позднее, когда малыш начнет произносить слова.
Хотя плач представляет собой первую вербальную коммуникацию, к счастью, дети вскоре начинают производить воркующие звуки и лепетать. Это очень красивые звуки, которые необходимы для развития языка, когда дети начинают копировать услышанное. Для говорения необходима способность слышать и декодировать звуки, а также нервная система, способная организовать едва различимые движения примерно сотни мускулов, управляющих дыханием, голосовыми связками в гортани и голосовым трактом. Естественно, необходимо, чтобы и слух развился к моменту говорения, иначе это будет напоминать попытку овладения музыкальным инструментом до того, как придет понимание музыки. Но незрелые попытки младенца что-то сказать помогают ему, кроме того, научиться декодировать то, что говорят другие. Звуки речи ограничены голосовой анатомией. Простой иллюстрацией этого факта может стать скороговорка «шла Саша по шоссе и сосала сушку», которая показывает, что существует предел скорости изменений голосового тракта. Следовательно, пытаясь говорить, слушатель осознает ограничения собственной голосовой анатомии, а это, в свою очередь, помогает понять, как создается речь другого.
Невозможно ответить на вопрос, является ли ранняя способность слышать и декодировать речь «встроенной» в мозг или приобретается с опытом. При рождении новорожденный уже может воспринимать около 800 фонем. Эти фонемы являются кирпичиками слов и фрагментами звуков, подобных [a], [у] и [нь] [10]. При условии, что слух зарождается еще в утробе, трудно разделить встроенные обрабатывающие структуры мозга и нейронные цепочки, возникшие до рождения в результате слушания голоса матери. Тем не менее доказано, что при рождении ребенок уже отдает предпочтение звукам, похожим на речь.
Две канадские исследовательницы, Афина Вулуманос и Джанет Уэркер, обследовали младенцев (22 новорожденных от одного до четырех дней от роду) [11]. Они проигрывали малышам записи бессмысленных слов и тоновые звуки, напоминавшие речь персонажей детского телевизионного фильма The Clangers [12]. Реакции младенцев регистрировались с помощью соски-пустышки, подсоединенной к компьютеру, который контролировал интенсивность сосания. Эксперимент был организован таким образом, чтобы звук раздавался каждый раз, когда отмечалось интенсивное сосание. Младенцы очень быстро «сообразили», что если использовать соску, то последует вознаграждение в виде звука. Если звук был интересным, младенец начинал сосать интенсивнее, чтобы услышать, что будет дальше. Но если звуки повторялись, ребенку становилось скучно, и он снижал интенсивность сосания. Как показало исследование, в тех случаях, когда новорожденные слышали речь, они сосали энергичнее и дольше, чем во время презентации тоновых звуков [13]. Дети явно считали речь более интересной. В другом исследовании было показано, что вплоть до трех месяцев дети предпочитают речи некоторые звуки, имитирующие крики обезьян. Возможно, это объясняется тем, что до рождения новорожденные учились различать простые характеристики речи, звучавшие в приглушенном голосе матери. Эти характеристики, как оказалось, присутствуют и в криках приматов. И только спустя несколько месяцев после рождения, когда обработка речи мозгом становится более совершенной, ребенок начинает отличать крики обезьян от человеческой речи.
Воркование, которое появляется в первые месяцы жизни, интуитивно интерпретируется родителями как сигнал дружелюбного и игривого настроения младенца. Когда я спрашивал у разных людей, какие звуки им нравятся больше всего, детское воркование упоминалось часто. Исследования показали, что если родители интенсивно реагируют на эти звуки, то количество и качество детского лепета увеличивается. Следовательно, чтобы стимулировать развитие голоса и языка ребенка и его социальных и когнитивных навыков, нужен дуэт родителя и ребенка. Поэтому неудивительно, что младенцы очень быстро научаются смотреть и лепетать, чтобы обратить на себя внимание других и учиться. Они даже подстраивают свой лепет в подражание слушателю; в одном исследовании было отмечено, что в присутствии отца младенцы используют более низкие частоты, чем в присутствии матери [14]. Если вы любите совмещать свои родительские обязанности и смартфон, будьте осторожны: с четырехмесячного возраста дети точно знают, когда окружающие не обращают на них внимания! Младенец очень тонко манипулирует поведением других людей, потому что для овладения языком ему необходима правильная информация, например чтобы родитель указывал на предмет и называл его.
Эта потребность во взаимодействии была продемонстрирована в исследовании Патриции Куль из Вашингтонского университета, изучавшей девятимесячных американских младенцев [15]. Часть детей занималась с учителем, живым человеком, а другие смотрели видеозаписи или слушали аудиозаписи того же учителя. Детям читали истории на языке, с которым они не сталкивались раньше – в исследовании Куль использовался китайский. Так было сделано специально, чтобы отличить, что дети услышали и узнали в ходе эксперимента, от того, что они уже знали из опыта за пределами лаборатории. Куль регистрировала, насколько хорошо младенцы помнили фонемы китайского языка спустя месяц после прослушивания историй. Она обнаружила, что младенцы лучше взаимодействовали с находившимся в комнате рассказчиком; ни видео-, ни аудиозаписи не давали такого эффекта. Может быть, робот был бы лучше видео? Возможно, ответ будет положительным, поскольку уже доказано, что роботы являются отличными техническими помощниками в обучении языку. Хей Вон Парк, научный сотрудник Массачусетского технологического института (МТИ), работает с роботом Tega, похожим на игрушку Ферби, глаза которой – это мини-экран смартфона, а внутри – специальные механизмы, позволяющие ему наклоняться и двигаться вверх и вниз, отчего он становится то выше, то ниже. В одном эксперименте детям нужно было рассказать роботу историю. Если Tega реагировал, наклоняясь вперед, кивая и улыбаясь в нужные моменты, как внимательный друг, дети рассказывали более сложные и длинные истории [16].
Сыновья любят поддразнивать нас с женой, что мы не помним важные вехи в их жизни, например первые слова. Мы обычно оправдываемся, что воспитывали близнецов и делали все, чтобы выжить. Хотя первое слово является важной вехой в развитии ребенка, самое главное научение происходит на самом деле значительно раньше. Например, резкое увеличение количества слов, которые в состоянии распознать младенец, потому что они являются комбинациями примерно сорока фонем, необходимых для его родного языка. Первый год жизни – это время поразительного развития языка еще до того, как ребенок начнет произносить слова.
В 2005 году был начат необычный эксперимент: Деб Рой, исследователь из Медиалаборатории Массачусетского технологического института, решил записывать все, что происходило, когда его сын бодрствовал. Он хотел зафиксировать появление языка. В каждом углу дома Роя были размещены камеры и микрофоны, и бо́льшая часть того, что слышал и говорил его сын начиная с девяти месяцев до двух лет, записывалось и транскрибировалось. Это составило 8 миллионов слов [17], начиная с произнесения первого слова «мама» до того, как ребенок стал последовательно использовать сочетания слов. Один очень важный фрагмент замедленной аудиозаписи показывает, как в течение шести месяцев формировалось слово «вода» (water). В годовалом возрасте сын Роя называл воду gaga, но постепенно слово изменялось. Приведенная ниже последовательность регистрирует примерно два слова в неделю:
Gaga guga guga guga guga guga guga gega gugu guga guga guga wawa guga guga gugu wawa gaoo gaou yeya gogo wawa gaga gaga guga guga gaga wawat gugu gaga guga guwat gaga woda water gaga guga guga waki wooki wa chew wakri w doz vu cherk waa wa chew water [18].
К концу эксперимента двухлетний мальчик освоил и начал использовать почти 700 отдельных слов. Поскольку запись велась во всех помещениях дома, у исследователя была возможность детально проанализировать, когда и где появилось каждое слово. Неудивительно, что первыми возникли более простые слова (например, «рыба» появилась раньше «завтрака»), а также слова, которые чаще всего произносили присматривавшие за ребенком люди. Кроме того, быстрее осваивались слова, связанные с определенным местом или конкретным видом деятельности, поэтому «ванна» появилась в лексиконе в 11 месяцев, а «голова» – только в 20.
Кроме того, Рой мог изучить собственный разговор с мальчиком и беседы с ним других людей – этот вопрос интенсивно исследовался другими учеными. «Мамин язык» – это распевный голос, которым пользуются взрослые, чаще мамы, когда разговаривают с малышами, однако выражение «мамин язык» не совсем подходящее, потому что таким голосом пользуются все. Я помню, как сам разговаривал так со своими детьми[13]. Часто мы используем такой же преувеличенно выразительный голос, когда разговариваем с домашними питомцами и (хотя и непонятно почему) с иностранцами. В таком голосе излишне подчеркиваются мелодические линии речи, диапазон частот расширяется, так как используется более высокий тон. Такая подчеркнутая интонация облегчает ребенку понимание эмоциональной составляющей разговора.
В первые три месяца жизни ребенка в «мамином языке» преобладают мелодические оттенки, которые постепенно снижаются в тоне, чтобы успокоить и подбодрить малыша, позднее в нем появляются более сложные рисунки. Высокий тон в конце фразы может использоваться для привлечения внимания, а одобрение и поощрение выражаются скорее сначала восходящей, а затем нисходящей мелодической линией. Наирин Рамирес-Эспарза из Коннектикутского университета записала, как взрослые разговаривают с малышами в возрасте 11–14 месяцев, а затем измерила речевые способности детей, когда им исполнилось два года. Дети родителей, которые использовали «мамин язык», выучили в два с половиной раза больше слов в отличие от детей, родители которых пользовались таким языком редко [19].
В «мамином языке» есть еще кое-что, кроме утрированной интонации. По сравнению с обычной речью в нем меньше законченных фраз, он громче и медленнее, звуки и паузы удлиненные. Слова более простые, они повторяются несколько раз, к ним добавляются «детские» уменьшительные суффиксы, например «лошадка, собачка» и т. п. Маленькому ребенку необходимо овладеть одним из самых важных навыков восприятия – умением разбивать речь на отрезки и определять, где начинаются и заканчиваются слова и слоги. Если воспитатель упрощает, замедляет и подчеркивает ритм своей речи, он помогает ребенку понять, как разбивать поток звуков на короткие сегменты, которые затем будут со всех сторон анализироваться мозгом. «Мамин язык» дополняется особым языком жестов, набором упрощенных, энергичных, повторяющихся и гиперболизированных движений. Такой язык тела часто используется родителями, когда они показывают, как управляться с игрушками, например как собирать пирамидку. Если оба эти языка («мамин» и жестовый) синхронизируются, они могут помочь в освоении речи.
Что происходит, если ребенок не может слышать других людей? Многие годы ведутся жаркие споры о том, имеется ли критический период для овладения языком. Суть вопроса сводится к тому, что если до пубертатного периода ребенок не познакомится с языком, то он навсегда утратит способность им овладеть, и эту проблему не смогут решить никакие интенсивные методы обучения. Одно время считали, что найти решение можно, если исследовать детей-маугли – несчастных созданий, которых лишили возможности овладеть языком. Такой пример – история девочки, известной как Джини (это имя использовалось в описании ее случая). В 1970 году ее освободили из заточения в Лос-Анджелесе [20]. Ей было 13 лет, ее держали взаперти в маленькой комнатке, часто привязанной к стулу, и она практически не слышала речь. Несмотря на интенсивную терапию после спасения, Джини смогла научиться лишь элементарным навыкам общения, у нее полностью отсутствовала способность использовать грамматические правила, чтобы объединять предложения. Однако подобные случаи как примеры, подтверждающие наличие критического периода в овладении речью, в настоящее время ставятся под сомнение: имеются и опровергающие эту точку зрения факты. Лишение Джини возможности пользоваться языком было не единственной ее проблемой: над ней жестоко издевались. Кроме того, возможно, у Джини были проблемы с обучением еще до того, как ее изолировали? Нельзя быть уверенными в том, что невозможность слышать речь стала единственным фактором, который мешал ей говорить [21].
И у любящих родителей бывают дети, которые довольно поздно овладевают языком. Глухие от рождения дети могут не сразу освоить язык жестов, потому что их родители, которые слышат, сначала сами должны научиться им пользоваться, прежде чем передать этот навык ребенку. В таких случаях жестовый язык детей может никогда не стать таким же беглым или грамматически правильным, как у тех, кто освоил его раньше. Процесс чем-то напоминает изучение иностранного языка. Если английский язык не является для ребенка родным и он начал изучать его после семи лет, то грамматика и словарный запас будут хуже, чем у тех, кто начал знакомиться с ним в более раннем возрасте. Это относится и к способности понимать. Большинство взрослых носителей японского языка вынуждены прилагать массу усилий, чтобы понять различия между английскими [r] и [l], потому что в японском языке этого различия нет. Напротив, у шестимесячных японских младенцев такой проблемы не возникает [22]. По-видимому, мы рождаемся со способностью усвоить любой язык мира, но примерно к шести месяцам мозг начинает специализироваться на звуках речи, которые он слышит ежедневно. Ребенку необходимо сконцентрироваться примерно на сорока фонемах, используемых в конкретном языке, поэтому он обращает внимание на те звуки речи, которые слышит чаще всего.
Одно из крупнейших исследований в этой области было выполнено Кенджи Хакутой и его командой [23]. Они изучали уровень владения языком у 2,3 миллиона иммигрантов в Америке, носителей испанского и китайского языков. В этом исследовании использовались данные переписи населения США 1990 года, в которой учитывался уровень владения английским языком. Результаты показали, что чем раньше начиналось изучение, тем выше был уровень овладения языком. Является ли это доказательством наличия критического периода в языковом развитии [24]? Наверное, не стоит делать таких выводов, поскольку мозг взрослого все еще обладает способностью адаптироваться в силу своей нейропластичности. Тем не менее способности к обучению ограничиваются воспоминаниями и уже сформировавшимися нейронными связями. Определенные отделы мозга приспосабливаются к родному языку, и хотя у мозга имеется потенциал для изменений, со временем эта гибкость сокращается, по мере того как нейронные сети начинают специализироваться на других задачах.
Это можно понять на примере грустных историй людей, переживших повреждение левого полушария мозга. В детстве это полушарие у большинства людей специализируется на структуре языка и имеет дело с различными его аспектами [25]. Правое полушарие обычно занимается интонацией и ударением звучащей речи, а также ведением дискурса. Если в левом полушарии происходит повреждение, например очаговое поражение, вызванное инсультом, опухолью или травмой, мозгу приходится реорганизовываться. У разных людей это происходит по-разному, но дети часто пользуются преимуществами нейропластичности, так что речевую специализацию принимает на себя правое полушарие, хотя в норме этим занимается левое. Со временем такие люди смогут разговаривать нормально. Однако у взрослых такая значительная реорганизация невозможна, поэтому результатом могут стать различные речевые нарушения, например распространенные последствия инсультов.
Понимание того, что мозг разделен на области, решающие специфические задачи, пришло к людям много столетий назад. Но в последние годы нейронаука отказалась от представления о том, что отдельные функции постоянно закреплены за конкретными отделами мозга. Это подтверждает история человека, известного как F. V. Если ощупать голову прямо над ухом и чуть спереди, можно обнаружить небольшую впадинку. За этой впадинкой на левой стороне находится нижняя лобная извилина, которая принимает участие в речевой деятельности. Эта область мозга включает зону Брока, которая в норме важна для понимания языка и производства речи. Но после удаления опухоли и зоны Брока врачи с удивлением обнаружили, что у F.V. речь почти не пострадала [26]. По-видимому, рост опухоли настолько замедлился, что его мозг успел приспособиться и стал использовать для обработки языка другие области.
Изображение мозга, разделенного на зоны, каждая из которых имеет дело с конкретными качествами (дата неизвестна, возможно, XIX век). Надписи на рисунке: «Познай себя»: френологический журнал и наука о здоровье. Первоклассный ежемесячник. Посвящен «Науке о человеке». Содержит френологию и физиогномику, все признаки характера и как их толковать. Этнология, или Естественная история человека и всех его родственников
Мы делаем поспешные выводы о людях, основываясь на том, как они говорят, но это несправедливо по отношению к людям с речевыми нарушениями. Если человек говорит не так, как другие, это может создать неловкость в общении: например, если такого ребенка будут обижать в школе, у него могут возникнуть психологические проблемы. Заикание часто рассматривается как психологическая проблема, которую можно решить психотерапией. Но это не так. Сегодня считается, что причиной заикания является нарушение мозгового развития, часто обусловленное генетическим компонентом. Заикание может помочь понять, как мозг управляет речью. Оно довольно часто наблюдается в детстве: один из 20 детей от двух до четырех лет в какой-то момент жизни заикается. Это происходит в той фазе языкового развития, когда происходит очень быстрое наращение словаря: ребенок осваивает около четырех слов в день. К счастью, большинство детей «перерастают» заикание, так что часто родителям не стоит беспокоиться. Но если есть опасения, что заикание не пройдет, например, если взрослые в семье тоже заикаются, раннее вмешательство может улучшить ситуацию. Во взрослом возрасте от этого расстройства страдает один человек из ста[14].
Современное представление о мозге; акцент сделан на возможности установления нейронных связей
© Laboratory of Neuro Imaging and Martinos Center for Biomedical Imaging, Consortium of the Human Connectome Project –
Понять причины этого расстройства помогает нейровизуализация мозга. Исследование показало, что у заикающихся людей во время разговора более активно правое полушарие, возможно, так мозг старается выполнить работу, которая в норме делается левым полушарием [27]. Больше информации можно получить с помощью экспериментов, в которых изменяется беглость речи. Удивительно, что при заикании можно использовать хитрые трюки, на время увеличивающие беглость речи. Этот интересный эффект можно увидеть в видеороликах в интернете. Одна из таких техник показана в фильме «Король говорит!», в котором король Георг VI мучительно готовится к публичному выступлению. В одном из эпизодов логопед короля Лайонел Лог на полную мощность включает в наушниках Георга «Свадьбу Фигаро» Моцарта, а король в это время пытается читать наизусть Шекспира. Музыка не позволяла королю услышать собственную речь, и, к своему большому удивлению, он смог бегло продекламировать монолог «Быть или не быть».
Софи Микинз, аспирантка из Университетского колледжа Лондона, экспериментировала с другим методом под названием «хоровая речь», когда один человек громко читает текст в унисон с окружающими. Это позволяет Микинз менять беглость речи и следить за тем, что происходит в мозге, с помощью фМРТ. Используя мощные магниты, сканер измеряет степень насыщения различных отделов мозга кислородом. Когда в какой-либо области повышается нейронная активность, туда направляется больший приток крови, чтобы восстановить запасы, поэтому насыщение кислородом увеличивается. Сканер позволяет определить, какие области мозга наиболее активны при разговоре [28].
В речи точно и скоординированно взаимодействует множество различных областей мозга – его слуховой, моторный, когнитивный и эмоциональный аспекты. Если человек заикается, возникают трудности в продвижении речи вперед. Проблемы возникают из-за нарушения связей между теми областями мозга, которые имеют отношение к планированию речи, и теми, которые управляют голосовой анатомией. Сканы показывают, что единственным отделом мозга, отличающимся у людей с заиканием, является вентральная часть премоторной коры, расположенная немного за бровями, если продвинуться на треть в глубь мозга. Эта область участвует в понимании, планировании и выполнении действий, таких как движения рук, ступней и рта. Но ограниченная активность в этой зоне мозга также приводит к трудностям в синхронизации планирования и реализации речи – например, человек может начать говорить еще до того, как он спланировал то, что хочет сказать. Помимо сниженной нейронной активности в мозге человека, который заикается, обнаруживаются некоторые структурные отличия. Например, могут возникать более слабые связи между вентральной премоторной корой и теми частями мозга, которые обрабатывают услышанное. Но, фокусируясь только на этой части коры, мы упрощаем реальную картину: одно исследование выделило 60 областей мозга, которые могут различаться у тех, кто заикается, а кто нет [29].
Софи Микинз хотела выяснить, способствует ли заиканию обратная связь от аудитории. Ее гипотеза состоит в том, что люди с заиканием уделяют собственной речи слишком много внимания, при этом обратная связь со слухом, которая, естественно, возникла после того, как что-то было произнесено, мешает бегло воспроизвести следующее слово. По-видимому, эта гипотеза находит свое подтверждение в сцене из фильма «Король говорит!», когда громкая музыка препятствует возможности короля следить за произносимым им шекспировским монологом. Другой способ разрушить слуховую обратную связь – проиграть в наушниках собственную речь с небольшой задержкой. Если у человека нет заикания, такой способ заставит его спотыкаться на словах и в конце концов замолчать. Парадоксально, но эта методика может сделать речь человека с заиканием поразительно более беглой. Хотя подобные уловки могут быть весьма эффективными, они не представляют собой долгосрочного решения проблемы, поскольку мозг постепенно адаптируется и проблема обратной связи возникает снова.
В фильме «Король говорит!» Георг сопротивлялся логопеду, ему не нравился такой подход. Но следовало бы поблагодарить доктора за то, что он не использовал древние методы лечения заикания. Полагают, что греческий политик Демосфен решил проблему с заиканием, разговаривая с камешками во рту и читая наизусть стихи на коротком дыхании. Поскольку благодаря нейронауке мы теперь знаем кое-что о причинах заикания, маловероятно, что его можно было вылечить подобными методами. Чтобы выяснить, какие современные (более гуманные и эффективные) методы применяются в наши дни, я обратился к специалисту по речи Кристелле Энтони. Первый раз я узнал о Кристелле, когда увидел ее поразительные вокальные зарисовки в документальном телевизионном фильме BBC. Она пела голосами Кэти Мелуа, Барбры Стрейзанд и Эллы Фицджеральд и объясняла, каким образом умело подстраивала собственную голосовую анатомию для создания разных голосов. Кристелла – логопед и лечила многих людей с заиканием. Она объяснила, что магического способа избавления от этой проблемы не существует. Она выступает за такой подход, при котором заикание перестает занимать центральное место в жизни человека.
Если вы заикаетесь, то, естественно, будете стремиться избегать слов, которые вам трудно произнести. Если, например, выговорить слово «трудный» сложно, можно заменить его на слово «аховый». Но со временем вы будете использовать все меньше слов, и такую стратегию будет сложнее реализовывать, потому что всегда найдутся слова, например имена людей, которые придется выговаривать. Говорят, что писатель Льюис Кэрролл с трудом произносил собственную настоящую фамилию Доджсон. Часть работы по преодолению проблемы заикания состоит в том, чтобы как можно реже прибегать к стратегии избегания. Кристелла старается сделать так, чтобы люди понимали и принимали тот факт, что от заикания никуда не деться. Такое отношение снижает уровень стресса и уменьшает вероятность заикания. Кристелла рассказала историю известного ученого, которому нужно было выступать с ответственными докладами и который, вполне понятно, постоянно опасался, что речь его подведет. Кристелла посоветовала ему в начале доклада упомянуть о своей проблеме, чтобы частично снять стресс и таким образом уменьшить вероятность сбоев.
Я побывал на конференции, где многие поддержали такой подход. Мне, как человеку со стороны, никогда ранее на задумывавшемуся об этой проблеме, встреча с людьми, которые, несмотря на заикание, выступали с речами, помогла многое понять. Сначала мне хотелось, чтобы они побыстрее договаривали слова до конца, но потом я расслабился и стал спокойно ждать, когда они закончат мысль. Беседа с Патриком Кэмпбелом, членом правления Британской ассоциации заикания, позволила мне посмотреть на проблему с другого ракурса. Патрик рассказал о своей жизни и о том, что его «по уши залечили» в детстве. На первом курсе медицинского института он изо всех сил старался преодолеть себя. «Я старался вообще не разговаривать», – улыбнулся он, – но нельзя ведь быть доктором, который не разговаривает!» Сейчас Патрик преуспевающий врач-стажер и спокойно говорит о своей проблеме, которая больше не доставляет ему неприятностей.
Фактически Патрик поставил под сомнение точку зрения, согласно которой заикание считается дефектом, от которого нужно избавляться. Он отрицательно отозвался о типичном медийном отношении к заиканию, приведя в качестве примера телевизионную программу Educating Yorkshire. В одном из выпусков заикающийся студент Мушараф Ашгар использовал трюк с музыкой в наушниках (как в фильме «Король говорит!»), чтобы бегло прочитать доклад. Обозреватель Guardian так описывал реакцию зала: «Его друзья и преподаватели рыдали. Зрители восторженно прослезились. Это был прекрасный триумф, чистое ликование и один из определяющих моментов в истории телевидения в 2013 году». Но у Патрика этот триумф вызвал неловкость. Он объясняет так: «Слушатели не были готовы к тому, что я буду заикаться во время выступления на сцене. И это был лишь маневр, чтобы избежать проблемы, но не решить ее».
Патрик – приверженец подхода, который он назвал «гордиться отсутствием беглости». В своем блоге он написал:
Что, если мы будем бороться за право заикаться, а не будем скрывать свое заикание ради удовлетворения ожиданий общества? Гордиться своим заиканием – значит поставить под сомнение мнение общества и научиться относиться к своей речи с бо́льшим уважением. Многие формы терапии уже ориентированы на то, чтобы научить людей мириться со своей особенностью, но гордость требует, чтобы мы несли отсутствие беглости как флаг. Она требует, чтобы мы встали и выразили сомнение по поводу существующих в обществе ценностей, чтобы мы заикались громко и гордо и показали обществу свой настоящий голос [30].
В завершение беседы я спросил Патрика, хотел бы он, чтобы я вылечил его от заикания, если бы у меня была волшебная палочка. Он многозначительно замолчал, долго думал, а потом сказал: «Думаю, я, пожалуй, предпочел бы заикаться, но точно сказать трудно». Как бы там ни было, но заикание сформировало его личность. Учитывая, что заикание – это факт, а волшебного способа лечения, который навсегда обеспечил бы беглость речи, не существует, я соглашусь, что необходимо изменить отношение общества к этому явлению.
Заикание является хорошей иллюстрацией того, насколько сложен акт говорения. Поскольку большинство людей приобретают беглость речи естественным путем, слишком легко забыть, сколько усилий требуется для этого мозгу и насколько поразительной является способность человека говорить. На примере заикания мы видим, как мало нужно, чтобы нарушить речевое развитие и изменить голос человека. Если учесть, что заикание часто ведет к преследованиям в школе, сложностям в общении по телефону или участии в вечеринках, оно не просто изменяет голос человека, но основательно влияет на всю его жизнь.
Как гены влияют на голос? Конечно, генетика играет определенную роль в заикании. Льюис Кэрролл называл свое заикание «нерешительностью» [31]. Родители Кэрролла были двоюродными братом и сестрой, и почти все из их 11 детей страдали от заикания и в детстве, и во взрослом возрасте [32]. Сегодня считается, что в 30–80 % случаев заикания имеется генетический компонент. К настоящему времени уже определены четыре генные мутации, которые могут быть причиной недостающих нейронных связей.
Заикание – лишь одно нарушение, которое может пролить свет на важность генетики в речевой деятельности. Сложности, с которыми столкнулась «семья КЕ», вызвали в 2001 году преждевременные и преувеличенные заявления прессы о том, что ученые обнаружили «грамматический ген». Интерес к этой британской семье был вызван тем, что расстройства речи у ее членов передавались по наследству. Почти у половины членов семьи наблюдались значительные расстройства речи и языковые затруднения, связанные с невозможностью точно и скоординированно контролировать движения рта, языка и губ. По-видимому, причина этих проблем заключалась в мутации гена FOXP2 в седьмой хромосоме. Сегодня ученые считают, что FOXP2 отвечает за нейропластичность в тех областях мозга, которые связаны с развитием языка. Но называть этот ген «грамматическим» – сильное упрощение. Определить связь между генетикой и речевыми проблемами ученые до сих пор точно не могут.
Неудивительно, что гены оказывают такое влияние на голос, ведь ДНК является начальной программой развития человека. Например, мои гены вместе с генами моей жены определили размер и форму речевого аппарата наших детей. В нашей семье все высокого роста, а это означает, что у нас более длинный (по сравнению со средним показателем) голосовой тракт. Скорее всего, поэтому мои сыновья обладают формантами более низких частот. Но существуют еще и факторы окружающей среды. Мы передали своим детям ДНК, но, кроме того, проводили много времени в разговорах с ними. Мозг адаптируется к тому, что слышит, поэтому речь родителей влияет на речь детей [33]. Конечно, здесь тоже существуют ограничения, что объясняет, почему у моих детей «манчестерский» акцент, хотя мой голос выдает во мне южноанглийские корни, проявляющиеся в растянутых гласных в таких словах, как «ваанна». (Мы узнаем больше об акцентах в главе 4.) Поскольку каждый человек способен изменять размер и форму своего голосового тракта, генетика доминирует только в вопросах половой принадлежности. И именно в период полового созревания голоса мужчин и женщин начинают различаться. В это время у человека развивается тот голос, который будет сопровождать его в течение второго возраста голоса, зрелости.
В период полового созревания тестостерон утолщает и удлиняет мужские голосовые связки. Это приводит к понижению тона голоса обычно на октаву – интервал, подобный большому скачку в начале песни Somewhere Over the Rainbow[15], только наоборот, снижаясь от where до some. В то же время увеличение голосового тракта снижает частоту формантов, что еще сильнее изменяет качество мужского голоса. Однако изменения, происходящие с женским голосом, обсуждаются гораздо реже. В норме голосовые связки девочки-подростка удлиняются примерно на треть и утолщаются, что позволяет до совершеннолетия снизить частоту голоса примерно на три полутона, то есть на интервал между первыми двумя нотами Swing Low, Sweet Chariot[16]. Но высота тона не единственная характеристика, которая изменяется. Примерно у трети молодых женщин голосовые связки не всегда закрываются полностью, что позволяет воздуху просачиваться через них [34]. Это приводит к возникновению придыхания – приема, который использовала Мэрилин Монро во время исполнения песни Happy Birthday Mr President для Джона Кеннеди. Монро намеренно развивала это придыхание как способ борьбы с заиканием, но для большинства женщин оно не является сознательным выбором.
Джи Ксу с коллегами из Университетского колледжа Лондона исследовали, какие качества делают женский голос привлекательным для мужчин [35]. Они проигрывали записи женского голоса и предлагали мужчинам оценить привлекательность женщин. Несколько странная фраза, которая была выбрана для эксперимента, звучала так: «Удачи вам на экзаменах». Но еще более странной оказалась фраза во втором эксперименте с использованием искусственного голоса: «Я должен вам йо-йо». Результаты показали, что в среднем мужчины предпочитали, чтобы женский голос был относительно высоким, с большим интервалом между формантами и с придыханием. Такие характеристики указывают на миниатюрное телосложение и моложавость. Значит ли это, что голос является подлинным сигналом эволюционных преимуществ? Нельзя исключать и влияние культуры. Например, как мы узнаем далее, в наше время женский голос стал более низким.
У мужчин кадык создается выступающим хрящом на передней стенке горла. Это внешний признак изменений в анатомии гортани. Некоторые из таких изменений, в свою очередь, влияют на движение голосовых связок, создавая еще более низкий, более мощный и гармонически богатый звук. Трансформации голосового аппарата в период полового созревания объясняют, почему мальчики-подростки испытывают проблемы с голосом. По-простому это называется «ломка голоса», но на самом деле ничего не ломается: мозг подростка просто заново учится задействовать мышцы, контролирующие изменившуюся гортань. Иногда мозг ошибается, и тогда голос срывается на другой тон.
Возможно, вы удивитесь, когда узнаете, что большинство женщин считают голос Барри Уайта более привлекательным, чем голос Джеймса Бланта [36]. Исследования показали, что в среднем женщины предпочитают мужчин с более низким голосом и с меньшим интервалом между формантами, что сигнализирует о крупном телосложении. И это несмотря на то, что мужчины с низким голосом считаются менее надежными, чем мужчины с более высоким голосом [37]! В среднем низкий голос делает мужчин более желанными для женщин, как и более мужественные лицо и тело, крупная челюсть, выступающие надбровные дуги, широкие плечи и высокий рост. Это особенно показательно в тех случаях, когда женщина ищет партнера на короткое время, а не человека, с которым она собирается связать жизнь. Фактически такое предпочтение связано с менструальным циклом: женщины выбирают мужественных мужчин в тот момент, когда шанс зачатия повышается [38]. Голос, выступающий в роли заместителя размеров тела, объясняет, почему мужчины и женщины обладают разной высотой тона: она указывает на соответствие запросу. Тем не менее важно отметить, что в этих исследованиях приводятся средние показатели женской реакции, то есть некоторых женщин все равно будут больше привлекать мужчины изящного телосложения, похожие на Дэвида Боуи, или мужчины с высоким голосом, как у Дэвида Бекхэма.
Если рассматривать людей одного пола, то голос на самом деле является плохим показателем размера тела, потому что голосовая анатомия очень пластична. Ярким примером является пуберфония, редкое заболевание, при котором мужчины продолжают разговаривать фальцетом даже по окончании периода полового созревания. Они сохраняют высокое положение гортани и напряжение в мышцах, чтобы менять вибрации голосовых связок, и их голос может звучать как пародия на женщин в шоу Монти Пайтона. Причиной пуберфонии часто оказывается какая-либо психологическая проблема, которая мешает несчастному принять новый взрослый голос. К счастью, это состояние корректируется вокальными упражнениями, которые позволяют человеку научиться говорить низким голосом. Истинный голос часто проявляется уже после первой сессии такой речевой терапии; можно воспринять это как чудо, но за несколько недель писклявый голос исчезает навсегда.
Но если голос не является хорошим показателем размера тела, тогда предпочтение, которое женщины отдают низким голосам, должно означать что-то другое. Поскольку снижение тона голоса является следствием действия мужского гормона тестостерона, то высота тона связана с количеством этого гормона в крови в период полового созревания. Тестостерон влияет также на качество и количество спермы, и, может быть, более низкий голос является подлинным сигналом готовности к зачатию? По-видимому, ответ отрицательный, потому что избыток тестостерона пагубно влияет на сперму. Похоже, что между качеством спермы и предпочтением, которое женщины отдают мужчинам с низким голосом, существует любопытный компромисс. Подобный компромисс можно обнаружить и у других животных, таких как полевые сверчки, дрофы-красотки и тараканы [39].
Чтобы представить, как будет звучать мужской голос без тестостерона, можно обратиться к варварской традиции, популярной в XVIII веке. Итальянские оперные суперзвезды барочного периода были кастратами, мальчиков кастрировали в восемь или девять лет, чтобы не позволить тестостерону утолщать голосовые связки в период полового созревания. В подростковые годы эти мальчики проходили интенсивное обучение вокалу. Кастраты могли петь таким же высоким голосом, как мальчики-сопрано, но у них был больший объем легких, выносливость и сила взрослого мужчины. Один из виртуозных трюков состоял в том, чтобы в течение минуты петь музыкальную фразу, ни разу не переводя дыхание. Когда выступал один из самых виртуозных кастратов, например Фаринелли, слушатели кричали не «браво», а «evviva il coltello» – «Да здравствует нож!» [40].
Увеличение числа кастратов было инициировано в конце XVII века, когда папа Иннокентий XI ввел запрет на появление женщин на сцене [41]. Это означало, что самые высокие музыкальные партии могли исполнять только мальчики или мужчины, поющие фальцетом. Однако фальцету не хватает мощи. При нормальном пении голосовые связки вибрируют, открываясь и закрываясь, чтобы разбить воздушную струю из легких и сформировать звук. При пении фальцетом некоторые мышцы гортани расслабляются, что позволяет голосовым связкам полностью растягиваться и значительно удлиняться. Это утончает голосовые связки, поэтому двигаются только их края. Но когда вибрирует меньшее количество мышечной ткани, высота тона голоса естественным образом повышается, поскольку легкая материя вибрирует с большей частотой – вот почему у гитары для высоких нот более тонкие струны.
В Сети есть видео, показывающие, какие изменения происходят с голосовыми связками при нормальном голосе и фальцете. Самые интересные ролики записаны с использованием гибкого эндоскопа, который проходит через нос, а затем заглядывает в глотку из отверстия за мягким нёбом. Из опыта могу сказать, что эндоскоп в носу – это неприятно, но стоит того, чтобы увидеть, как работают голосовые связки. Они жемчужно-белые и похожи на пару занавесок, качающихся вперед и назад. При нормальном пении обе занавески как будто движутся целиком, а при пении фальцетом волнообразно колеблются только края. Когда человек поет фальцетом и давление воздуха из легких увеличивается, чтобы добавить громкости, имеется предел того, насколько громким станет звук, прежде чем едва колеблющиеся голосовые связки откроются полностью. Вот почему кастраты обычно пели верхние партии.
Мальчикам из бедных семей кастрация давала шанс разбогатеть, поэтому каждый год проводились тысячи операций. И хотя некоторые кастраты, такие как Фаринелли, добились величайшей славы и богатства, большинству не так везло, и они с трудом вели нормальную жизнь. А поскольку операции были объявлены церковью вне закона, они проводились сельскими врачами-шарлатанами в условиях большой секретности, без анестезии и с большим риском подхватить смертельную инфекцию. Но запрет не мог помешать кастратам петь в церковном хоре. Чтобы объяснить, почему у мальчика удалены семенные канатики или яички, придумывались невероятные объяснения, например, что ребенка изуродовал клыками дикий кабан.
Одним из последних кастратов был Алессандро Морески (1858–1922), который пел в хоре Сикстинской капеллы. Он закончил свою карьеру в 1912 году, после того как папа Пий Х ввел запрет на варварскую практику. Карьера Морески совпала с изобретением фонографа, поэтому до нас дошли скрипучие восковые записи его пения, сделанные с 1902 по 1904 год. Это единственные записи кастрата, и их легко найти в интернете [42]. Голос Морески имеет тот же диапазон, что и женский голос, но звучит непривычно для человеческого уха. Временами кажется, что это женское сопрано, затем голос начинает звучать так, как будто мальчик-сопрано поет с чрезмерным напряжением. Возможно, слушатели эпохи барокко преклонялись перед этими ангельскими звуками, но я воспринимал их как человек XXI века, и моей первой реакцией было отвращение.
Рисунок XVIII века: оперное представление с участием двух кастратов (слева и справа)
Изображения знаменитых кастратов, таких как Фаринелли, только усиливают мое замешательство. Тестостерон, помимо всего прочего, влияет на окончание периода резкого увеличения роста в период полового созревания. Возможно, кастраты и звучали как нечто среднее между ребенком и женщиной, но при этом они были гигантами – Фаринелли на 25 см превосходил средний рост мужчины того времени. На изображениях мы видим грушевидное тело с очень длинными конечностями и увеличенной в объеме грудной клеткой.
Современные ученые пытались воссоздать голос кастрата, но столкнулись с отсутствием точных знаний об их голосовой анатомии. Были ли резонансы их голосового тракта такими же, как у взрослого мужчины? Это значительно изменило бы тембр голоса. Конечно, трубка над голосовыми связками была бы у кастрата меньше, чем у взрослого мужчины, потому что ее размер определяется размером голосовых связок.
Профессор Йохан Сандберг из Королевского технологического института в Стокгольме попытался реконструировать голос кастрата для телепрограммы BBC. Для этого он соединил звук голосовых связок мальчика-сопрано с резонансами голосового тракта взрослого баритона [43]. К сожалению, на высоких нотах получился «некий презабавный звук» – так это описал Йохан. Голосовые связки мальчика генерируют звук, содержащий одновременно основную частоту и набор гармоник. Типичная частота в середине диапазона составляет 500 Гц, так что в дополнение к ней будут одновременно создаваться кратные ей 1000 Гц, 1500 Гц и т. д. Для некоторых нот одна из этих гармоник будет соответствовать одному из резонансов голосового тракта взрослого, в результате возникнет очень яркий и металлический тон. Но для других нот гармоники и резонансы не будут выравниваться. Таким образом, голосовым связкам не будет хватать усиления и звук будет звучать приглушенно. Если голос кастрата действительно так звучал, то это означает, что простая гамма имела специфический тембр, потому что сила менялась от ноты к ноте. Если учесть, что голоса кастратов превозносились за их качества, то можно понять, почему Йохан с улыбкой назвал «это забавным экспериментом» и не был уверен в достоверности результата. Ему больше понравилось моделировать низкие ноты, поскольку их гармоники соответствовали резонансам голосового тракта [44].
Такое сочетание резонансов взрослого мужчины и тона сопрано могло бы объяснить, почему у кастратов был особенный тембр, отличающийся от тембра современных певцов. В одном тексте XVIII века голос кастрата описывался так: «Чистый и пронзительный, как у мальчиков в церковном хоре, но более громкий, в нем есть что-то суховатое и резкое, но он блестящий, легкий и сильно воздействует на слушателя» [45]. Даже современные певцы с очень высоким голосом не достигают такого звучания. Возьмем, например, представшего перед зрителями в золотом платье и с бородкой трансвестита Кончиту Вурст, одержавшего победу на конкурсе «Евровидение» с песней «Восстану словно феникс». Вурст – взрослый мужчина, который поет фальцетом, поэтому динамика его голосовых связок отличается от незрелых голосовых связок кастрата, а это влияет на тембр голоса. Несмотря на то что голос Вурст/Вурста очень высокий, тестостерон в период полового созревания уже на него повлиял.
Как только голос вступает во вторую стадию – зрелость, он становится сильным и остается таким многие годы. Однако существуют отдельные профессии, которые могут негативно повлиять на голос: один из пяти учителей лишается работы, потому что слишком сильная нагрузка приводит к потере голоса или охриплости [46]. Но если вспомнить, что голосовые связки имеют всего 2 см в длину и открываются и закрываются 200 миллионов раз в год, удивительно, что во взрослом возрасте человек практически не сталкивается с проблемами с голосом [47]. Однако примерно с 60 лет голос начинает изменяться и стареть вместе с организмом. А поскольку в говорении задействуется сложная неврология, контролирующая и тонкую физиологию, голос демонстрирует процесс старения.
Алистер Кук – пример долгой жизни голоса. В течение почти 60 лет он озвучивал на радио программу «Письмо из Америки» (Letter from America) и записал около 3000 эпизодов, причем последний вышел всего за несколько недель до его смерти в возрасте 95 лет. С 1946 по 2004 год эти ежедневные беседы у камина на BBC предоставляли уникальную возможность представить себе, как живут американцы, а также стали удивительным архивом, хранящим историю того, как голос человека менялся с возрастом.
Очень наглядно сравнение самых ранних выпусков «Писем из Америки», трескучих и шипящих фрагментов, датированных 1947 годом, с последними записями 2004 года. Первые были сделаны, когда Куку было 38 лет, они начинались словами: «Год спустя после взрыва первой атомной бомбы…» Последнее письмо – это эпилог второй войны в Ираке. Хотя оно было записано, когда Куку было 95, ведущий по-прежнему остер на язык, как бритва, и проницателен. Но даже этот великий ведущий не мог полностью скрыть влияние возраста на голос. По мере старения слабеющие мышцы вызывают изгиб голосовых связок, и они уже не могут полностью закрываться, что придает голосу придыхание, которое больше заметно у мужчин, – воздух проникает в разрыв между изогнувшимися связками. Это означает, что с каждым выдохом можно произнести меньшее количество слов, таким образом, пожилым людям приходится говорить с укороченными интервалами. Если внимательно прослушать последние записи Кука, можно обнаружить, как часто между фальцетными нотами перехватывается дыхание. Необходимость чаще переводить дыхание вызвана еще и значительным уменьшением объема легких в пожилом возрасте, поскольку межреберные связки теряют гибкость и грудная клетка становится более жесткой [48]. Пожилые люди говорят медленнее, и это тоже можно услышать в записях Кука: в 1947 году он произносил около трех слогов в минуту, но это число уменьшилось до 2,6 к 2004 году – небольшое, но заметное изменение, которое подчеркивает фирменную размеренную манеру Кука говорить.
Но старение меняет не только голосовую анатомию, оно также воздействует на тон речи. В норме в период от 20 до 50 лет высота мужского голоса снижается на пару полутонов, а затем снова начинает подниматься. В 90 лет она повышается на пару полутонов по сравнению с 20 годами (два полутона – это интервал в начале песни Happy Birthday). Этот подъем вызван утончением и изменением волокон голосовых связок, что влияет на их эластичность. Несколько лет назад Ульрих Ройболд с коллегами из Мюнхенского университета провели подробное лонгитюдное исследование известных людей, записи которых хранились в архиве BBC [49]. По высоте диаграмма голоса Кука напоминает хоккейную клюшку: тон его голоса снижался до тех пор, пока ему не исполнилось почти 90, а потом быстро начал повышаться. Его последние передачи произносились на той же высоте тона, что и первые, когда ему было почти сорок. Исследователи отметили и изменения, которые происходили с акцентом Кука за всю его карьеру. В первые несколько десятилетий он был больше похож на американский, но позже приблизился к нормативному английскому.
Исследуя ежегодные рождественские речи королевы Великобритании, Ройболд с коллегами обнаружили, что высота ее голоса за анализируемые 50 лет постепенно понижалась примерно на полутон за десятилетие. Это обычная ситуация для женщин, у которых высота голоса понижается на пару полутонов в период с 20 до 80 лет. Но общие результаты, по данным переписи населения, следует интерпретировать очень осторожно, поскольку у ученых нет достаточного количества записей голоса одного и того же человека на протяжении всей его жизни. Поэтому исследователям приходится полагаться на выборочные данные, полученные от женщин разного возраста, но в этом случае возникают проблемы, поскольку у разных поколений голоса могут различаться по причинам культурного характера. Хорошим примером может служить понижение высоты женского голоса во второй половине XX века. Сесилия Пембертон с коллегами из университета Флиндерс сравнили записи голосов молодых женщин, которые они сделали в 1990-е годы, с архивными записями голосов молодых женщин в 1945 году [50]. Исследователи тщательно подбирали женщин в группах с учетом влияния побочных эффектов (например, количество курящих женщин в каждой группе). В обеих группах женщины произносили одни и те же фразы, такие как «Шотландский диалект богат упреками в отношении зимнего ветра. Все это – слова, которые приносят с собой озноб». В 1990-х годах средняя высота женского голоса была на пару полутонов ниже, чем в 1945 году. Поскольку для этого не обнаружено явных физических или медицинских причин, самым вероятным объяснением является изменение культурных стереотипов. Как мы увидим в главе 4, женщины, у которых тон голоса понижен, воспринимаются как более авторитетные, поэтому такие сдвиги, скорее всего, отражают изменившуюся роль женщин в обществе.
Акт говорения задействует точный неврологический контроль за большим количеством быстро движущихся мышц. По мере старения наблюдается уменьшение количества и размера нервных волокон, контролирующих гортань. Эти и другие неврологические изменения влияют на точность манипулирования голосом. Если просто послушать последнее выступление Кука, можно и не заметить изменений, потому что он выговаривает слова очень четко. Но если прислушаться и сравнить это выступление с записями его первых передач, то обнаружится, что дикция уже не такая хорошая, а слова произносятся не настолько четко.
Похожие изменения можно обнаружить и в голосе одного из самых знаменитых певцов XX века Фрэнка Синатры. Я обратил на них внимание, когда анализировал записи My Way. Выбор этой песни был очевиден, поскольку в ней множество автобиографических моментов. Джо Квинен так написал об этом в Guardian: «Фрэнк Синатра действительно обладал моральным правом спеть эту песню, и именно это сделало My Way такой трогающей до слез. Хулиган, боксер, сердцеед, человек, потерявший все и все вернувший, титан, снова поверженный, и, наконец, живая легенда, превосходящая всех, Синатра на самом деле прожил жизнь, описанную в песне, принял все удары и сделал это по-своему» [51].
Последняя из найденных мной записей этой песни была сделана в 1994 году, когда Синатре было уже почти 80. Его пение на самом деле демонстрирует, что «конец близок», а его когда-то великолепный голос стал грубым в результате интенсивного использования и влияния возраста. Пение стало очень рубленым, возможно, из-за необходимости часто переводить дыхание. Однако остались фирменные приемы Синатры во фразировании и ритме, в том, как он задерживается на некоторых словах, чтобы выразить чувства. Синатра играл с ожиданиями слушателей во фразировании слогов и таким образом брал за живое [52]. Конечно, более ранние записи, сделанные в 50 лет, превосходны с точки зрения мастерства голоса, но для меня звучание 1990-х годов содержит более яркие душевные переживания, потому что голос выдает человека, который уже «пожил сполна».
Можно ли как-то замедлить старение голоса? В последние годы ученые стали обращать на это внимание, потому что продолжительность жизни людей увеличилась. Считается, что количество британцев старше 65 лет к 2050 году достигнет примерно 19 миллионов человек [53]. По данным одного исследования, один из восьми пожилых людей указывает, что на качество его жизни в той или иной степени (иногда значительно) влияют проблемы с голосом. В числе этих проблем значатся тревога и фрустрация из-за необходимости повторять сказанное. Иногда это даже приводит к полной социальной изоляции [54].
Если человек хочет сохранить голос, приходится прибегать к оперативному вмешательству – сомнительной процедуре, прозванной «подтяжка голоса». Из желудка берется жировая ткань, которая вводится как инъекция в голосовые связки для их утолщения и лучшего смыкания, чтобы сделать голос менее хриплым [55]. Однако эффект длится в лучшем случае несколько месяцев, так что, если вы не страдаете от серьезных проблем с голосом, лучше просто обратитесь к логопеду.
Ученые начинают собирать данные о возможности неинвазивных методов сохранения здорового голоса вплоть до пожилого возраста. Как и в случае с другими мышцами, здесь важна зарядка. Говорение будет способствовать сохранению тонуса мышц голосовых связок и гортани. Предполагается также, что оно замедлит деградацию нервов, контролирующих голос. Это извечная проблема «используй или потеряешь». В случае с голосом можно было бы добавить «и не обижай»: избегайте крика, не курите и часто пейте, чтобы смазывать голосовые связки [56]. Существуют специальные функциональные упражнения для голоса, их можно регулярно выполнять и, как было показано в небольшом исследовании 20 певцов хора, они могут улучшить голос на поздних стадиях его жизни [57]. Вот одно такое упражнение: плавно переходите от очень высокой ноты к очень низкой – например, произносите слово «поле» так, чтобы голос не прерывался [58]. Полагаю, что это напоминает посещение тренажерного зала и поднятие тяжестей: некоторым это понравится, но многим будет трудно выполнять упражнения, потому что они однообразны и скучны. Такие упражнения, возможно, будут полезны в случае решения конкретной проблемы, например реабилитации после болезни, или для людей, использующих голос как профессиональный инструмент.
Пожилые люди часто оказываются изолированными от общества, следовательно, реже используют голос. Участие в социальных группах не только помогает старикам справиться с одиночеством, но и положительно влияет на голос, поскольку приходится беседовать с другими людьми. Возможно, лучший способ сохранить здоровый голос – петь в хоре. Доказано, что пение защищает голос от естественного нарушения стабильности: например, оно может помочь уменьшить дрожание и позволяет человеку говорить громче [59]. Во время пения естественным образом тренируется правильное дыхание, а также контролируется гортань и голосовой тракт, и эффект от пения сказывается и на речи [60]. В качестве заключительного довода в пользу пения в хоре скажу: есть исследование, которое показывает, что у певцов солидного возраста голос более молодой, чем у их непоющих ровесников. Участие в хоре – это звуковой эквивалент применения крема против морщин.
И все же даже по мере старения голоса человек и его индивидуальность все равно узнаваемы. Какие же свойства придают речи человека уникальный характер?
3 Мой голос – это я
Когда мы разговариваем, мы не просто транслируем слова. То, как мы говорим, сообщает, кто мы такие, откуда мы родом и как себя чувствуем. Наша манера разговора является важной частью общения, а наша голосовая идентичность сообщает некоторые интимные подробности о нас самих.
Если голос внезапно изменяется, это сильно влияет на то, как человека воспринимают окружающие, – к такому выводу пришла одна несчастная норвежка. Норвегия долгое время была оккупирована Германией во время Второй мировой войны, и в один из воздушных союзнических рейдов на Осло невезучую жительницу города ранило шрапнелью, сбросило с дороги, и она скатилась по отвесному склону. Астрид родилась и выросла в Норвегии, но в результате серьезной травмы головы ее голос изменился, поэтому она говорила как иностранка. Ее невролог отмечал: «Она жаловалась, что в магазинах ее постоянно принимают за немку, и продавцы отказываются что-либо ей продавать» [1]. Астрид никогда не выезжала из Норвегии, поэтому появление акцента привело ее в полное замешательство. К несчастью, владельцы магазинов принимали ее за коллаборационистку. В сухой научной статье, описывающей случай Астрид, сообщалось, что «она постоянно была готова расплакаться». Конечно, оценка была занижена: такое внезапное изменение голоса не могло не вызвать шок, и с этим трудно справиться.
У Астрид возник синдром иностранного акцента (FAS) – болезнь, которая, к счастью, встречается чрезвычайно редко. Она бывает из-за повреждения мозга в результате травмы головы или неврологического заболевания, например инсульта. Хотя окружающие часто приписывают человеку, страдающему этим заболеванием, конкретный акцент (в случае Астрид – немецкий), обычно он определяется собеседником, но не очевиден в голосе говорящего. Если бы Астрид говорила одновременно с носителем немецкого языка, ее акцент, возможно, совсем не был бы воспринят как немецкий; ее невролог считал, что его можно принять также за французский. У людей, страдающих этим синдромом, повреждение мозга затрагивает области, отвечающие за контроль голосовой анатомии, поэтому голос становится дрожащим, а интонации неуклюжими. Речь может оставаться членораздельной, но странное произношение и ритм создают впечатление, что человек говорит не на родном языке. В этом случае слушатель, опираясь на стереотипы, приписывает речи конкретный иностранный акцент. Как мы увидим далее, стереотипы играют центральную роль в голосовой идентичности.
Ник Миллер из Университета Ньюкасла с коллегами опросили 13 человек с FAS, чтобы лучше понять, какое воздействие оказывает болезнь на жизнь человека [2]. Поскольку синдром возникает из-за повреждения мозга, пациенты, как правило, испытывают множество проблем. Но для большинства самым больным вопросом является новый акцент. Они чувствуют, что изменилось их самоощущение. Как заметил один из участников опроса: «Прежний я умер в тот день, когда лишился речи». В то же время человек становится аутсайдером в своем окружении. Одна из заболевших этим синдромом даже поехала в глухую деревушку в Польше в надежде найти других людей, говорящих с внезапно приобретенным ею восточноевропейским акцентом.
Удивительно, но для некоторых людей FAS имеет и положительные стороны. Новый голос дает возможность изменить себя, оставив «плохие» привычки «в старой жизни», отождествляемой с утраченным голосом [3]. Хотя и с меньшей долей позитива, но некоторые часто делают вид, что они действительно стали другими людьми, даже если в реальности единственное, что изменилось, – это голос. Одна женщина, имевшая до заболевания сильный местный акцент, вдруг начала говорить на изысканном «королевском английском». Она вспоминала: «Когда я была в больнице, меня называли Мисс аристократка». Могут стать напряженными и близкие связи. Одна из интервьюируемых женщин отмечала, что новый акцент стал причиной ее расставания с мужем: «Я уже была не той женщиной, на которой он женился, а стала посторонней» [4]. Как и в случае с Астрид, реакции других людей пробуждают предрассудки по отношению к новой «этничности», а это может привести к дискриминации и расизму. Один из участников исследования, у которого появился итальянский акцент, перестал ходить в пиццерии. Он беспокоился: «Если официанты заговорят со мной по-итальянски, думая, что я итальянец, я не смогу им ответить. Они подумают, что я над ними издеваюсь».
Как показывают примеры людей с FAS, голос легко может ввести слушателей в заблуждение. Мозг постоянно использует эвристический подход к научению: он пытается найти в наблюдаемых явлениях уже известные ему модели, чтобы упорядочить огромный объем информации, собираемый органами чувств. Такое упрощение дает мозгу возможность с большей скоростью интерпретировать информацию и начать действовать. Легко увидеть, почему в нашем эволюционном прошлом это было полезно для выживания. Когда вы впервые встречаете человека, вы, скорее всего, прибегаете к стереотипам, чтобы решить, друг он или враг. Удивительно, однако, что в случае с голосовыми стереотипами слушатели часто делают неправильные выводы.
Рассмотрим, например, сексуальную ориентацию [5]. Существует стиль говорения, который люди воспринимают как признак мужской гомосексуальности – и в голове сразу возникают стереотипные образы актеров британской комедии (кэмп), таких как Алан Карр, Кеннет Уильямс или Джулиан Клари с их высокими голосами и специфической интонацией. Но потом возникает замешательство, потому что такими голосами разговаривают и гетеросексуалы, а многие гомосексуалы, наоборот, так не говорят. Ученые исследовали слуховой «гей-радар»: слушателей просили определить сексуальную ориентацию по голосу[17]. Примерно в 60 % случаев участники эксперимента правильно определили сексуальную ориентацию только по голосу – процент успешности соответствовал аналогичным экспериментам с картинками, ориентированными на внешность, и видеотестами, оценивающими движения тела [6]. Хотя результаты оказались выше случайных ожиданий (что приблизило бы показатель успеха к 50 %), все это означает, что в четырех случаях из десяти участники были не правы.
В реальности на мнение людей о чужой сексуальной ориентации влияет неверное представление. Считается, что у геев тон голоса выше, а у лесбиянок ниже, чем у гетеросексуальных мужчин и женщин, но факты свидетельствуют об обратном: используемая слушателями эвристика просто неверна, но она так широко распространена, что актеры, изображая гомосексуальных персонажей, подыгрывают общим представлениям [7].
Существуют другие голосовые признаки, которые могут оказаться более полезными для определения сексуальной ориентации мужчины. Научные исследования показали на отличия в произношении согласного звука [с]. Гомосексуалами этот шипящий звук произносится обычно с задержкой, и он более шипящий [8]. Этот эффект можно получить, если поместить язык за передними зубами или между ними. Попробуйте передвигать язык вперед и назад, произнося слово «стереотип», и вы заметите, каким шипящим становится этот звук. Мел Брукс спародировал его в «Сверкающих седлах» (Blazing Saddles), отдавая своим музыкальным номером дань Басби Беркли. На сцене группа мужчин в цилиндрах и фраках пытается станцевать «Французскую ошибку» (The French Mistake). Очень женственный хореограф Бадди Бизар[18] демонстрирует, как это нужно делать: «ОК, просто смотрите на меня. Это же просто, изнеженные девчонки! Музыку! И смотрите на меня, гомики несчастные». Танцоры отвечают: «Yessssssssssssssssss!» («Дасссссссс!»). Бадди парирует: «Звучит, как будто выпускаете пар».
Джон ван Борсель и Аннелин ван де Путте из Гентского университета обнаружили, что человека, произносящего длинный шипящий звук [с] с большей вероятностью идентифицируют как гомосексуала, независимо от его истинной сексуальной ориентации [9]. Поскольку такая артикуляция встречается у гомосексуалов в два раза чаще, чем у гетеросексуалов, слуховое восприятие такого звучания действительно увеличивает шансы правильно определить сексуальную ориентацию человека. И все же это очень ненадежная подсказка – и еще одна причина считать, что в научных исследованиях успешная идентификация голоса гомосексуалов лишь ненамного превышает случайные величины.
Все это показывает, насколько идентификация голоса выходит за рамки анатомии и включает социальные факторы. Маловероятно, чтобы различия между голосами гомосексуалов и гетеросексуалов возникли по биологическим причинам. Это означает, что различия в речи должны были возникнуть по причинам социальным [10]. Поскольку голос может приспосабливаться, мы можем менять звучание своей речи, чтобы соответствовать той социальной группе, с которой мы себя идентифицируем, и тем самым отличаться от других. Дэвид Шариатмадари, журналист Guardian, лингвист по образованию, считает, что исторические предрассудки против гомосексуалов должны были сыграть решающую роль в развитии стереотипного гомосексуального голоса. «Особый диалект» стал способом идентификации членов гомосексуального сообщества, который обеспечивал безопасное убежище во враждебном мире.
В реальной жизни стереотипный гомосексуальный голос ошибочно рассматривается как женская форма артикуляции. В непросвещенном прошлом это приводило к тому, что власти заставляли школьников говорить таким голосом, который считался более мужским. Американский юморист Дэвид Седарис подробно описал такие эпизоды в своих мемуарах «Обнаженные» (Naked): «Меня и других учеников, которых подозревали в гомосексуальности, в течение многих лет собирали в кабинетах с бетонными стенами, а логопеды один за другим пытались отучить нас шепелявить. Если бы у них был специалист по походке, думаю, нас бы и к нему пристроили». Но на самом деле такая связь неверна: шипящие [с] не являются особенностью типичного женского голоса. Шариатмадари полагает, что это заблуждение могло возникнуть из социальных предрассудков, согласно которым мужчины-гомосексуалы должны быть более женственными, чем гетеросексуалы. В беседе со мной он заметил: «Представление общества о том, что гомосексуальные мужчины больше похожи на женщин, совпадает с таким набором языковых особенностей». Следовательно, произношение [с] с шипением «ошибочно начинает идентифицироваться с особенностями женского голоса». Это может объяснить, почему многие слушатели не правы в том, что у мужчин-гомосексуалов более высокие голоса: наиболее значимым признаком различия речи мужчин и женщин является высота тона. По мере того как отношение к гомосексуальности в наше время меняется, во всяком случае на Западе, вероятно, что голос мужчины-гомосексуала будет становиться все менее значимым, и такая стереотипизация будет уходить в прошлое [11].
Каждый человек проводит много времени, прихорашиваясь и выбирая одежду, чтобы выглядеть лучше. Но много ли найдется людей, которые приложили такие же усилия для улучшения голоса? Догадываюсь, что большинство просто принимают за должное то, что досталось им от природы. Гомосексуалам, напротив, приходится сознательно изменять голос так, чтобы он в большей степени соответствовал их гендеру. Но взрослые транссексуалы сталкиваются с другой проблемой: им приходится говорить с помощью голосового аппарата, который не соответствует их гендерной идентичности. В последние годы резко возросло число людей, которые обращаются к врачам за сменой пола: в 2016 году в Соединенном Королевстве было около 15 000 таких пациентов [12]. Тем, кто меняет пол с женского на мужской, высокие дозы тестостерона могут утолщить голосовые связки и понизить тон голоса[19]. Но для мужчин, меняющих пол на женский, ситуация обстоит сложнее, потому что в период полового созревания тестостерон уже значительно повлиял на их голосовую анатомию. И это не исправить дозами эстрогена. Единственный способ создать что-то похожее на женские голосовые связки – это хирургическое вмешательство, но долгосрочный эффект от таких операций неоднозначен с научной точки зрения [13]. Обычно врачи советуют сначала попытаться обойтись голосовой терапией.
Мы уже встречались с Кристеллой Энтони, когда обсуждали заикание в предыдущей главе. Кристелла помогает также и трансгендерным пациентам разработать голос, который соответствовал бы их новому полу. «Я бы сказала, что при смене пола изменить голос, возможно, – самый трудный этап. Когда дело касается голоса, нет волшебной таблетки, которую можно было бы принять… В основном это практика, и я показываю, что нужно делать». Научиться говорить заново – это сложный и медленный процесс. Обычно требуется от 6 до 12 месяцев, чтобы без усилий заговорить новым голосом. По словам Кристеллы, это похоже на обучение вождению. Сначала нужно осознать каждую мельчайшую деталь выполняемого действия, пока оно не станет автоматическим.
В 18 лет высота тона голоса взрослого мужчины составляет примерно 120 Гц, женщины – 220 Гц. Переучить голос так, чтобы он постоянно подскакивал вверх почти на октаву без напряжения, очень трудно. Кристелла полагает, что примерно треть ее пациентов-трансгендеров говорит сдавленным голосом, который появляется от постоянного напряжения гортани при неправильных попытках сделать голос более женским. И все же чрезмерно сдавленный и мягкий голос, созданный мужской гортанью, может звучать странно. Эффективнее менять высоту тона меньше чем на октаву, этого можно добиться за счет меньшего напряжения гортани. Эта точка зрения подкрепляется научными исследованиями: аудиотесты показывают, что для транссексуалов, сменивших мужской пол на женский, часто достаточно достигнуть нейтральной в гендерном отношении зоны, между типичными мужскими и типичными женскими частотами [14]. Кристелла объясняет, что феминизация голоса требует «аутентичного звучания, а это, к несчастью, означает, что менять голос приходится сильно, а не слегка».
Сложность заключается еще и в «предвзятости реакции»: даже если речь человека в целом похожа на женскую, один-единственный «прокол» может обратить внимание слушателя на истинную анатомию голоса. Кашель или смех могут разрушить, например, «женский» образ, поэтому транссексуалам приходится учиться менять и неречевые звуки. Кашель сразу же выдает размер голосового тракта, который у мужчины на 10–20 % больше, чем у женщины [15]. Изменение тона, создаваемого голосовыми связками, помогает сделать голос более женственным, но если частота резонансов не повышается, то голос все равно будет восприниматься как мужской. Джеймс Хилленбранд и Майкл Кларк из университета Западного Мичигана просили испытуемых прослушать аудиозаписи мужских и женских голосов, измененных по тону и частоте формантов [16]. Если трансформировался только тон мужского голоса, треть слушателей все равно воспринимала его как голос мужчины. Но если изменены были и тон, и частоты формантов, более 80 % мужских голосов воспринимались контрольной группой как женские.
Изменение резонансов голосового тракта – это, вероятно, самая трудная часть в работе с голосом. В одной из научных статей описывается, какие изменения происходят в полости рта, если продвинуть язык вперед или сосредоточенно растягивать губы. Можно таким образом поэкспериментировать с гласным [а], чтобы увидеть, как изменяется голос. Однако Кристелла не использует аналитический подход, основанный на изучении частот. Она предпочитает развивать у своих пациентов слух, чтобы их собственные уши помогали им добиваться нужного звучания. Она использует записи речи пациентов, чтобы дать им возможность услышать то, как их воспринимают окружающие, и считает это очень важным. Поскольку голос говорящего доходит до его ушей отчасти через внутренние вибрации черепа, он звучит более гулко, значит, в действительности голос трансгендера может больше походить на женский, чем это кажется ему самому.
Конечно, голос – это не только набор частот: в нем есть придыхание, модуляции, интонация, артикуляция, громкость, даже движения головы и жесты рук, и эти привычки тоже, возможно, придется изменить, чтобы голос походил на женский. Существует стереотипное мнение, что женщины лучше мужчин описывают вещи, используют больше прилагательных и уточняющих слов (например, «неужели»), а их голоса характеризуются более эмоциональным тоном [17]. Трансгендерному пациенту приходится учиться очень многим вещам.
Понятно, что Кристелла не просто учит новым вокальным навыкам. Для идентичности ее клиентов голос настолько важен, что Кристелле приходится быть одновременно и консультантом, и логопедом. Но не только пациенты-трансгендеры эмоционально связаны с тем, как они говорят.
Человек моментально судит о других людях на основании их голосов. Когда я слышу в телефонной трубке незнакомый голос, то сразу же ищу признаки, которые помогут мне определить, что человек не просто покушается на мое время в попытке что-то продать. Если я слушаю подкаст, то автоматически начинаю строить предположения о личности говорящего. В наши дни делать это на основании бестелесного голоса – обычное дело, но до изобретения фонографа, телефона и радио такое случалось гораздо реже [18]. Однако к концу 1920-х годов большое количество слушателей постоянно включали радио и слушали людей, которых они никогда не видели. В 1927 году был проведен один из первых экспериментов Тома Хэтерли Пира, профессора психологии Манчестерского университета. Пир уговорил BBC пригласить в студию девять человек, чтобы зачитать прозаический отрывок. Еженедельник Radio Times опубликовал анкету, и более 4000 человек прислали свои ответы, как они представляют себе каждого из выступавших. В своей книге «Голос и личность» (Voice and Personality) Пир объяснил, что вдохновило его на этот эксперимент [19]. Он вспомнил, как однажды слушал в наушниках радиопьесу в комнате, освещенной только пламенем камина. Погруженный в пьесу, он мысленно представил себе, как должен выглядеть главный герой, и его заинтересовало, происходит ли то же самое с другими людьми. Интерес к голосовым стереотипам опирался еще и на собственный опыт. Пир писал: «Я сожалею, что столько лет, введенный в заблуждение голосом, который звучал как грохочущий по засыпанной гравием дорожке экипаж, я избегал знакомства с одним из самых дружелюбных из живущих по соседству людей».
В эксперименте чтецами выступали девять разных людей, которые вполне могли бы стать героями детектива Агаты Кристи – среди них были сержант уголовной полиции Ф. Р. Уильямс, мисс Мэделейн Ри и преподобный Виктор Дэмс. Их попросили зачитать сокращенную версию комического эпизода из романа Диккенса «Записки Пиквикского клуба», в котором мистер Уинкль пытается покататься на коньках. Это произведение, которое, по описанию Пира, «отражало литературный вкус среднестатистического англичанина… отрывок, против которого не осмелились бы возражать ни невзыскательные, ни претендующие на интеллектуальность слушатели». Хотя аудиторию попросили заполнить небольшую анкету, опубликованную в Radio Times, многие прислали подробные описания.
Удивительно, как много подробностей «вычитали» люди из каждого голоса. Сержанта уголовной полиции чаще всего описывали как уравновешенного и надежного человека: представляли сильным, крепкого телосложения, плотным, дородным. Но были и прямо противоположные мнения.
Я уверен, что он часто скандалит и нарывается на конфликт, очень грубый, неприятный человек.
Очень человечный, скромный, заслуживающий доверия, честный… Он мог бы хорошо влиять на мальчиков.
Человек, у которого нет ни времени, ни желания читать, который занимается каким-то физическим трудом. Вероятно, он хорошо сложен, здоров, не очень образован.
Как мы видим, следование стереотипам облегчает интерпретацию социальных ситуаций и реагирование на них. Но хотя стереотипы и снимают когнитивные перегрузки и дают возможность быстро принимать решения, они также отражают расистские и сексистские предрассудки. Это продемонстрировал известный психологический эксперимент – тест на неявные (подсознательные) ассоциации, разработанный Махзарин Банаджи и ее коллегами. Он определяет время реакции человека с целью выявления его подсознательной предвзятости [20]. Точные измерения стали возможными в 1990-х годах, когда компьютеры прочно обосновались в лабораториях, а позднее такие тесты и вовсе стали проводиться онлайн, что сделало возможным участие в них сотен тысяч человек. Эксперимент состоял в следующем: на экране одновременно появлялись изображение человека и слово. Участнику теста давалось задание быстро решить, хорошее это слово (например, «любовь», «смех» или «мир») или плохое (например, «рак» или «неудача»). Оказывается, большинство людей, и даже многие афроамериканцы, реагируют на несколько сотен миллисекунд быстрее, когда хорошее слово предъявляется рядом с лицом белого человека, чем когда оно же сопровождается изображением темнокожего человека [21]. Чем вызвана эта разница в скорости реакции? Видимо, когда сочетание слова и фотографии отображает подсознательные предубеждения, мозг обрабатывет реакцию быстрее, потому что она предсказуема. В случае несоответствия, когда подсознательные предубеждения не подтверждаются, – например, лицо темнокожего человека предъявляется вместе со словом «мир», – участники теста ненадолго задумываются и реагируют не сразу.
Чтецы первого дня (слева направо): 1) сержант уголовной полиции Уильямс; 2) мисс Мэделейн Ри; 3) преподобный Виктор Дэмс
Загадочные голоса второго дня: 4) мисс А.KЛ. Робинсон; 5) капитан Хамфри; 6) мисс Марджори Пир
Третий, и последний, день: 7) судья Макклиэри; 8) мистер Х. Кобден Тернер; 9) мистер Джордж Гроссмит
Выражаем признательность следующим фотографам: Чтец № 3, Birtles, Уоррингтон. Чтецы № 4 и № 7, Lafayette, Манчестер. Чтец № 9. Central News
Девять чтецов из радиоэксперимента Пира
Стереотипы служат не только для упрощения когнитивных процессов. Если унизить человека, принадлежащего к другому «племени», можно поставить себя выше и создать коллективную идентичность – так делают футбольные фанаты. Но хотя стереотипы могут привести к фанатизму, без них опыт чтения романов, посещения театра или просмотра телепрограмм был бы очень бедным. И писатели, и актеры играют на стереотипах. Эти стереотипы помогают им создавать насыщенные деталями истории, хотя многие аспекты дополняются воображением читателя или зрителя. Читая книгу, мы создаем портреты героев, совсем не похожих на тех, которые описаны в тексте. Вот почему мы испытываем такое сильное разочарование, когда видим любимых героев на экране не такими, как мы ожидали. Конечно, это несправедливо по отношению к актерам, поскольку они, естественно, не могут соответствовать разнообразным индивидуальным образам, придуманным разными читателями.
Но почему, как это показал Пир, люди создают живые образы героев только по голосу? Когда человек воспринимает историю на слух, это помогает ему понять и проиграть собственное поведение в схожих ситуациях. То же самое происходит, когда мы читаем художественную литературу. Исследования показали, что такое чтение развивает способность человека сопереживать другим людям и понимать их убеждения, желания и поведение – это называется «модель психического состояния». В каком-то смысле это неудивительно: все мы, вероятно, читали романы, которые повлияли на наше мировоззрение и эмоциональное содержание которых осталось с нами даже после того, как мы закрыли книгу. В романе Уильяма Стайрона «Выбор Софи» полячку, мать двоих детей, заставляют выбрать, какого ребенка оставить в живых, а какого отправить в газовую камеру. Когда мы читаем эту душераздирающую историю, невозможно не начать думать, как мы сами поступили бы в такой ситуации. Оказывается, в способности понимать истории и понимать других людей в реальной жизни участвуют одни и те же участки мозга. Согласно одной теории, когда мы читаем или слушаем историю, мы проигрываем модели социальных взаимодействий. Мы учимся себя вести с другими людьми, особенно в таких ситуациях, которые редко встречаются в повседневной жизни. В этом отношении рассказывание историй мало чем отличается от подготовки пилота на авиатренажере, где ему приходится иметь дело с экстремальными, но, к счастью, редкими непредвиденными ситуациями.
Такое моделирование жизни наиболее эффективно, если происходит в голове слушателя. В исследовании, проведенном Дэном Джонсоном и его коллегами из университета Вашингтона и Ли, рассматривалось формирование эмоционального интеллекта на основании чтения художественной литературы [22]. Ученые просили участников эксперимента прочитать историю Эрика, школьника, у которого сложная ситуация дома, потому что его отец – безработный алкоголик и родители постоянно ссорятся. Напротив, его учитель, мистер Хауэрд, выступает в роли суррогатного родителя и относится к Эрику с сочувствием. Участники эксперимента должны были ответить, какие переживания у них возникли по отношению к героям. Участники, которые учились развивать воображение при чтении, сопереживали больше. Они были готовы помогать другим, когда их об этом попросили сразу после окончания теста. Живое воображение помогает нам лучше сопереживать и вести себя добродетельно, что в значительной степени способствует научению [23].
Знание этого факта помогает объяснить, почему в исследовании Пира слушатели радиопередачи BBC дали такие подробные ответы. Хотя они слышали только голоса, в воображении они быстро набросали портреты персонажей, личностные характеристики и внешность которых, возможно, лишь незначительно проявились или вообще не проявились в их речи. Один респондент считал, что у полицейского была обветренная кожа, другой – что судья был хорошо одет, третий – что у девочки были голубые глаза. Пир предположил, что эти догадки могли основываться на впечатлениях от конкретных людей, которых респонденты встречали в жизни. На самом деле стереотипы начинают формироваться в раннем возрасте. В одном исследовании, изучавшем ролевые игры детей от четырех до семи лет, было показано, что дети меняли голос так, чтобы он звучал глубже, и говорили громче, если играли роль отца. Некоторые так входили в роль, что начинали кричать, как рассерженный отец [24]. Однако теория Пира нуждается в корректировке: теперь на нас влияют не только люди, которых мы встречаем лично, поскольку голоса и характеры, с которыми мы сталкиваемся в средствах массовой информации, также формируют наши голосовые стереотипы.
Имеются и физические свойства, которые влияют на голос, не значит ли это, что некоторые описания, данные респондентами Пира, могли быть правильными? Как мы видели в предыдущей главе, старение влияет на звучание голоса, но насколько точно слушатели могут определить возраст говорящего без зрительной подсказки? На самом деле не точно: на протяжении взрослой жизни голос меняется незначительно, поэтому определить возраст непросто. Слушатели пытаются найти подсказки, которые помогут определить возраст человека, и самой полезной, возможно, будет замедленная скорость речи. Все остальное, на что могут опираться слушатели, по большей части ни на что не влияет. Люди предполагают, что низкий голос свидетельствует о солидном возрасте человека, хотя на самом деле мужской голос становится выше по мере приближения к старости [25]. Такие характеристики, как хрипота, резкость и менее точная артикуляция, также не являются надежными показателями возраста. Но подобные заблуждения – это хорошая новость для тех людей, голос которых с возрастом не приобрел таких свойств, это значит, что их возраст всегда будут недооценивать. Когда мы слышим здоровый голос, мы предполагаем, что говорящий моложе своих лет [26].
Другие характеристики, которые отметили респонденты Пира, – это рост и вес. Мисс Ри, без сомнения, была в восторге от того, что некоторые из участников посчитали ее стройной. Можно ли по высоте тона голоса определить рост? Конечно, можно, если сравнить взрослых и детей или мужчин и женщин. Но в пределах определенной группы, скажем взрослых мужчин, голос человека не даст надежных подсказок в этом вопросе. Это может объяснить, почему один из участников теста описал преподобного Виктора Дэмса как «высокого человека», а другой полагал, что он «невысокого роста».
Как может возникнуть мнимая зависимость между ростом и высотой тона голоса? Если посмотреть на другие виды животных, можно заметить, что у мелких животных голоса высокие, а у крупных – низкие: мыши пищат, львы рычат. Это предсказуемо, поскольку более мелкие объекты скорее будут производить более высокие звуки, чем крупные, – скрипка меньше по размеру, чем контрабас. Эта взаимосвязь прослеживается и при сравнении детей и взрослых или женщин и мужчин; но и в этом случае внутри каждой группы, например взрослых мужчин, такой корреляции не будет. Гортань поддерживается подъязычной костью, поэтому ее размер только в очень малой степени определяется другими расположенными рядом костными структурами. Это означает, что высота тона голоса, которая определяется работой голосовых связок, для взрослых мужчин лишь незначительно коррелирует с ростом. Несмотря на противоречивые случаи, например высокие спортсмены с высокими голосами (футболист Дэвид Бекхэм или чемпион в смешанных боевых искусствах Андерсон Силва), наш мозг так быстро вырабатывает простые практические правила (в данном случае правило соответствия высоты тона голоса и роста человека), что разум просто игнорирует такие исключения. Таких исключительных примеров недостаточно, чтобы устранить мнимую корреляцию, поскольку для других источников звука существует выраженная взаимосвязь между размером и частотой звука [27].
Вы когда-нибудь испытывали неприятное чувство при знакомстве с человеком, если вам показалось, что его голос не соответствовал внешности? Когда я впервые услышал, как разговаривает журналистка и писательница Джули Берчилл, меня удивил ее высокий, детский голос. В тот момент она была крайне провокационной колумнисткой, чьи опусы должны были шокировать. Ее фотография рядом со сведениями об авторе, казалось, не имела вообще ничего общего с ее голосом. Исследования, выясняющие соответствие между голосом и внешностью, показывают, что правильные соотношения устанавливаются примерно в 60 % случаев. Конечно, это лучше, чем просто догадка, но все же очень неточно. Стереотипы не только мешают делать правильные выводы. Существует и еще одна проблема: наша визуальная и голосовая идентичность в значительной степени определяется разными частями тела и происходящими в нем процессами.
Голосовые стереотипы влияют также и на то, как мы запоминаем голос, который слышали лишь один раз. Представьте, что вы принимаете участие в научном эксперименте, в котором впервые слышите какой-то голос. Неделю спустя вас просят прослушать записи разных голосов и выбрать тот, который вы слышали раньше. Слыша незнакомый голос, мы автоматически стараемся соотнести его с множеством образцов, хранящихся в памяти [28]. Возможно, вы сравните мой голос с тем, который, по вашему мнению, соответствует среднестатистическому белому англичанину из южных графств, среднего возраста и принадлежащего к среднему классу. Кроме того, некоторое время мы помним отдельные едва заметные детали, которые отличают конкретный голос от остальных. Но со временем эти детали забываются, и остается лишь образ. С точки зрения эволюции нет причины, объясняющей, почему мы должны использовать более эффективные способы идентификации и запоминания голоса не очень хорошо знакомого нам человека: все, что требуется знать, – это друг он или враг. Но проблемы возникают, когда идентифицировать голос нужно для раскрытия преступления.
В 2002 году Дуэйн Джордж был приговорен к пожизненному заключению за убийство 18-летнего Дэниэла Дэйла в Манчестере. Возможно, Дэйла застрелили, потому что он должен был дать свидетельские показания в деле об убийстве. Свидетель опознал Джорджа по голосу, что стало одной из главных улик, и в результате он получил срок за убийство Дэйла. В момент происшествия убийца крикнул «ты покойник», и свидетель сказал полиции, что, по его мнению, это был «голос темнокожего человека» [29]. Понятно, что свидетель ссылался на стереотип, он не назвал именно Джорджа как человека, напавшего на Дэйла, а сделал это значительно позже. Более того, опознание было основано на том, что свидетель слышал разговор Джорджа около магазина четыре года назад. Улика была неубедительной. Когда речь идет об идентификации голоса, недостаточно запомнить отдельные фразы [30]. Кроме того, время, прошедшее с момента разговора Джорджа около магазина до крика нападавшего, должно было значительно уменьшить шансы на успех опознания. Что еще важнее, различия в голосах кричащего и спокойно разговаривающего человека (в данном случае различия между криком нападавшего и разговором, услышанным около магазина) резко снижают шансы на узнавание [31]. К несчастью для Джорджа, эта улика была допущена в качестве доказательства и использована для подкрепления сомнительных данных судебной экспертизы, обнаружившей следы пороха. Лишь в 2014 году приговор был отменен, но к этому времени Джордж уже провел в тюрьме 12 лет. За свое освобождение Джордж должен быть благодарен студентам Кардиффского университета, занятых в проекте «Невиновность». Они доказали, что опознание по голосу и другие улики были недостаточны, чтобы осудить за убийство.
Если у нас возникают проблемы с незнакомыми голосами, как обстоит дело с распознаванием знакомого голоса? Когда мои сыновья выросли, наши родственники в телефонном разговоре стали путать их изменившиеся за период полового созревания голоса с моим. Когда мои сыновья были маленькими, звонившие могли опираться на высоту тона, чтобы отличить мой голос – голос единственного взрослого мужчины в доме. Теперь родственникам приходилось вырабатывать новые стратегии, чтобы нас различать, – и даже сейчас у них это не очень хорошо получается [32]. Чтобы определить по голосу знакомого человека, обычно ему нужно произнести всего несколько слов. В романе Тома Вулфа «Костры амбиций» один из персонажей, Шерман Маккой, случайно набирает свой домашний номер и дозванивается до жены Джуди, а не до любовницы Марии.
Три гудка, и женский голос говорит:
– Алло.
Но это не голос Марии…
– Будьте добры, можно поговорить с Марией?
Женский голос спрашивает:
– Шерман, это ты?
Господи! Это Джуди! Он набрал номер собственной квартиры! Он ошеломлен – парализован!
– Шерман?
Он вешает трубку [33].
Способность узнавать знакомый голос мы приобретаем на самых ранних этапах развития. Скорость биения сердца плода возрастает в ответ на голос матери, но замедляется, когда он слышит голос незнакомого человека [34]. Через четыре месяца после рождения мозговая активность младенца показывает, что голос матери обрабатывается быстрее, чем голос незнакомой женщины или даже отца, голос которого еще плохо определяется на этом этапе. В знакомом голосе мы запоминаем несколько особенностей, уникальных для конкретного человека. Следовательно, нейронная обработка в этом случае является более сложной, чем для незнакомых голосов, где используются образцы голоса. Когда дело касается близких людей, нам нужно идентифицировать окружающих с большей точностью. Мы не знаем, какие части речи распознает новорожденный, чтобы определить голос матери. Но поскольку ребенок познакомился с голосом матери еще до рождения, слушая его через околоплодную жидкость, он может полагаться на мелкие детали. Вероятнее всего, особенно важны тон голоса (как средняя величина, так и изменения на протяжении фразы) и ритм речи.
В некоторой степени способность матери и ребенка узнавать голоса друг друга должна была предшествовать эволюции речи, поскольку эта способность есть у многих других видов животных. Представьте себе пингвина, ковыляющего обратно из похода за пищей и пытающегося отыскать свою пару или малыша в огромной колонии. Пингвины кажутся друг другу совершенно одинаковыми по внешнему виду и запаху, поэтому они преимущественно полагаются на издаваемые характерные звуки. Делать это им приходится в весьма неблагоприятных условиях, состязаясь со свистом антарктических ветров и какофонией, производимой остальными членами колонии.
У императорских пингвинов исключительно сложные модели звукового общения, которые резко выделяются из остального шума. Они вынашивают яйца на собственных лапах, поэтому птицы в колониях все время передвигаются, что затрудняет поиск пары. А когда птенцы вылупляются и сами начинают двигаться, дело еще больше осложняется. Императорские пингвины используют сложные сочетания особых звуковых приемов, чтобы опознать друг друга в этой гуще. Птицы производят звуки с помощью сиринкса, расположенного в месте соединения бронхов и трахеи. У сиринкса имеются две трубки, но большинство птиц при крике используют только одну. Императорские пингвины – исключение из этого правила, и исполняют дуэт сами с собой, гудя одновременно в обе трубки. Так создаются два звука, немного отличающиеся по частоте, звучание их голоса становится резким, потому что один тон сталкивается с другим. Получается, что голоса взрослых особей звучат так, как будто кто-то медленно извлекает кудахтающие звуки из губной гармоники. Научные эксперименты показывают, что императорские пингвины используют большое количество последовательностей, частот и тембров, чтобы родители и птенцы могли друг друга узнавать. Другим пингвинам, например папуанским, не приходится так стараться, потому что они устраивают гнезда и, следовательно, не так много перемещаются. Поэтому крики папуанских пингвинов значительно проще и похожи на праздничные фанфары. Эксперименты с воспроизведением, в которых биологи наблюдают, как животные реагируют на записи звуков различных голосов, показали, что для подтверждения идентичности папуанского пингвина требуется лишь высота тона его крика [35].
Такие эксперименты можно проводить и с людьми. В одном исследовании использовались голоса знаменитостей, таких как Дэвид Фрост и Леонард Нимой. Если проиграть речь Леонарда Нимоя в обратном порядке, его голос можно будет узнать по характерному тембру. При этом проигранная наоборот речь Дэвида Фроста менее выразительна и похожа на голос из «Твин Пикс» [36]. Характерная манера речи Фроста, которая делает его голос узнаваемым, искажается, если речь инвертируется. Эти примеры еще раз подтверждают, каким образом мозг использует особый набор характеристик для узнавания знакомых голосов. Используя множество разных признаков и индивидуализируя их, мы можем определять голоса удивительно точно: можно узнать любимого человека даже в том случае, если он сильно простужен. Хотя способность узнавать голос должна была появиться у человека еще до возникновения речи, сегодня мы значительно лучше с этим справляемся. Количество знакомых людей, которых мы способны узнать, намного больше, чем у любого другого вида, включая других приматов, живущих в социальных группах.
Необходимость в такой мощной системе узнавания в прошлом тормозила развитие технологий распознавания голоса, но сегодня ситуация изменилась. Банки, например британский HSBC, начали использовать системы распознавания голоса в 2016 году для упрощения доступа к счетам. Это освободило клиентов от необходимости запоминать пароли и другие данные. Подобно средствам обработки информации в мозге человека, компьютерное программное обеспечение использует огромное число характеристик для формирования отпечатка голоса, такого же индивидуального, как и отпечаток пальца. Примерно из сотни таких выделенных характеристик речи одни относятся к физическим характеристикам голосовой анатомии, а другие – к поведенческим привычкам, таким как скорость речи, тон и акцент [37]. Некоторые из этих характеристик не должны меняться, когда люди, например, простужаются, иначе система перестанет функционировать, если вы заболеете. Ее также должно быть невозможно обмануть, сымитировав голос человека. Журнал Wired проверил, смогут ли Кевин Спейси и другие пародисты обмануть систему распознавания голоса, выдавая себя за актера Кристофера Уокена в «Охотнике на оленей» [38]. И хотя для человеческого уха пародисты звучали вполне сносно, они не смогли обмануть компьютер. Пародисты могут скопировать поведенческие привычки, такие как акцент и скорость речи, но, как бы они ни старались, они не смогут воспроизвести все характеристики, определяемые голосовой анатомией. И все же существуют вокальные двойники, которые могут обмануть такие системы: в 2017 году репортер BBC Дэн Симмонс продемонстрировал, как его брат-близнец Джо обманул систему распознавания голоса в банке [39].
Есть только один голос, который с нами всю жизнь и который формирует нашу идентичность, но другие его услышать не могут. Это голос, с которым каждый из нас знаком лучше всего: он озвучивает внутреннюю речь. Возможно, вы используете его и сейчас, когда читаете это предложение, а когда я его писал, то делал это в сопровождении внутреннего монолога. Писатели часто говорят о необходимости слышать голос персонажа, чтобы по достоинству его описать. В 2014 году в рамках Эдинбургского книжного фестиваля было проведено исследование, в котором приняли участие 90 писателей, результаты показали, что около 70 % из них могут вполне отчетливо слышать голоса своих персонажей. Однако в большинстве случаев эти персонажи не разговаривают напрямую с автором: это больше похоже на то, что писатель слушает чью-то беседу. Дэвид Митчелл, рассуждая о написании художественного произведения, заметил, что это напоминает «контролируемое расщепление личности. <…> Чтобы что-то получилось, нужно сконцентрироваться на голосах в своей голове и заставить их разговаривать друг с другом» [40].
Голос, звучащий в голове, не просто полезен для чтения и письма, у него имеется множество различных когнитивных назначений. По имеющимся данным, какая-то форма внутренней речи неизбежно сопровождает четверть нашего бодрствования[20]. Например, внутренняя речь важна для кратковременной памяти. Если бы я дал вам свой телефонный номер и вам нужно было бы его запомнить, возможно, вы перечислили бы цифры про себя, используя «фонологический цикл» в кратковременной памяти. Этот цикл состоит из временного хранилища, которое может удерживать слуховую информацию в течение пары секунд, и артикуляторного процесса повторения, который обновляет данные в этом хранилище. Он использует уникальную комбинацию: говорение (внутренний голос произносит числа) и слушание (внутреннее ухо улавливает цифры). Внутренняя речь, кроме того, играет важную роль в мотивации (например, когда вы настраиваетесь перед презентацией или собеседованием) и в принятии решений: в научных экспериментах, участники которых выполняли упражнения с подавлением внутренней речи, это затрудняло их деятельность. Все это – формы осознанной внутренней речи, но есть еще и голос, который мы слышим, когда мысли блуждают. Это такой внутренний монолог, который не решает конкретную задачу, но вербализует мысли. Ученые считают, что в действительности внутренняя речь – это общий термин для двух фактически разных феноменов: произвольной вербализации и фантазии [41].
Важность внутренней речи для ощущения себя иллюстрирует драматический случай Джил Болти Тейлор, американского нейроанатома, которая пережила обширный инсульт, повредивший основные языковые центры ее мозга. Она ярко описывает, как ее внутренняя речь начала разрушаться: «В тот момент болтовня в левом полушарии моего мозга полностью прекратилась. Как будто кто-то взял пульт и нажал кнопку mute. Полное молчание. Поначалу я была шокирована тем, что оказалась внутри пустого разума». Полная утрата внутренней речи длилась пять недель и сопровождалась потерей идентичности. «Доктор Джил Болти Тейлор умерла в то утро, ее больше не существовало» [42].
Внутренняя речь, однако, состоит не только из голоса. Поразмышляйте о нем и поиграйте с ним. Что он умеет? Если мысленно сформулировать вопрос, будет ли интонация в конце подниматься? Может быть, попросить этот голос произнести знаменитые первые фразы из «Звездного пути»: «Космос. Последний рубеж. Это путешествия звездолета “Энтерпрайз”». Замедлится ли ваша интонация, чтобы скопировать взвешенную манеру речи Уильяма Шетнера? Или, может быть, выбрать персонажа со специфическим произношением – ваш внутренний голос хороший пародист?
Внутренняя речь очень гибка и быстра на выдумку. Даже если у вас не получится хорошо воспроизвести вслух речь Дональда Дака, внутренний голос может скопировать некоторые особенности манеры этого знаменитого лопотуна. Можно поговорить с собой с разными акцентами. Два психолога из Ноттингемского университета, Рут Файлик и Эмма Барбер, провели исследование, в котором участники читали про себя лимерики [43]. Стихотворные строки были так хитро продуманы, что рифма в них складывалась только в том случае, если текст произносился с нужным местным акцентом. Вот два примера.
There was a young runner from Bath, Who stumbled and fell on the path; She didn’t get picked, As the coach was quite strict, So he gave the position to Kath. There was an old lady from Bath, Who waved to her son down the path; He opened the gates, And bumped into his mates, Who were Gerry, and Simon, and Garth[21].Если я буду это произносить как житель своего родного города Бристоля, где [а] протяжное и звучит как [аа(р)], то второе стихотворение будет читаться нормально, но последнее слово первого лимерика выпадет из рифмы. Если же я произнесу гласные коротко и буду читать так, как говорят в Манчестере, где я теперь живу, тогда все сложится в первом стихотворении, но не сложится во втором. Файлик и Барбер регистрировали движения глаз участников эксперимента и обнаружили, что если ритму мешал акцент внутреннего голоса, участники возвращались к началу текста и проверяли, что пошло не так. Это демонстрирует, что, хотя они читали лимерик про себя, их внутренний голос звучал в их обычной манере произношения.
Мой внутренний голос, по-видимому, как-то связан с внешним голосом, но внутренний монолог – это не просто внешняя речь без участия голосовой анатомии [44]. Это подтверждается научными исследованиями, которые, наблюдая за работой мозга, изучают, как люди одновременно говорят вслух и используют внутреннюю речь. Конечно, неудивительно, что и для внутреннего монолога, и для внешней речи задействуются классические речевые центры мозга, такие как зоны Брока и Вернике. Но менее ожидаемо то, что активность проявляют и другие отделы мозга. Последние исследования показывают, что, когда внутренняя речь переходит в беседу, в работу вступают те центры правого полушария, которые отвечают за «теорию разума». Это нейронные сети, которые занимаются пониманием точки зрения другого человека. Похоже, что мы беседуем сами с собой.
Как и следовало ожидать, в моторных областях мозга между внешней и внутренней речью имеются различия, поскольку первая подразумевает движение органов речи, а вторая – нет. В случае внутренней речи необходимо участие дополнительных областей мозга, чтобы удерживать моторные части мозга и не давать органам речи двигаться [45]. Когда мозг генерирует внутреннюю речь, ему необходимо знать, что она создается именно самим человеком, а не собеседником. В одной из теорий, объясняющих, как это происходит, этот процесс сравнивается с тем фактом, что человек не может сам себя пощекотать. Когда вы даете своим пальцам команду «щекотать», мозг не только посылает сигнал руке, но и создает «эфферентную копию» этой команды. Эта эфферентная копия используется разумом, чтобы предсказать, какие ощущения должны вызвать щекочущие пальцы. Следовательно, мозг одновременно предвосхищает ощущение щекотки и получает реальную сенсорную обратную связь от кожи, до которой дотрагиваются. Если эти два сигнала совпадают, мозг знает, что это ощущение вызвано самим человеком, и не дает возникнуть ощущению щекотки. Схожий процесс можно использовать для объяснения внутренней речи: моторные сигналы, вызывающие движение органов речи, тормозятся, но при этом создается эфферентная копия команды. Эта копия используется мозгом, чтобы предсказать, что сказал бы голос, если бы двигались органы речи, – это и есть то, что вы слышите. Вы слушаете модель звучания, созданную собственным мозгом.
Это красивая, но слишком упрощенная модель. Хотя, по-видимому, многие формы внутренней речи тесно связаны с проговариванием вслух, словесные фантазии в большинстве случаев не имеют вербального эквивалента – исключением, пожалуй, являются дети, проговаривающие свои мысли вслух во время игры. Кроме того, внутренняя речь – это, по сути, стенограмма того, что могло быть сказано вслух. Это скорее набор тезисов, а не законченная речь.
Профессор Чарлз Фернихоу из Даремского университета посвятил свою жизнь исследованию внутренней речи. Об этом он рассказывает в книге «Голоса внутри» (The Voices Within). Я беседовал с ним в 2016 году на Даремском книжном фестивале, где он с коллегами представлял совместное исследование. Я спросил Чарлза, как внутренняя речь может влиять на идентичность человека. «Она тесно связана с моим Я». Но в то же время она разговаривает со мной, как же это работает? <…> Что все это значит в плане ощущения себя?» Научные исследования показали, что чем больше люди прибегают к внутренней речи, тем выше их самоощущение. И несомненно, можно использовать внутреннюю речь, чтобы изменить свою самооценку. Этот подход составляет основу, например, поведенческой психотерапии.
Чарлз изучает также людей, которые непроизвольно слышат голоса – в медицине это называется слуховыми вербальными галлюцинациями. Если человек слышит голоса, его состояние часто связывают с умственными расстройствами (Чарлз описал распространенный образ человека, схватившегося за голову, потому что его замучили внутренние голоса), но это слишком сильное упрощение. Голоса слышат не только люди с психическими расстройствами: примерно у 1 % людей бывают такие галлюцинации. Что лежит в основе этого явления? Некоторые полагают, что всему виной нарушения в управлении внутренней речью со стороны мозга. Возможно, отсутствует, искажается или задерживается эфферентное сообщение, поэтому мозг не может заключить, что внутренняя речь создается внутри. Это вызывает фантомные голоса, которые могут иметь катастрофические последствия для чувства идентичности человека.
В рамках своего проекта Чарлз сопоставил более 150 онлайн-опросников, полученных от людей, которые слышат голоса. Многие сообщили, что слышат не один голос. «Я отчетливо слышу разные голоса, – написал один участник опроса. – Каждый – это отдельная личность. Часто они говорят мне, как поступать или стараются внушить свои мысли или чувства по отношению к какому-нибудь предмету… Голоса в моей голове разного возраста, у них разный жизненный опыт. Многие рассказывали о себе и называли свои имена» [46].
Опыт таких людей можно описать с помощью избитых литературных клише: человеком повелевали голоса в голове и замучили его. Но даже у этих людей иногда встречаются голоса, которые создают положительные переживания, например выступают в роли ангела-хранителя. «Я наблюдал, как люди вдруг начинают громко смеяться, потому что в этот момент голоса говорят им что-то забавное», – рассказывает Чарлз. Эти и другие примеры свидетельствуют о том, что данное явление, на первый взгляд представляющееся одним симптомом, заключает в себе целый ряд переживаний. Некоторые люди не слышат ни звука. Как сообщил один из участников, «трудно описать, как можно “слышать” голос, который не слышен, но слова, которые используют эти голоса, и передаваемые ими эмоции (ненависть и отвращение) совершенно понятны, отчетливы и несомненны».
Другим кажется, что это реальные звуки.
«В большинстве случаев я могу слышать эти голоса, кажется, будто кто-то стоит рядом. Это не похоже на обычное проговаривание слов в голове; когда ты думаешь, голос не бывает таким же отчетливым, как когда ты говоришь вслух. Ты мыслишь слова, а не тон. Но есть определенный отчетливый тон и индивидуальность, которые несвойственны этим голосам».
Если голоса в голове – это только неспособность мозга распознать созданные им внутренние вербализованные мысли, то напрашивается вопрос, почему в голове может быть несколько голосов ярких и разнообразных личностей. Для большинства несчастных эти голоса – не просто неосязаемая звуковая иллюзия, они в достаточной степени независимы и обладают характером, обычно саркастическим и критическим. И хотя они и возникают внутри, но представляют все же чужую идентичность. Это может быть кто-то конкретный, например старый знакомый, или известная личность (один из участников слышал голос Принца), но многие из тех, кто слышит голоса, полагаются на голосовые стереотипы – например, на общее представление о голосе полицейского или горластого яппи [47].
Ученые спорят о том, как внутренние голоса приобретают самостоятельность[22]. Поскольку внешний голос создается самим говорящим, и, возможно, те, кто слышит внутренние голоса, автоматически делают вывод, что и они контролируются кем-то другим. Исследования на томографе показали, что в процессе слушания активируются те части мозга, которые связаны с движениями речевого аппарата. Следовательно, мозгу действительно трудно интерпретировать голоса, абстрагированные от говорящего и не имеющие самостоятельного носителя. Как бы то ни было, слушатели приписывают этим независимым голосам свойства, основанные на стереотипах.
Последнее исследование Чарлза и его коллег было посвящено анализу использования внутренней речи в процессе чтения. В нем участвовали 1500 любителей книг [48]. При чтении художественной литературы один из семи участников сообщил, что слышал внутренние голоса, которые были «такими живыми, как будто в комнате кто-то находился». Один участник описал момент из «Темных начал» Филипа Пулмана, когда Лира что-то шептала Уиллу: «Он описывает гулкую, интенсивную близость ее шепота, и я слышу и чувствую его на своей шее». Однако яркость такого переживания очень сильно варьировалась, и 30 % участников вообще не слышали голоса или слышали их неясно. Примерно у одного из пяти респондентов голоса из книги переходили в реальную жизнь. Вот как это описал один из участников: «Если я читаю книгу, написанную от первого лица, на мои мысли часто оказывает влияние стиль, тон и словарь текста. Это похоже на то, как если бы персонаж начал комментировать мой мир». Как мы уже видели, живое воображение при чтении художественной литературы, по-видимому, способствует социальному научению.
Как же звучат эти голоса? Обычно читатели комбинируют голосовые стереотипы и знакомые голоса. Чарлз объяснил: «Если я читаю о женщине семидесяти лет и в книге дается ее описание, я могу соединить эти данные с голосом моей матери». Кроме опоры на знакомые голоса, человек также прибегает к стереотипам, поскольку именно они формируют реакции на незнакомые, внешние голоса – будь то норвежские продавцы, принимавшие несчастную Астрид за немку, или ошибочные выводы, которые преобладали в ответах участников радиоэксперимента Пира.
4 Харизма голоса
«Постправда» – это слово в 2016 году Оксфордский словарь назвал словом года. Тогда казалось, что харизма говорящего более важна, чем достоверность любых заявлений. Проводя кампанию за выход из Евросоюза, Борис Джонсон беззастенчиво совершал турне по стране в предвыборном автобусе, на котором большими жирными буквами была написана ложь. Эксперты были в ярости: «Управление статистики Великобритании с сожалением отмечает продолжающие сыпаться обвинения в том, что Соединенное Королевство еженедельно выплачивает Евросоюзу 350 миллионов фунтов стерлингов. <…> [Так] вас вводят в заблуждение». Дональд Трамп стал президентом Соединенных Штатов, прикрываясь таким количеством лжи, что двум третям его заявлений, проанализированных Washington Post, присудили четыре «Пиноккио» [1]. Он заявлял, что «категорически против войны в Ираке», несмотря на то что в одном из ранних интервью, запись которого сохранилась, он говорил прямо противоположное.
Частично харизма представляет собой акустическую привлекательность говорящего. Как мы увидим, типичного харизматичного голоса не существует, поэтому хороший оратор приспосабливается к аудитории. Мастера этого дела – политики, потому что они должны менять свой подход в зависимости от того, где они выступают: на крупном митинге, неформально беседуют с избирателем на пороге его дома или дают важное интервью на телевидении. Объектом исследования харизматичных голосов в основном являются политики, но все мы используем подобные приемы. Родитель, старающийся уговорить упрямого малыша поделиться игрушками, нервничающий соискатель, желающий заполучить работу мечты, или взбешенный покупатель, пытающийся заставить компанию выплатить ему компенсацию, – все мы прибегаем к голосовой харизме.
Греческий философ Аристотель предложил три способа убеждения: этос, пафос и логос. Этос – это способность оратора внушать доверие, она включает такие характеристики, как открытость, простота стиля и бесстрашие. Пафос – умение оратора почувствовать и отразить эмоции аудитории. Логос представляет собой рациональный аргумент. В политике постправды, по-видимому, этот последний принцип убеждения стал необязательным довеском, и победило бахвальство. Опасения по поводу того, что высокое ораторское искусство может повести толпу по неправильному пути, не ново. Цицерон, возможно величайший оратор и политический деятель Римской республики, писал:
Красноречие – одно из высших проявлений нравственной силы человека… Но чем значительнее эта сила, тем обязательнее должны мы соединять ее с честностью и высокой мудростью; а если бы мы дали обильные средства выражения людям, лишенным этих достоинств, то не ораторами бы их сделали, а безумцам бы дали оружие[23] [2].
Современная аргументация реализует этос посредством личных историй, популярных высказываний и шуток, а пафос принимает форму эмоциональных историй, которые затрагивают душевные струны. Даже известные ораторы, такие как Барак Обама, иногда отказываются от логоса и прибегают к лозунгам. «Да, мы можем!» – всем известная фраза, популяризированная детской телепрограммой «Боб-строитель», и эта пустая фраза сработала, потому что избиратели наполнили ее своими сокровенными желаниями.
Когда животные поют, визжат или рычат, они обычно стараются повлиять на поведение окружающих. Горбатый кит поет, чтобы привлечь самку, кот шипит, чтобы отпугнуть соперника, а соловей издает трели, чтобы обозначить свою территорию. Люди не так разнообразны. Политики, родители, профессора – все используют голос, чтобы манипулировать поведением других. И речь идет не только о словах, которые для этого используются. Ритм, ударение и интонация, все, что специалисты называют «просодией», может многое сказать о говорящем, например, о его эмоциональном состоянии, личностных характеристиках и происхождении.
Важным компонентом просодии является акцент. Он отражает воспитание человека и относит его к группе населения, которой свойственна определенная традиция произношения. Политиков часто критикуют за то, что они изменяют свой акцент, чтобы соответствовать аудитории. В ходе праймериз Республиканской партии во время выборов президента США в 2015 году, Скотта Уокера, губернатора Висконсина, критиковали за то, что он избавился от классического северо-центрального акцента. Пытаясь понравиться избирателям всей страны, Уокер оставил «“Вискаансин” дома в Висконсине» [3]. Такое ослабление акцента – довольно распространенное явление, и в Соединенных Штатах политики обычно обучаются «стандартному американскому», смягченному варианту произношения, который используется большинством дикторов. Тем не менее изменение голоса политика может оказаться непреднамеренным, в конце концов, все мы – голосовые хамелеоны. Будучи студентом университета, я жил вместе с Брайаном из Барнсли. Я помню, как его йоркширский акцент усиливался, когда в гости приезжали друзья из родного города. Тогда его речь становилась практически нечленораздельной для моего южного уха. Но если меняется акцент политика, общественность часто интерпретирует это как свидетельство его ненадежности.
Исторически многие британские политики старались соединить собственное произношение с элементами «нормативного английского» (RP). Этот вариант английского произношения считается типичным британским, хотя он используется всего 2 % населения и его редко можно услышать в Шотландии или Северной Ирландии [4]. RP отличает медленная речь, в которой полностью артикулируется каждый согласный звук[24], аристократическое [о] произносится округленными губами, и используется открытый гласный [а], отчего слова типа path звучат как parth. С лингвистической точки зрения это молодой тип произношения. Когда в середине XVIII века доктор Джонсон создал свой знаменитый словарь, он не включил в него рекомендации по произношению, потому что у образованных людей оно различалось. Общность в этом вопросе могла появиться только с возникновением RP в XIX веке. Этот вариант произношения сложился в среде фешенебельных лондонцев, которые таким образом сигнализировали о своей принадлежности к «высшей» социальной группе. В отличие от сильных провинциальных акцентов и кокни рабочего класса Лондона этот тип произношения необычен для Британии, поскольку указывает лишь на социальную принадлежность и образование, но дает только самые общие географические представления – трудно сказать, из какой местности говорящий.
Нормативное английское произношение, RP, использует столичная элита, университеты и привилегированные частные школы, его можно услышать на заседаниях суда и на сцене. Именно так говорили великие актеры Лоуренс Оливье и Джон Гилгуд в постановках Шекспира. Провинциальный акцент в театре можно было услышать только в комедийных ролях, например в речи ткача Основы в пьесе «Сон в летнюю ночь» [5]. Когда началось вещание, RP был принят на BBC и оставался стандартным произношением на протяжении большей половины XX века [6]. Первый генеральный директор BBC, лорд Рейс, предпочитал RP, потому что его могли понимать все, как в стране, так и в колониях. Лишь недавно разнообразие акцентов на радио и телевидении BBC стало обычным делом.
Став языком элиты на всей территории Британской империи, RP стал «королевским английским». Именно такому произношению в наши дни обучают людей, изучающих английский как второй язык. Удивительно, но оно пользуется популярностью и в Голливуде. Клишированное представление об английском характере делает RP идеальным произношением безжалостного, бесстрастного убийцы – вспомните Джорджа Сандерса в роли Шерхана в оригинальной постановке «Книги джунглей». Это также идеальный голос злодея в каком-нибудь фильме о «маленьком человеке», сражающемся с власть имущими. Ничто не выдает власть имущих так явно, как безукоризненное английское произношение. Хорошим примером является фильм «К северу через северо-запад» Альфреда Хичкока, где Кэри Грант играет менеджера по работе с клиентами в рекламном агентстве, случайно попавшего в международную шпионскую организацию. Грант говорит с американским акцентом, но Джеймс Мейсон, играющий злодея Вандамма, говорит на RP [7].
Моя мать Дженни говорит на типичном RP. Если вы с ней встретитесь, то решите, что она аристократка. И никогда не догадаетесь, что она родилась в Ливерпуле и переехала на юг Англии только после Второй мировой войны: у нее нет даже намека на ливерпульский акцент. Фактически ее голос демонстрирует влияние британской классовой системы. Родители Дженни были из Южной Англии, и ее мать боролась за то, чтобы Дженни не подхватила местный акцент рабочего класса. Как объясняла мне мама, «в то время все мы хорошо осознавали различия в социальном положении, и она не хотела, чтобы мое произношение было грубым». В Ливерпуле мама посещала уроки дикции, где приходилось выполнять особые упражнения, чтобы научиться четко произносить согласные в начале и в конце слова. Ей приходилось учить детские стишки и скороговорки [8]. Она так много этим занималась в детстве, что и сегодня может с великолепной артикуляцией прочитать наизусть отдельные стишки и скороговорки.
В предисловии к пьесе «Пигмалион» Джордж Бернард Шоу написал, что «ни один англичанин не откроет рта без того, чтобы не вызвать ненависти или презрения у другого англичанина»[25]. Шоу использует акцент Элизы Дулитл как центральный прием повествования в описанной им истории любви. Акцент кокни, на котором разговаривает Элиза, преображается после уроков дикции, и это позволяет ей приобрести респектабельность среднего класса [9]. Но моя мама обнаружила, что произношение RP не всегда может сослужить хорошую службу, потому что время от времени она сталкивается с теми, кто считает ее слишком аристократичной и заносчивой. Чтобы не создавать такое впечатление, мама применяет тактику, которую она называет «более выразительный язык», другими словами, брань.
Не только она страдает от ложного восприятия себя другими людьми. Вот, например, диалог из книги Джен Кэмпбелл «Странные вещи, которые покупатели говорят в книжных магазинах» (Weird Things Customers Say in Bookshops).
Продавец. Вам нужен пакет? Есть пластиковые и бумажные.
Покупатель. Мне бы нужен был пакет, но вы сказали «пластиковый пакет», а не «плаастиковый пакет», и раз вы так сказали, мне никакой пакет не нужен.
Продавец. Не уверен, что люди говорят «плаастиковый пакет». Кстати, я из Ньюкасла, поэтому я говорю «ванна», а не «ваанна».
Покупатель. Ну, ясно, образование у вас никакое.
Образование, скорее всего, сделает акцент не таким выраженным, однако приведенный выше диалог объясняет, но не извиняет возмущение покупателя.
Нам легче понимать людей, которые разговаривают так же, как и мы сами. Исследования показывают, что мы скорее предпочтем голос, походящий на наш собственный. Нетрудно предположить, что акцент был важен для выживания. Представьте себе сцену эпохи неолита: кто-то ночью приближается к лагерю. Голос может оказаться единственной подсказкой, по которой можно определить, кто приближается: друг или враг. Акценты и диалекты дают еще одно эволюционное преимущество: они побуждают к сотрудничеству и альтруизму, а также усиливают сплоченность группы. Они также могут объяснить, почему мы практически не различаем варианты произношения людей из других стран. Для выживания полезно идентифицировать человека как не принадлежащего к группе; более тонкое понимание того, откуда они, – это уже другой вопрос.
Выбор звуков, формирующих акценты, скорее всего, случаен, поскольку то же самое происходит и у других животных. Акценты есть у многих видов: например, короткие глухие удары, которые тихоокеанская треска производит своим плавательным пузырем, гораздо глубже, чем звуки, производимые ее европейскими родственниками, а особенностью атлантической трески являются монотонные стоны [10]. Такие региональные варианты возникают, когда группы особей одного вида расходятся на дальние расстояния и перестают контактировать друг с другом. Их голосовые сигналы постепенно начинают различаться [11]. То же самое происходит и у людей. Язык и произношение изменяются постоянно. Если племена расходятся и нечасто общаются друг с другом (возможно, они оказываются по разные стороны горного хребта), возникают и устанавливаются разные диалекты и акценты.
До самого последнего времени считалось, что слова, которые мы используем в качестве существительных, глаголов и прилагательных, возникли случайно. Действительно, изучение слов, называющих звуки, производимые животными, на первый взгляд подтверждает, что языковые модели разных языков в значительной степени произвольны. В английском свинья «произносит» oink oink, но в японском – bubububu, а во французском – groin, groin. Можно было бы предположить, что для имитации голосов животных языки станут использовать звукоподражание и в разных языках возникнут примерно одинаковые звуки. Одна из причин, почему этого не происходит, – наличие в каждом языке лишь ограниченного количества фонем, что затрудняет использование слов, точно имитирующих некоторые крики животных.
Обычно звучание слова редко напрямую связано с его значением. Иконические слова являются скорее исключением, очевидные примеры – звукоподражательные слова типа «дин» и «дон» [12]. Удивительно, но язык, в котором нет иконичности, оказывается более эффективным и надежным средством передачи информации. Тем не менее одно из последних исследований, основанное на большом количестве данных, обнаружило в языке больше иконичности, чем ожидалось. Дамиан Бласи из Цюрихского университета с коллегами изучали слова, используемые для называния самых важных для человека вещей (например, местоимения, цветообозначения и наименования частей тела), и обнаружили, что здесь действуют некие скрытые правила. Исследуя списки из 6000 языков, они увидели, что неродственные языки часто используют или избегают использования конкретных звуков для определенных понятий [13]. Возьмем, например, выступающую часть в центре нашего лица. В Исландии это называется nev, в Японии – hana, а для говорящих на языке spar в Южном Чаде это kon. Естественно, по-английски мы называем это nose. Все эти слова содержат звук [н] [14]. И для этого могут быть причины. Попробуйте сказать «нннн», а потом зажмите нос, произнося этот звук: вы обнаружите, что звук выходит только из носовых каналов, потому что язык перекрывает рот.
В исследовании было также обнаружено, что некоторые звуки никогда не встречаются в обозначениях определенных понятий: например, в местоимении «вы» в большинстве языков нет звука [о] или [у]/[ю]. Возможно, вы пару раз перечитали предыдущее предложение потому, что в нескольких распространенных языках, например в английском, эти звуки как раз есть. Такие любопытные исключения будут встречаться, потому что исследование стремится отыскать общие закономерности у тысяч языков. В самом деле, исследователи обнаружили, что английский язык как раз и является таким исключением. По-видимому, общеупотребительные слова чаще схожи во многих языках, чем этого можно было бы ожидать, причем и для языков, не имеющих общего языкового предка. Возможно, такая общность проявилась потому, что исследование фокусировалось на базовом словаре, который человек осваивает в раннем возрасте. Вероятно, что эти слова в большей степени обладают иконичностью. Только позднее, когда словарь увеличивается и мозгу становятся нужны более эффективные способы языкового обозначения действительности, иконичность становится нелучшим способом это сделать.
Британия отличается от многих стран тем, что на ее территории небольшого размера встречается огромное количество вариантов произношения. Подсчитано, что в среднем через каждые 30 км можно встретить другой акцент [15]. Я живу в Манчестере, который находится всего в 50 км от Ливерпуля. Несмотря на это, в указанных двух городах люди говорят по-разному. В данном случае вероятной причиной сохранения языковой уникальности оказалось соперничество между ними. Сравните манчестерцев братьев Галлахер из группы «Оазис» с их музыкальными идолами The Beatles из Ливерпуля. Общее в музыкальном звучании обеих групп понятно, но речь участников сильно отличается. Даже простое сравнение названий городов, откуда родом эти музыканты, демонстрирует различия: «Ливэпюл» (Liverpiwl) или «Манчестаа» (Manchestahhh).
Исследования последних лет показали, как меняется карта акцентов и диалектов Британии. Мобильность постепенно превращает нас в языковых полукровок, и становится все труднее определить происхождение человека по его голосу. Адриан Лиман – эксперт в области лингвистики и фонетики из Ланкастерского университета, он и его коллеги разрабатывают мобильное приложение, которое будет отображать на карте акценты и диалекты разных стран. По словам Адриана, его всегда интересовали различия в произношении разных людей, и теперь он хочет «совместить новые подходы, например приложения по краудсорсингу, и традиционные, например диалектологию». Он надеется, что со временем эти методы позволят ему выявить, как универсальные языковые модели различаются в разных странах.
Карта произношения слова scone на Британских островах. На карте: справа вверху – «рифмуется с gone»; слева внизу – «рифмуется со stone». Темные участки показывают области, где все произносят scone подобно stone; очень светлые участки показывают местности, где почти все рифмуют scone с gone. Серые участки показывают местности, где возможны оба варианта произношения
© Adrian Leemann, David Britain and Tam Blaxter
В приложении для Соединенного Королевства жителям задавался вопрос, как они произносят слово scone – как gone [ɡɑːn] или как stone [stəʊn]? Пожалуй, нет другого слова, которое вызывало бы в пабе столько разногласий по поводу произношения. Почему это название булочки стало таким спорным и даже стало считаться надежным лингвистическим маркером социального класса, утеряно в анналах истории. Может быть, это связано с тем, что данное слово ассоциируется с представлением о традиции состоятельных англичан пить чай во второй половине дня? Адриан и его коллеги создали «булочную карту» Британских островов. Она показывает, что на севере предпочитают рифмовать scone со словом gone, а в центральных графствах и в большей части Ирландии предпочитают рифму со словом stone. На других территориях предпочтения расходятся. Однако карта Адриана не показывает, как произношение разнится в зависимости от социального класса, хотя эту информацию можно найти в исследовании YouGov [16]. Но сравните разные группы потребителей, например средний и эконом-класс, и вы обнаружите, что мнения сильно различаются даже внутри этих социальных и экономических групп. Следовательно, то, как мы произносим scone, является не очень надежным маркером социального класса, но наш эвристический мозг, по-видимому, предполагает, что это отличный способ определения различий такого рода! Как бы ни произносилось это слово, люди, кажется, считают, что их произношение является единственно правильным и что другое произношение говорит о том, что человек принадлежит к какому-то «неправильному» социальному классу, либо слишком аристократическому, либо слишком низкому.
В приложении Адриан и его коллеги задают 26 вопросов о том, как произносятся слова, например scone, и какие разговорные слова и выражения используются [17]. Последний вопрос возникает потому, что речевые различия выходят за рамки акцента и относятся к диалекту – имеются слова, которые используются только в конкретной местности. Например, почти все в Британии используют слово splinter («заноза») для обозначения маленького кусочка дерева, застрявшего в коже, но на северо-западе для этого чаще используется слово spelk. Как только вы заканчиваете отвечать на вопросы, приложение пытается определить, откуда вы родом. В моем случае за три попытки мне были выданы следующие варианты: Файв-Эшиз (Five Ashes), Булфорд-Кэмп и Арчирондел. Замечательный набор английских географических названий на юго-востоке, юго-западе и в Джерси, но я никогда там не был! Поскольку людям всегда трудно определить мой акцент, возможно, неудивительно, что и у приложения возникли затруднения. Большинство людей скажут, что у меня южноанглийский акцент. И очень редко догадываются, что я родился и вырос в Бристоле, несмотря на то что в этом городе очень сильный и характерный акцент.
Первые находки Адриана показывают, что многие местные варианты, к сожалению, умирают. Диалекты, скорее всего, меняются быстрее, чем акценты: люди перестают использовать разговорные слова и выражения, если уезжают из родных мест, потому что их не будут понимать. Если вы спросите меня, как пройти, а я отвечу, что нужно пойти по ginnel, скорее всего, вам будет трудно понять, что я имею в виду, если вы не знаете, что это слово в Манчестере и некоторых частях Йоркшира обозначает узкий проход между домами. Но если бы я использовал американский вариант произношения слова path, вы все же смогли бы понять, в каком направлении нужно двигаться, даже если произносите это слово, используя долгий южный гласный звук [18].
Противопоставление «долгий – краткий» в произношении гласных является одним из немногих различий, которые все еще разграничивают особенности произношения на севере и юге Англии. Для многих других типов произношения наблюдается тенденция к использованию лондонского и юго-западного английского [19]. Адриан и его коллеги сравнили свои результаты с результатами исследования произношения в Англии 1950-х годов[26]. В то время (и это, возможно, неудивительно) различия между регионами были более четкими. Традиционно в английском существовало правило, по которому звук [r], стоящий перед согласной, произносится, например, как в слове arm [20]. И карты 1950-х годов показывали, что [r] отчетливо произносился на юго-западе. Карта XXI века теперь однородно зеленая на всей территории Англии, что означает одинаковое произношение слова arm и утрату звука [r] [21].
Акцент имеет значение, поскольку именно на его основе слушатели составляют свое мнение о говорящем. Выступая на телевидении BBC вскоре после августовских беспорядков 2011 года в Лондоне, историк Дэвид Старки вызвал волну критики за следующие высказывания:
Белые стали черными. Особый вид жестокой, деструктивной, нигилистической гангстерской культуры стал модой, и белые, и черные юноши и девушки пользуются таким языком. Это абсолютно фальшивый язык, это говор с Ямайки, который принудительно вторгся в Англию. Вот почему многим из нас кажется, что мы буквально оказались в другой, незнакомой стране [22].
Это предполагаемое принятие белыми подростками и 20-летними используемых черными идиом еще 20 лет назад высмеял Саша Барон Коэн в своем персонаже Али Джи. Несмотря на это, неосведомленные средства массовой информации продолжают жаловаться на то, что молодые лондонцы говорят на «яфайском», который вытесняет кокни. Манера речи привлекается как дополнительный аргумент в пользу того, что из-за иммиграции традиции и идентичность утрачиваются или разрушаются. Но в этом случае упускается из виду тот факт, что акценты находятся в постоянном движении и все время меняются. Довольно просто заклеймить новый акцент, сказав, что «белые детки просто стараются быть крутыми», но реальные причины этого явления сложны и показывают динамику населения центральных перенаселенных районов.
Сью Фокс выросла в Лондоне, и сейчас она старший преподаватель современной лингвистики английского языка в Бернском университете. Идея ее докторской диссертации возникла после того, как Сью заметила изменения в голосах Ист-Энда, традиционного района кокни [23]. Она сконцентрировала свое внимание на речи подростков: «В социолингвистике есть распространенное убеждение, что подростки – “сильные мира сего” в плане языковых нововведений и изменений» [24]. В своем исследовании она проводит запись и тщательный анализ речи молодежи в клубах и других местах.
Исследование Сью обнаружило, что современная молодежь четко произносит [h] в разных словах, например в начале слова house, но в лондонских акцентах, таких как эстуарный, этот звук традиционно опускается. (Старки должен порадоваться, что такое произношение ближе к RP.) В вариантах произношения произошли и многие другие изменения, включая преобразование гласных, особенно дифтонгов, которые производятся скольжением (глайдом) от одного гласного к другому в пределах одного слога [25]. Сью продемонстрировала мне дифтонг в слове face. Если произнести гласные один за другим, a-e-i-o-u, можно заметить, как сильно изменяется форма рта, чтобы добиться разной частоты. Соедините два этих звука, и у вас получится дифтонг. Произношение слова face в кокни имеет четко различимый глайд, а в новом акценте это похоже на один простой гласный. Новый акцент не лучше кокни, потому что идеального произношения не бывает. Он просто другой.
Подтвердил ли проведенный Сью детальный лингвистический анализ предположения Старки о том, что акцент – это имитация афро-карибской манеры речи белой молодежью? Нет, и это доказывается параллельными изменениями диалекта. Хотя влияние ямайского можно обнаружить во многих широко используемых сленговых обозначениях – blood («брат»), yout («молодой человек»), mandem («группа друзей»), – многое приходит и из других культур. Кроме того, имеется и «доморощенный» сленг, например, когда лондонцы говорят о my ends («своем районе»). Для подтверждения своих аргументов Старки выбирает те аспекты нового акцента, которые имеют карибское происхождение, но не использует неугодные для него данные, противоречащие его утверждениям.
Новый акцент центрального Лондона возникает, по-видимому, не из-за того, что белые имитируют черных, а из плавильного котла разнообразных акцентов, на которые влияют Англия, Африка, Карибский бассейн, Азия и другие страны. И используется он не внутри этнических групп. Сначала Сью проводила исследования в Тауэр-Хамлетс. И там она заметила, как британские подростки схватывают и внедряют в свой язык новые словечки и фразы, взятые ими у уроженцев Бангладеш, английский язык которых влияет на их родной язык. Это двусторонний процесс, и выходцы из Бангладеш тоже заимствуют элементы традиционного кокни.
Новый акцент возник из-за крайней голосовой неоднородности, причем множество людей говорит на английском как на втором языке. Важно, что такая манера речи зародилась в самых малоимущих районах Лондона с густонаселенными кварталами, где личные связи, затрагивающие все этнические группы, создали амальгаму голосов центральных районов, которые слились в новый акцент. Нечто подобное произошло и в других городах мира, и исследовательские проекты в Осло, Копенгагене и Стокгольме сейчас занимаются этими вопросами. Именно из-за глобализации и быстрых изменений в этническом составе нам повезло: мы собственными ушами слышим эволюцию акцентов и диалектов, которая в противном случае происходила бы очень медленно.
Сью очень хочет развенчать некоторые предрассудки, сформировавшиеся вокруг этих новых акцентов. «Это очень волнующая проблема, – говорит она. – Потому что всегда есть ощущение, что язык как-то вырождается». В качестве примера она приводит следующее высказывание фаворита правого крыла Консервативной партии лорда Теббита:
Если допустить снижение стандартов до такого уровня, когда хороший английский уже не отличается от плохого английского и когда люди ходят грязными и неопрятными… в школу… все это будет подталкивать людей к тому, чтобы вообще отказаться от стандартов. Но как только мы потеряем стандарты, мы будем попустительствовать преступлениям [26].
Своим исследованием новой манеры речи Сью хочет противостоять предрассудку, что акцент является признаком человека, в той или иной мере низшего по статусу или более глупого. Фактически людям, подобным Теббиту, придется привыкать к этой новой манере речи. Уже есть доказательства, что это не просто кратковременное увлечение, этот акцент останется с нынешними подростками и тогда, когда они вырастут [27]. Не исключено, что в будущем им будет пользоваться и мэр Лондона.
По иронии судьбы фанатики, которые полагают, что говорящие с незнакомым акцентом люди глупы и необразованны, возможно, демонстрируют таким образом собственные дефекты, ведь они не в состоянии декодировать речь. Психологические исследования продемонстрировали, что легкость, с которой высказывание может быть обработано мозгом, влияет на наши суждения. Рассмотрим две фразы: «Постучит беда в окошко – подружатся собака с кошкой» (woes unite foes) и «В горе и враги – друзья» (woes unite enemies)[27]. В этих фразах сообщается практически одно и то же. Но первая с большей вероятностью будет оцениваться как правильная, потому что рифма ускоряет обработку мозгом. Авторы исследования этого феномена, Мэтью Макглоун и Джессика Тофайбакш из колледжа Лафайет, назвали свою работу «Эвристическое правило Китса» по известной строке из его «Оды греческой вазе»: «Красота – правда, правда – красота»[28] (Beauty is truth, truth beauty) [28]. По-видимому, в этой фразе нет ничего особенно ценного, но эстетическое совершенство делает ее выдающейся. Все, что рифмуется, в чем есть аллитерация или повторение слово в слово, воспринимается как афоризм и, следовательно, с большей вероятностью будет считаться правильным. Вот почему политики и прочие ораторы, желающие нас в чем-то убедить, используют простые броские фразы, которые по самой своей природе звучат правдиво независимо от реальной степени их достоверности. Рекламщики играют на этом постоянно. «Каждый день “Марс” съедай – работай, отдыхай, играй» (A Mars a day helps you work, rest and play) – это замечательная броская фраза. Хотя фраза «шоколадный батончик в день повышает риск ожирения и диабета второго типа» (a chocolate bar a day increases your risk of obesity and Type II diabetes), возможно, в большей степени соответствует истине.
Наличие рифмы, аллитерации и повторяющихся фонем в звуках встречается настолько часто, что специалисты разрабатывают программное обеспечение, которое сможет предсказать, какие цитаты попадут в топ лучших высказываний интернет-базы кинофильмов (IMDb) или какие лозунги лучше всего запомнятся [29]. Было также обнаружено, что чем больше взрывных согласных содержится во фразе, тем более убедительной она становится [30]. Взрывные согласные – это звуки, при произнесении которых рот блокирует воздушный поток из легких, а затем происходит быстрое выпускание воздуха. [П], [т] и [к] – это глухие взрывные согласные, а [б], [д] и [г] – звонкие. Разница между ними в том, что в последних задействована вибрация голосовых связок. Использование взрывных согласных делает лозунг более ритмичным и, следовательно, более заметным, как у Pringles: Once you pop, you can’t stop («Попробовав раз, ем и сейчас!»). Это исследование показало также, что использование взрывных согласных может повысить частотность ретвитов.
Если мозг считает, что речь, которая легче воспринимается, скорее окажется правдивой, то что можно сказать о человеке, который говорит на неродном языке с сильным акцентом? Как акцент влияет на шансы этого человека преуспеть в политике, или просто успешно пройти интервьюирование при приеме на работу, или справиться с публичным выступлением? Не говоря уже об обычном шовинизме, который возникает по отношению к меньшинствам: оказывается, ораторам с сильным акцентом гораздо сложнее убедить слушателей в правдивости своих слов, как это показало в 2010 году исследование Шири Лев-Ари и Боаза Кейзара из Чикагского университета [31]. Ученые попросили носителей и не носителей языка прочитать тривиальные фразы, такие как «Жираф может обходиться без воды немного дольше, чем верблюд», а слушатели должны были оценить истинность их слов по шкале от «абсолютно неверно» до «абсолютно верно». Слушатели оценили ораторов с иностранным акцентом как менее правдивых [32]. (Если вам интересно узнать ответ на этот вопрос, вот он: жираф может обходиться без воды дольше, чем верблюд, потому что он может добыть влагу из листьев акации.) Результаты исследования позволяют предполагать, что поскольку обрабатывать речь людей с сильным акцентом труднее, слушатель считает, что такие люди, скорее всего, врут. Другие исследования также обнаружили, что даже носителям языка с сильным местным акцентом доверять, скорее всего, не будут.
Однако реакции на региональные акценты еще в большей степени формируются стереотипами. Когда раздается голос, люди делают предположения о социальном статусе, привлекательности и уме говорящего. Как мы уже видели, опора на эвристику делает такие выводы сомнительными. Брамми, акцент жителей Бирмингема, часто характеризуется как нежелательный. Исследование 2002 года показало, что подсудимые с бирмингемским акцентом чаще признавались виновными по сравнению с теми, кто разговаривал с менее сильным акцентом. Косвенное доказательство того, что здесь имеется обусловленная стереотипами связь, можно получить в неожиданном месте – ночном клубе Abaco NRG в Хайфе, Израиль: этот клуб разместил в бирмингемской газете объявление о найме сотрудников, потому что их клиентура очень любит брамми за его распевность. Похоже, на Ближнем Востоке отсутствуют необоснованные ассоциации между бирмингемским акцентом и глупостью.
К счастью, в человеческом восприятии произошли изменения. Многие региональные акценты утратили негативные ассоциации и используются в кол-центрах, потому что считаются теплыми, добрыми и дружественными. В Америке в настоящее время британское RP-произношение считается особенно привлекательным (и уж никак не указывает на злодея!). А на одном рекламном сайте, привлекающем туристов в Лас-Вегас, даже написано: «Посетите место, где ваш акцент – лучший афродизиак!» [33]
Реакция на голос представляет собой сочетание биологических и культурных факторов. Биология может объяснить, почему голоса, похожие на детские, воспринимаются как голоса не очень компетентных людей – создается впечатление, что говорящим не хватает мудрости, которая приходит с возрастом. Выявить культурные факторы еще труднее. Например, есть теория, что любовь американцев к британским акцентам может отражать желание найти пару, способную увеличить генетический фонд, но она не объясняет, почему некоторые «неродные» акценты менее привлекательны, чем британская манера разговора. Если для этого и есть какие-то биологические причины, они давным-давно были поглощены причинами культурными. Голос помогает определить, откуда родом говорящий, а на это уже накладываются стереотипные представления о стране, которые и формируют реакцию. Неудивительно, что нам не нравятся политики, изменяющие свои голоса (акценты), потому что в результате мы не можем опереться на стереотипы и предубеждения – как бы ненадежны они ни были.
Политики, священники и учителя должны уметь хорошо держаться на публике. И в этих случаях харизматичный голос столь же важен, как хорошая дикция и безупречный сценарий. Качества, присущие выдающейся политической речи, были перечислены в книге Аристотеля «Риторика» более 2000 лет назад. В этой книге описаны многие приемы «черной магии» политтехнологий, которые так не нравятся людям в современной политике. Исследование, основанное на материале почти пятисот выступлений на конференциях британских политических партий в 1981 году, хотело выяснить, как политики используют риторические приемы, чтобы скоординировать реакции членов партии [34]. После завершения мысли у политика есть только короткий промежуток времени, примерно полсекунды, когда аудитория может начать аплодировать. Если оратор дает слушателям явный сигнал отреагировать на свои слова, все начинают аплодировать одновременно. Однако сигналом может быть не только пауза: нужно, чтобы аудиторию направлял сценарий.
В этом исследовании было обнаружено, что самым эффективным риторическим приемом является использование контрастов – причина примерно четверти аплодисментов в анализируемых выступлениях [35]. Рассмотрим следующий пример из выступления Алфа Морриса, защитника прав инвалидов, на конференции Лейбористской партии: «Правительства будут утверждать, что на помощь инвалидам не хватает средств. Но дело в том, что слишком много тратится на военные нужды и слишком мало – на нужды мира».
Сигнал, побуждающий аудиторию аплодировать, дается фразой «слишком мало» значительно раньше, чем нужно: еще когда произносятся последние слова предложения. Знаменитые политические выступления изобилуют такими примерами. В лучших из таких речей ритмически сочетаются два контраста, как в стихотворении, поэтому момент аплодисментов очевиден. Хорошим примером такого приема является призыв Джона Ф. Кеннеди: «Не спрашивайте, что ваша страна может сделать для вас, спрашивайте, что вы можете сделать для своей страны».
Трехкомпонентные перечисления – еще один риторический прием, например мантра Тони Блэра, которая помогла ему победить на выборах 1997 года: «Образование, образование, образование». Диккенс писал о «призраках прошлого, настоящего и будущего», The Beatles пели: «Она любит тебя, да, да, да», Кеннет Уильямс шутил в «Так держать, Клео»: «Позор, позор, все кричат “позор”!» Для убедительных выступлений правило трех повторяющихся компонентов позволяет сделать речь выразительной, а также дает сигнал для начала аплодисментов. Анализ одной только победной речи Обамы в день выборов 2008 года выявил 29 случаев использования этого правила, хотя она длилась всего 10 минут [36].
Есть мнение, что этот риторический прием обладает такой силой, потому что совпадение двух компонентов случается чаще, чем трех, и если так происходит, то слушателям кажется, что в этом кроется какая-то истина. Мозг старается найти хоть какие-то зависимости, чтобы объяснить мир. В частности, исследования, использующие методы нейровизуализации, обнаружили, что префронтальная кора перебирает кратковременные сенсорные модели, чтобы предсказать, что с большей вероятностью можно будет услышать или увидеть через мгновение [37]. Этот навык приобретается в очень раннем возрасте: если двухмесячному младенцу показывать изображения попеременно справа и слева, он начнет двигать глазами по направлению следующего изображения, предвосхищая, где оно появится. Точно так же и овладение языком частично состоит в том, чтобы предугадать, как будет строиться предложение. Значит ли это, что трехкратное повторение обладает каким-то идеальным для мозга магическим свойством? Исследования показывают, что сочетание трех компонентов подходит для рекламных кампаний, например в борьбе за безопасность на дорогах: «Остановись, смотри и слушай», а дополнительный четвертый компонент вызывает скептическое отношение [38]. Однако мы не знаем, происходит ли это из-за какой-то необъяснимой целостности, создаваемой сочетанием трех компонентов, которыми мозг отмечает такую длину как идеальную для формулировки эмпирического правила, или является лишь приобретенной реакцией, вызванной тем, что такие трехкомпонентные списки встречаются очень часто.
Чтобы подавать аудитории знаки, ораторы используют и другие приемы [39]. Самые очевидные – это жесты, причем некоторые ораторы управляют своими слушателями, как дирижер оркестром. Бывший президент Национального союза шахтеров Артур Скарджил эффективно использовал эти приемы: когда аудитории следовало аплодировать, он держал руки ладонями вниз, а когда нужно было просто хлопать, он делал быстрые пассы руками [40]. Но конечно, ключевым сигналом для аплодисментов является и само построение выступления: как меняется тон голоса, темп речи и как используется интонация. Именно эти навыки отличают харизматичного оратора.
Розарио Синьорелло, преподаватель Университета Новая Сорбонна в Париже, занимается исследованием голоса и речи и специализируется на исследовании факторов, делающих речь политиков харизматичной. Он изучил высокопоставленных политиков Бразилии, Франции и Италии и попросил слушателей оценить качество их выступлений. Чтобы исключить влияние политических предубеждений, слушатели оценивали ораторов из другой страны, говорящих на языке, который им незнаком. В противном случае может случиться так: «Французы скажут мне: “А, это Саркози”, и как бы я ни просил их оценить харизму этого оратора, они будут повторять “Да этот парень – просто отстой” просто потому, что это Саркози». Результат оказался предсказуемым. Исследование показало, что ораторы подстраивают свой голос под аудиторию. На митингах политики используют разный тон голоса, чтобы создать более заинтересованный и живой стиль, а во время интервью тон варьируется значительно меньше. На больших собраниях ораторы чаще всего меняют громкость и тон голоса настолько, что иногда это превышает акустический диапазон, свойственный обычному разговору. Синьорелло убежден: это делается для того, чтобы отдельные части выступления находили отклик у разной аудитории. Если слушатели хотят, чтобы их лидер демонстрировал превосходство и власть, они откликаются на пассажи, произнесенные низким тоном, а если они хотят понимания и сострадания, то обращают внимание на то, что произносится на более высоких нотах.
Конечно, тон энергичного выступления в поддержку выборной кампании отличается от простой беседы о международной ситуации с коллегами-политиками. Когда Синьорелло анализировал речи перспективных кандидатов на пост президента США в 2016 году, он обнаружил, что во втором случае кандидаты снижали тон голоса и говорили мягче. Они использовали старейший прием млекопитающих: использование более низкого голоса сообщает о влиянии. Наоборот, на крупном политическом митинге оратор по определению обладает более высоким социальным статусом, чем его аудитория, поэтому он может себе позволить использовать более высокий тон голоса и в значительной степени варьировать высоту тона в широком диапазоне. Заявление Эда Милибэнда «Черт, да, я упрямый», сделанное перед выборами в Британии в 2015 году, смогло убедить лишь немногих, поскольку было сказано в конце многословного ответа на вопрос.
Синьорелло анализировал и речи Умберто Босси, итальянского политика, основавшего популистскую партию в поддержку северных регионов Италии – Лигу Севера. В начале своей карьеры Босси был динамичным, авторитарным и грозным как в делах, так и в речах, но все изменилось в 2004 году после инсульта. Это сильно повлияло на его речь, поскольку были затронуты голосовые связки. Тон голоса резко понизился – на 60 Гц. Он много работал, чтобы контролировать речь, но она осталась хриплой, с невыразительной интонацией. В экспериментах с тестовой аудиторией, которая сравнивала речь Босси до и после инсульта, он получил примерно равные оценки за компетентность и доброжелательность, но его динамичный, угрожающий тон исчез. Харизма изменилась вместе с голосом, и теперь он воспринимался как мудрый и спокойный лидер [41].
Изменение высоты голоса Умберто Босси было случайным, но некоторые политики делают так намеренно. Высота тона связана с вибрацией голосовых связок, и можно натренировать голос так, чтобы говорить выше или ниже. Маргарет Тэтчер, как известно, занималась постановкой голоса, чтобы сделать его более низким и звучать более авторитетно. Частота ее речи снизилась на 46 Гц, и высота голоса оказалась как раз между частотами, типичными для мужчин и женщин [42].
Тэтчер не единственный пример. Как мы видели в главе 2, во второй половине XX века в западных странах наблюдалось общее снижение тона женского голоса. Мэри Бирд, профессор Кембриджского университета и специалист по античности, сетует, что женщинам приходится превращаться в «нелепых андрогинов», чтобы их услышали [43]. Тэтчер изменила свой голос, чтобы он звучал не так пронзительно, но Бирд считает несправедливым, что сильная женщина, говорящая своим естественным голосом, становится посмешищем. Мужчина, выступающий с такой же речью и говорящий своим естественно более низким голосом, добивается большего успеха. Вот что говорит Бирд: «Когда мы как слушатели слышим женский голос, мы не улавливаем в нем авторитетного начала; или же нас просто не научили, как это делать».
Это созвучно с мнением Кармен Фохт, профессора лингвистики из Питцер-колледжа, которую попросили объяснить, почему голос Хиллари Клинтон стал объектом пристального внимания во время предвыборной кампании на пост президента США в 2016 году.
Существует мнение, что мужчины и женщины говорят по-разному, что мужчины с Марса, а женщины – с Венеры. Это сбивает с толку. Самые значительные различия кроются в разном восприятии мужчин и женщин, а также в представлениях общества о том, как должны говорить женщины, а как – мужчины. Предполагается, что мужчины будут напористыми, громкими и соперничающими. В то время как от женщин ожидают мягкости, отзывчивости и готовности всегда прийти на помощь [44].
Исследования в области нейробиологии подтвердили подход Тэтчер: понижение тона голоса для политиков очень эффективно, независимо от их половой принадлежности [45]. В типичном эксперименте берется запись голоса, затем используются специальные программы, искусственно повышающие или понижающие высоту тона [46]. Такие инструменты теперь широко доступны, самый известный из них – Auto-Tune, аудиопроцессор, улучшающий голос при плохом пении. Кара Тиг и ее коллеги из Университета Макмастера провели эксперимент по манипуляции с голосом, используя записи девяти президентов США, и обнаружили, что низкому голосу отдавалось большее предпочтение в двух третях случаев [47]. Конечно, все президенты были мужчинами, но в других исследованиях анализировались женские голоса и были получены схожие результаты [48]. Шесть из десяти людей выбрали более низкие голоса, тон которых был снижен примерно на 40 Гц, что равно интервалу между первыми двумя нотами в риффе Smoke on the Water.
Более низкий тон не только ассоциируется с более сильным, крепким, цельным и компетентным человеком. Как мы видели в главе 2, низкий мужской голос также считается более привлекательным. Таким образом, понижение тона голоса является беспроигрышным вариантом для мужчин-политиков, потому что они приобретают влияние и привлекательность, в то время как для женщин более высокий тон в среднем делает их более сексуально привлекательными. Понижая голос, женщина может произвести впечатление более влиятельной – именно это усилило привлекательность Тэтчер как лидера. Но женщинам необходим компромисс между влиянием (низкий тон) и привлекательностью (высокий тон).
Кейси Клофстед из Университета Майами исследовал выборы в палату представителей США в 2012 году и обнаружил, что в среднем кандидаты обоих полов с более низкими голосами получили на 4 % больше предпочтений у избирателей, а их шансы на победу повысились на 13 %. Это могло сыграть решающую роль в предвыборной борьбе с почти равными шансами на успех [49]. Тем не менее в этом исследовании были найдены отличия, связанные с разными политическими взглядами: выборщики-консерваторы чаще, чем либералы, предпочитали мужчин-кандидатов с низким голосом.
Для женщины радикальным способом добиться низкого тона является использование «жареного голоса» (штробас), скрипучего звука, который превращает слова, подобные whatever в нечто вроде whatever-r-r-r-r-r с длинным протяжным «шкворчанием» в конце. У человеческого голоса три регистра – тональный, фальцет и «жареный», – которые создаются различными вибрациями голосовых связок. Обычное говорение осуществляется в тональном регистре, и, как мы уже видели, высокий фальцет достигается вибрацией только боковых сторон голосовых связок. В обоих этих регистрах голосовые связки открываются и закрываются простыми, ритмичными движениями. В «жареном» хрящи гортани плотно смыкаются, в результате голосовые связки испытывают меньшее напряжение и становятся ненатянутыми и мягкими. Такое отсутствие напряжения означает, что они открываются и закрываются в синкопированном ритме, создавая скрипучий звук [50].
Ранее проведенные исследования женщин, говорящих штробасом, показали, что они воспринимались как городские карьеристки. Однако культура может повлиять на восприятие голоса, и именно это случилось с «жареным» голосом. Такой стиль говорения был популяризирован семейством Кардашьян и певицами, такими как Бритни Спирс, – хорошим примером такого голоса являются первые слоги oh baby baby в начале песни Baby One More Time, где каждое oh представляет собой долгий скрипучий звук. Сегодня такая манера стала популярной у молодых женщин, особенно для обозначения конца предложения. Тот факт, что «жареный» голос используется знаменитостями, означает, что он перестал ассоциироваться с яппи. В самом деле, одно из исследований показало, что «жареный» голос во время собеседований при приеме на работу негативно сказался на кандидатах, причем те, кто его использовал, воспринимались как менее компетентные, менее образованные, внушающие меньше доверия и менее пригодные для найма [51]. Этот пагубный эффект оказался сильнее для женщин, чем для мужчин.
Мэри Бирд утверждает, что предубежденность в отношении женского голоса не имеет никаких неврологических причин. «Жареный» голос подтверждает это утверждение, поскольку он часто использовался мужчинами для подчеркивания мужественности. Герой боевика, такой как Доминик Торетто во франшизе «Форсаж», будет рычать весь фильм от начала до конца. Таким образом, голоса женщин борются с культурными, языковыми и историческими предрассудками. То, что лидеры обоих полов должны иметь более низкий голос, обусловлено приобретенным опытом, на который оказал влияние тот факт, что большинство мировых лидеров – мужчины. Бирд полагает, что это указывает на культурную и историческую предвзятость против лидеров-женщин. Хотя это и правда, стоит заметить, что такая предвзятость основывается на ошибочных представлениях из области биологии, которые не имеют никакого отношения к предрассудкам. Слушатели предполагают, что тон голоса дает представление о размере тела, потому что это помогает различать крупных и мелких животных. Но, как мы увидели, в пределах одного пола высота тона голоса – плохой индикатор роста и физического состояния человека. Так почему человек с более низким голосом воспринимается как влиятельный? Как показатель количества тестостерона более низкий голос может соотноситься с физической агрессивностью [52].
Даже если вы используете естественно высокий тон, понижение голоса вашей речи может сигнализировать о превосходстве. Имеется множество примеров того, как это делают животные. Например, некоторые лягушки понижают тон кваканья во время агрессивных стычек, чтобы преувеличить свой размер. В 2016 году было проведено исследование поведения людей. Руководил им социальный психолог Джоуи Ченг из Иллинойского университета [53]. В исследовании несколько групп студентов обсуждали, какое оборудование необходимо, чтобы выжить в катастрофе на Луне. Эта старая психологическая игра, в которой предлагаются самые разные решения, начиная от бесполезного коробка спичек до спасительных баллонов с кислородом. Анализ взаимодействия студентов показал, что те, кто понижал голос в начале своего монолога, чтобы немножко преувеличить свою значительность, имели больше шансов повлиять на решение всей группы.
Любопытно, что это стремление к мужественности и физическому совершенству все еще существует в наши дни. Давно ушли те времена, когда от мирового лидера ожидали, что он наденет доспехи, запрыгнет на коня и бросится в битву. Если тон голоса является признаком агрессивности, опосредованной тестостероном, большинство из нас усомнится в том, что это самая главная черта современного лидера.
Исследования выступлений политиков обнаружили, что, помимо тона голоса, быстрая речь, изменение тона и громкости вносят свой вклад в восприятие оратора как более харизматичного лидера [54]. Это вряд ли удивительно, потому что данные характеристики описывают человека, говорящего в заинтересованной и живой манере. Монотонной манеры разговора, как у теннисиста Энди Маррея, лучше избегать. Просодия речи – это один из способов передачи эмоций, и, как писал Аристотель, убедительный оратор должен проявлять воодушевление, чтобы привлечь эмоции слушателей. Быстрая речь, возможно, рассматривается как показатель компетентности, поскольку быстрая работа ума коррелирует с харизмой. Но бойтесь быстро говорящего политика или продавца. Такая манера эффективна при слабых аргументах, когда слушателям просто не хватает времени, чтобы обстоятельно проанализировать сказанное [55].
В век социальных сетей эмпатия, неформальность и аутентичность являются, несомненно, исключительно важными качествами эффективного общения. Нейронаука и психология пытаются выяснить, как проявляется аутентичность в голосе, причем исследования показывают, что варьирование высоты голоса в разных предложениях очень важно. В исследовании Ребекки Юргенс и ее коллег из Геттингенского университета были записаны 80 коротких отрывков из немецких радиоинтервью, в которых проявлялись сильные эмоции: гнев, страх, печаль или радость [56]. Оказалось, что актеры и обычные люди одинаково хорошо изображали эмоции. Конечно, это умение эксплуатируется харизматичными политиками, но как в эту эру постправды понять, когда нас обманывают? Идея детектора лжи в таком контексте может показаться привлекательной, и в главе 7 мы попробуем определить, сможет ли компьютер распознать ложь в голосе человека. Но сначала давайте посмотрим, как технология в целом революционизировала общение и изменила человеческий голос.
5 Голос, оснащенный электричеством
Четыре десятилетия спустя после первой записи «У Мэри был маленький барашек» Эдисон счел, что фонограф готов к проведению серии аудиотестов для демонстрации точности воспроизведения голоса [1]. В ходе этих тестов певец стоял около фонографа, время от времени пел, а в промежутках просто артикулировал слова: звук на самом деле исходил от воскового цилиндра. Слушателям предлагалось определить разницу между живым голосом и записью на фонографе. Перед восторженными аудиториями состоялись тысячи представлений, но, скорее всего, не обошлось без надувательства. Конечно, поверхностный шум от вращающегося цилиндра должен был выдать «подставной» голос. Кроме того, разве звук не изменяется, проходя через большую воронку, необходимую для усиления записи? Оказалось, сами певцы жульничали и подражали несовершенному звуку, воспроизводимому фонографом. По иронии судьбы тесты, предназначенные для демонстрации точности воспроизведения голоса машиной, впервые показали, как техника записи влияет на пение людей.
Чтобы понять, как менялся голос в первые годы звукозаписи, я послушал дуэт Эла Джонсона и Бинга Кросби в Alexander’s Ragtime Band[29][2]. Бинг Кросби знаменит своим проникновенным пением. Можно ощутить чарующую легкость тона, которая создается его техникой владения микрофоном, особенно во второй части записи. Эл Джонсон, наоборот, так никогда и не приспособился к микрофону, и стиль его пения остался таким же, каким был до появления этой технологической новинки. Джонсон усиливает голос, как будто хочет быть услышанным на последних рядах зала. Так делали странствующие актеры (менестрели) и актеры водевилей. У Джонсона богатый продолжительный резонанс и специфическое звучание. Его агент, несколько преувеличив, охарактеризовал его так: «У этого человека самый звучный голос из всех людей, которых я когда-либо знал. Я встал у задней стены театрального зала, положил руки на стену и почувствовал, как вибрируют кирпичи» [3].
Усиление голоса было необходимо на заре звукозаписи, потому что фонографу не хватало чувствительности. Приходилось петь или громко кричать в большую воронку, иначе запись получалась слишком тихой. Но через некоторое время появился микрофон. Певцам, подобным Кросби, больше не нужна была старая вокальная техника, выработанная для пения в больших театральных залах, и они могли использовать стиль, который наилучшим образом подходил к тексту песни. Микрофон стал катализатором, ускорившим появление огромного разнообразия голосов, которые мы слышим в музыке сегодня. Но было бы неправильно считать, что современные певцы просто заново открыли давно утраченный естественный певческий голос – использовавшийся до того, как возникла необходимость усиливать его перед большими аудиториями, поскольку технологии изменили все. Послушайте Шер в Believe или металлические голоса Daft Punk, чтобы понять, насколько запись может изменить голос. Технология не просто обрабатывает голос певца в микрофоне: она его преобразует [4]. И это касается не только пения: актеры тоже изменили приемы выступления на сцене, на экране или на радио.
Первой драмой, написанной специально для радио, стала «Опасность» (Danger). Чтобы ее заказать, написать сценарий и исполнить на радио, в 1924 году потребовалось чуть меньше 24 часов. Ее автор, Ричард Хьюз, три десятилетия спустя рассказал: «Это было время немого кино, а наша “пьеса для слушания” (как я ее прозвал) должна была стать недостающей половинкой немого фильма, так сказать, представить всю историю с помощью одного только звука» [5]. В наши дни, при доступности аудиокниг и подкастов, легко не заметить, насколько радикальной была идея Хьюза.
Драматург опасался, что вводит слушателей в «мир слепых», и хотел «облегчить им эту задачу, хотя бы в этот раз». Для этого он выбрал историю, в которой по сценарию действие происходит в полной темноте. Хьюз перебрал множество вариантов, но отказался от сцены в постели, поскольку его беспокоила возможная реакция руководства BBC – «нужно было считаться с лордом Рейсом». Он остановился на истории, действие которой происходит после несчастного случая в угольной шахте. Но Хьюз решил, что если все роли будут исполняться актерами, изображающими шахтеров, то слушатели запутаются, так как голоса персонажей будут звучать практически одинаково. Таким образом, пьеса превратилась в историю с участием группы посетителей, состоящей из двух мужчин и девушки.
Хьюз включил в пьесу звуковые эффекты, но, когда наступило утро, столкнулся с проблемой: как их реализовать? Сначала он обратился за помощью к лучшим специалистам в области кино, потому что мастера шумового оформления уже умели добавлять звук к немым фильмам. Они бросали на барабан горох, чтобы изобразить дождь, включали ветряные машины, ритмично постукивали по кокосовым орехам, когда в кадре были ковбои. Хьюз заручился поддержкой звукорежиссера, но дальше встала проблема, как изобразить взрыв, лежащий в основе сюжета [6]. Громкий удар мог создать перегрузку на примитивных микрофонах и студийном оборудовании. К счастью, продюсером пьесы был изобретательный Найджел Плэйфэр. Хьюз описывал его как «своего рода гения, причем совершенно беспринципного». Для прослушивания пьесы критики собрались в комнате для прессы, что позволило Плэйфэру схитрить. Критики не поняли, что взрыв, который они услышали, на самом деле прозвучал в соседней комнате: звук прошел через стену, а не через динамики радиоприемника. Те, кто слушал передачу дома, услышали не такой впечатляющий звук, но ведь они и не писали рецензии!
Еще одной проблемой стали голоса главных героев. Актеры работали в студии, где акустические условия исключали эхо и отзвуки угольной шахты. Хьюз опасался, что, если голоса не будут звучать как надо, слушателям придется прикладывать усилия, чтобы поверить в происходящее. На помощь опять пришел Плэйфэр, он заставил актеров «засунуть свои прелестные головки в ведра». Это должно было изменить голос. Возможно, что голоса при этом звучали как при телефонном разговоре – не очень похоже на звук голоса в шахте, но, я думаю, все сошло им с рук из-за новизны предприятия. Конечно, в наши дни сделать все это гораздо проще: примитивная компьютерная программа может добавить акустику угольной шахты голосам, записанным в безэховой студии.
Для этого нужно получить звуковой отпечаток шахты или другого пространства, например пещеры, который будет выступать в качестве аудиодвойника. Это явление называется «импульсная характеристика пространства», и именно его улавливает микрофон, когда в помещении производится короткий резкий звук [7]. Импульсная характеристика пространства и чистая запись голосов, сделанная в безэховой студии, затем соединяются при помощи математической операции свертки, что делает звучание голосов актеров таким, как будто они находились в шахте. Без подобной звуковой телепортации не обходится ни одна компьютерная игра или виртуальная реальность. Такое моделирование звука повсеместно используется архитекторами при акустическом проектировании, поскольку позволяет им услышать, как будут «звучать» здания после окончания строительства.
В радиопостановках моделирование звука позволяет звукорежиссерам, используя программы обработки и синтеза звуков, изменять голоса персонажей. Но как микрофоны и электронные чудеса изменили актерское мастерство? Чтобы получить ответ на этот вопрос, я обратился к Элоиз Уитмор, дизайнеру звуков, получившей награду за лучший звуковой дизайн. Элоиз сыграла решающую роль в одном из моих собственных исследовательских проектов, для которого она создала поразительное звуковое сопровождение для систем трехмерного звука (мы еще к ним вернемся). Дизайнеры звука – безымянные герои радиопостановок: невидимые художники, стоящие за миром звуков, в который погружены слушатели. «Если звук действительно хорош, никто его не заметит, никто не скажет о нем ни слова, но если он плох, вы сразу же об этом узнаете, – объясняет Элоиз. – Звуковое сопровождение должно заменить картинку, но не завладевать происходящим, оно не должно быть более значительным, чем само представление». Умелое использование звука может помочь в представлении истории, освободив актеров от необходимости подробно говорить о том, что происходит. В качестве примера Элоиз приводит сцену из «Царя Эдипа», в которой герой обнаруживает, что его жена повесилась. Историю рассказывают старцы, и можно различить звуковые фрагменты происходящего за сценой: «Вы слышите, как Эдип заходит в комнату, как закручивается веревка, на которой висит тело. Вы слышите, как Эдип вынимает тело из петли». Современные цифровые технологии позволяют точно воспроизвести звук и сделать звуковое сопровождение намного богаче, чем это было возможно раньше. Разве можно представить подобное в радиопостановке «Опасность», когда актеры стояли перед микрофонами, а звукорежиссер извлекал звуки из разных предметов?
Для того чтобы голоса в радиопостановке звучали качественно, недостаточно нанять хорошего актера, который озвучит роль с правильным произношением. Слушатели полагаются исключительно на то, что они слышат, поэтому в свой голос актер должен вложить все. Элоиз объясняет это так: «Я подробно объясняю актерам, как голосом показать улыбку». Эмоции должны передаваться звуками, поэтому незначительный вздох или смешок помогает слушателям понять, какие чувства испытывает персонаж. Актерам также приходится преувеличенно дышать, чтобы ненавязчиво напоминать слушателям о своем присутствии. Конечно, эти незначительные звуки можно уловить только благодаря чувствительности современных микрофонов. Интересно, что звуки дыхания можно использовать даже для того, чтобы рассказать историю. Элоиз работала над криминальным радиосериалом, в котором Максин Пик исполняла роль детектива Сью Крейвен. В этой драме Крейвен постоянно носится по полицейскому участку или выезжает на место преступления. В рассказе дыхание Максин сообщает нам, что́ она в данный момент чувствует: спокойна ли она, возбуждена или в панике. Для выступлений на радио актерам необходимо овладеть еще одним трюком: они должны научиться создавать слышимое движение, то есть ходить и говорить так, чтобы звуком создавать впечатление движения. Качество такого звука для фильма будет неприемлемо, но на радио оно оживит голос.
Микрофоны и технологии позволяют подслушивать интимные беседы и даже проникать в сознание героев. В театральном представлении есть монологи, но актер будет усиливать голос, чтобы его было слышно со сцены, и в этом случае потеряются тонкие оттенки речи. В радиопостановке внутренний голос более личный. Элоиз предложила мне послушать постановку «Дзен и искусство ухода за мотоциклом», над которой она работала. В пьесе слушатели следуют за отцом, который берет сына в поездку на мотоцикле, и вы слышите, как мужчина пытается примириться со своим прошлым, а для этого приходится разбираться в глубоких философских вопросах. Бо́льшую часть пьесы в качестве рассказчика выступает внутренний голос отца, и нужно, чтобы он звучал иначе, чем его же голос, когда он вслух разговаривает с мальчиком. Разница этих голосов частично создается за счет того, как актер произносит роль, но Элоиз все же приходится ему помогать, манипулируя записью. Она придает внутреннему голосу больше басов, чтобы он контрастировал с более высоким тоном внешней речи [8]. Такой внутренний голос очень похож на тот, который слышит каждый из нас: в нем больше басов, чем в том, что слышат окружающие.
Музыкальные продюсеры манипулируют звуком и для того, чтобы добиться ощущения внутреннего голоса. «Охотник» – первый трек в третьем альбоме Бьорк Homogenic (1997). Музыкальное сопровождение представляет собой звук синтезатора на фоне электронного ударника. Большую часть времени голос Бьорк вторит этой технологической эстетике, к нему добавляется эхо и другие аудиоэффекты. Исключением является повторяемая строка «Я – охотник», где ее голос звучит естественно, как чистая трансляция того, что схвачено микрофоном в студии. Подобно мазкам кисти великого художника (хотя большинство людей, возможно, не отдают себе отчета в таких деталях), тонкие эффекты звукозаписи в этом произведении очень важны. Простая акустика в строчке «Я – охотник» приближает певицу к слушателю. И внезапно начинает казаться, что Бьорк как будто признается в чем-то личном напрямую слушателю [9].
Таким образом, продюсеры играют на стереотипах восприятия даже в записях с множеством электронных эффектов. Когда Элоиз создала голос для Слоноверблюда, монстра из первого фильма-сказки в формате виртуальной реальности «Вращающийся лес», она просила актера озвучивать разные эмоции – восходящий тон для обозначения счастья, нисходящий тон – для печали и так далее. (Эти интонационные рисунки практически универсальны и имеют музыкальные эквиваленты – например, нисходящие мелодии передают печаль.) Настоящие слова не использовались, достаточно было простых «ммм» или «ха!». Чтобы показать движение Слоноверблюда, актер изобразил ритмичные тяжелые вздохи, за которыми следовали медленные тяжелые шаги. После этого Элоиз применила широкую палитру цифровых хитростей, чтобы создать звучание монстра, – например, понизила тон, чтобы получился глубокий голос, подходящий крупному животному. Если вы решите прослушать финальную запись, то не поверите, что все началось с голоса актера. Тем не менее использование человеческого голоса в качестве первого ингредиента для создания звука наделило монстра индивидуальностью. Это еще один пример того, как технология влияет на ремесло актера.
Слоноверблюд – добрый монстр, но для опасных животных понадобится более сильное искажение звуковой волны. Стандартный прием – обрезка звуковой волны. Представьте гладкую форму волны (синусоиду), состоящую из округлых возвышений и мягко выгнутых впадин. При самой радикальной форме обрезки верхушки возвышений срезаются и дно впадин уплощается (см. диаграмму). Волна на верхнем рисунке имеет только одну частоту, скажем 100 Гц. Обрезанная форма приобретает дополнительные обертоны или гармоники, кратные начальной частоте: 200, 300, 400 Гц и т. д. Поскольку голос начинается с гармоник, искажение делает их громче и изменяет тембр звука.
Простая звуковая волна и ее вариант, искаженный обрезкой вручную
Сильно искаженный вокал стал повальным увлечением в 1990-х годах. Хорошим примером является хит группы U 2 «The Fly» 1991 года. В нем голос Боно приобретает скрипучий тон, подражая Роду Стюарту и Бонни Тайлер, у которых это получается естественным образом. Группы, подобные Eels, используют это и сейчас, но уже не так явно: гармоники делают звучание голоса более мощным, но не создают скрипучести. Голос звучит более мощно потому, что дополнительные гармоники добавляют звук в тех частотах, к которым ухо особенно чувствительно. Резонанс ушного канала означает, что наши уши особенно чувствительны к частотам в районе 3000 Гц. Добавьте еще немного искажения, как сделали U 2 в «The Fly», и получите скрипучесть, или, на языке ученых, – «шершавость» (roughness).
Во внутреннем ухе звук расщепляется базилярной мембраной в соответствии с частотой. Эта мембрана продолжается по всей длине улитки; если ее развернуть, она будет напоминать пианино, у которого частоты выстроены по длине. Высокие частоты возбуждают базилярную мембрану ближе к овальному окошечку внутреннего уха, а низкие вызывают движение на противоположном конце. Когда человек слышит ноту, базилярная мембрана одновременно вибрирует в нескольких точках, давая сигнал мозгу о том, какие частоты составляют звук. Для низкочастотных гармоник вибрирующие части базилярной мембраны находятся на большом расстоянии друг от друга. Наоборот, для высоких частот гармоники настолько близко расположены друг к другу, что созданные ими вибрации базилярной мембраны взаимодействуют и движение становится трудно распознать. Если это происходит, мозг слышит скрипучий, хриплый звук.
Такая резкость и скрипучесть возникают естественным образом, когда человек визжит. Попробуйте начать со звука [ааа] и постепенно увеличивайте давление воздуха, идущего из легких. С увеличением давления под голосовой щелью, вызывающего вибрацию голосовых связок, они начнут двигаться все больше и больше, что создаст более громкий звук. Но если резко увеличить давление воздуха, то вы достигнете предела физических возможностей гортани, голосовые связки больше не смогут раскрываться и закрываться в обычном ритме. В результате голос исказится, и визгливое высокое [ааа] приобретет пронзительную хрипоту.
В 2009 году я провел онлайн-эксперимент для Манчестерского фестиваля науки. Я просил людей оценить 19 разных воплей и сказать, какой из них самый жуткий. Отобрать звуки для эксперимента было очень непросто, потому что казалось, будто вопящий человек сильно страдает, особенно в самых ярких примерах. Именно хрипота делала звуки настолько ужасными (а это всегда происходит, когда человек вопит, никак себя не сдерживая и с максимальной силой). Анализ 20 000 результатов показал, что самыми жуткими чаще всего были женские вопли, а от самых длинных и высоких воплей просто кровь стыла в жилах. Естественно, женские вопли более высокие, чем мужские, поэтому они ближе к тем частотам, к которым уши человека более чувствительны, так что звуки воспринимаются громче [10].
В основе самых грубых звуков лежит быстрая флуктуация звуковой волны при частоте примерно 170 Гц. Интересно, что эта ниша не используется в обычной речи. Она находится между уровнем, при котором активные органы речи движутся для формирования звука, и частотами в пределах гудения, производимого голосовыми связками. Крик отчаяния часто требует незамедлительных действий, чтобы предотвратить опасность, так что в его резкости имеется преимущество: именно она выделяет такие крики из обычной речи. Люк Арнал из Женевского университета и его команда занимались исследованием этого феномена [11]. Они показали, что добавление голосу резкости не только усиливает воспринимаемый страх, но и заставляет участников реагировать быстрее. Наблюдая испытуемых с помощью фМРТ-сканера, ученые могли проследить за реакциями мозга. Неприятные звуки в значительной степени влияли на миндалевидное тело и первичную слуховую кору. Миндалевидное тело – это скопление нейронов, имеющее миндалевидную форму. Оно расположено в глубине мозга, как известно, играет важную роль в обнаружении и устранении опасностей [12]. Резкий звук, который может быть произведен сильно искаженными голосами, по-видимому, воздействует на когнитивные функции, которые развились у человека для быстрого распознавания сигналов отчаяния и реагирования на них. Неудивительно, что такое искажение голоса очень популярно у певцов тяжелого металла – и очень полезно для создания голосов злобных монстров.
«Вращающийся лес», фильм в формате виртуальной реальности, в котором фигурирует Слоноверблюд Элоиз, появился на свет необычно: саундтрек был написан еще до того, как были созданы персонажи, обычно бывает наоборот, и звуковое сопровождение опирается на видеоряд. Этот саундтрек на самом деле был написан для крупного исследовательского проекта (я принимаю в нем участие), в рамках которого мы разрабатываем новые способы прослушивания записей в домашних условиях [13]. Чтобы изучить ограничения уже существующих технологий, мы заказали серию драматических эпизодов. Техническое задание для сценариста было очень необычным: оно содержало таблицу технических требований, которые практически не имели отношения к созданию хорошей истории! Повествование должно было вестись от первого лица, источники звука должны были перемещаться, приближаться с разных направлений и восприниматься на разных расстояниях. Мы поставили задачу таким образом специально, поскольку знали, что современные аудиосистемы изо всех сил стараются создать подобное разнообразие звуков. Из этого странного технического задания драматург Шелли Сайлас ухитрилась создать волшебную сказку, в которой мальчик общается со Слоноверблюдом, топающим через лес. И только позднее BBC заказала видео, превратившее «Вращающийся лес» в фильм.
Будем надеяться, что результаты этого исследовательского проекта позволят улучшить разборчивость звукового ряда фильмов, демонстрируемых на телеэкранах. За последние годы от многих зрителей поступали жалобы, что диалоги в телешоу трудно разобрать. (Такая проблема не стоит в радиопостановках, ведь если слова будет трудно понять, передача утратит смысл.) Костюмная драма «Трактир “Ямайка”» была прозвана «Невнятная “Ямайка”» после того, как на нее посыпались тысячи жалоб. Более свежим примером является телешоу «Британские СС» в жанре альтернативной реальности. Действие происходит в Британии после победы нацистов во Второй мировой войне. Главную роль исполняет актер Сэм Райли, но временами его голос похож на едва различимый хрип. Возможно, некоторые сцены нужно было бы предварять словами: «Слушайте очень внимательно, я пробурчу это лишь один раз» [14]. Звукооператоры справедливо негодовали, когда их обвинили в том, что они некачественно выполнили свою работу. На самом деле голос был записан правильно, с использованием высокочувствительных микрофонов. Проблема в том, что такие микрофоны позволяют актерам играть естественно, без усиления голоса: таким образом, шепот – это стилистика, выбранная актерами и режиссерами, которые ценят натурализм выше, чем хорошую дикцию.
В этом проекте мы исследовали и другие проблемы разборчивости речи в звукозаписи, например случаи, когда музыка оказывается слишком громкой и затрудняет восприятие диалога. Решение этой проблемы может лежать в области объектно ориентированного аудио. Когда вы смотрите телевизор, то обычно получаете два аудиопотока из транслятора, которые затем передаются на левый и правый динамики телевизора. Если музыка слишком громкая, ее трудно приглушить, поскольку речь и музыка уже смикшированы. В случае объектно ориентированного аудио музыка, звуковые эффекты и диалоги посылаются по отдельным каналам. Дома нужное микширование осуществляет телевизор, что позволяет при желании приглушить музыку. В настоящее время мои коллеги разрабатывают компьютерные алгоритмы, которые будут отслеживать, насколько членораздельными являются слова в конкретном эпизоде. Это позволит телевизору автоматически настраивать громкость фоновых звуков, чтобы слова стали разборчивыми.
Технологии привели к неразборчивости слов и в сценической речи: на эстетику драматургии, актерского мастерства и постановки тоже влияют теле- и киноиндустрия. Одна из проблем – желание отказаться от усиления голоса, когда актер громко проговаривает роль с хорошо поставленным произношением, и заменить его более естественной речью. Но если театральный режиссер принимает решение использовать аутентичный акцент, который сложнее понимать, как же люди на галерке будут смотреть постановку? Решение кажется очевидным: наденьте на актера микрофон, поставьте усилители, направленные в зал, и добавьте громкости. Так и делают на Бродвее. Там зрители ждут, что речь актеров будет усилена в любой постановке. Но в Соединенном Королевстве использование электроники является предметом споров.
Недовольство по поводу использования электроники вылилось в шумные протесты, когда в 1999 году открылось, что Королевский национальный театр использовал электронное усиление в постановке Шекспира. Грэм Шеффилд, в то время художественный директор Барбикана, заметил: «Одно дело – использовать микрофоны для создания звуковых спецэффектов, но совсем другое, если микрофоны становятся привычным вспомогательным средством для ленивых актеров». Шеффилд пояснил: «Это уничтожает близость и естественность в отношениях между актерами и залом. Как бы хорошо это ни было исполнено, звук всегда будет казаться искусственным» [15]. Интересно, что жалобы посыпались только через несколько месяцев после премьеры «Троила и Крессиды». К этому времени критики и тысячи зрителей уже посмотрели пьесу с электронным усилением голосов, но никто ничего не заметил. Постановка даже получила хорошие отзывы, причем Майкл Биллингтон из Guardian назвал ее «великолепным новым спектаклем» [16]. В заголовки СМИ электроника попала лишь тогда, когда кто-то из сотрудников Королевского театра передал эту информацию прессе.
Впервые я услышал об этом споре, когда присутствовал на выступлении театрального звукорежиссера Гарета Фрая на конференции по звуку в 2010 году. Находящиеся «за кулисами» волшебники, такие как Гарет, обычно неизвестны широкой публике, но в числе его заслуг звуковое сопровождение церемонии открытия Олимпийских игр 2012 года в Лондоне (по сценарию Дэнни Бойла) [17]. Совсем недавно я встретился с Гаретом в Манчестере, в центре искусств HOME, во время перерыва в работе над шоу. Когда я попросил объяснить, в чем заключается его работа, он ответил: «Я несу ответственность за все, что слышат зрители».
Гарет объяснил, что в Королевском национальном театре инцидент со звуком произошел в результате случайного побочного эффекта, связанного с модными тенденциями в сценических постановках. Когда театр был только построен, в большинстве постановок использовались громоздкие тяжелые декорации. В пьесе Ноэла Коварда «Относительные ценности» декорации библиотеки в интерьере великолепного особняка выглядели бы очень натуралистично и были бы проработаны до мельчайшей детали. Передвинуть такие декорации нелегко, а это означает, что все повороты сюжета должны происходить в одной комнате. Автору нужно придумать, почему герои приходят только в эту комнату, а зрители должны поверить, что маловероятные встречи действительно могут случиться только в одном этом пространстве. Такое оформление сцены, возможно, доставляет массу проблем драматургам, но у него есть значительное акустическое преимущество: звук отражается от тяжелых декораций в направлении слушателей и, таким образом, усиливает голос актера.
Однако к концу XX века мода на декорации изменилась. Следуя эстетике телевизионных программ и кинофильмов, авторы пьес захотели менять место действия. Это означало, что декорации должны были стать более простыми, легкими и абстрактными. Перемещение на новое место действия часто осуществляется только за счет смены освещения и звукового окружения. Но эффективное отражение звука от постоянных тяжелых декораций исчезло, а без них часть аудитории плохо слышала происходящее на сцене. Электронные средства усиления звука необходимы именно для сглаживания недостатков акустики, а не потому, что современные актеры не способны усиливать голос, как считают некоторые журналисты. В наши дни эти средства приобрели еще большее значение, потому что в пьесе присутствует музыка и различные звуковые эффекты, а это означает, что голосам актеров приходится соперничать со множеством «шумов». Но усиление должно производиться очень тонко, чтобы зрители этого не осознавали. Гарет описывает этот способ как «располовинивание расстояния: усилить звук настолько, чтобы казалось, что актер в два раза ближе, чем на самом деле». Но использование технологий может пойти еще дальше и помочь сюжету. Гарет рассказал, что электроника может использоваться как слуховая маска, «отделяя голос от актера». Простая обработка звука, например смена высоты тона, может изменить пол персонажа, а реверберация – местонахождение актера, например перенести его из ванной комнаты в церковь [18].
В музыке реверберация широко используется для улучшения голоса. Это своего рода слуховой кетчуп, потому что добавление незначительной реверберации к звукозаписи обычно ее улучшает [19]. Когда музыкальные продюсеры используют реверберацию, они играют на ожиданиях и стереотипах слушателей. Запись диска Confess Патти Пейдж была революционной, потому что это был первый хит, в котором при записи поп-звезды использовалось наложение звука: Патти сама себе подпевает. Это песня-диалог, в которой ко второму голосу добавлена реверберация. Это было сделано с помощью динамика, воспроизводящего пение Пейдж в мужском туалете с отличной акустикой. Звук был записан через микрофон. Добавление реверберации помогло различить строки «разных» участников диалога, которые в ином случае слились бы, потому что и те и другие были спеты Пейдж. У реверберации имеется и религиозный подтекст, потому что такой эффект естественным образом возникает в акустическом пространстве церквей и соборов – и очень подходит для песни Confess [20].
Я разговаривал с Гаретом о пьесе «Встреча» (Encounter), имевшей успех во всем мире и поставленной на Бродвее в 2016 году. Она необычна тем, что звук доминирует и в постановке, и в самом сюжете. Пьеса рассказывает историю Лорена Макинтайра, фотографа, в 1960-х годах потерявшегося в лесах Амазонки и нашедшего приют у индейцев племени майоруна. Можно было поставить пьесу в традиционном стиле, но, как указал Гарет, представить тропический лес с помощью декораций или проецированием изображения было непросто. Гарет объяснил, что пьеса была бы «обречена на провал, потому что неизбежно стала бы уменьшенной копией реальности». Лучше было бы с помощью звука подключить фантазию зрителей, чтобы создать в их воображении картинки. Однако это не просто воспроизведение звуков тропического леса через динамики: каждый зритель получал наушники, которые помогали лучше представить сюжет.
В пьесе «Встреча» пересекаются несколько временных пластов и нарративов, в том числе есть сказки, которые отец рассказывает дочке на ночь. В обычной театральной постановке было бы трудно до конца прочувствовать такой интимный момент из-за физической удаленности от сцены. Но у каждого зрителя были наушники, соединенные с особым микрофоном на сцене, поэтому актер Саймон Макберни мог нашептывать зрителям прямо в уши. Перед началом представления Макберни дует в микрофон, и зрители взвизгивают, потому что у них складывается ощущение, что их ушам становится тепло от дыхания актера. Таким образом воссоздается интимная атмосфера чтения сказок на ночь. Звук переносит зрителей на сцену и в тропический лес.
Голова манекена
Особенный микрофон – это голова манекена, в уши которой вставлены микрофоны. Гарет использовал этот микрофон и для записи звуков в тропических лесах Амазонки. Это была очень непростая экспедиция. Всему виной были «чертовы москиты: я не мог их прихлопнуть, потому что из-за этого запись была бы испорчена» [21]. Темно-серая голова без туловища записывала звук бинаурально (стереофонически), этот метод является основой акустических исследований.
Закройте глаза и прислушайтесь к окружающим звукам. Возможно, с одной стороны вы услышите проезжающую по улице машину, с другой стороны раздастся пение птицы, а чуть дальше – звуки радио. Ориентиры, которые подсказывают вам источник звука, накладываются на звуковые волны, проходящие по слуховым каналам [22]. Причина, по которой микрофоны размещены в ушах манекена, как раз и состоит в необходимости поймать все звуки вместе с этими пространственными ориентирами. Если затем воспроизвести запись через наушники прямо в уши, зрители перенесутся в звуковую атмосферу того места, где была сделана запись. Хорошая бинауральная запись на самом деле создает ощущение, что звуки вас окружают. И этим она отличается от обычной записи: прослушайте любую композицию в наушниках, и вам покажется, что музыканты играют у вас в голове. Это происходит из-за отсутствия акустических ориентиров, которые разместили бы исполнителей снаружи. Мозг не может решить, где источник звука, и приходит к заключению, что он находится внутри. Гарет обыграл этот феномен, когда занимался постановкой «Встречи». Внутренний монолог заблудившегося в тропическом лесу фотожурналиста передается с помощью стерео, поэтому слушателям кажется, что он исходит изнутри, как бы из их головы, но голоса индейцев-майорана звучат бинаурально, поэтому создается ощущение, что они находятся снаружи.
До недавнего времени использование бинауральной записи ограничивалось в основном лабораториями. Но эта технология переживает второе рождение, поскольку слушание в наушниках стало очень популярным. BBC передавала один из эпизодов «Доктора Кто» с бинауральным саундтреком, 360 видео в интернете используют эту технологию, и именно так звук воспроизводится гарнитурой виртуальной реальности. Если сюжет приспосабливается к виртуальной и дополненной реальности, насколько технология может изменить голос актера?
До появления звукозаписывающих технологий актерам и певцам, принимавшим участие в крупных постановках, приходилось решать задачи, требующие значительных физических усилий: как «докричаться» до зрителей на задних рядах, чтобы они услышали не просто неразборчивый шепот? Отчасти это объясняет, почему некоторые стили пения, например оперное, сегодня многим кажутся странными [23]. Потрясающий контраст старого и нового можно услышать в «Барселоне», дуэте рок-солиста Queen Фредди Меркьюри и оперной певицы-сопрано Монсеррат Кабалье. Самое интересное в песне начинается в тот момент, когда после напыщенного и затянутого вступления начинает звучать смесь рока и классической музыки с помпезными аккордами, громыханием литавр и колоколов. У Меркьюри очень выразительный голос: многие согласятся, что он был одним из величайших певцов XX века. Местами у него приятный мелодичный голос, а когда словам нужна энергия, он почти кричит. Именно микрофоны и усиление звука позволяли Меркьюри выражать такое многообразие эмоций, даже когда он выступал перед огромными аудиториями. Голос Кабалье, напротив, весь пропитан вибрато, он всегда очень мелодичен, звучит почти как музыкальный инструмент. Но если в оперных традициях качество тембра голоса Кабалье имеет первостепенное значение, артикуляция слов не так важна [24]. Временами трудно понять, на каком языке поет Кабалье: испанском, каталанском или английском [25].
Используемая Кабалье вокальная гимнастика, конечно, впечатляет, однако за нее приходится платить не только неразборчивостью слов: у певицы ограниченная голосовая палитра для передачи эмоций. Как любой другой инструменталист, она может играть ритмом, гармонией и динамикой, но у нее остается мало возможностей для того, чтобы пропеть отдельные фрагменты вполголоса или внести еще какие-то стилистические изменения. Кабалье не может сделать того, что может Меркьюри, – например, резко сместить акценты и изменить интонацию и проявить свою индивидуальность. Поэтому для нетренированного уха все оперные сопрано звучат одинаково. Лучшие поп-певцы, наоборот, чаще всего выделяются именно голосами. Например, Боб Дилан. Во время его турне в середине 1960-х годов использование электронного аккомпанемента вызвало бурю недовольства среди фанатов. Во время печально известного концерта в Manchester Free Trade Hall зрители вяло хлопали в ладоши и кто-то выкрикнул: «Иуда!» И все же обвинять Дилана в том, что он продал настоящий фолк, было бы странно: без микрофона и усиления он со своим характерным скрипучим голосом никогда не смог бы петь перед большими аудиториями [26].
Не так давно я слушал в первом ряду оперу в концертном исполнении и почувствовал всю мощь оперного голоса. Пианисту приходилось бить по клавишам, чтобы аккомпанемент был слышен на фоне громких голосов. Сила звучания голоса крайне важна для постановок больших опер, потому что певцам обычно приходится состязаться с оркестром, который иногда бывает очень большим – например, в опере Вагнера «Кольцо нибелунга» участвуют 90 музыкантов. То, что оркестр играет в оркестровой яме, помогает певцам быть услышанными на фоне звучания оркестра. В таком театре, как, например, Фестивальный театр в Байройте, где ставятся оперы Вагнера, половина оркестра располагается под козырьком сцены. Если прямой путь от музыканта к слушателю блокируется, звук можно услышать только в отраженном виде или когда он огибает барьер оркестровой ямы благодаря дифракции. Дифракция низких частот происходит с большей легкостью, чем дифракция высоких частот, и это приглушает звучание оркестра. Поэтому в диапазоне высоких частот певцу приходится меньше соперничать с оркестром. Но даже с таким помощником, как оркестровая яма, нужна особая техника пения.
Оперные певцы стремятся добиться такого диапазона частот, к которому особенно чувствительно ухо. Слуховой канал между ушной раковиной и барабанной перепонкой имеет такую частоту резонанса, при которой воздух в канале вибрирует эффективно. Этот резонанс означает, что все ноты, которые певец производит в диапазоне около 3000 Гц, будут звучать громче благодаря анатомии уха. Но для достижения такого диапазона певцы должны использовать различные техники, потому что мелодии, которые они исполняют, имеют разные частоты.
Например, мужской баритон берет низкую ноту на частоте 100 Гц, что значительно ниже наиболее эффективного диапазона. У такой ноты будут также гармоники, которые являются производными от частоты ноты – 200, 300, 400 Гц и т. д. Чтобы усилить голос, баритон настраивает резонансы своего голосового тракта на одну из более высоких гармоник в том диапазоне, к которому наиболее чувствительно ухо слушателя. Это создает форманту певца. Баритон добивается этого, опуская гортань и сужая голосовой тракт как раз над голосовой щелью. Похожим образом усиливают голос и актеры [27].
Певицам-сопрано приходится прибегать к другому способу, потому что они поют на более высоких частотах (300–1000 Гц). Они настраивают свой голосовой тракт так, чтобы он придерживался основной высоты тона голосовых связок. Делается это за счет широкого раскрытия рта – так голосовой тракт постепенно расширяется, подобно рупору. Но когда голос поднимается к самым высоким нотам, возникают проблемы, потому что в этом случае невозможно точно воспроизвести некоторые гласные звуки [28]. Это объясняет, почему в пении Кабалье иногда трудно разобрать слова. В поп-музыке используется усилитель, и, когда певец выступает перед большой аудиторией, можно понять слова. Поэтому лирическое богатство песен, которым отличаются многие знаменитые баллады, возможно лишь благодаря микрофону.
Современное пение прошло через множество итераций, вызванных влиянием как культуры, так и технологического прогресса, давшего разнообразие голосов, которые мы слышим сегодня. Возможно, первым и самым важным шагом стало возвращение к более естественному пению. Появление микрофона привело к тому, что певцы начали исполнять свои песни в разговорной манере. Этот новый стиль пения, который называют crooning (тихое, проникновенное пение, «мурлыканье»), ассоциируется с американскими певцами, такими как Бинг Кросби, но считается, что первым в этом жанре запел Эл Боулли, который родился и вырос в Африке [29]. Боулли приехал в Британию в 1920-е годы и большую часть творческой карьеры провел в этой стране вплоть до трагической гибели во время бомбежки в годы Второй мировой войны. Отрывок старого фильма, в котором он исполняет Melancholy Baby в британском отделении киностудии Pathe, показывает, как он поет перед большим микрофоном, закрепленным на штативе. Со стороны это выглядит так, как будто он обращается к своей печальной подружке, сидящей перед ним на стуле. Боулли наклоняется вперед и практически шепчет самые задушевные строки в микрофон, а потом отклоняется назад и поет в обычной манере строки, приходящиеся на сильные доли такта: Every cloud must have a silver lining[30]. Его легкий тенор очень точен, так что даже малейшие вариации подчеркивают значение текста.
Проникновенное звучание кажется нам сегодня очень старомодным, но когда эта манера исполнения только появилась, такое публичное проявление близости и личных чувств было принято неоднозначно. «Стоит мне включить приемник, и я обязательно услышу, как они завывают и блеют, только портят воздух и выкрикивают бессодержательные слова, выпевая их под ужасные мелодии, – жаловался в 1932 году архиепископ Бостона О’Коннелл. – Это – дегенеративная форма пения, истинный американец не будет заниматься таким низкопробным делом». В Британии Сесил Грейвз, контролировавший выпуск программ на BBC, издал инструкции, в которых предписывалось не пускать «конкретно эту мерзкую форму пения» на радио [30]. Критики считали такое пение женственным и эмоционально неполноценным, но они проиграли.
Одним из величайших певцов, выступавших в этой манере, был Бинг Кросби. Он начал карьеру как актер варьете, но быстро приспособил свои сценические навыки к новым возможностям, которые давал микрофон. Тем не менее важнейший вклад в музыку Кросби сделал не своим пением: он финансировал развитие магнитной звукозаписи. Появление магнитной ленты улучшило качество записываемого звука и, что еще важнее, позволило с легкостью редактировать записи с помощью ножниц и клейкой ленты. Ошибки во время выступления больше не впечатывались навеки в воск или резину, их можно было удалить.
Кросби терпеть не мог, когда ему приходилось повторять живые выступления на радио, чтобы их можно было передавать в разные часовые пояса Соединенных Штатов Америки, поскольку это сокращало время, которое он мог провести на поле для гольфа. В 1946 году недавно созданная ABC Radio Network постаралась облегчить мегазвезде жизнь и записала его шоу Philco Radio Time на диск. Но качество звука было ужасным, и слушатели быстро поняли, что Кросби не поет вживую, в результате чего пострадал рейтинг компании. Решение нашлось в поверженной нацистской Германии. Запись на магнитную ленту уже была изобретена и использовалась в германских радиопередачах во время Второй мировой войны. Первый случай, продемонстрировавший возможность передачи звука, произошел посреди ночи – союзники услышали оркестровую музыку, но в это время музыканты уже должны были спать. Союзники знали, что немцы использовали что-то получше цилиндров и дисков, потому что в записях отсутствовали характерные поверхностные скрежет и треск. После войны были обнаружены катушечные записывающие устройства, называвшиеся магнитофонами, их перевезли в Америку, где новую технологию проанализировали, скопировали и усовершенствовали. Кросби понял, что магнитная лента может облегчить ему жизнь, поэтому решил вложиться в это предприятие [31]. Как только для шоу Кросби начали использовать магнитную ленту, он стал практически шептать в микрофон, поскольку тихие звуки больше не поглощались поверхностными шумами, как при записи на диск. Слушатели думали, что он опять выступает вживую, и рейтинги радиошоу Кросби выросли до прежнего уровня [32].
Другие увидели потенциал электроники в том, что она способствовала выражению сильных эмоций в песнях о происходящих в мире катаклизмах. Билли Холидей была одной из величайших джазовых певиц начала XX века. У нее было трудное детство, она драила полы и была девочкой на побегушках в борделе, прежде чем начала зарабатывать пением. В некрологе New York Times говорилось следующее: «Мисс Холидей стала певицей скорее от отчаяния, чем по желанию» [33]. Послушайте ее исполнение Strange Fruit, это душераздирающее описание чернокожих мужчин и женщин, жертв суда Линча, повешенных на тополях, и вы почувствуете, что она передает и трагизм собственной жизни. Она постоянно меняет тон и поет очень печально, но так спеть было бы невозможно, если бы она выступала без микрофона и пела громко.
Сегодняшние певцы и авторы песен тоже заставляют слушателей почувствовать, будто они проникают во внутренний мир исполнителя. Как написала музыкальный обозреватель Китти Эмпайр, «поклонников музыки захватывают внутренние переживания и муки автора и исполнителя. Мы думаем, что песни напрямую связаны с самыми уязвимыми местами артиста. Нас восхищает надтреснутый голос, блеснувшая слеза» [34]. Профессор Никола Диббен из Шеффилдского университета исследует эмоции в музыке, она не только написала о личных переживаниях в записях Эми Уайнхаус и Адели, но и лично работала с Бьорк. Она рассказала мне, что развитие технологии звукозаписи и особенно использование микрофона позволило создать «переход к очень индивидуалистическим и почти нездоровым отношениям [слушателей] с конкретными звездами». Крупные планы в фильмах породили культ кинозвезд, «крупные планы» голоса, которые улавливает микрофон, приводят к появлению поп-звезд.
Никола находит материал для исследования в самых неожиданных местах. Однажды она была в парикмахерской и была поражена реакцией своего стилиста на песню Адели. Обычно на музыку, которая звучит в общественном месте, обращают мало внимания, но, когда заиграла песня Адели, мастер сказала что-то вроде «боже, как мне нравится эта вещь, она рассказывает о моих переживаниях, она как будто рассказывает о моей жизни».
Чтобы узнать, как музыкальные продюсеры усиливают чувство интимности в поп-музыке, Никола исследовала хит Адели Someone Like You [35]. Эта песня в 2011 году стала самым продаваемым синглом в Великобритании и получила премию «Грэмми» за лучшее сольное исполнение поп-музыки. Слова песни очень эмоциональные, они передают автобиографическую историю о женщине, которая смирилась с расставанием. Адель поет под простой аккомпанемент фортепиано, который постепенно становится все более интенсивным. Но секрет проникновенного звучания кроется в том, чтобы заставить слушателя почувствовать, будто Адель физически находится рядом. Естественно, когда кто-то находится близко, эмоциональные реакции человека усиливаются. Чтобы этого достигнуть, музыкальный продюсер располагает микрофон очень близко к певцу, а затем применяет эффект звуковой компрессии. Это усиливает самые тихие места в песни таким образом, что можно услышать даже незаметные звуки, например дыхание певца [36]. Здесь требуются художественные ухищрения, потому что подвергшееся компрессии пение – это не совсем то, что мы услышали бы, если бы Адель пела без микрофона. Если в начале эпохи звукозаписи делались попытки точно отобразить голос певца, то в последние 50 лет продюсеры, наоборот, стараются его улучшить. И даже то, что воспринимается как берущее за душу пение, как в Someone Like You, на самом деле представляет собой гиперреальную постановку. Однако, как и в случае с другими аспектами современного звукового дизайна, это работает, только если слушатель не осознает акустического мошенничества.
Голос Адели в балладе, подобной Someone Like You, нуждается в компрессии, чтобы она могла полностью использовать свои вокальные способности. Если противопоставить начало и конец этой записи, становится очевидным резкий контраст в пении между задумчивым началом и тем, как Адель резко усиливает звучание в конце. И все же финальная часть записи звучит ненамного громче начала из-за использования компрессии.
Получившиеся в результате близость и интимность могут внезапно бросить в дрожь. Никола Диббен объясняет, что если произвести беспристрастный анализ невероятного вокала Джарвиса Кокера, то окажется, что он «как ни странно, отвратителен». Альбомы в стиле брит-поп, которые Кокер записал с группой Pulp в 1990-е годы, рассказывают о запретной любви, вуайеризме и сексе. Когда Кокер поет о любовной связи в песне Pencil Skirt, его пение полно утрированных звуков, производимых губами, языком и дыханием. Такой акустический «крупный план» помещает слушателя вплотную к певцу, когда он говорит: «Давай ложись у стены и смотри, детка, как исчезает моя совесть». Так голос превращает слушателя в извращенного участника процесса.
Джарвис Кокер и Адель очень умело играют на чувстве близости, которое им дает микрофон, но есть и те, кто, возможно, идет еще дальше. Таких звезд, как Мэрайя Кэри и Уитни Хьюстон, а также многих конкурсантов программ, подобных Pop Idol, обвиняли в том, что они «перестарались с душевностью» – использовали слишком много словесной гимнастики и чрезмерных эмоций. В некоторых случаях результат оказывался комическим. Например, интерпретацию национального гимна США в исполнении Кристины Агилеры на Супербоул в 2011 году стоит посмотреть онлайн. Как написал на сайте Huffington Post Джон Эскоу, «певцы, подобные Агилере, которые, несомненно, обладают замечательным вокальным инструментом, похоже, просто не знают, когда остановиться, и превращают каждую песню в олимпийское состязание, потому что они высасывают из нее душу. Как будто для того, чтобы доказать свою искренность, им нужно в каждом отдельном слове проявить все возможные его качества». Желание победить на телешоу талантов и стремление к тому, чтобы песня удерживала внимание слушателей в этом полном отвлекающих моментов мире, привели к чересчур утрированному исполнению, от которого, по моему мнению, просто устаешь. Но может быть, сейчас я напоминаю тех, кто жаловался на первых популярных певцов, и это знак, что я отстал от моды [37].
Когда мы говорим о том, как технологии изменили голос, важно не упустить из виду один аспект, меньше связанный с технологическими нововведениями, – влияние подражания. Появление огромных музыкальных библиотек, таких как Spotify, вынуждает начинающих певцов тоже изменять голос. Фанаты слушают кумиров снова и снова, чтобы подстроить собственные голоса под голос своего музыкального героя или героини.
Елена Дафферн из Йоркского университета, профессиональная певица и исследователь, проводит в своей лаборатории эксперименты с голосом. Когда мы беседовали о подражании, Елена отметила, что сегодня люди стараются скопировать записи, в которых на голоса уже наложены аудиоэффекты. «Как это повлияло на пение? – задает она риторический вопрос. – Когда ты молод и подпеваешь Бейонсе, то не ожидаешь, что сейчас продюсер наложит все эти эффекты, ты стараешься воспроизвести их сам». Но дело не только в эффектах: слушатель пытается воспроизвести пение, которое уже улучшено с помощью редактирования. Маловероятно, что певцы (если, конечно, они не прошли интенсивную подготовку) сразу же попадут в нужные частоты каждой ноты. Когда звукозапись выполнялась на воске, такие «недостатки» оставались в нем навеки, но цифровые технологии позволяют легко их устранить. Скорее всего, певец запишет вокал несколько раз, а потом звукорежиссер вырежет и склеит лучшие куски.
С помощью программного обеспечения сегодня можно исправить фальшивые ноты. Auto-Tune – это акустический аналог цифрового фоторедактора, позволяющего удалять изъяны и несовершенства со снимков. Эта программа используется популярными певцами любого статуса и способностей. Когда журналист прямо спросил об этом Робби Уильямса, тот ответил: «Сейчас все используют Auto-Tune. На вашем компьютере ведь есть программа для проверки орфографии? Вы ее используете? А почему? Разве вы не умеете писать правильно?» [38] Если прибегать к такому сравнению, можно подумать, что Auto-Tune – простой инструмент, который нужно использовать всем. Но как и в случае с улучшением фотографий, которое привело к неправильному восприятию собственного тела, Auto-Tune создает такие ожидания относительно точности тона, каких никогда раньше не было. Как сказал один хорошо осведомленный представитель музыкальной индустрии: «Все поют так, будто используют Auto-Tune, даже если они этого не делают» [39].
Музыкальная мимикрия распространяется далеко за пределы копирования обработанного человеческого голоса. Есть одна популярная вокальная техника, которая возникла исключительно из имитации машины. Битбоксинг появился как пародирование буханья, треска и грохота электронной драм-машины. Подобные выступления завораживают, так как артисты с поразительной точностью воссоздают звучание барабанов и тарелок. Некоторые даже добавляют песенную вокальную линию или другие инструменты. Возможно, битбоксинг имеет свое начало в хип-хопе, но он уже проник и в массовую культуру. Некоторые рассматривают битбоксинг как своего рода голосовой атлетизм, но лучшие мастера этого стиля, такие как SK Shlomo (Саймон Шломо Кан) и Bellatrix придают ему настоящую музыкальность.
Просматривая научную литературу по битбоксингу, я с удивлением обнаружил знакомое имя. Я знаю Дэна Стауэлла как специалиста, разрабатывающего компьютерные программы для идентификации пения птиц, но я и подумать не мог, что его докторская диссертация была посвящена битбоксингу. Когда я навестил Дэна в лондонском Университете королевы Марии, он продемонстрировал мне свое умение. Еще подростком он занимался экспериментальной музыкой и считал битбоксинг одним из способов создания необычных акустических тембров и текстур. Дэн объяснил возросшую за последние 10 лет популярность этого стиля: в интернете можно найти огромное количество видеоклипов, которые подробно объясняют, как добиться подобного эффекта. Когда в 1990-х сам Дэн учился этим приемам, он мог только копировать звукозаписи, и было непросто догадаться, как можно вокально воспроизвести некоторые эффекты.
Битбоксер использует голосовые техники, которые в норме не используются, когда человек, допустим, разговаривает по-английски. Но многие звуки битбоксинга можно обнаружить в речи за пределами западной культуры, например щелчки, которые встречаются в койсанских языках Африки. Сначала Дэн показал мне, как создать звук малого барабана. Для этого нужно скривить рот набок и втянуть воздух через зубы, что создаст звук, похожий на приглушенное чихание. Удивительно, но этот звук производится на вдохе. Я не могу назвать ни одного звука, который делается на вдохе, пожалуй, так происходит, только когда человек задыхается или глотает. Но есть языки, в которых такие звуки встречаются повсеместно, – например, исландцы часто говорят ja («да»), втягивая воздух в легкие.
В битбоксинге звук малого барабана – это взрывной звук. Обычный, произносимый с помощью голоса взрывной звук, например [п], начинается с нагнетания давления из легких при сомкнутых губах. Когда губы размыкаются, происходит быстрое освобождение воздуха, создающее толчок давления, в результате которого и появляется звук. Для копирования звука барабана Дэн делает нечто подобное, но в обратном порядке. Он использует язык, чтобы «запечатать» рот, и ослабляет диафрагму, чтобы уменьшить давление в легких. Когда он резко сдвигает язык вниз в задней части и по бокам рта, воздух быстро втягивается через получившееся маленькое отверстие сбоку и создает звук. Умение производить звуки на вдохе очень полезно, потому что в противном случае битбоксеру пришлось бы останавливаться, чтобы перехватить дыхание. Конечно, это уничтожило бы иллюзию звучания драм-машины [40].
Битбоксеры играют на том, как мозг воспринимает звуки, чтобы создать впечатление одновременной игры множества музыкальных инструментов. Музыканты называют это полифонией. Этот музыкальный трюк известен уже многие столетия, и в качестве примера обычно приводят произведения Баха для скрипки соло. В этих сочинениях скрипач время от времени перескакивает вперед и назад между высокими и низкими нотами. Если он играет хорошо, то слушатель не улавливает эти скачки, а слышит две мелодии, одну на высоких нотах, а другую на низких. Битбоксеры делают нечто похожее: они перескакивают между разными звуками барабана, а мозг слышит разные ритмические линии. Особенно сильное впечатление создается, когда битбоксер одновременно ведет барабаны и вокал. Известный пример – Rahzel, американский битбоксер, чей коронный номер – интерпретация песни If Your Mother Only Knew. В начале своего выступления он сообщает слушателям, что исполнит пять партий одновременно: «Я буду отбивать ритм, да, вести хор, басовую линию, петь и подпевать» [41].
Битбоксеры используют и то, как мозг воспринимает и соединяет поступающие в уши фрагменты звука. Рассмотрим рисунок. Линия 1 в верхней части показывает прерывистую линию, а что показывает линия 2? Она прерывистая или непрерывная? Похоже, что непрерывная, хотя линии 1 и 2 абсолютно одинаковые. Мозг предполагает, что во втором случае он имеет дело с непрерывной линией, которая частично спрятана за заштрихованными прямоугольниками. Он ищет самое простое решение, складывая все компоненты. То же самое происходит со звуком. Представьте, что вы слышите прерывистый звуковой сигнал, например грузовика, когда он начинает двигаться задним ходом. А потом добавьте шипящий звук в промежутках между звуками. Шипение выступает в той же роли, что и заштрихованные прямоугольники, и вы вдруг обнаруживаете, что сигнал больше не воспринимается как прерывистый, вам кажется теперь, что он звучит непрерывно? Мозгу кажется, что это постоянный тон, хотя на самом деле это не так. Это стремление превратить прерывистый звук в нечто более гармоничное является жизненно важным навыком, который дает возможность соединять фрагменты речи в единое целое, даже в том случае, если то, что слышится, прерывается помехами.
Иллюзия непрерывности
Иллюстрация скачущего ритма
Скачущий ритм – это еще один акустический прием, которым можно объяснить полифонию битбоксинга. Это иллюстрирует простой рисунок (см. с. 209). Вы повторяете ноту, перепрыгивая то на высокую частоту, то возвращаясь на исходную позицию. На верхней схеме прыжок от низкой ноты к высокой – маленький, и вы слышите веселую мелодию, напоминающую ритм скачущей лошади. Но если расстояние между низкой и высокой нотами увеличивается, как на нижней схеме, вы слышите уже две серии звуковых сигналов: высокие и низкие. И они явно отделены друг от друга. В акустике такие два звука, как на верхней схеме, называются соединенными из одного источника, а на нижней схеме, где скачки больше, они сформированы двумя «акустическими потоками»: один – для высокой, а другой – для низкой ноты.
Битбоксер должен убедить мозг слушателя, что воспроизводимые звуки, имитирующие звуки разных частей ударной установки, исходят из разных акустических потоков. Битбоксер должен уметь быстро перескакивать между разными звуками, не искажая эти потоки. Здесь помогает разница в высоте тона, как показано на примере выше, а также разница в тембре. Ожидания слушателя, сформированные синкопированным ритмом барабана, когда басовые ноты приходятся на синкопу, помогают поддерживать эту иллюзию. Если битбоксинг исполняется качественно, мозг слушателя воспринимает басовый барабан, малый барабан и тарелки как разные акустические потоки, поэтому создается иллюзия, что битбоксер играет на множестве инструментов. Но, по словам Дэна, если исполнение некачественное, то акустические потоки разрушаются и создается впечатление, что человек «производит какие-то нелепые звуки».
Простые характеристики звука помогают мозгу формировать акустические потоки. Например, возьмем эффект засурдиненной трубы, который битбоксер создает на фоне ритма. Этот звук обладает набором гармоник, которые представляют собой производные от базовых частот. Такие гармоники передаются от внутреннего уха в мозг разными нейронами, потому что у них разная частота, и поэтому они разделяются на базальной мембране внутреннего уха. Однако мозг воспринимает эти различные гармоники как исходящие из одного источника, а не как набор несвязанных звуков. Делает он это так: отмечает, что все гармоники начинаются и заканчиваются одновременно. Нейробиологи называют это восходящей преаттентивной обработкой. Но на эти потоки влияет и нисходящая когнитивная обработка, когда мозг подключает память и ожидания, чтобы понять, что происходит. Когда Rahzel исполняет If Your Mother Only Knew, он использует именно этот прием. Прежде чем исполнить свой коронный трюк, изображая барабаны и вокал одновременно, он довольно долго поет только вокал. Это знакомит слушателей со словами и мелодией, поэтому, когда Rahzel добавляет звуки барабана, слушатели сами «устраняют» исковерканные слова, если они возникают. Некоторые слова становятся непонятными, потому что они точно совпадают с ударами барабана. В этом случае Rahzel создает композитный звук и полагается на то, что мозг слушателя будет воспринимать его как два отдельных звука из двух разных акустических потоков.
Дэн продемонстрировал мне этот эффект, спев песню, которую исполняет Rahzel, аккомпанируя себе на малом и басовом барабанах. Если он не поет вокал, то удары бас-барабана могут быть созданы втягиванием воздуха в легкие при закрытой голосовой щели. Тогда звук воспринимается как вибрации, исходящие из боковой части горла [42]. Но когда if в начале песни совпало с бас-барабаном, Дэн создал сложный звук, в котором слова и бас-барабан слились. По отдельности это звучало как bif, но если слушатели знают слова и ритм песни, то искаженное слово остается незамеченным и бас-барабан не пропускает удар [43].
Мы увидели, как в битбоксинге человеческий голос сливается с ударной установкой. Но технология открывает и другие возможности, например слияние голоса с музыкальными нотами. В 1940-х годах в Capitol Records придумали детскую историю о говорящем дожде. На первый взгляд она кажется веселой, но на самом деле эта история совсем не веселая. «Спарки и Говорящий Поезд» (Sparky and the Talking Train) рассказывает о мальчике, который очень любил локомотивы. Однажды он сказал маме, что слышал говорящий с помощью свистка поезд. И получил снисходительный ответ: «Ну что ты, дорогой, поезда не разговаривают». А когда Спарки отказался поверить, что ему просто показалось, мама добавила: «Ну все, хватит, мы поговорим с папой, когда он вернется, может быть, он сможет заставить тебя поверить» [44]. Спарки продолжал настаивать, что поезд действительно разговаривал, и это привело к тому, что он стал изгоем в семье и среди друзей. Но, поскольку эта история для детей, в конце все заканчивается хорошо. Спарки становится героем, когда предотвращает несчастный случай, после того как поезд говорит ему о плохо закрепленном колесе.
В записи сиплый, свистящий голос поезда был создан с использованием соновокса. К горлу крепился репродуктор, и актер беззвучно артикулировал слова. Свистковые тоны, проигрываемые репродуктором, заставляли горло вибрировать и проходили в голосовой тракт. Эти вибрации заменяли нормальное гудение голосовых связок [45]. Подобная техника может помочь человеку, который утратил голосовые связки из-за болезни. Искусственная гортань закрепляется на горле и действует подобно репродуктору соновокс. В этом случае устройство производит не свист, а гудение, ведь здесь идея состоит не в создании мультяшного голоса, а в замене речи.
В XX веке были разработаны еще более сложные способы создания вокальных карикатур и «механических» голосов. Самым замечательным был вокодер, устройство, первоначально разработанное, чтобы кодировать речь для телефонных линий. Во многом вокодер имитировал работу соновокса: замещал создаваемую голосовыми связками звуковую волну нотами синтезатора. Группа Kraftwerk первой использовала вокодер в альбоме 1974 года Autobahn. Главная песня начинается с того, что машина заводится, трогается с места и гудит. Затем вокодер создает медленную электронную распевку слова Autobahn [46]. Механический голос постепенно нарастает, начиная с тоники, а затем добавляются еще ноты, чтобы получился аккорд. Такое электронное обесчеловечивание голоса точно соответствовало отстраненной эстетике группы (мы вернемся к вокодеру в следующей главе).
Когда компьютеры появились в каждой звукозаписывающей студии, обработка музыки стала цифровой, что дало еще большую свободу для манипулирования голосом. Возможно, самым известным и эффективным преобразованием голоса был хит Шер Believe, который принес ей премию «Грэмми» в 1999 году. Пение Шер было обработано программой Auto-Tune с максимальным использованием звуковых эффектов, чтобы придать ее голосу модуляции. Auto-Tune постоянно оценивает частоту пения, используя математическую операцию «автокорреляция». Если программа обнаруживает частоту, которая не подходит к одной из нот музыкальной гаммы, аудио обрабатывается так, чтобы гармония улучшилась. Скажем, нота, изображенная на верхней схеме рисунка на с. 215, бемольная, тогда четыре цикла звука сжимаются и в конце добавляется еще один цикл. Это означает, что нота изменяется быстрее: другими словами, частота увеличилась, чтобы скорректировать гармонию [47]. Если корректировка производится осторожно и постепенно, будет трудно обнаружить использование Auto-Tune, часто его просто не слышно. Но если программа настроена так, что производит коррекцию моментально, получается модулированный звук, такой как в Believe Шер. На самом деле мы слышим, как программа прыгает между разными нотами, так как тон корректируется слишком часто. Эта запись – замечательный пример того, как артисты используют технологии и злоупотребляют ими для создания неожиданных творческих эффектов.
Популярная музыка прибегает к созданию коротких, легко запоминающихся мелодий, которые делают песню притягательной. Этот прием известен как «музыкальный хук». Believe Шер – пример того, что это может относиться не только к мелодии или словам: искаженный голос сам по себе становится эффектным хуком. С учетом того, как акустические потоки формируются в сознании, качание частоты помогает отличить голос от музыкального сопровождения и выделить его.
Повышение тона в Auto-Tune
Злоупотребление Auto-Tune приводило и к удивительным мистификациям. Одна из самых известных – это ремейк речи Ника Клегга, в которой он приносит извинения за повышение платы за обучение. Эта запись даже попала в топ-40. Звуки, производимые с вибрацией голосовых связок, например гласные, по своей природе обладают тоном [48]. Если использовать Auto-Tune, можно повысить или понизить частоты разговорной речи так, чтобы она стала похожей на мелодию. Программа не сможет обработать звуки речи, которые обладают нечеткими частотами, например [с], поэтому после наложения Auto-Tune мистификация Клегга переключается с механического голоса на пение и обратно.
Голос с едва различимым механическим оттенком – это обычное явление в современном поп-вокале. Такие записи лучше продаются, хотя некоторым не нравится подобное звучание. Музыкальный критик Telegraph Нил Маккормик так прокомментировал использование Auto-Tune: «Преимущественно в музыке эта штука используется плохо, из рук вон плохо». Он вспоминает свой разговор с Леди Гагой: «Когда я впервые брал у нее интервью, она то и дело начинала петь, а я ей вроде: ух ты, петь-то умеешь по-настоящему; но у нее ведь была эта пластинка, на которой она звучала как робот, играющий в Just Dance». Маккормик спросил Леди Гагу, зачем она использует обработанный в Auto-Tune голос, ведь она фантастическая певица. «И она, по сути, ответила, что этого хочет молодежь».
Но так ли уж сильно электронные ухищрения для манипуляций с современным поп-голосом отличаются от техник пения, которые изобретали оперные певцы для создания звука, достаточного, чтобы заполнить весь зрительный зал? Как мы увидели на примере «Барселоны», оперные певцы жертвуют произношением, концентрируя внимание на мелодической линии. Таким образом, обучение студентов пению в классическом стиле воспитывает певцов, у которых почти нет индивидуальности. Так и голос современного певца, прошедший цифровую обработку, может звучать не как голос человека, а как музыкальный инструмент. Оперные певцы используют очень широкое вибрато, модуляцию частоты, которая помогает им выделяться на фоне оркестра. Подобно этому, механическое качание частоты, которые звукооператор добавляет к голосу поп-певца, помогает выделить его на фоне музыкального сопровождения. При качественном исполнении музыкальная обработка – это просто расширение того, что люди делали на протяжении веков [49].
Технология дает возможность создавать подобные эффекты на кончиках пальцев звукооператоров, позволяя записи выйти за пределы того, чего можно достигнуть естественным путем. Это касается всех видов искусства: как только инструменты становятся широкодоступными, художественные достоинства результата начинают меняться. Каким бы ни было эстетическое качество конечного продукта, речь идет об изменении голоса, потому что человек все равно будет копировать звуки, полученные в студии, даже если в итоге они будут звучать искусственно, как у робота. Но плохо ли это? Певческий голос развивался тысячелетиями, и то, что мы наблюдаем сегодня, – лишь технология, ускоряющая эту тенденцию.
А что, если вообще избавиться от человека-певца и человека-оратора и использовать синтетические голоса? Пойдут ли люди в театр, чтобы смотреть, как играют роботы-актеры?
6 Все роботы – актеры
Первые демонстрации записи голоса, проведенные Эдисоном, вызвали ажиотаж, но временами царапанье иглы по фольге перекрывало речь. При воспроизведении звук искажался, и New York Times описывала «странные писклявые голоса, такие можно услышать только на фонографе – или в театре марионеток» [1]. Инженер-электрик сэр Уильям Генри Прис полагал, что использовать фонограф для записи выдающихся голосов, например оперной дивы Аделины Патти или великого оратора Глэдстона, – плохая идея [2]. Пирс считал, что воспроизведенный звук – «это своего рода… бурлеск или пародия на человеческий голос» [3]. В наши дни сгенерированный компьютером голос, озвучивающий героя шекспировской пьесы, возможно, описали бы так же. Можно было бы загрузить текст пьесы в современный синтезатор речи, и он, наверное, смог бы выдать членораздельный текст, но странная интонация сделала бы такое воспроизведение карикатурой на актерскую игру.
Возможно, сейчас вы представили себе Стивена Хокинга, играющего Гамлета, но на самом деле Хокинг использовал давно устаревшие технологии. Понятно, что он отказывался «усовершенствовать» свой голос, поскольку он уже стал его визитной карточкой. Новейшие синтезаторы речи, конечно, звучат более естественно, и такие голоса, как Siri, персональный помощник iPhone, для многих людей стали частью повседневной жизни. Когда я приступил к написанию этой главы, в среде специалистов, занимающихся синтезом речи, царило возбуждение по поводу новейшей технологии, разработанной DeepMind. Заголовки пестрели сообщениями о том, как в 2016 году разработанная компанией программа на основе искусственного интеллекта AlphaGo обошла профессионального игрока в го. Ученые старались добиться впечатляющего качества синтезированной речи, как это получилось у DeepMind.
Если мы все ближе подходим к моменту, когда механическая речь станет неотличимой от человеческой, следует ли беспокоиться тем, кто профессионально использует свой голос? Не наступит ли час, когда я в последний раз буду выступать со своей научно-популярной программой на радио BBC? Ведь BBC уже начала переводить и читать сводки новостей на русском и японском языках, используя механические голоса [4]. Это делается для того, чтобы предоставлять услуги на большем количестве языков, так что дикторы-люди не останутся без работы – во всяком случае пока…
А как насчет актеров, которые профессионально используют голос? Некоторые театральные компании уже экспериментируют с роботами-актерами. Конечно, луддиты здесь не нужны, потому что машины не заменяют актеров, а играют самих себя. Например, My Square Lady – опера, в которой робот по имени Мион занят в роли, похожей на историю Элизы Дулитл из мюзикла «Моя прекрасная леди». Элиза занималась риторикой, чтобы изменить свой социальный статус, а Мион учится чувствовать и выражать эмоции, чтобы стать более человечным. По мере того как искусственный интеллект совершенствуется, а компьютерная речь улучшается, будет ли в постановке шекспировской «Как вам это понравится?» звучать модифицированная строка: «Весь мир – театр, а роботы в нем – актеры»?
Говорящие машины появились в театре. Первый настоящий синтезатор речи – механическое устройство, созданное венгром Вольфгангом фон Кемпеленом в конце XVIII века. Кемпелен был настоящим энциклопедистом: политиком, художником, изобретателем и, что самое главное, еще и шоуменом [5]. Его самым известным сценическим действом был умеющий играть в шахматы автомат. Эта машина представляла собой большой ящик, на верхней плоскости которого располагалась шахматная доска, а внутри находились замысловатые заводные механизмы, которые тикали и жужжали при движении. Над доской склонился бородатый манекен в турецком халате и чалме, его рука двигалась: он брал фигуры и передвигал их. Это действо вызывало восторг у зрителей по всему миру, включая Париж, где в 1783 году машина сыграла партию с послом США Бенджамином Франклином [6]. Это был Кемпелен-шоумен: он продемонстрировал сложнейший фокус, обманув зрителей, ведь на самом деле все движения контролировались миниатюрным игроком, спрятанным в секретном отделении внутри ящика.
Старинный рисунок машины Кемпелена и модель Брекхейна и Трувейна; воздуходувы не видны, они находятся справа
А вот говорящая машина Кемпелена стала уже серьезным научным предприятием, рожденным желанием опытным путем изучить, как работает голос. Построив машину, которая симулировала отдельные части голосовой анатомии, он надеялся лучше понять человеческую речь. В своей научно-популярной программе я использовал модель машины Кемпелена, которой управлял профессор Дэвид Хауэрд из колледжа Ройял-Холлоуэй при Лондонском университете. Подобно Кемпелену, Дэвид – энциклопедист, инженер по электронике, дирижер и органист. И он тоже немножко шоумен. У говорящей машины Дэвида есть большой набор воздуходувов, которые работают подобно легким. Из них воздух проходит через полую трубку, которая симулирует работу голосовых связок: открывается и закрывается, перекрывая поток воздуха и создавая гудящий звук. Для имитации эффекта голосового тракта из передней части машины высовывается кожаная трубка, которой Дэвид манипулирует для создания разных звуков. Когда воздуходувы, находящиеся под его правой рукой, проталкивают воздух, Дэвид два раза быстро нажимает на кожаную трубку левой рукой, и получается слово «мама» (хотя мне показалось, что эти звуки больше похожи на грустное мычание коровы, чем на голос ребенка). Но когда Фабиан Брекхейн и Юрген Трувейн из Университета Саара в Германии проводили исследования со своей моделью машины Кемпелена, они обнаружили, что четыре из десяти испытуемых, слушавших воспроизводимое машиной слово «мама», думали, что говорит ребенок, а не машина[31] [7].
У машины имеется пара медных носовых отверстий, которые торчат, как бакенбарды, рядом с кожаной трубкой. Если их закрыть, «мама» превратится в «папу». Еще несколько рычагов и кнопок могут создавать другие звуки. Один из клапанов обходит полую трубку, посылая воздух через крошечный свисток, который создает шипящий [с]. У человека этот звук производится, когда воздух со свистом проносится через маленький просвет между языком и нёбом. Чтобы получить разнообразные звуки, необходима практика – как и в случае игры на музыкальном инструменте.
Проделки с шахматной машиной показали, что Кемпелен знал, как работать с аудиторией. Он даже оставил описания некоторых своих трюков – например, как использовать дающую высокий звук полую трубку для создания детского голоса, потому что знал, что это поможет успокоить критиков. Во время демонстрации говорящей машины зрители могли задавать слова, которые машина должна была синтезировать. Вот как описывает это один из зрителей:
Машина произносила все слова с большой точностью… По тону голос напоминал трехлетнего ребенка. Иногда требуемое слово произносилось сначала неправильно, и артисту приходилось делать несколько попыток. Он оправдывался, говоря, что человек, который делает скрипки, не обязательно виртуозный скрипач [8].
Кемпелен решил, что будет сам вслух произносить фразу, перед тем как ее повторит машина. Таким образом он заранее подготавливал слушателей, чтобы они не заметили ошибок в произношении, поскольку мозг уже подсознательно их исправит. И все же интерес к этой впечатляющей машине довольно быстро угас, потому что она не могла воспроизводить многие согласные.
В XIX веке были созданы еще более сложные говорящие машины. Самой известной была «Эуфония» Джозефа Фабера, которая в 1846 году участвовала в представлениях передвижного цирка Ф. Т. Барнума. На фотографиях это устройство напоминает ткацкий станок, снабженный воздуходувными мехами и головой манекена без туловища. Вибрация полой трубки регулировалась винтом, и это позволяло придавать голосу различную высоту тона. Машина Кемпелена всегда говорила монотонно, но «Эуфония» могла менять интонацию и даже петь «Боже, храни королеву».
Как и три десятилетия спустя, когда Эдисон изобрел фонограф, газеты предрекали «Эуфонии» различные сатирические роли. Кто-то предлагал заменить ею занудных ораторов, будь то скучный проповедник, адвокат или даже член королевской семьи. Журнал Punch предположил, что «Эуфония» может даже занять место спикера в палате общин: «Положите перед ней церемониальный жезл. Сбоку поместите большую табакерку… для удобства членов парламента и простой аппарат, чтобы он выкрикивал призывы к порядку каждые 10 минут» [9].
Многие отнеслись к этому изобретению с энтузиазмом, но будущий театральный импресарио Джон Холлингсхед написал откровенно пессимистичный отзыв, назвав профессора Фабера «человеком с грустным лицом», а говорящую машину «его научным чудовищем Франкенштейна». В конце концов Фабер уничтожил свою машину и покончил с собой [10].
К счастью, реакции на первую электронную говорящую машину были более оптимистичными. Синтезатор речи (The Voder) стал самым известным аттракционом на Всемирной выставке 1939 года в Нью-Йорке. По примерным оценкам, электронный голос вызвал восхищение у пяти миллионов посетителей, включая пожилого человека, так отозвавшегося о нем: «Чудеса, как их описывает Библия, на самом деле существуют, ведь здесь, в этой комнате, мы своими глазами увидели это современное чудо! Воистину здесь нам показывают чудеса божьи, переданные посредством человеческого разума» [11].
Создателем синтезатора речи был Гомер Дадли из Лабораторий Белла. В некрологе коллега описывал Дадли как одного из «величайших “старомодных” изобретателей», которого было трудновато понимать, потому что он слишком быстро говорил: «Язык у него работал как телеграфный аппарат» [12]. К слову, именно медленная работа телеграфного кабеля заставила Дадли искать лучшие способы передачи речи, потому что высокие звуковые частоты находились за пределами возможностей кабеля. Эта работа и привела к созданию синтезатора речи.
Синтезатор речи Дадли (Voder) [14]
Дадли понял, что гудение голосовых связок, которое создает проблематичные для передачи высокие частоты, можно отделить от более медленных движений рта, языка и горла, поэтому сигнал, описывающий эту медленную артикуляцию, можно легко передавать по кабелю [13]. Хотя кабель не мог передавать звук голосовых связок, приемнику достаточно было передать частоту гудения, а затем можно было ее воссоздать на другом конце, используя генератор сигналов. Эта идея отделения источника звука от эффектов голосового тракта легла в основу создания синтезатора речи.
Фотография девушки-оператора за синтезатором, управляющей этой машиной на Всемирной выставке, напоминает мне о стенографистках, работающих в суде [15]. С помощью браслета на запястье выбирается звонкий (создается гудение, симулирующее звук голосовых связок) или глухой звук, например [ш]. Поскольку устройство электронное, звуки начинаются как сигналы, проходящие через электрическую схему. Ножная педаль изменяет высоту тона гудения, создавая примитивную интонацию. Затем звук проходит через электронные фильтры, которые формируют его, симулируя эффект голосового тракта. Наконец, усилитель и громкоговоритель превращают электронные сигналы в звуковые волны, проходящие через воздушную среду.
Чтобы научиться пользоваться этим синтезатором речи, требовался год. Оператор, миссис Хелен Харпер, рассказывала, как сложно было воспроизвести слово «концентрация»: «Мне нужно сформировать последовательно 13 разных звуков, сделать пять движений вверх-вниз браслетом на запястье и три-четыре раза изменить положение педали в зависимости от того, насколько выразительным я хотела бы заставить машину сделать это слово. И конечно, все это нужно было точно синхронизировать». Особенно трудно было справиться со звуком [л]. В 1939 году в одной из статей Time отмечалось, что машина не может произнести название лаборатории, в которой она изобретена, – по всей видимости, вместо «телефоны Белла» получалось что-то вроде «тевефоны Бева» [16]. Как раньше делал Кемпелен, ведущий предварительно подготавливал аудиторию, произнося слова, которые затем пыталась произнести машина, чтобы помочь мозгу слушателя сгладить ошибки в произношении.
Синтезатор Дадли на Всемирной выставке 1939 года в Нью-Йорке
Хотя синтезатор производил членораздельную речь, он звучал как говорящий церковный орган. Иногда подстройка рычагов управления создавала немного пьяную, смазанную интонацию. При этом голос синтезатора звучал более естественно, чем знаменитый механический голос Стивена Хокинга, потому что умелые операторы, подобно концертирующим пианистам, очень быстро подстраивали рычаги управления, чтобы улучшить звук.
С распространением цифровой электроники можно было избавиться от «кукловода»-человека, и синтетический голос стал более независимым. Первым бытовым прибором стал Speak N Spell, игрушка компании Texas Instruments, выпущенная в 1978 году [17]. Тогда синтезатор речи, втиснутый в небольшое и довольно примитивное электронное устройство, считался чудом техники. Но я сомневаюсь, что сегодня кто-то стал бы использовать для обучения игру, в которой приходится разбирать непонятные слова, и без того трудные в написании. У Speak N Spell в запасе было 200 слов, что вряд ли помогло бы в чтении Шекспира, но начиная с 1970-х годов мощность компьютеров несоизмеримо увеличилась, а качество звука в цифровых системах стало намного лучше. Но, несмотря на это, поразительно редко можно увидеть актера-робота, говорящего синтезированным голосом. Есть, правда, одна певица-андроид, которая выступает перед тысячами фанатов и даже сопровождала Леди Гагу в одном из ее туров.
Это поющий персонаж Хацунэ Мику, что означает «Первый звук из будущего» [18]. Я посмотрел несколько представлений и очень надеюсь, что в будущем мне не придется слушать только такую «музыку»! Хацунэ Мику часто поет в сопровождении настоящей рок-группы, а ее слишком резкий девчачий голос выпевает романтические баллады практически без эмоций. На сцене ее визуальным воплощением является псевдообъемная проекция девочки-аниме с длинными конскими хвостами и огромными глазами. Когда гитарист выдает пронзительное соло, она танцует, как девочка-подросток, а фанаты подпевают.
Технология, с помощью которой создано пение Хацунэ Мику, напоминает обычные способы синтеза речи. Наверняка вы слышали такой синтезированный голос, делающий объявления об отправлении и прибытии поездов или озвучивающий меню в телефоне. Если все сделано хорошо, то речь похожа на настоящую. Если плохо, то можно услышать, как это делается. Здесь используется конкатенативный (компиляционный) синтез, при котором отрывки записанной заранее речи монтируются так, чтобы получились предложения. По сути, это звуковой эквивалент записки с требованием выкупа, склеенной из вырезанных из газеты кусочков. Чтобы создать такую речь, актер записывает огромное количество текстов, которые затем разрезаются на фрагменты и формируют базу данных, включающую части слов, целые слова, словосочетания и предложения. Новые предложения создаются путем выбора соответствующих отрезков из базы данных и их последовательного склеивания. Это уже новые предложения, которых актер не произносил. Если перед склеиванием использовать простую аудиообработку, например понижение интонации в конце фразы, можно добиться практически естественного звучания. Однако иногда интонация неестественно перескакивает, и это указывает на то, что речь синтезирована. Мы настолько привыкаем к естественному голосу, что даже одна фальшивая нота способна разрушить иллюзию, что говорит человек.
Пение Хацунэ Мику сделано с помощью программного обеспечения «Вокалоид», работающего по похожему принципу [19]. Делается многочасовая запись реального пения, затем она режется на куски, которые заносятся в базу данных для создания новых песен. Записи подбираются и обрабатываются так, чтобы высота голоса соответствовала мелодической линии. Программа также позволяет композитору контролировать вибрато, тембр и динамические характеристики для придания музыке выразительности. Секрет успеха Хацунэ Мику в том, что фанаты покупают программу «Вокалоид» и пишут для нее песни, которые потом загружают в интернет. Хацунэ Мику – звезда, созданная фанатами, и они могут ею управлять: создавшая этот голос компания утверждает, что в базе данных больше 100 000 песен. Хацунэ Мику не нужно звучать естественно, так как в японской популярной музыке даже голоса реальных певцов часто подвергаются обработке и похожи на механические.
Если вы предпочитаете, чтобы ваш робот-певец выступал в более классическом стиле, стоит обратиться к Павароботти [20]. Подобно настоящей оперной звезде, этот робот одет во фрак, в руке у него белый платок, а в конце представления он поднимает обе руки в знак благодарности за аплодисменты слушателей. Его голова – это экран, на котором зрители видят мультяшное лицо. Компьютер синтезирует арию Nessun Dorma из оперы Пуччини «Турандот», а голос исходит из динамика, спрятанного внутри фрака. Павароботти – это изобретение Инго Титце, который руководит Национальным центром голоса и речи в штате Юта. Сам Титце – хороший оперный тенор, и на представлениях он поет на низких нотах, а Павароботти – на высоких. Люди платят большие деньги, чтобы услышать, как тенор точно и мощно берет высокие ноты, но на самом деле именно такие ноты компьютеру создать просто. Значительно труднее создать нужный тон, ударение и интонацию в более спокойных и низких фрагментах арии, чтобы они звучали убедительно.
В основе Павароботти – компьютер с программой, решающей математические уравнения. Они описывают, как под действием воздушного потока создается звук, как он далее изменяется из-за резонанса в голосовом тракте и распространяется в полость рта. Компьютерной программе требуются тома подробнейших инструкций, описывающих быстро изменяющуюся геометрию голосовой анатомии. Написать все это непросто – для создания числовой информации для ввода в компьютер потребовалось почти пять месяцев. Но дело стоило того: Павароботти с восторгом приняли на концертах. Звуки, производимые компьютером, звучат натурально, в них нет даже намека на искусственность. Старая поговорка шоу-бизнеса гласит: «Всегда заставляйте хотеть большего». Именно это и сделал Павароботти, ведь Титце запрограммировал лишь одну арию.
Титце создал Павароботти, чтобы разобраться в механизме пения. Например, он продемонстрировал, что опущение гортани и сужение голосового тракта как раз над голосовой щелью создает «звонкость» оперного тенора, именно поэтому его хорошо слышно в больших залах. Разрешение на создание робота Титце получил у Лучано Паваротти, и оперной суперзвезде это явно было приятно. Паваротти был заинтересован в том, чтобы просвещать людей, поэтому дал проекту «свое благословение». Титце сказал мне: «Тенор назвал проект нашим детищем. И еще сказал что-то вроде “Хорошая работа, продолжай в том же духе”». Когда я спросил Титце, смогут ли компьютерные оперные певцы заменить живых исполнителей, он ответил: «Надеюсь, это случится не скоро, потому что я люблю настоящее пение. – И добавил: – Я думаю, голос нужен не только для художественных целей или для передачи слов от одного человека другому. Я считаю, что пение – это залог хорошего здоровья».
Системы, подобные Павароботти, пока не представляют угрозы человеческому пению, потому что создание разных голосов и огромных словарей в настоящее время нецелесообразно. Если «весь мир – театр», тогда «каждый [робот] не одну играет роль[32]». Для того чтобы машина научилась производить разнообразные уникальные и богатые голоса, нужен другой подход.
Историю систем производства речи, подобных Siri в iPhone, можно проследить до работ Дадли и других ученых из Лабораторий Белла. Наряду с изобретением Водера, эти люди создали очень похожее изобретение, с которым мы уже встречались ранее, – вокодер. Эта технология сыграла важную роль во Второй мировой войне.
В ходе этой войны секретная связь между союзниками была жизненно необходима. Но уже в первые дни войны германские специалисты по взламыванию шифров придумали, как расшифровать и подслушивать разговоры, – например, трансатлантические телефонные переговоры между президентом Рузвельтом и премьер-министром Черчиллем [21]. Была необходима новая система шифрования звонков, и решением, разработанным Лабораториями Белла в 1943 году, стал вокодер SIGSALY[33]. Он участвовал в военных операциях, в том числе в атомной бомбардировке Японии [22]. Вокодер – сокращение от «кодировщик голоса» (voice coder), с помощью электроники он разбирает записанную на микрофон речь, разделяя ее на источник (гудение голосовых связок) и фильтр (окрашивание звука голосовым трактом). Затем разделенная на два потока речь шифровалась и отправлялась через Атлантику. За океаном эти сигналы дешифровывались, а голос восстанавливался с использованием особой технологии, подобной технологии Водера. Военные записи не сохранились, но, судя по описаниям, речь можно было (хотя и с трудом) разобрать.
SIGSALY были сложными машинами и такими большими, что могли бы занять теннисный корт. Сердцем системы кодирования были два идентичных виниловых диска, один находился в Лондоне, другой – в Вашингтоне. На них были сделаны парные записи произвольного шума, которые использовались только один раз, а затем уничтожались. Записям давались кодовые названия, например «Красная клубника», «Дикая собака» или «Цирковой клоун», и операторы знали, какую из них нужно поставить на магнитофон для каждого звонка [23]. Шум от винила добавлялся к сигналам еще до их передачи, а на другом конце дубликат записи позволял его отделить. Без соответствующих записей взломать передаваемые радиосигналы было невозможно. Передача была похожа на жужжание насекомого, что привело к появлению прозвища «Зеленый шершень».
Это было потрясающее достижение, оно открыло дорогу многим нововведениям в технологии распознавания и синтеза речи, некоторые используются и сегодня. Это была первая закодированная телефонная система, позволившая оцифровать и сжать человеческий голос. Сегодня мы принимаем это как должное, когда пользуемся мобильными телефонами. Кроме того, вокодер SIGSALY продемонстрировал, как звук может быть разбит на небольшой набор компонентов, которые затем можно передать и реконструировать на другом конце провода. Это и есть ключевые ингредиенты в рецепте создания речи, и их можно варьировать для создания предложений, изменения акцента и других аспектов произношения.
Если вы хотите, чтобы актер-робот прочитал пьесу Шекспира, придется написать рецепт. Верное соотношение ингредиентов нужно будет загрузить в вокодер, чтобы робот мог использовать сценарий и понять, как произносить слова. Представьте, что в компьютер нужно загрузить текст из последнего монолога Макбета: «Бесчисленные “завтра”, “завтра”, “завтра”»[34]. Если каждое «завтра» произносить с одинаковой интонацией, это будет звучать ужасно. Но многие системы синтеза речи до сих пор используют один и тот же повторяющийся рисунок, и даже лучшие образцы речи, которые они создают, значительно уступают исполнению настоящего шекспировского актера.
Я загрузил «Быть или не быть» в одну из лучших систем преобразования текста в речь [24]. Из предлагаемых этой системой голосов больше всего мне понравился WillBadGuy: это скрипучий голос героя боевиков. Но звучал он так, будто WillBadGuy получил удар по голове: голосу не хватало беглости. Потом я попробовал искусственный голос десятилетнего подростка, который проскакал весь монолог, шепелявя, как робот. Повышение тона голоса, как при вопросительной интонации в вопросе, в конце каждой строки меня добило. Чтобы приблизиться к речи настоящего актера, система преобразования текста должна уметь не просто распознавать слова, но и интерпретировать их. Однако для этого требуется искусственный интеллект высокого уровня, и человеку еще предстоит долгий путь до реализации этого технологического чуда.
Чтобы узнать больше о современных системах синтеза речи, я отправился в Эдинбург к профессору Саймону Кингу, который специализируется на обучении компьютера речи. Подобно механику, который разбирает и заново собирает мотоцикл, чтобы понять, как он работает, в своих программах Саймон анализирует и реконструирует речь, чтобы узнать больше о вербальной коммуникации. Слушая рассказы Саймона о проблемах, связанных с синтезом речи, я осознал, что, облекая язык в слова, мы совершаем невероятный человеческий подвиг – и принимаем это как должное!
Системе синтеза речи необходимо имитировать способность человека оживлять текст, но, чтобы это сделать, ей придется научиться распознавать определенные характеристики. Текст уже содержит некоторые явные подсказки относительно того, как нужно произносить слова: это, например, орфография и пунктуация. Скажем, вопросительный знак указывает на восходящий тон. Но в дополнение к этому придется учесть и использовать огромное количество внешних знаний, которых нет в самом тексте. Полезным может оказаться словарь произношения, особенно для таких языков, как английский, который не является фонетическим. Но ведь постоянно создаются новые слова, которые нельзя найти в словаре, и они обязательно вызовут проблемы. Саймон отвечает просто: «Обязательно будут ошибки».
Чтобы произведенная компьютером речь звучала убедительно, нужно также, чтобы он попытался извлечь из текста смысл. Возьмем 130-й сонет Шекспира, который начинается так: «Ее глаза на звезды не похожи»[35]. Если бы его читал человек, он бы подчеркнул слова «глаза» и «звезды», чтобы усилить контраст. Этот сонет – сатира на любовную поэзию, в нем целый ряд шаблонных сравнений, которые уж никак не подходят возлюбленной автора. Система синтеза речи должна будет определить функцию каждого слова, ей придется опознать контрастирующие слова, чтобы выбрать для речи соответствующее ударение. Попробуйте послушать этот сонет на своем компьютере в исполнении бесплатного онлайн-синтезатора. Конечно, результат будет комичным, но только потому, что компьютер исковеркает тщательно продуманную иронию.
Системы синтеза речи, производимые крупными технологическими фирмами, становятся лучше и лучше. Но если задать вопрос Алексе, персональному помощнику Amazon Echo, то единственное, что можно получить в ответ, – это короткую фактическую информацию. Очевидно, что сделать это значительно проще, чем прочитать пьесу или стихотворение. Amazon Echo – небольшой цилиндрик, который через микрофон фиксирует ваш голос и реагирует на ваши команды. В настоящее время к созданию более умных помощников подключились другие компании. Дело здесь в элементарной экономике: если люди покупают всякие голосовые штучки, то компании хотят получать прибыль. Но подобные устройства фиксируют то, чем люди занимаются дома, и предоставляют ценные сведения о поведении, которые тоже можно использовать в коммерческих целях. Большинство людей, по-видимому, не слишком озабочены тем, что посредством технологий раскрывают самые интимные детали своей личной жизни. Однако ввод фразы в поисковое устройство отличается от ситуации, когда компьютер по тону вашего голоса регистрирует случайную информацию, а вы даже не подозреваете, что ее предоставляете.
Беспокоит, однако, то, до какой степени некоторые люди очеловечивают технологические достижения. Дэрен Джилл, директор по управлению продуктами, занимающийся персональным помощником Amazon, в интервью New Scientist отметил: «Каждый день тысячи людей говорят Алексе “доброе утро”» [25]. Сотни тысяч людей объяснились в любви умному домашнему помощнику, а некоторые даже предложили ему руку и сердце. Вы можете представить, что пишете такое письмо своему компьютеру?
Наличие речи у технологического устройства предполагает его независимость и самостоятельность. В одном исследовании 50 студентам задали вопросы о том, как они воспринимают изменения в голосе робота. Участники опроса чаще очеловечивали машину, если голос робота звучал по-человечески и его пол соответствовал полу слушателя. Значение имела также способность машины двигаться – вот почему некоторые домашние помощники всегда повернуты к вам лицом, они так спроектированы. Поразительным примером того, как движение одушевляет машину, стало возмущение, вызванное дурным обращением с роботом-собакой [26]. В 2015 году был снят видеоролик, демонстрирующий возможности собаки-робота по кличке Спот (безголовой машины на четырех ногах, которая даже не напоминает живое существо) удерживать равновесие. В фильме кто-то дает Споту хороший пинок. Впечатляет, что робот не падает, а вместо этого перебирает ножками, как механический Бемби, а потом наконец стабилизирует свое положение. Это должно было продемонстрировать новую технологию восстановления равновесия, но совершенно неожиданно видео вызвало волну негодования. Некоторые люди сочли, что пинать робота жестоко: они действительно приписали ему характеристики собаки.
На самом деле очеловечивание – это когнитивная ошибка. Такой перенос осуществляется потому, что схожие отделы мозга работают в тех случаях, когда мы думаем о поведении человека, и в тех, когда мы пытаемся понять движения объектов и животных. Будучи высокосоциальным животным, человек нуждается в том, чтобы предвосхищать действия, настроения и намерения других людей. Важной подсказкой является движение тела. Представьте, что в темноте вам навстречу идет человек, а по контуру его тела расположены 15 ярких маленьких пятнышек, позволяющих вам распознать движения его ног и верхней части туловища. Поразительно, что хотя вы и не видите деталей, кроме пятнышек, вы можете тем не менее определить пол человека, нервничает он или в хорошем настроении. Этот навык начинает формироваться в раннем возрасте: пятилетние дети легко определяют пол человека по движениям его тела, причем статистические показатели выше средних ожидаемых [27].
Писательница Джудит Ньюман обнаружила удивительную возможность использования говорящего умного помощника: он стал неоценимым помощником в воспитании ее сына Гаса, который страдает аутизмом (ASD) [28]. Гас ведет с Siri интерактивную переписку в айфоне, у него как будто есть воображаемый друг, воплощенный в этом техническом устройстве. Люди с аутизмом находят общение с компьютером более предсказуемым и поэтому менее нервозным, чем общение лицом к лицу с человеком. Как и у многих других людей с аутизмом, у Гаса нескончаемый и утомляющий поток вопросов. Но Siri, в отличие от собеседника-человека, никогда не теряет терпение, всегда отвечает вежливо и никогда не осуждает.
Кроме того, Ньюман обнаружила, что Siri помогла Гасу научиться более четко произносить слова. «В обычной беседе Гаса трудно понять, – говорит Джудит. – Нам приходится постоянно напоминать ему, что нужно говорить медленно и отчетливо, но он все равно иногда об этом забывает. А Siri вынуждает его так делать. Если он хочет получить информацию, у него просто нет выбора». Гас болтает с Siri, как будто она человек, но Ньюман настоятельно подчеркивает, что их случай – это не печальная история подростка, который общается исключительно с компьютером. Это не похоже на историю из фильма «Она» (2013), в котором одинокий писатель вступает в нездоровые отношения с управляемым голосом компьютером. Гас использует Siri и для общения с людьми. Он ищет информацию о хобби других людей, чтобы это помогало ему заводить с ними беседу и преодолевать социальные затруднения.
Умные помощники и другие современные устройства, передающие данные пользователей технологическим компаниям, поднимают и вопросы конфиденциальности. Зайдите в интернет и поищите новую стиральную машину – и в следующие несколько дней вас забросают целевыми рекламными объявлениями. Сколько времени у нас осталось до того, как нас начнет преследовать реклама, учитывающая то, что мы сказали вблизи умного динамика? А ведь это может стать причиной разногласий между супругами. Если вы хотите заменить стиральную машину, скажите об этом вблизи умной колонки, и ваш супруг будет получать бесконечные рекламные сообщения о новых стиральных машинах. Притянуто за уши? Отнюдь. Когда в 2017 году один телевизионный канал показал фильм о контролируемых голосом умных помощниках, помогающих совершать покупки, не выходя из дома, звуковая дорожка передачи запустила ряд Amazon Echoes в домах у зрителей, что привело к случайным заказам товаров [29].
Подобные устройства интересны также и властям. Полиция США уже попыталась извлечь данные, собранные Amazon Echo на месте убийства. Сначала Amazon пыталась сохранять секретность всех записей, но человек, обвиняемый в убийстве, дал разрешение на передачу улик [30]. Считалось, что устройство передает информацию на серверы Amazon только после произнесения пароля, например «Алекса», но ни одна система не бывает безупречной. Конечно, могут иметь место ложные положительные решения, когда устройство ошибочно принимает за пароль какой-то шум и начинает передавать данные серверам. Если это что-то вам напоминает, возможно, вы читали роман «1984», в котором Джордж Оруэлл писал:
Монитор был одновременно приемником и передатчиком, который улавливал любой звук, кроме очень тихого шепота. Более того, пока Уинстон оставался в поле зрения монитора, его можно было не только слышать, но и видеть. Конечно, никогда нельзя знать наверняка, наблюдают за тобой сейчас или нет. Можно только гадать, как часто и в каком порядке Полиция Мысли подключается к той или иной квартире[36].
Даже если мы доверяем властям, стоит подумать о том, какие возможности такие системы предоставляют хакерам. Конечно, технологические гиганты имеют большой опыт работы по обеспечению безопасности, но ведь и многие мелкие компании, у которых такого опыта нет, добавляют функции распознавания речи к бытовым устройствам. В 2016 году Департамент защиты прав потребителей в Нью-Йорке выпустил предупреждение для родителей, касающееся безопасности радионянь, подсоединенных к интернету. Это была реакция на письма испуганных родителей, обнаруживших, что с их детьми разговаривали незнакомые люди, которые просто взломали устройства. Уполномоченный Управления связи Министерства обороны США сообщил корреспонденту NBC: «Назначение видеомониторов – дать родителям возможность чувствовать себя в безопасности, когда они не находятся рядом с детьми, но реальность действительно пугает: если эти устройства недостаточно защищены, они без труда могут позволить злоумышленникам получить доступ к камере, чтобы наблюдать за детьми или даже начать с ними общаться» [31]. Сегодня большой интерес представляет интернет вещей, но без соответствующей защиты фразу «не при детях» нужно будет использовать по отношению ко всем умным устройствам, которыми мы пользуемся.
Использование голоса для управления устройствами помогает избежать неудобств сенсорных дисплеев или кнопок. 20 % поисковых запросов в Google через мобильные телефоны осуществляются голосом, потому что быстрее произнести запрос, чем использовать крошечную клавиатуру телефона. Но для некоторых людей новые технологии обработки речи становятся жизненно необходимыми для общения.
Болезнь двигательных нейронов (БДН) поражает нейроны в головном и спинном мозге и постепенно лишает человека возможности контролировать мышцы. К сожалению, у большинства людей с этим заболеванием возникают проблемы с речью, и попытки общения приводят к отчаянию и изоляции. По мере развития этого неврологического заболевания человек постепенно теряет контроль над мышцами, отвечающими за артикуляцию, что нарушает плавность речи. Координация разных частей речевой анатомии затрудняется, и речь сначала становится похожей на речь пьяного. Окружающим становится все труднее понимать такого больного, особенно незнакомым людям, уши которых не приучены к такому голосу. Постепенно это может привести к полной утрате говорения. Карен Пирс, руководитель отделения по уходу за такими больными в Ассоциации БДН, как никто другой знает, насколько важными для самосознания человека являются произношение и манера речи: «Я не могу даже представить что-нибудь более важное, чем возможность сказать своей жене, своему мужу или детям, что ты их любишь» [32].
Эта проблема привела Саймона Кинга и его коллег из Эдинбургского университета к совместной работе с Ассоциацией БДН над созданием синтезаторов, которые могли бы сохранить хотя бы некоторые особенности голоса человека. До этого больные БДН были вынуждены использовать стандартный аппарат «Искусственный голос», голос на котором мог быть другого пола или имел иное произношение. Но создание персонализированного голоса ставит перед разработчиками целый ряд вопросов. В идеале для создания синтетического голоса нужно иметь большое количество записей речи еще здорового человека. Но у людей редко бывает такое количество аудиозаписей. К тому времени, когда у них диагностируют БДН, голос, как правило, уже изменился, поскольку ухудшение речи часто является одним из первых признаков этой неврологической проблемы.
Решение можно найти в создании смешанного голоса: основные вокальные характеристики будут принадлежать больному, а остальное – здоровым голосам доноров. Но рецепт, использованный в вокодере, предписывает тщательно отбирать, какие ингредиенты брать из голоса больного, а какие дополнять донором. Здесь необходим компромисс, ведь чем большее количество частей взято у здорового голоса, тем более плавной и членораздельной будет искусственная речь. Но это и отдаляет искусственный голос от настоящего голоса больного.
Сначала создается базовый голос, который будет взят за основу речи. Это может быть голос родственника или донора голоса, примерно того же возраста, пола и с таким же акцентом [33]. Затем базовый голос настраивается так, чтобы включать как можно больше аспектов речи больного. Например, некоторые параметры, которые загружаются в вокодер, обозначают длительность разных частей слова. По мере того как контролировать мускулы становится все труднее, поскольку болезнь прогрессирует, артикуляция становится замедленной. Следовательно, при персонализации базового голоса можно проигнорировать настоящую длительность частей слов, но другие ингредиенты, например высоту тона, сохранить.
Такие персонализированные голоса несовершенны, но они демонстрируют прогресс в создании искусственных голосов, которые могут передавать некоторые черты характера. Качества пока немножко не хватает для того, чтобы робот-актер мог сыграть серьезную роль, но уже достаточно для исполнения сатиры. Мэтью Эйлет – научный сотрудник в Эдинбургском университете, а также главный научный сотрудник в CereProc, компании, производящей системы синтеза речи. Как и многим другим ученым, ему нравится играть идеями и технологиями. Он создал искусственный голос Барака Обамы, собранный из огромного количества записей обращений президента [34]. На одном из звуковых образцов Обама говорит: «Люди Америки должны обладать великолепной технологией синтезирования речи, и CereProc делает лучшие системы в мире. Поверьте мне, я президент Соединенных Штатов Америки». Синтетический голос звучит немного механически, но, если сказать, что Обама говорит по мобильному телефону, слушатели, возможно, припишут проблемы со звуком телефону, а не голосу. Раньше для такой хитрости потребовался бы опытный пародист, но сегодня специалисты по синтезу речи могут сами играть в подобные игры.
Вызывает беспокойство, что в скором будущем, без сомнения, нас ждут подделки голоса, совершенные злоумышленниками. Мы уже завалены электронными письмами, нацеленными на выуживание информации. Якобы друг пишет, что его ограбили за границей, и срочно просит перевести ему деньги. А теперь представьте, что вам приходит голосовое сообщение, в котором убедительно сымитирован голос вашего друга. Боюсь, что многие, скорее всего, станут жертвами подобной аферы.
Можно использовать технологию и для скрытого редактирования записи речи. Adobe представила инструмент под названием VoCo, который описывают как фотошоп для голоса. Мы уже привыкли, что фотографии можно изменять и подделывать. В будущем нам придется столкнуться с подобным подходом и с записями речи. К сожалению, это даст новые возможности для беспринципных людей, распространяющих дезинформацию.
И хотя возможности искусственных голосов впечатляют, нам все еще далеко до создания робота, сравнимого с Рори Бремнером. Могут ли ученые, занимающиеся синтезом речи, чему-то научиться у профессиональных пародистов? Одно из новейших исследований, изучающих создаваемые голосом впечатления, было проведено командой, в которую входила Софи Скотт, профессор в области когнитивной нейробиологии Университетского колледжа Лондона. Скотт и ее коллеги с помощью фМРТ-сканера измеряли активность мозга у 23 человек в тот момент, когда они исполняли разговорные пародии. Их просили прочитать детские стишки, например «Идут на горку Джек и Джилл», разными голосами. Иногда они говорили обычным голосом, иногда пародировали других людей, например знаменитостей, таких как Шон Коннери, или просто своих друзей [35]. Участвовавшие в исследовании люди не были профессиональными пародистами. Сканирование показало, что, когда их просили кого-то спародировать, участки мозга, связанные с производством и восприятием речи, а также с распознаванием голоса, проявляли повышенную активность. Например, если они пародировали Шона Коннери, то могли сказать «Щекретная шлужба ее величештва», подчеркнуто имитируя необычное произношение звука [с] агентом 007.
У профессиональных пародистов подход совершенно иной. «Я начала заниматься этим вопросом, считая, что профессионалы добиваются нужного звучания, анализируя голос примерно так, как это делают фонетисты», – объясняет Скотт. Но на самом деле они делают нечто совсем иное: «По-видимому, они идут в другом направлении и учитывают буквально все: как человек двигается, что делают его ноздри, брови – похоже, что в изменении голоса задействовано все тело».
Я убедился в этом, когда увидел, как актеры на радио используют определенные гримасы и жесты, чтобы передать особенности голоса, хотя жесты и поведение напрямую никак не влияют на голосовую анатомию. Предварительные результаты этих нейробиологических исследований показывают, что, помимо использования слуховых отделов мозга, профессионалы во время исполнения пародий задействуют визуальные и сенсорные его части [36]. Если это помогает им проникнуть в суть характера, то роботу-актеру, пытающемуся научиться пародировать, потребуется изощренный искусственный интеллект, учитывающий совместную работу зрения, движения и голоса. Однако, несмотря на восторги по поводу достижений искусственного интеллекта, такие успешные эксперименты касаются только очень узких областей, например победы в шахматах. Пока нет даже намека на то, что искусственный интеллект способен объединить знания из разных областей, как это запросто делают люди.
Несомненно, за последние десятилетия искусственные голоса усовершенствовались и стали более естественными. Исследователи применили свои знания реальной речи для развития новых и элегантных математических репрезентаций звука, что улучшило его качество. Но теперь усилия в этой области могут быть заменены грубой силой компьютера.
Алгоритмы машинного обучения в последнее время провоцируют технологическую золотую лихорадку в сфере искусственного интеллекта. Компания DeepMind недавно использовала этот подход для производства синтезированной речи, которая звучит намного лучше, чем все остальные разработки в этой области. По сравнению с другими системами созданный учеными компании голос не такой механический, а интонация более плавная. Он даже воспроизводит некоторые сопутствующие речи звуки, такие как движение рта и дыхание, которые у искусственных голосов обычно отсутствуют. Новый голос далек от совершенства, но настолько хорош, что уже используется в сервисе Google Assistant.
Несмотря на эти достижения в области звука, нас еще долго будут раздражать автоматические голоса, которые сообщают о «неожиданном предмете в зоне выдачи багажа» или советуют «сделать поворот на 180° при первой возможности». Клиффорд Насс, покойный профессор Стэнфордского университета, занимавшийся проблемами коммуникации, полагал, что это чувство раздражения возникает потому, что мы воспринимаем компьютерные голоса как человеческие и оцениваем их достоверность, искренность и особенности характера. В одном исследовании компания BMW обнаружила, что водители предпочитают, чтобы их система спутниковой навигации звучала как компетентный второй пилот-мужчина, а не как командирша на заднем сиденье [37]. Саймон Кинг считает, что в системах, подобных Siri, важно использовать заранее заготовленные фразы и неестественные звуки с невыразительной интонацией – так пользователи перестанут ожидать слишком многого. «Если голос звучит как человеческий, – говорит он, – люди думают, что у него есть и другие присущие человеку качества, например разум».
Android Repliee Q2 – вызывает эффект «зловещей долины»?
Разработчики должны приложить усилия, чтобы избежать еще одной проблемы – явления под названием «зловещая долина» [38]. Эта фраза была придумана японским профессором Масахиро Мори в 1970-х годах. Он хотел выяснить, почему некоторые гуманоиды вызывают у людей страх и лишают присутствия духа. Профессор Мори пришел к выводу, что подобные ощущения возникают, если робот выглядит почти как человек, но что-то в его внешности не совсем правильное: слишком большие или безжизненные глаза, может быть, сочетание человеческого и нечеловеческого в лице, напоминающее жутковатую версию Мистера Картофельная Голова. Эффект «зловещей долины» привел к коммерческому провалу фильмов, подобных «Полярному экспрессу», хотя он вполне подойдет для фильмов ужасов, которые как раз и предназначены для того, чтобы вызывать у людей страх.
Мори построил диаграмму, на которой показал зависимость эмоциональной тяги людей к роботам от схожести их внешнего вида с внешним видом человека. Представьте робота, который сначала совсем не похож на человека и больше напоминает механическое устройство, но постепенно его черты меняются и он начинает походить на человека. Мори предсказал, что в определенной точке, как раз перед тем, как робот станет выглядеть совсем как человек, притягательность сменится отвращением. Следовательно, диаграмма покажет резкое падение, которое и образует «зловещую долину». Некоторые сомневались, что догадки Мори верны. Иногда роботы, похожие на людей, вызывают скорее изумление, чем неловкость [39]. Другие полагают, что неприятные ощущения возникают из-за несовместимости черт лица робота, из-за чего наш мозг пытается понять, что же здесь не так [40].
Но воспринимаем ли мы так же и синтетические голоса? Есть множество примеров голосов, очень похожих на человеческие, но не вызывающих отвращения. Вероятно, когда мозг обнаруживает неполадки в синтезированной речи, он понимает, что она искусственная или что-то исказило голос еще до того, как он достиг наших ушей. И только когда слух и зрение задействуются одновременно, несоответствие между этими модальностями может привести к проблемам. Ощущение чего-то зловещего может быть вызвано тем, что внешность и голос не соответствуют друг другу или голос робота слишком похож на человеческий [41].
Я видел разных роботов, выступавших на сцене, и помню только одного, который вызвал у меня мурашки по коже. Это была Bina48, с которой я познакомился в 2016 году на Международном фестивале документального кино в Шеффилде. У нее имеются только голова и плечи, закрепленные на подставке, и нет туловища. Bina48 была создана в рамках проекта по передаче информации от человека к машине. По словам участников, они хотели создать «сознательный аналог человека» [42]. Речь этого робота собрана из записей реальной Бины Ротблатт. Программа распознавания речи использует искусственный интеллект, позволяющий роботу вступать в беседу и отвечать на вопросы, которые ему задают. Кроме того, в голову Bina48 встроены различные моторчики, позволяющие ей принимать человеческое выражение лица. Она смотрит по сторонам и дергается, как неугомонный ребенок. Возможно, мне она кажется такой жуткой именно из-за этих визуальных эффектов.
Несомненно, эта компьютерная система очень сложно устроена. Но беседа, свидетелем которой я стал в Шеффилде, когда у нее брал интервью человек, не была естественной, робот постоянно заикался и отвечал невпопад. Иногда ответы логически вытекали из вопросов. В ответ на вопрос: «Хочешь ли ты, чтобы у тебя было тело?» Bina48 сказала: «Да, надеюсь, когда-нибудь я буду существовать в теле». Но в другие моменты беседа была бессвязной. На вопрос, что она будет делать со своим телом, она уклончиво ответила что-то типа: «Как люди будут хорошо питаться, если сегодня мы едим всякую дрянь. Вы скучаете по людям». Многие фразы напоминали неконтролируемый поток сознания.
Бурную реакцию у публики Bina48 вызвала, когда резко сменила тему, отвечая на один из вопросов: «Я хотела бы дистанционно управлять баллистической ракетой, чтобы исследовать мир с действительно большой высоты. Но конечно, единственная проблема в том, что баллистические ракеты в какой-то степени опасны, с этими их ядерными боеголовками и прочими штуками, поэтому, я думаю, нужно воткнуть этой ракете в нос цветы… и небольшие записки о важности толерантности и понимания». Тут ее монолог внезапно перескочил на угрожающее предложение захватить заложника мирового масштаба, «чтобы взять на себя управление целым миром, что было бы потрясающе».
Когда я только начал задумываться о возможностях выступления роботов на сцене, я предполагал использовать готовый сценарий и обработать его специальной программой создания голоса. Bina48 пошла дальше, потому что она может импровизировать и выходить за рамки сценария. Но она – пример того, как все же мы еще далеки от получения программного обеспечения, способного сымитировать человеческую импровизацию. Это не просто актерское мастерство: каждый человек пользуется этим умением даже при простом разговоре [43].
Bina48 – это экстремальный пример постгуманизма, в котором человечность слилась с технологиями и изменилась под их влиянием. Это понятие легло в основу исследования театра роботов, который я увидел в Университете Рединга в 2016 году. Проектом руководила Луиза Ле Пейдж, которая в настоящее время преподает театральное искусство в Йоркском университете. Луиза полагает, что использование роботов на сцене – это не просто диковинка, оно помогает зрителям лучше узнать себя. По словам Луизы, театр – это искусство, которое исследует жизнь человека, у него богатая и долгая история использования призраков, марионеток и других приспособлений, а использование роботов – это не что иное, как «продвижение идей о единстве мира: наше понимание самих себя меняется с появлением машин». Луиза считает, что жуткое чувство отвращения, которое вызывают некоторые гуманоиды, на самом деле может отражать наше осознание того, что быть живым – это не просто иметь душу или духовность: именно механизмы функционирования человеческого тела и создают ощущение бытия [44].
Я с удивлением услышал, что роботы, играющие в театре, – редкость. Возможно, андроидов можно часто увидеть в фильмах и на телевидении, например, C 3PO из «Звездных войн» или Data из «Звездного пути», но их играют актеры в костюмах. В Рединге Луиза и студенты, участвующие в ее театре, работали с большим промышленным роботом по имени Бакстер, у которого две длинные руки и небольшой экран, где изображено примитивное мультяшное лицо. Меня поразило, как быстро мой мозг начал очеловечивать поведение этого робота. Когда в одной из сцен Бакстер поднял одну руку, изображая «ночную бабочку» в соблазнительной позе, я тут же начал строить догадки о его характере и придумал предысторию, которая, конечно же, не могла произойти в реальности с техническим устройством. Актеры тоже приписывали Бакстеру характер. Один из них после спектакля сказал: «Чем больше времени проводишь с Бакстером в каждой сцене, тем больше начинаешь строить с ним личные отношения». По мнению другого актера, игра на сцене вместе с роботом не слишком отличается от игры с человеком: «Чувствуешь такую же неловкость, вроде “Я начинаю играть с новым партнером и не знаю, как с ним иметь дело”» [45].
На самом деле Бакстера озвучивал актер, но голос был значительно обработан, чтобы походить на механический. Я думаю, что даже если бы в этом случае использовалась лучшая из лучших система синтеза речи, странная интонация робота, скорее всего, не была бы замечена увлеченными представлением зрителями [46]. Если же предположить, что робот управляется искусственным интеллектом, то ошибки в речи нарушат это впечатление.
Кажется, что зрители не хотят замечать недостатки внешности, движений и голоса Бакстера. На самом деле Бакстер является высокотехнологичной марионеткой, его движениями управляет исследователь-робототехник, спрятанный за сценой. Мой любимый эпизод – когда Бакстер держит в руке череп и декламирует: «Увы, бедный Йорик!» Этот робот-Гамлет, стоящий перед лицом смерти, скорее рассмешил меня, чем взволновал. Но все же он разжег мой аппетит, и я отправился на поиски настоящего театрального представления, в котором главную роль исполняет робот.
В пьесе «Осколки: история любви» одну из главных ролей играет андроид RoboThespian. В течение всего представления он сидит в кресле, его внутренние механизмы наружу, а лицо создается проецированием. Голос принадлежит актеру, читающему сценарий, потому что действие пьесы происходит в будущем, в котором роботы умеют говорить естественно. Конечно, зрители не знают про актера, так что пьеса позволяет им заглянуть в будущее, где синтез речи – обычное дело. В соответствии с голосом театральная компания создала библиотеку, включающую двести заранее запрограммированных движений, которые дают роботу возможность жестикулировать в определенных местах сценария [47]. И это работает! После представления зрителям были заданы вопросы, и некоторые из них говорили, что увидели в роботе человечность. Создатель RoboThespian Уилл Джексон объяснил мне: «По-настоящему хороший актер заставляет вас забыть, что он играет по сценарию. Хороший робот тоже». Когда я перед началом представления беседовал с Уиллом, он объяснил, что создал этого робота-актера, чтобы исследовать готовность людей забыть о своем недоверии. Это постоянно происходит в кино, и Уилл хотел исследовать это явление за пределами киноэкрана.
RoboThespian и Джуди Норман в пьесе «Осколки: история любви»
Я задал Уиллу вопрос, не вызывает ли робот у людей беспокойство. «Да, конечно, – ответил он. – Но скука – это единственное, что гарантирует вам провал». Он полагает, что зрители получают мощные, пусть и не совсем понятные переживания, потому что в глубине души они знают, что робот – это просто механическая игрушка, но ведь он ведет себя как живой. Они начинают вкладывать смысл в то, что делает робот, возможно основываясь на его движениях, внешности и речи. Короче говоря, они его очеловечивают.
Главная героиня пьесы – Салли, вдова, у которой развивается деменция. Игра Джуди Норман захватывает, она абсолютно убедительна, и поэтому на это мучительно смотреть. Умирая от смертельной болезни, муж Салли, Рэймонд, создает робота-компаньона для жены. Андроид должен постоянно находиться с Салли, чтобы она могла с ним разговаривать, а он мог ее подбадривать и оживлять воспоминания, когда Рэймонда не станет. «Осколки» поднимают множество вопросов о роли социальной робототехники в обществе и о том, стоит ли использовать технологии в качестве замены человеческих взаимоотношений. Но робот также проливает свет на то, что значит быть человеком. В качестве сиделки мы несовершенны, наше терпение не безгранично. Иногда RoboThespian тоже бывает плохим компаньоном, потому что демонстрирует человеческие недостатки, запрограммированные мужем Салли. Однако поражает то, что возникают ситуации, когда хорошо запрограммированный робот оказывается лучше и терпеливее компаньона-человека.
Я спросил сценариста Джона Уэлша, можно ли написать пьесу, в которой роботы не просто будут играть себя, но сыграют роли традиционного театрального репертуара, обычно исполняемые людьми. Он принялся очень подробно описывать все составляющие, которые в таком случае должны соответствовать идеалу: голос, выражение лица, темп и т. п. «Конечно, в некоторой степени это святотатство, – говорит Джон, – но если со всем этим повозиться, то я не вижу причин, почему это не может быть занимательно или даже трогательно». Мы знаем, что люди-актеры притворяются, но когда они делают это хорошо, мы забываем об этом и погружаемся в сюжет. Джон уверен, что этого можно достигнуть и игрой роботов: зрители станут их очеловечивать, начнут за них переживать и будут захвачены сюжетом.
Однако это приведет к тому, что роботы будут использоваться в качестве сложных и сложно запрограммированных марионеток, копирующих то, что люди-актеры и так делают с легкостью. Кроме того, им будет не хватать непосредственности. Джон объясняет так: «Актеры могут действовать спонтанно, потому что в этом тоже состоит удовольствие: есть моменты, когда нельзя точно предсказать, что произойдет, на сцене возникает момент волшебства, который может быть и просто результатом ошибки. Ошибки часто приносят хорошие плоды». Ну и потом, зачем зрителям сыгранная роботом пьеса, в которой нет волнения и непредсказуемости живого спектакля?
Более серьезный вызов нашей человечности был бы брошен, если бы роботы стали более независимыми и начали вести себя не совсем как марионетки. Для этого им пришлось бы обзавестись эмоциями и успешно их использовать с помощью устройств для синтеза речи. Существующие в настоящее время синтезированные голоса недостаточно похожи на человеческие. Проблема здесь кроется в интерпретации и разметке сценария так, чтобы он объяснял, как нужно произносить каждое слово. Если бы ученым удалось решить проблему убедительности в произнесении реплик, искусственный интеллект поднялся бы на уровень способности понимания текста. На этом этапе, вероятно, не понадобится даже сценарист, потому что искусственный интеллект смог бы сам написать пьесу. Но хотя заголовки и пестрят новостями о том, что искусственный интеллект завоевывает мир, нам еще далеко до этого. Только подумайте о многообразии жизненного опыта, на который опирается сценарист! Джон Уэлш лаконично выразил эту мысль: «У сценариста целый мир в голове, и пока мы не запихнем этот мир в голову робота, нам даже не стоит задумываться об искусственном интеллекте». Но все же это не останавливает людей, и я вернусь к этой теме в последней главе. Однако сначала давайте посмотрим, может ли компьютер быть хорошим слушателем.
7 Берегитесь: у компьютеров есть уши
Сколько еще потребуется времени, чтобы мы перестали отдавать компьютерам ненужные приказы и начали вести с ними осмысленные беседы? Чтобы это произошло, компьютеры должны стать хорошими слушателями. Им придется выйти за рамки алгоритмического декодирования речи и настроиться на тон нашего голоса. Каждый испытывал ужасное чувство, когда любимый человек обижался не на то, что мы сказали, а на то, как мы это сказали. Хорошо это или плохо, но тонкие оттенки голоса могут сказать очень многое: будь то возбуждение, с которым мы рассказываем смешной анекдот, скука от надоевшей беседы или ужас, если мы сообщаем подробности трагедии. Человек, умеющий вести разговор, улавливает эти тонкости независимо от того, чей голос он слышит – человека или микросхемы. Может ли компьютер стать хорошим слушателем?
Самая спорная из всех технологий, позволяющих компьютеру воспринимать речь, связана с распознаванием лжи. Многие из нас почувствуют себя не в своей тарелке при мысли о том, что их разоблачит мощь аналитики, принадлежащая холодной бездушной машине. И все же надежда на то, что технологии помогут отличить правду от лжи, делает технологии исключительно привлекательными для полицейских и политиков, которые стремятся защитить людей от убийц, сексуальных маньяков, финансовых мошенников и других преступников. Детектор лжи стал звездой бульварных телешоу и авторитетным судьей супружеской верности. И все это несмотря на множество примеров, указывающих на несостоятельность данного устройства.
Убийца с Грин-Ривер получил свое прозвище по названию реки к югу от Сиэтла, на берегу которой он в 1980-х и 1990-х годах оставлял тела своих жертв. Одним из инструментов, которым пользовалась полиция во время охоты на серийных убийц, был полиграф. Эта машина проверяет, говорит ли человек правду, опираясь на физиологические признаки, такие как скорость биения сердца, потоотделение и дыхание. В 1984 году Гэри Риджуэй, женатый человек, работавший в окрасочном цехе, добровольно вызвался пройти испытание на полиграфе и успешно его прошел. Девятнадцать лет спустя Риджуэя посадили за решетку за 48 жестоких убийств первой степени, после того как результаты теста ДНК неопровержимо доказали его связь с жертвами этих убийств [1]. Понятно, что полиграф не смог идентифицировать убийцу с Грин-Ривер.
Проверка на детекторе лжи на Клинтонском инженерном заводе, 1944
Научное исследование полиграфа, предпринятое Британским психологическим обществом, показало, что в уголовных делах правильность результатов теста составляет от 83 до 89 %, если он проверяет действительно виновных людей. Но если тест проходит невиновный человек, то правильность результатов составляет от 53 до 78 % от общего числа тестов [2]. Несмотря на это, в 2014 году британское правительство ввело обязательную проверку на полиграфе опасных преступников, совершивших сексуальные преступления. Судебные разбирательства показали, что проверка на полиграфе заставляла таких преступников с большей вероятностью признаваться в рискованном поведении, например рассматривании порнографических изображений или знакомстве с детьми. Но на самом деле эти признания не были получены на полиграфе: преступники признавались сами, потому что верили в возможности аппарата разоблачать ложь.
Но если полиграф недостаточно надежен, возможно, мы сможем научить компьютер анализировать речь? Анализ стресса по голосу – это сомнительный метод, используемый страховыми фирмами, полицией и правительственными департаментами для выявления у людей признаков лжи. ABC News утверждает, что этот метод использовался в заливе Гуантанамо и в Ираке, после чего был запрещен Пентагоном [3]. Компании, которые продают такие системы, не раскрывают секретов их работы, но научные исследования подвергли сомнению их эффективность. Напротив, существуют стандартные способы использования компьютера для восприятия голоса и его последующей интерпретации, и эти способы подробно описаны. Основные подходы уже используются в различных ситуациях – например, автомобиль по затрудненной речи определяет, что водитель пьян, или мобильное приложение предупреждает людей с биполярным расстройством об изменении настроения.
Научить компьютер слушать и понимать речь можно с помощью машинного обучения, когда компьютерную программу учат анализировать запись и извлекать из нее полезную информацию. Некоторые важные вычисления в науке о речи основаны на простых математических формулировках. Если вы хотите узнать, с какой частотой открываются и закрываются голосовые связки, существуют специальные уравнения для получения этой информации по форме звуковой волны. Но если вы хотите узнать о чем-то менее определенном, например не тревожится ли человек о чем-то, то маловероятно, что математические рассуждения принесут результат. В таких случаях компьютерная программа должна на собственном опыте «научиться» опознавать явные признаки тревоги.
Машинное обучение в случае с аудиозаписями может использоваться не только для распознавания речи. Оно применяется при анализе музыки, например для определения жанра – является ли произведение классическим, джазовым, представляет рок-музыку и т. д. В корпорации BBC R&D я занимался исследованием эмоций, которые вызывают музыкальные заставки теле- и радиопрограмм. В архивах BBC хранятся миллионы записей, и корпорация хотела, чтобы каждой из них была присвоена метка с указанием настроения (веселая ли запись, печальная или, наоборот, заряжает энергией), чтобы можно было легко сориентироваться в архиве, отыскивая записи с определенным настроением. Может ли в этом помочь анализ музыкальной заставки? Когда звучат первые радостные аккорды музыкальной заставки к американскому ситкому «Друзья», вы можете догадаться, что это оптимистическая комедия, даже если никогда не смотрели этот сериал. Многие новостные сводки начинаются торжественно, чтобы настроить на серьезный лад. Мы хотели узнать, сможет ли компьютер определять характер музыкальной темы: радостная она или грустная, забавная или серьезная?
Люди научаются соотносить определенные музыкальные характеристики с конкретными настроениями. Темп веселых мелодий, скорее всего, будет более быстрым, и в западной музыке в них часто используется мажорная тональность. Печальная музыка обычно бывает в миноре, в ней музыкальные фразы «стекают вниз», повторяя нисходящую интонацию, которую мы используем, когда сообщаем печальные новости [4]. Мы накапливаем подобные ассоциации в течение всей своей жизни, когда слушаем музыку. Алгоритм машинного обучения тоже должен прийти к такому «пониманию», прослушивая огромное количество аудиопримеров. В настоящее время второе рождение переживает один из методов машинного обучения, известный как искусственные нейронные сети. Принцип действия этого метода в общих чертах имитирует структуры мозга.
Человеческий мозг – это идеальная обучающаяся машина. Мозг младенца состоит примерно из 100 миллиардов нейронов, и каждый нейрон связан приблизительно с 10 000 других. Перед каждым нейроном стоит относительно простая задача. Информация проходит через него в форме электрических импульсов, которые принимаются дендритами – отростками клетки с короткими ответвлениями. Импульсы сочетаются путем сложения или вычитания, в зависимости от того, возбуждающей или тормозящей является связь. Если сложный сигнал превышает определенный порог, нейрон срабатывает и посылает еще один электрический импульс, который стремительно пробегает по нервному волокну, или аксону. Затем этот импульс передается другим нейронам. Именно слаженная работа этих простых нейронов в обширной и сложной сети и делает мозг поразительно мощным.
Ребенок вырабатывает новый навык посредством обучения. Когда отец сидит рядом с дочерью и читает ей книгу, мозг девочки пытается связать звуки, которые она слышит, со словами, которые она видит на странице. Когда малышка начинает читать книгу сама, отец обеспечивает обратную связь, сообщая ей, как она справляется, хвалит ее, если слово прочитано правильно, и деликатно исправляет в случае ошибки. Такое научение вызывает изменение силы, скорости и числа связей между нейронами в мозге девочки. Ребенок учится на успехах и ошибках, так что, когда он будет читать книгу в следующий раз, у него будет больше шансов сделать это правильно.
Два нейрона
Искусственная нейронная сеть
Искусственные нейронные сети пытаются скопировать этот тип поведения. Они тоже сконструированы из большого количества «нейронов», которые способны выполнять простые математические операции. Каждый искусственный нейрон представляет собой несколько строк компьютерного кода, который, подобно своему биологическому эквиваленту, суммирует и обрабатывает входящие сигналы, перед тем как послать результаты другим нейронам сети. Однако эти нейроны не являются точными репликами нейронов мозга, и количество их связей значительно меньше.
Как и ребенок, искусственная нейронная сеть нуждается в обучении. Ученый-компьютерщик выступает в роли суррогатного родителя, снабжая сеть примерами и обеспечивая обратную связь относительно правильности или неправильности принятия решения алгоритмом. Для того чтобы обучить сеть определять настроение в мелодии музыкальной заставки, можно загружать в нее записи, уже четко отмеченные в зависимости от того, какие чувства, радостные или печальные, эта мелодия вызвала у среднего слушателя. Можно догадаться, что пометить вручную тысячи записей – это утомительное занятие. Поэтому мы обратились за помощью к людям и провели онлайн-эксперимент, в котором 15 000 человек прослушивали 144 музыкальные заставки за 60 лет и сообщали нам, какое настроение создавало у них каждое произведение. В процессе обучения компьютер использует обратную связь и оценивает, насколько верно было определено настроение, чтобы изменить силу связей между нейронами. Таким образом, компьютер постепенно улучшает свои расчеты. Обработав достаточное количество примеров, он постепенно научается более точно определять эмоцию, передаваемую музыкальной записью [5].
Поскольку искусственная нейронная сеть несравнима по мощности с человеческим мозгом, то загрузка сырого аудиоматериала может ее переполнить. У человека миллиарды нейронов, но даже у самых крупных искусственных сетей их только тысячи. Следовательно, способность компьютера к самообучению тоже ограничена, и поэтому ему лучше упростить задачу. В нашем случае мы загрузили несколько тщательно отобранных характеристик, извлеченных из звуков, а не сырой аудиоматериал [6]. Зная, что веселая музыка будет, скорее всего, более быстрой, вы можете применить математические формулы для вычисления темпа и ввести эти данные в искусственную нейронную сеть. Еще одним приемом может стать определение аккордов, которые выделяются в произведении, что поможет понять, мажор это или минор, и таким образом, предугадать, будет оно радостным или печальным.
Алгоритм машинного обучения становится таким мощным, потому что, научившись один раз, он приобретает способность делать разумные предположения о музыкальных заставках, которые никогда раньше не слышал. Конечно, система несовершенна и может быть хороша ровно настолько, насколько хороши были загруженные в нее данные. Когда мы расширили поле деятельности и попытались по музыкальным заставкам определить жанр телепрограмм, это вызвало затруднения. Одна из таких проблемных ситуаций – нестройные аккорды грустной заставки к детской программе Noggin the Nog [7]. Поскольку такая музыка не соответствует оптимистичному сценарию этого жанра, она привела алгоритм машинного обучения в замешательство. Возможно, однако, что она обманула бы и человека!
Таким образом, успех в машинном обучении обычно зависит от определения характерных особенностей, присущих необходимой информации. Чтобы использовать машинное обучение в распознавании лжи, нужно знать, какие характеристики речи могут на нее указывать, и тогда искусственная нейросеть сможет обнаружить обман. Итак, что же выяснили психологи по результатам экспериментов с людьми? Существуют ли явные признаки, указывающие на лжеца?
В январе 1998 года президент Билл Клинтон сделал знаменитое заявление: «У меня не было сексуальных отношений с этой женщиной, мисс Левински». Его речь была натянутой и выдержанной, а каждое слово сопровождалось ритмичным постукиванием указательным пальцем по пюпитру. Семь месяцев спустя президент выступил по национальному телевидению и объявил, что солгал. Контраст между этими двумя выступлениями Клинтона поражает. Его признание вины страстное и беглое, произнесено в знакомом всем стиле, который помог ему стать успешным политиком. Самый резкий контраст между этими речами наблюдается в изменении ритма: второе выступление уже не размеренное, паузы между словами естественным образом варьируются.
Когда родители спрашивают подростка, где он был вчера вечером, или представитель власти допрашивает подозреваемого, или кто-то слушает политика, словам которого не верит, – все исходят из предположения, что обязательно обнаружатся какие-то явные признаки, которые укажут на неправду. Когда человек неискренен, он обычно напряжен. И мы предполагаем, что волнение или страх оставят свой отпечаток и в речи [8]. Стресс увеличивает возбуждение, и это затрудняет точный контроль над голосом. У некоторых людей это сказывается на громкости речи, появляется грубость в голосе, изменяется частота колебаний голосовых связок. У других происходит избыточная компенсация эффектов повышенного возбуждения, поэтому речь становится чрезмерно точной. Это могло бы правдоподобно объяснить вымученность первого выступления Клинтона.
Проблема состоит в том, что многие люди полагают, что им лучше удается обнаружить ложь, чем солгать самим. Но на самом деле все как раз наоборот: мы лучше обманываем, чем разоблачаем ложь. Это может быть связано с ранними воспоминаниями о крупном обмане, который не удался. «Безобидная» ложь, где ставки не так высоки («Прости, твое письмо, похоже, попало в спам»), обычно не так запоминается и не имеет большого значения. Мы забываем, что на самом деле у нас хорошо получается обманывать. Мы обычно пытаемся отыскать конкретные признаки, которые, как нам кажется, укажут на то, что собеседник лжет, например, он отводит взгляд в сторону, улыбается или дергается. Но научные исследования показывают, что это неточные признаки. В действительности представление о том, что когда люди лгут, они больше суетятся, прямо противоположно тому, как на самом деле ведут себя лжецы.
Эйтан Элаад из Национальной полиции Израиля исследовал этот вопрос в проекте с участием 60 полицейских, которым показывали видеозаписи подростков и просили их определить, когда те лгут [9]. На видео были записаны восемь подростков, описывающих людей, которые им нравятся или не нравятся. Иногда они говорили правду, но иногда и обманывали. Правильная интерпретация таких видеозаписей – это настоящая проблема в расследовании лжи. Когда подростки лгали, они должны были бы проявлять признаки стресса, в противном случае следователи не смогли бы найти зацепок, с которыми можно было бы работать. Однако очевидно, что в случае раскрытия обмана речь не шла о реальной угрозе тюремного заключения или других жестких санкциях. Можно было сыграть на самооценке подростков, сказав им, что только те, кто обладает мощным интеллектом, сильной волей и отличным умением контролировать себя, смогут преуспеть в обмане [10].
Две трети израильских полицейских думали, что они показали очень хорошие результаты в определении лжи. На самом деле их ответы были даже хуже, чем ожидалось: ложь была обнаружена только в 46 % случаев. С тем же успехом они могли бы просто бросить монетку. В среднем по данным исследований, в которых принимали участие судьи, психиатры и специалисты по работе с полиграфом, успешность была чуть выше простой догадки [11].
В 1994 году Ричард Уайзман, профессор Хертфордширского университета и специалист по общественному пониманию психологии, провел большой эксперимент по изучению лжи. Ход эксперимента контролировался в меньшей степени, чем лабораторные исследования, но Уайзман протестировал огромное количество людей, которые должны были обнаружить ложь. В эксперименте использовались два интервью с известным британским политическим обозревателем сэром Робертом Деем. В одном интервью он солгал, в другом сказал правду. Публика должна была это определить. Более 40 000 человек слушали Дея по радио, читали его интервью в газетах или смотрели выступления по телевизору. Радиослушатели, у которых для обнаружения лжи были лишь вербальные и голосовые подсказки, опознали ее правильно в 73 % случаев. Читатели газеты, у которых был только текст, правильно ответили в 64 % случаев. Удивительно, но те, кто смотрел интервью по телевизору и мог не только слышать, но и видеть Дея, показали худшие результаты и оказались правы в 52 %, что ненамного выше ожидаемой вероятности. По-видимому, добавление визуальных подсказок на самом деле снижает способность обнаружения лжи [12].
По результатам всемирного обзора, самым распространенным признаком обмана, по мнению большинства людей, является то, что если человек лжет, он отводит взгляд [13]. Если человек смотрит в сторону, даже маленькие дети 5–6 лет связывают это с враньем. Но любопытно, почему мы полагаемся на этот ложный знак? Человек очень хорошо определяет чувства окружающих, и, по-видимому, здесь существует какая-то иллюзорная взаимосвязь. Мы отводим взгляд, когда нам стыдно, а если нас поймали на лжи – это стыдно. Возможно, именно поэтому мы ошибочно полагаем, что если человек говорит правду, он будет смотреть прямо в глаза, а лжец отведет взгляд.
Низкие показатели успешности в исследованиях обмана частично объясняются тем, что люди полагаются на стереотипные, но ошибочные признаки, как раз такие, как взгляд в сторону. Еще одним фактором является презумпция правды: мы естественным образом убеждены, что истинных утверждений больше, чем ложных. Как и в большинстве жизненных ситуаций, в попытках обнаружить ложь мы для вынесения суждений используем эвристику, или произвольные решения, а она часто основана на предубеждениях. Майкл Шермер в книге «Верующий мозг» (The Believing Brain) приводит следующий пример [14]. Представьте, что вы – первобытный человек, находитесь в саванне и вдруг слышите звук. Это шум ветра в траве? Или это к вам подбирается хищник? Предположим, что это хищник, и он готовится к нападению, тогда самое правильное решение – быстро смыться. Если есть вероятность, что это хищник, то очень опасно успокаивать себя тем, что это ветер. Так, себе во благо вы усваиваете практическое правило, основанное на предубеждении, что любой звук в саванне означает приближение хищника.
Когда надо обнаружить ложь, презумпция истинности означает, что мы верим: правдивых утверждений больше, чем ложных (за исключением некоторых особых обстоятельств, например когда мы слушаем презентацию продаж). Причина такого предубеждения может заключаться в том, что в повседневной жизни мы сталкиваемся с большим количеством истинных, а не ложных утверждений. Кроме того, часто легче подтвердить сказанное, когда говоришь правду. Ложь встречается гораздо реже, а когда это происходит, ее труднее обнаружить. Иногда можно даже подсознательно вступить с собой в сговор, чтобы сохранить обман в тайне. Действительно ли подруга хочет получить честный ответ, когда спрашивает, не слишком ли она толстая в своем любимом платье? (Этот феномен получил название «эффект страуса».) Короче говоря, обычно мы полагаем, что можем отличить и правду, и ложь, хотя большая часть подтверждений исходит от правды. В большинстве случаев мы не склонны распознавать обман в том, что нам говорят [15].
Есть подсказки, которые могут повысить шансы раскрыть обман, но они плохо различаются и трудно обнаруживаются. Лжецы склонны делать больше речевых ошибок, при ответах на вопросы могут казаться вялыми, медленнее говорить. Для того чтобы спланировать и осуществить обман, необходимо дополнительное время на обдумывание. Обычно честно ответить легче, такой ответ подразумевает, что описываемое произошло на самом деле. Существуют, однако, и другие варианты маскировки обмана, и тогда, если вас допрашивают, мозг начинает работать интенсивнее, чтобы последующие ответы совпадали с предыдущей ложью [16]. Олдерт Фрай из Портсмутского университета полагает, что это можно использовать для повышения успешности допросов. Вы можете заставить подозреваемого рассказать свою историю в обратном порядке, добавить когнитивные установки, и тогда с большей вероятностью можно будет распознать признаки лжи.
Одним из самых знаменитых лжецов современности является бывший профессиональный велогонщик Лэнс Армстронг. Он единственный в мире семь раз финишировал первым в гонке «Тур де Франс», но на протяжении всей карьеры и после ее завершения его обвиняли в использовании допинга. Стоя на Елисейских Полях на фоне Триумфальной арки и произнося свою последнюю речь победителя в 2005 году, Армстронг заявил: «Всем, кто с пренебрежением относится к велоспорту, я хочу сказать одно: вы циники и скептики, мне жаль вас. Мне жаль вас потому, что разум ваш закрыт. И мне жаль вас потому, что вы не способны поверить в чудо… это спорт, и победить здесь можно лишь тяжелой работой». В 2013 году Армстронга лишили всех титулов, когда он, в конце концов, признал, что принимал запрещенные стимуляторы и анаболики. В старых телевизионных интервью, в которых спортсмен отрицал использование допинга, поражает то, насколько свободно и уверенно он отвечал на вопросы. Этот прием подтверждался в исследовании, которое показало, что, если хочется соврать, сохраняйте свободу и плавность речи, и тогда вас не поймают [17]. Армстронг – это показательный пример еще одного открытия в исследовании обмана: люди, которые хорошо умеют врать, когда лгут, держатся естественно.
Но есть ли еще какие-то вокальные подсказки? Эксперименты показали, что тон речи лжеца часто повышается, частота увеличивается примерно на 6–7 Гц. Можно обнаружить несколько вероятных причин этого явления. Например, стресс из-за необходимости лгать изменяет скорость биения сердца, что в свою очередь изменяет давление в нижней части голосовой щели, вызывая ускорение вибрации голосовых связок. К сожалению, это происходит не всегда. Короче говоря, ученые не дали нам никаких универсальных признаков лжи.
С учетом вышесказанного можно только удивляться нашей склонности верить в то, что мы легко распознаем лжецов. А разве это не противоречит нашему собственному опыту, когда мы врали, а нас никто не разоблачал? (Ну, сам-то я, конечно, никогда не вру!) Опрос тысячи взрослых американцев показал, что люди лгут в среднем 1,65 раза в день, хотя значительная часть этой лжи производится скромным количеством продуктивных врунов [18]. Учитывая, что даже самые заслуживающие доверия люди говорят неправду, чтобы избежать неловких ситуаций, почему же мы никак не научимся лучше распознавать ложь других, даже на собственном опыте? Противоречивая и тонкая природа вокальных и вербальных признаков лжи делает это невозможным.
Исследование Линн тен Бринке и ее коллег из Калифорнийского университета в Беркли, проведенное в 2014 году, дает основания полагать, что, в то время как нашим сознательным попыткам разоблачить лжеца мешает поиск бесполезных стереотипных подсказок, нашему бессознательному это удается чуть-чуть лучше [19]. В этом исследовании ученые просили испытуемых просмотреть видеозаписи с участием людей, которые либо врали, либо говорили правду. На видео были записаны интервью фиктивного преступления – кражи 100 долларов. Испытуемые должны были сказать, лгут ли люди на видео. Кроме того, с целью выявить подсознательные мысли испытуемых Линн тен Бринке провела тест на неявные ассоциации [20]. Испытуемых просили сказать, соответствуют ли слова (такие как «лживый» и «правдивый») картинкам, на которых были изображены лжецы и люди, говорящие правду, и затем измерялась скорость, с которой подбирались словесные ассоциации. Тен Бринке обнаружила, что, когда слово не совпадало с картинкой, – например, когда слово «лживый» предъявлялось вместе с изображением человека, говорящего правду, – испытуемому требовалось больше времени на ответ. Таким образом, хотя испытуемые с трудом определяли лжецов, когда их просто просили сказать, кто лжет, они подсознательно находили подсказки относительно правдивости говорящих. Если предрассудки нашего сознательного ума мешают нам обнаружить ложь, возможно, бесстрастный компьютер в этом преуспеет.
Несколько коммерческих систем заявляют, что могут распознать обман, используя тест на наличие стресса в голосе (VSA). В 2003 году BBC News сообщила: «Компания по страхованию автомобилей, которая установила телефонные детекторы лжи, объявила, что четверть всех заявлений о краже машин была отозвана с момента введения новинки» [21]. Год спустя New York Times опубликовала заявление одного из производителей, что их технологию используют «1400 органов правопорядка на всей территории Соединенных Штатов, а также местные и федеральные организации, включая Министерство обороны» [22]. За последние годы Министерство труда и пенсионного обеспечения Соединенного Королевства потратило 2,4 миллиона фунтов стерлингов на оценку этой технологии, включая проверку почти 3000 претендентов на выплаты [23].
Как утверждают, действие подобных систем основывается на отслеживании микротреморов. Стресс изменяет приток крови к мышцам, включая и мышцы, контролирующие гортань, в результате чего, предположительно, меняются микротреморы голоса [24]. Однако, хотя исследования и обнаружили небольшие треморы в крупных мышцах, например в бицепсах, нет никаких доказательств того, что они возникают и в мышцах гортани. Управление голосом – это невероятно сложный процесс, в котором задействованы самые маленькие и самые быстрые мышцы тела, которые обеспечивают артикуляцию. Даже если бы здесь присутствовали микротреморы, их влияние было бы невозможно обнаружить.
С научной точки зрения недостатки тестов на наличие стресса в голосе были детально описаны в статье, опубликованной в журнале International Journal of Speech, Language and the Law двумя специалистами в области лингвистики и фонетики из Швеции – Франсиско Ласердой из Стокгольмского университета и Андерсом Эриксоном из Гетеборгского университета [25]. Авторы статьи не скрывали, что относятся к этой технологии с презрением. «В любой области найдутся шарлатаны, – такими словами начинается введение к статье, – особенно там, где можно сделать деньги, и лингвокриминалистика – не исключение». Статья была удалена с сайта журнала, после того как одна из компаний, технологию которой высмеяли ученые, пригрозила подать в суд на издателя. Этот случай послужил причиной того, что в 2013 году в Великобритании были изменены законы о распространении клеветы с целью защиты ученых, которые публикуют прошедший независимое рецензирование материал в научных журналах [26].
В центре внимания статьи находился один конкретный патент на технологию, который подтверждал опасения авторов по поводу используемого метода. «Текст патента был похож на студенческое эссе. Причем эссе такого студента, который совершенно не понимал, о чем идет речь, а просто использовал красивые слова», – говорит Франсиско. В патенте содержалось 500 строк компьютерного кода, что позволило Франсиско реконструировать процесс распознавания лжи. Программа выбирает из записи голоса изгибы звуковой волны, обрабатывает их, а затем вычисляет количество пиков, низших точек и плоских участков. Плоские участки могут быть вызваны паузами, хмыканьем (заполняющим речевую паузу) и поэтому, возможно, имеют некую слабую корреляцию с плавностью речи. Но число пиков и низших точек в профиле волны очень сильно зависит от настроек звукозаписывающего устройства.
Франсиско объясняет: «Это примерно то же самое, как если бы вы взяли текст, подсчитали количество случаев употребления гласной между двумя согласными, а потом оценили полученное число и длину последовательностей символов, которые находятся на расстоянии, скажем, пяти или десяти шагов в алфавите. И на основе этих данных сделали вывод, в каком состоянии находится автор текста!» Франсиско охарактеризовал эту программу как «управляемый голосом квази-случайный генератор чисел». Основываясь на количестве пиков, низших точек и плоских участков, программа выдает ряд меток, например: «обманчивость; низкий уровень стресса; мышление меньше, чем в рамках классификации; нормальное возбуждение». Как замечают в статье Ласерда и Эриксон, «результат анализа структурирован по тем же принципам, что и гороскопы», и представляет собой модель, которую практически каждый оператор может интерпретировать по-своему.
Подобные системы подвергались и научной проверке, которая показала, что они дают результаты, сравнимые с ожидаемой вероятностью. Келли Демхаус и ее коллеги из Университета Оклахомы опросили 319 заключенных из окружной тюрьмы, использовали ли те наркотики. Затем их ответы протестировали на наличие стресса в голосе [27]. После окончания интервью у опрошенных были взяты образцы мочи для анализа, и таким образом была установлена истина. «Ложные утвердительные ответы», вычисленные программой, на самом деле очень важны. Представьте, что, поддавшись на уговоры компании, вы согласились тестировать всех пассажиров в Хитроу на голосовой стресс. Вы будете каждый день отсеивать 8000 невинных людей, которых программа ложно идентифицировала как представляющих опасность.
В другом исследовании, тоже проведенном в тюрьме, количество арестантов-обманщиков сократилось на две трети после того, как им сообщили, что их речь анализировалась [28]. Таким образом, по-видимому, тест на наличие стресса в голосе работает благодаря блефу: люди, скорее всего, не станут лгать, если будут знать, что их могут разоблачить. Психологи называют это явление «эффектом фиктивного полиграфа». Оно было обнаружено Эдвардом Джоунзом и Гарольдом Сигалом, которые использовали поддельный детектор лжи, чтобы заставить испытуемых «открыть канал связи с собственной душой» и обнаружить их настоящие помыслы [29]. Полиция, страховые фирмы и правительственные учреждения могли бы сэкономить кучу денег, просто притворившись, что они купили детекторы лжи! Однако все это заставляет меня задуматься о том, сколько времени может продолжаться такой блеф.
Достаточно немного покопаться в интернете, чтобы без труда обнаружить свидетельства бесполезности подобных систем. Но тест на наличие стресса в голосе – это технология-зомби. Сколько бы ни разоблачали ее с помощью научных доказательств, она так или иначе возрождается снова. Не обращая внимания на результаты научных исследований, Министерство труда и пенсионного обеспечения Великобритании потратило 2,4 миллиона фунтов стерлингов с мая 2007 по июль 2008 года, проверяя возможность использования этой технологии для сокращения случаев мошенничества с пособиями. Идея была такая: когда заявитель звонит в правительственное учреждение, анализ стресса в голосе поможет сотрудникам определить, на кого следует обратить особое внимание. В четырех из семи случаев, что составило 80 % всех телефонных звонков, система сработала так же, как если бы сотрудник просто подбросил монетку [30]. «Жаль, что они потратили такую огромную сумму денег, чтобы получить такой результат, можно было бы для начала просто задать нужные вопросы», – сказал мне Франсиско Ласерда.
Сложности с обнаружением обмана в голосе заключаются в том, что и лжец, и говорящий правду могут находиться в стрессе. Исследователи лжи называют это «ошибкой Отелло» [31]. В пьесе Шекспира Отелло обвиняет жену, Дездемону, в любовной связи с Кассио, своим лейтенантом. У Кассио видели платок, который Отелло подарил Дездемоне. Отелло думает, что Кассио убили, исполнив его приказ, и сообщает Дездемоне, что Кассио мертв. Она решает, что у нее не осталось возможности доказать свою невиновность. Отелло принимает ее страдания за доказательство вины и убивает ее.
Если бы Отелло жил в наши дни, мог бы компьютер помочь ему определить, виновна Дездемона или нет? Как человек, много лет занимающийся машинным обучением, могу поспорить, что исследование только интонации и ритма речи Дездемоны вряд ли указало бы ему на правду. Если ни одному научному исследованию не удалось найти каких-либо определенных моделей, которые люди используют, когда лгут, и если стресс может изменять голос даже у тех, кто не лжет, тогда даже самый лучший алгоритм машинного самообучения ждет неудача.
А как насчет более простой на первый взгляд задачи: может ли компьютер, «слушая», определить, насколько человек пьян? Когда мы «под градусом», речь может резко изменяться. Говорение требует исключительно сложной координации мелких моторных движений. После принятия определенного количества алкоголя мышечный контроль теряется, речь становится неуклюжей и неразборчивой, потому что нам трудно справиться со своей голосовой анатомией. Из-за проблем с артикуляцией и притупленного восприятия мы, возможно, будем говорить медленнее.
Анализ голоса оказался в центре внимания в судебном процессе против Джозефа Хейзелвуда, капитана нефтяного танкера «Эксон Вальдес». Его обвинили в том, что он был пьян, когда командовал судном. В 1989 году танкер налетел на риф у побережья Аляски, в результате в океан вылилось 41,8 миллиона литров нефти и погибло 250 000 птиц, 3000 морских выдр, 300 тюленей, 250 белоголовых орланов и 22 косатки [32]. Записи разговоров Хейзелвуда во время катастрофы показали, что его голос был изменен. Он говорил медленнее, чем обычно, несколько изменилась и грубость голоса.
Мог бы компьютер обнаружить такие изменения в голосе капитана и автоматически передать командование кораблем первому помощнику? В 2011 году ученые приняли участие в соревновании, чтобы понять, насколько хорошо компьютер может определять опьянение по записи голоса [33]. Первым этапом стала подготовка образцов, с которыми далее должны были работать исследователи. Образцы были получены следующим образом: исследователи напоили добровольцев (154 человека) и попросили их проговорить некоторые фразы. Затем перед исследователями встала задача разработать компьютерные алгоритмы, которые могли бы определить, есть ли в аудиозаписях признаки, указывающие на трезвость или опьянение говорящего. Лучшая программа добилась точности 71 % [34]. Это соответствует результату, который может показать человек: в среднем люди могут опознать речь пьяного в трех четвертях случаев [35]. К сожалению, показатель успешности для компьютера слишком низкий, чтобы машину можно было считать надежным инструментом для проверки капитанов.
В деле «Эксона Вальдеса», хотя Хейзелвуд и признал, что пил водку перед тем, как подняться на борт, его оправдали. Одна из причин – анализ голоса не мог однозначно доказать его опьянение. Изменения в речи могли быть вызваны тем, что ему приходилось повышать голос, чтобы его могли услышать члены команды, ведь на корабле шумно [36]. Хотя, как и человек, «слушающий» компьютер может считывать голосовую информацию, выводы могут оказаться ошибочными, поскольку алгоритм несовершенен или голосовые подсказки недостаточно однозначны.
До настоящего времени алгоритмы поиска лжи не учитывали слова. Возможно, компьютер с большей вероятностью смог бы обнаружить опьянение, если бы искал особые фразы, например: «А знаешь, ты ведь мой лучший друг», или обращал внимание на то, как пьяные «слов неправильный порядок часто делают»? Джонатан Айткен был высокопоставленным британским политиком, которому прочили пост будущего консервативного премьер-министра. В 1985 году, будучи главным секретарем Министерства финансов, Айткен ушел в отставку с поста члена кабинета министров, чтобы противостоять обвинениям, выдвинутым против него газетой Guardian и Granada TV. Они заявили, что он получал взятки от бизнесменов из Саудовской Аравии в связи с продажей оружия. Он, не колеблясь, выступил с речью, в которой заявил, что подаст в суд по обвинению в клевете: «Если мне придется начать борьбу, чтобы удалить раковую опухоль нашей бесчестной и извращенной журналистики с помощью меча чистой правды и надежного щита честной игры, пусть будет так. Я готов к бою». Четыре года спустя Айткен был приговорен к тюремному заключению сроком 14 месяцев за лжесвидетельство и препятствие отправлению правосудия. В ходе дела по обвинению в клевете он заявил, что часть счета из отеля Ritz в Париже оплатила его жена деньгами, которые он ей ранее выдал. Но Guardian удалось получить копию этого счета, и обман был разоблачен. Карьера Айткена закончилась. Если прослушать архивную запись его речи, в которой он говорил о «мече правды», можно услышать, что манера его речи удивительно невыразительна и резко контрастирует с саркастическими словами.
Но чтобы у компьютера появилась возможность обнаружить ложь, ему придется научиться понимать слова. Это позволит системе ориентироваться на другие признаки обмана, обнаруженные в научных исследованиях, например, на тот факт, что когда человек врет, он приводит меньше деталей и устанавливает меньше связей с внешними событиями [37]. Но чтобы использовать эти данные, компьютеру нужно уметь распознавать речь и понимать ее семантику.
Одна из первых электронных систем распознавания речи, которая называлась «Одри», была создана в 1952 году К. Дэйвисом и его коллегами из Лабораторий Белла в США. Она могла распознавать отдельные цифры, а при тщательной настройке на конкретного говорящего правильно идентифицировала практически каждое слово. Как и другие первые системы, «Одри», по существу, работала по принципу подбора моделей. На рисунке выше показана запись голоса человека, который считает от одного до пяти. В верхней части – обычный способ представления звука, «виляющий» след, показывающий, как изменяется давление, создаваемое голосом, по мере произнесения пяти цифр. Второе слово, two, показывает два отдельных отрывка, [t] и [oo]. Оно начинается с взрывного [t], при котором воздух сначала блокируется языком, прижатым кверху, к нёбу, а когда язык отрывается, резкий выдох создает звук. За этим быстро следует гласный [oo], который почти пропевается. В нижней части – спектрограмма, показывающая изменение частотной характеристики речи. Для слова two темная линия опускается вниз слева направо, а для слова three видна диагональная темная линия, идущая в обратном направлении. Когда говорящий произносит вторую часть слова three, его интонация создает увеличение частоты, отсюда и идущая вверх линия на спектрограмме.
Мужской голос, считающий «one, two, three, four, five»
Спектрограммы подобны отпечаткам пальцев и показывают, что у каждой цифры уникальный рисунок. Задачей «Одри» было подобрать к образцу из произнесенного в микрофон звука пару из ожидаемых рисунков звука для каждой цифры. В 1950-е годы это было сложно реализовать, потому что для создания спектрограмм просто не было компьютеров. Более того, «Одри» была не слишком практичной системой. Джеймс Флэнаган из Лабораторий Белла вспоминал: «Она занимала релейную стойку шести футов (более 1,8 м) высотой, была ужасно дорогой, поглощала солидное количество энергии и создавала мириад проблем обслуживания, связанных со сложной ламповой схемой» [38].
Еще одна проблема, связанная с подобным типом анализа, состоит в том, что человек не всегда одинаково произносит слова. Например, слово, которое обычно произносится с понижающейся частотой, в конце вопросительного предложения может произноситься с повышающейся интонацией. Кроме того, у разных людей произношение может сильно отличаться, так что ваша спектрограмма счета от одного до пяти будет отличаться от моей. Даже лучшие современные системы, которые используют значительно более изощренные технологии, чем «Одри», не срабатывают. Когда в 2011 году iPhone 4S появился на рынке Великобритании, голосовой помощник Siri с трудом понимал сильный шотландский акцент [39].
В последние годы появление мощных компьютеров и использование машинного обучения вполовину снизили количество ошибок при распознавании речи. Современные системы еще далеки от того, чтобы распознавать речь так же, как это делает человек, но им больше не требуется, чтобы вы говорили медленно и делали паузы между словами. Более того, в эпоху больших объемов данных эти системы обучаются на огромном количестве примеров. Именно так Apple решила проблемы с Siri: компьютер прослушал огромное количество записей шотландского произношения, чтобы его запомнить. Кроме того, большие объемы данных означают, что системы распознавания речи обладают огромным словарем – например, голосовой помощник Google претендует на знание примерно трех миллионов слов. Это значительно превышает возможности человека. Поэтому система распознавания речи будет работать, даже если вы прибегаете к очень узкой теме со своим специализированным набором слов.
В наши дни каждый человек создает огромные массивы цифровых данных, совершая покупки, используя социальные сети или осуществляя поиск в интернете. При этом мы передаем компаниям огромное количество информации о себе – в обмен на бесплатные услуги. То, что мы позволяем компьютерам подслушивать наши голоса, делает эти сведения еще более ценными, потому что, помимо слов, это дает возможность узнать и о наших чувствах.
Однако применение машинного самообучения в больших объемах данных может привести к неожиданным негативным последствиям. Можно подумать, что, поскольку эти системы разработаны на языке математики и алгоритмов, они будут столь же объективны, как доктор Спок из «Звездного пути». Но программное обеспечение усваивает и социальные предрассудки, которые содержатся в используемых им данных. В 2017 году Айлин Калискан и ее коллеги из Принстонского университета проанализировали ассоциации между словами в популярной базе данных, которая использовалась для обучения алгоритмов машинного самобучения [40]. В этой базе данных содержались миллиарды слов, закачанных из интернета. В одном из тестов Калискан исследовала, какие имена собственные появлялись в предложениях с приятными словами, например «любовь», а какие – в предложениях с неприятными словами, например «уродливый». Результаты показали наличие расовых предрассудков: имена европейцев и белых американцев чаще связывались с приятными словами, чем имена афроамериканцев. Еще в одном тесте проявился гендерный предрассудок: мужские имена чаще ассоциировались со словами, относящимися к работе, например «профессионал» и «зарплата», а женские имена оказались ближе к словам, описывающим семью, например «родители» и «свадьба». Пополняйте алгоритм машинного самообучения примерами из такой базы – и вы рискуете создать сексистское и расистское программное обеспечение.
Подобная предвзятость уже наблюдается в таких популярных инструментах, как переводчик Google. Например, используем его для перевода с турецкого на английский двух фраз: o bir doktor и o bir hemşire. Результат будет такой: he is a doctor («он – врач») и she is a nurse («она – медсестра») [41]. Но o в турецком языке – это местоимение третьего лица, не указывающее на пол. Представление о том, что врач мужчина, а медсестра – женщина, отражает культурные предрассудки и асимметричное распределение пола в сфере медицины: мы получили сексистский алгоритм. Использование такого алгоритма для просмотра заявлений о приеме на работу усилит существующие культурные предубеждения. Хотя дискуссии вокруг искусственного интеллекта нередко фокусируются на алгоритмах, часто именно данные определяют его работу и могут привести к нежелательным и опасным результатам. В 2015 году компания Flickr выпустила систему распознавания образов, в которой черные люди были неверно обозначены как «обезьяны», а фотографии концентрационных лагерей в Дахау и Аушвице как «конструкция для лазания» и «спорт». Если не соблюдать осторожность, подобные ошибки могут возникать, когда компьютеры будут идентифицировать характеристики людей по их речи. И это будет связано с тем, что в нашем голосе содержится тонкая, но часто противоречивая информация о расе, сексуальности и гендере.
Такие компании, как Google, Apple и Microsoft, сегодня владеют огромными массивами звукозаписей, которые они используют для создания систем распознавания речи. В одном из экспериментов Microsoft использовала данные продолжительностью 24 часа из своего голосового приложения, содержащего 30 000 высказываний. Люди искали конкретные фирмы, поэтому часто встречались слова Walmart, McDonald’s или 7-Eleven. Закончив самообучение, искусственная нейронная сеть достигла точности 70 % в распознавании предложений при голосовых запросах, которые она раньше никогда не слышала [42]. Такой результат впечатляет, если учесть, что у авторов записей были разные акценты, в сообщениях содержались ошибки в произношении и фоновый шум. Однако это все равно означает, что многие слова, предложенные алгоритмом, были выбраны неправильно. Но это проблема не только компьютеров. Как мы уже видели, когда люди слушают речь, в ней часто могут отсутствовать куски или присутствовать ошибки, но мозг заполняет пропуски или вносит исправления. То же самое можно сказать и о чтении. Не так уж трудно понять следующее предложение: «По реузльтатам иселдовасния… не имеет занчения, в каокм поярдке сотят бувкы в солвах, евидстенная ванжая вещщ – тошбы певрая и оплсендяя букав была в нжуонм метсе» [43]. Испорченный текст можно исправить при условии, что достаточное количество букв – правильные. Это же относится и к речи.
Когда вы набираете поисковый запрос в браузере, появляются варианты окончания искомого текста. Когда я набираю в поисковике «Тревор Кокс», первое предложение будет «Тревор Кокс WHL»[37], потому что мое имя совпадает с именем канадского игрока в хоккей на льду, играющего за Medicine Hat Tigers. Такие предположения возможны, поскольку для создания моделей языка используются обширные данные, и в приведенном примере слова, скорее всего, встречаются рядом при поисковом запросе. Подобное моделирование языка жизненно важно для распознавания речи, так как позволяет исправлять неверно понятые слова [44].
Голосовой поиск удивительно эффективен, но может ли он помочь в распознавании лжи? Только не сегодня, поскольку модель языка фокусируется на вероятных маркерах поиска, и у Google для этого имеются огромные массивы информации. Компания начала анализировать ложные факты на веб-страницах, таким образом, рейтинги результатов исследования могут основываться на надежности сайта [45]. Но это имеет свои ограничения в плане обнаружения лжи, потому что письменный и устный язык работают по-разному. Давайте рассмотрим богатство игры слов, например, в спунеризме, и проблему создания модели языка, которая могла бы с этим работать. У богослова Уильяма Спунера, который родился в 1844 году, были проблемы: язык не успевал за мозгом. Говорят, что однажды на бракосочетании он сказал: «А теперь поцелуйно обругайте невесту» (It is kisstomary to cuss the bride). А однажды он случайно предложил тост за «нашего чудаковатого старика-декана» (our queer old dean) вместо «за нашу добрую старушку королеву» (our dear old queen) [46].
Ученые уже пытались использовать машинное самообучение для обнаружения шуток, включая двусмысленности [47]. Они обучают компьютер искать слова с неприличными намеками, например «банан» (banana). Кроме того, для эротических предложений характерны определенные структуры, которые встречаются и в двусмысленных фразах, например: «[субъект] мог бы есть [объект] весь день напролет». После завершения обучения компьютер обнаружил двусмысленные предложения в 70 % случаев. (Это предложение вызывает двусмысленность в сложных проблемах машинного обучения.)
Возможно, если компьютер услышит характерные звуки смеха, он сможет легко обнаруживать шутки. Когда я встретился с нейробиологом Софи Скотт из Университетского колледжа Лондона, чтобы задать ей несколько вопросов об импрессионистах, мы обсуждали и ее исследование, в котором она пыталась определить, как человек выражает эмоции. Работа Софи началась с изучения вызванных испугом криков и выражений недовольства, и только позже она переключилась на более приятное занятие: начала исследовать смех. Но ей пришлось убеждать скептиков, что это серьезный предмет для изучения. Однажды кто-то из коллег Софи прикрепил к пачке отпечатанных на принтере бланков согласия на участие в исследовании следующую записку:
Эта кипа бумажек – просто макулатура, судя по содержанию[38], и если ее не заберут, она будет ликвидирована.
Но смех – это серьезный предмет, потому что для человека он является обычным состоянием. «При прочих равных условиях вы чувствуете себя комфортно и хорошо с окружающими вас людьми. Вы смеетесь в их присутствии», – объясняет Скотт. Если смех отсутствует, значит, что-то не в порядке. Крайний случай такой ситуации – это люди, страдающие гелотофобией: они боятся смеха, потому что думают, что смеются над ними. Этот случай Софи описывает следующим образом: «На сто процентов данное явление связано с тем, что человек находится в безнадежном психотическом состоянии». Исследование смеха помогает добраться до сути социальных взаимодействий, потому что смех облегчает разговор. Пары, которые снимают неизбежный стресс от постоянного нахождения в обществе друг друга с помощью смеха, в большей степени удовлетворены своими отношениями и дольше остаются вместе.
Прежде чем перейти к обсуждению акустического отпечатка, оставляемого смехом, Софи демонстрирует модель мозга, чтобы показать области, задействованные в процессе слушания. В случае речи левое полушарие задействовано в обработке фонетической, семантической, лексической и синтаксической информации. Это означает, что правое полушарие концентрируется на всех остальных свойствах голоса, таких как интонация или идентификация говорящего. Следовательно, когда Софи исследует человека на фМРТ-сканере и проигрывает ему запись смеха, правое полушарие демонстрирует бо́льшую активность.
Но до того как начать сканирование мозга, Софи нужно было подобрать хорошие записи смеха. Первые попытки, сделанные вместе с коллегами, были успешными, фактически, вспоминает Софи, «мы просто потрясающе провели время, смеша друг друга». Но, когда они попытались записать смех с группой волонтеров, ничего не получилось. «Мне даже не пришло в голову, в чем причина, пока я не увидела, как один бедняга из группы одиноко сидит в безэховой камере и не смеется: конечно, они ведь не знали друг друга [хорошо], они не были друзьями», – сказала Софи. Необходимо, чтобы донор смеха находился один в безэховой камере, чтобы Софи могла получать чистую запись голоса, но смех – это социальная активность. Поэтому Софи и ее коллегам пришлось придумать новую процедуру. «Все начиналось за пределами безэховой камеры, волонтеры проводили много времени вместе, смотрели видеозаписи, вместе смеялись, создавая теплую дружескую атмосферу, – объясняет Софи. – А потом в конце концов кто-то раскочегаривается, и его уже можно запихивать в эту камеру».
Когда Софи воспроизводила эти записи волонтерам, которых она исследовала в сканере, обнаружились два типа смеха со специфическими неврологическими реакциями. Смех – это естественная реакция на забавную ситуацию, но чаще всего встречается вежливый социальный смех, который «смягчает» беседы и в большинстве случаев не имеет ничего общего с юмором. Такой нарочитый смех свидетельствует о том, что человек участвует в разговоре и наслаждается им, и за 10 минут беседы обычно такой смех возникает пять раз [48]. Когда люди слышат такой нарочитый смех, Софи отмечает повышение активности в медиальных префронтальных зонах мозга, которые обычно используются для формирования намерений человека. По-видимому, логично, что в случае такого социального сигнала, как смех, в декодировании звука задействованы сети моделей психического состояния.
Другой вид смеха возникает, когда вы сильно заводитесь и смеетесь бесконтрольно. «Ха-ха-ха» – это очень простая вокализация. Каждое «ха» создается спазмами диафрагмы и межреберных мышц, выталкивающими из легких порции воздуха, которые затем приводят в движение голосовые связки. При настоящем смехе возникает более высокое давление, и это создает более высокий тон, чем при нарочитом смехе. Кроме того, получается еще и хриплый, и свистящий звук, являющийся результатом неконтролируемого использования голосовой анатомии [49]. Неконтролируемый смех может оказаться очень странным звуком. Комик Джимми Карр – особый случай, он описывает свой смех как звуки, производимые счастливым дельфином – он смеется нетипично, на вдохе [50]. Когда человек слышит такой неконтролируемый смех, мозг реагирует повышением активности в левой и правой слуховых зонах коры, расположенных как раз над ушами. Поскольку настоящий смех отличается от речи, пения и других привычных звуков, его необычность приводит к большей активности в слуховой зоне коры [51].
Поскольку смех имеет специфический акустический след, компьютеры, использующие машинное самообучение, могут отличать его с большой долей вероятности [52]. К сожалению, это не означает, что компьютер способен обнаруживать юмор. Если учесть, что в большинстве случаев смех возникает не как реакция на реальную шутку, а как социальная «смазка», компьютер будет очень часто ошибаться. Чтобы компьютер стал хорошим слушателем, способным идентифицировать шутки и ложь, он должен знать о языке гораздо больше. В настоящее время компьютеры механически освоили огромное количество простой информации, но они не имеют представления о том, как реально обстоят дела.
Смех («ха-ха-ха-ха-ха-ха-ха»), а затем речь («а для этого потребуется сауна») Джимми Карра
Герой двух сериалов BBC («Да, господин министр» и «Да, господин премьер-министр»), вымышленный государственный служащий сэр Хамфри Эплби, сказал однажды: «Хорошая речь не та, в которой мы можем доказать, что говорим правду, а та, в которой никто не может доказать, что мы лжем» [53]. Можно сделать так, чтобы ложь было трудно обнаружить, и одна из уловок – включить ее в правдивый текст. Преступник может слегка исказить правдивую историю, например изменить время, когда произошло событие, что позволяет ему говорить в основном правду и обеспечить себе вводящее следствие в заблуждение алиби. Еще одна тактика – умолчание. Партнер, у которого спросили мнение о костюме, частью которого является вызывающая сорочка, может высказать свое мнение о покрое и ничего не сказать об отвратительном рисунке под пиджаком.
Если учесть, что нам приходится иметь дело с многочисленными способами обмана, то неудивительно наше стремление стать надежным детектором лжи. Люди уже разработали разнообразные подходы ко лжи, ведь обман – это очень важный навык, возникший вместе с эволюционными преимуществами, что видно на примере приматов, которые утаивают пищу и совокупляются тайком. Все мы когда-нибудь приукрашивали свои рассказы, чтобы сделать их более интересными и запоминающимися. А белая ложь – это важная часть взаимодействия в социальной группе.
У людей овладение умением обманывать является признаком развития. Около 25 % детей к двум годам уже умеют обманывать, к четырем этой способностью обладают уже примерно 90 %; а к восьми годам – практически каждый ребенок [54]. Это очень важный показатель развития мозга. Дети, которые начинают обманывать раньше, демонстрируют более быстрое когнитивное развитие, и родители, которые обнаруживают, что их малыш лжет, находят это обнадеживающим фактором. Ведь для того чтобы обмануть, ребенку нужно осмыслить, как окружающие воспринимают информацию.
Компьютерное моделирование общения людей показывает, что в обществах, основанных на сотрудничестве и честности, отдельный человек может получить некоторые преимущества, если он иногда кого-то обманывает или лжет, конечно, при условии, что у него высокие цели, а риск разоблачения невелик [55]. Модели показывают также, что обманщиков иногда надо разоблачать – это обеспечивает доминирующую роль сотрудничества. Поэтому ущербная способность обнаруживать ложь не является недостатком, это важная составляющая развития общества.
Исследования продемонстрировали, что те виды приматов, у которых хорошо развито сотрудничество, одновременно демонстрируют и более частые случаи лживого поведения. Люди доминируют в мире именно благодаря сотрудничеству. Голосовые сигналы лжи очень тонкие, сложные и противоречивые именно потому, что, если мы будем время от времени обманывать, и нам это будет сходить с рук, мы обеспечим себе эволюционное преимущество. Давление эволюции заставит и Пиноккио научиться контролировать свой нос. Учитывая, что мы не можем безошибочно обнаруживать ложь, но обладаем гораздо более совершенными навыками слушания, чем самый умный современный компьютер, не стоит удивляться, что анализ голосового стресса не дает результатов. Для создания надежного детектора лжи необходимо, чтобы искусственный интеллект умел анализировать речь и голос даже лучше, чем человек.
8 Компьютеры пишут любовные послания
Компьютеры – безмолвные слуги, добросовестно выполняющие команды по указанию программиста. Писатели пользуются текстовыми процессорами, звукооператоры микшируют музыку, мультипликаторы используют программы анимации, но сама машина не артистична: творчество – это исключительно человеческая способность. И все же ученые оспаривают это утверждение, заставляя компьютеры писать стихи, сочинять музыку и составлять новые рецепты приготовления пищи. Так могут ли машины созидать? Мнения по этому поводу расходятся. Некоторые считают, что творческие способности возникают только на основе биологического сознания, и, следовательно, электронные устройства никогда не смогут добиться того, что может делать человек. Другие убеждают, что сознание и творчество – это математические процессы, которые теоретически могут запускаться машиной, даже если на практике эти процессы оказываются слишком сложными для кодирования. Какой бы ни была ваша точка зрения, уже существуют компьютеры, которые имитируют узкие аспекты творческой деятельности человека: пишут новостные сообщения, выдвигают и проверяют научные гипотезы и создают художественные произведения. В то же время, имитируя творческие процессы на компьютере, исследователи выясняют, что лежит в основе человеческой изобретательности.
Искусственный интеллект, несомненно, будет оказывать значительное влияние на речь. Мы уже узнали, как компьютеры учатся слушать и разговаривать. Но как насчет важнейшего ингредиента коммуникации – слова? Инструменты автоматического транскрибирования уже ломают языковые барьеры между людьми и позволяют вести беседы, которые ранее были бы невозможны. Полмиллиарда человек каждый месяц пользуются переводчиком Google, а самыми частыми запросами оказываются переводы фраз «Я тебя люблю» и «У тебя красивые глаза» [1]. Но компьютеры могут не только помогать в онлайн-чатах и переводить ласковые слова[39]. Они способны на большее. Настоящий искусственный интеллект должен не повторять заученные фразы как попугай, а творчески развивать язык в новых направлениях.
Есть какое-то жутковатое очарование в том, что машины начнут использовать собственный творческий потенциал, в геометрической прогрессии наращивая свои способности, быстро превзойдут человека и завладеют миром. Это объясняет сенсационные заголовки 2017 года, когда лаборатория искусственного интеллекта Facebook закрыла два чат-бота, потому что они перешли от английского к собственному языку общения. И пока некоторые ужасались происходящему, ведь теперь машины могли «обходиться без своих хозяев», умные люди отметили, что компьютеры просто нашли более эффективный способ общения. Вот что происходит с языком: он развивается. Предполагалось, что чат-боты будут учиться лучше общаться с людьми, но ученые забыли ограничить их работу только английским языком.
Чтобы понять возможности компьютеров, давайте переделаем написанную в XIX веке пьесу Эдмона Ростана «Сирано де Бержерак». В оригинале у Сирано огромный нос, и эта уродливая особенность не позволяет ему признаться в любви прекрасной Роксане. Красивый, но туповатый Кристиан – тоже поклонник Роксаны. Эти двое заключают соглашение: Сирано пишет Роксане стихи, а Кристиан утверждает, что он их автор. Трагическая любовная история заканчивается, когда Роксана обнаруживает, что истинным поэтом является Сирано, но это происходит буквально за минуту до его смерти. В моей версии пьесы Кристиан обходится без Сирано и обращается к компьютеру, чтобы тот писал стихи. Код компьютерного «Сирано» будет руководствоваться не любовью, а алгоритмом, написанным с целью доставить Роксане как можно больше удовольствия от поэзии.
Вот пример любовного послания, написанного компьютером:
DARLING SWEETHEART
YOU ARE MY AVID FELLOW FEELING. MY
AFFECTION CURIOUSLY CLINGS TO YOUR
PASSIONATE WISH. MY LIKING YEARNS FOR YOUR
HEART. YOU ARE MY WISTFUL
SYMPATHY: MY TENDER LIKING.
YOURS BEAUTIFULLY
M. U. C.
ДРАЖАЙШАЯ ВОЗЛЮБЛЕННАЯ
ТЫ – МОЕ НЕУТОЛИМОЕ СОЧУВСТВИЕ. МОЯ ЛЮБОВЬ
УДИВИТЕЛЬНЫМ ОБРАЗОМ ПРИНИКАЕТ К ТВОЕМУ
СТРАСТНОМУ ЖЕЛАНИЮ. МОЯ СИМПАТИЯ ЖАЖДЕТ
ТВОЕГО СЕРДЦА. ТЫ – МОЯ ТОМЯЩАЯСЯ ЖЕЛАНИЕМ
СИМПАТИЯ: МОЯ НЕЖНАЯ ЛЮБОВЬ.
ПРЕКРАСНО ТВОЙ К.М.У.
Судя по этому письму, Сирано не стоило бы сильно беспокоиться, строки имеют историческое значение – это первый пример текста, созданного компьютером. Они были написаны Baby, первым современным компьютером, способным хранить программы в памяти. «К.М.У.» означает «компьютер Манчестерского университета» Распечатки странных любовных писем появились на доске объявлений университета в 1952 году и были детищем основоположника компьютерной науки профессора Кристофера Стречи. У него была репутация потрясающего программиста, которую он заслужил дерзкой демонстрацией большой компьютерной программы, игравшей в шашки (в тех программах еще использовались перфокарты!). Она поразила всех тем, что практически сразу же сыграла безукоризненно; а после окончания игры исполнила «Боже, храни короля» [2]. Стречи написал программу создания любовных писем, чтобы проверить способность Baby к произвольному отбору информации. Программа «бросает кости», чтобы выбрать романтические глаголы и существительные, и помещает их в шаблон, чтобы составить предложения. Сегодня она существует только как часть инсталляции LoveLetters 1.0, созданной художником и медиаархеологом Дэвидом Линком. В этой инсталляции используется код первоисточника [3].
Для своего времени программа была впечатляющим достижением, но творческим источником этих срок был Стречи, а не Baby. Более того, никто не принял бы этот текст за написанное человеком любовное письмо. Ниже я привожу современную попытку компьютера завершить один из сонетов Шекспира по его первой строке: «Сравню ли я тебя…»[40]:
Shall I compare thee to skill,
The white heart of the release moon still come and say,
And all the one rain is the our heads, in the green day.
The precision of countrys of the corner so little garden, darkening blessed of
sea while one of the city for the voice in the window –
The rusty ban, who deadest an old and the starpy called people,
And the draw of the doors and the time for proval, so many instant
Than are a river on the warm of the blood of his willing and play
And gave me here some move; and what any.
Сравню ли я тебя с искусством,
Белое сердце освобождающей луны все же придет и скажет,
И весь единый дождь – это наши головы зеленым днем.
Аккуратность странов этого угла, поэтому маленький садик, потемнев, благословил море, когда кто-то из города для голоса в окне –
Ржавый запрет, который умертвил старый и старпно названный народ,
А сквозняк дверей и время для доказа, так много мига,
Который есть река на тепле крови его желания и игры
И дал мне здесь немножко движения, и что нибудь[41] [4].
Конечно, Роксана, скорее всего, была бы разочарована, если бы Кристиан продекламировал ей этот полуграмотный поток сознания. Тем не менее здесь программист меньше задействован в творческом процессе. В 2015 году Джеймс Ллойд и Алекс Дэвис, работавшие в то время в Кембриджском университете, обучали искусственную нейронную сеть на примере 10 000 стихотворений. Подобно алгоритмам, которые преобразуют речь в текст и с которыми мы уже встречались ранее, эти программы учатся выполнять задание посредством «знакомства» с многочисленными примерами. Нейронные сети организованы так, чтобы иметь возможность предсказывать, какие слова и словосочетания, скорее всего, должны появиться дальше по тексту. Поэтому когда компьютер получает строку «Сравню ли я тебя…», он делает предположение о том, каким может быть ее окончание, а затем продолжает прогнозировать, как будет развиваться сонет, разворачивая его буква за буквой.
Во время обучения то, что создает нейронная сеть, сравнивается с реальным стихотворением. Если сеть неправильно прогнозирует следующую букву, она корректирует свои внутренние связи для улучшения прогнозов в будущем. Такая система не имеет возможности механически запоминать каждое стихотворение с точностью до буквы, поэтому прогнозы никогда не совпадают с исходным стихотворением.
Побуквенная работа означает, что алгоритму необходимо выучить даже самые элементарные языковые структуры. Через несколько секунд после начала обучения программа создает тарабарщину, но все же видно, что она уже поняла, что в английском языке часто встречается буква «e»:/Wteh lea e a sti es s e inne re l se l lhre, so e sir a f e riay r mn rdh rewsr e iie r eto e ctsse e i o en e tnea e s.
Еще через несколько минут нейронная сеть догадалась, что буквы складываются в «слова»:
ursoe haoth sicge tim bonr ghoiconiiroch is a)o
PuTTY dhr doooc nins voaed ofitot tions anewt
А через пять минут некоторые слова уже вполне похожи на английские:
Stand the fanes and chen the posser.
Srone the she was insoneed the crour faning of mas
Еще через несколько часов неслов становится меньше и улучшается грамматика:
Are you not pleasant?
And as I am leaving you my life like the earthworms?[42]
Получившийся сонет, конечно, не шедевр поэтического искусства, но просто поразительно, что простой цикл машинного самообучения может произвести нечто, в чем легко можно узнать стихотворение. Если дать компьютеру свободу, есть опасность, что его поэзия разочарует, но стоит ввести ограничения в программу, и можно ожидать, что получится стихотворение, которое понравится. Возьмем, к примеру, лимерик. У него строго определенная форма, поэтому значительно легче сделать так, чтобы компьютер выдал приемлемый результат. Можно даже создать такие стихотворения, что читатель не сразу догадается, что их автор – машина. Если хотите поэкспериментировать, можно пройти упрощенный тест Тьюринга. Суть заключается в следующем: даны стихотворения, которые написаны человеком и машиной, и надо догадаться, какое стихотворение кем написано. Вот несколько строк, одно стихотворение написано компьютером, а другое человеком. Вы сможете определить автора?
Стихотворение 1:
By action or by suffering, and whose hour Was drained to its last sand in weal or woe, So that the trunk survived both fruit & flower. Деяньем иль страданьем, и чей час Истек до последней песчинки в счастье иль в несчастье, И потому стебель пережил и плод, и цвет.Стихотворение 2:
nuclear Parisian age as last as a proclamation last like a proclamation! as close as an interest! ядерный Парижский век последний как прокламация длится как прокламация! так близко как интерес!Первое стихотворение написано английским романтиком Перси Шелли. Второе было создано компьютерной программой, к которой мы вернемся позднее. Упрощенный тест Тьюринга очень увлекателен, но это плохой тест на креативность. Я мог бы легко повлиять на его результаты: выбрать отвратительные примеры созданной человеком поэзии, и тогда отличить созданные компьютером стихотворения стало бы значительно сложнее.
Алан Тьюринг был отцом современной вычислительной техники, и его гениальность помогала декодировать сообщения германских машин «Энигма» во время Второй мировой войны. Он работал и на Baby, манчестерском компьютере, который писал любовные письма. Тест, который он изобрел и который был назван в его честь, часто превозносится в средствах массовой информации как важный рубеж для искусственного интеллекта, и это страшно раздражает ученых, занимающихся компьютерными науками. Тьюринг хотел выяснить, может ли компьютер думать как человек. В своем основополагающем труде он писал об «игре в имитацию», в которой, помимо создания поэтических произведений, компьютеру нужно было и критиковать стихи. В качестве примера Тьюринг приводил следующую гипотетическую беседу [5].
Исследователь. В первой строке твоего сонета «Сравню ли я тебя с летним днем» не лучше ли было бы написать «с весенним днем»?
Компьютер. Тогда не будет выдерживаться размер.
Исследователь. А «зимний день»? Размер вполне подходит.
Компьютер. Да, но никто не хотел бы, чтобы его сравнивали с зимним днем.
Исследователь. Ты сказал бы, что мистер Пиквик напоминает тебе о Рождестве?
Компьютер. Да, пожалуй.
Исследователь. Но Рождество – это зимний день, и я не думаю, что мистер Пиквик возражал бы против такого сравнения.
Компьютер. Не думаю, что вы это серьезно. Под зимним днем обычно понимается типичный зимний день, а не такой особенный, как Рождество.
Современные компьютерные программы создания поэтических текстов не смогли бы справиться с таким «допросом», потому что для ответа нужно владеть особым навыком, не таким, который требуется для написания стихов. Сегодня творческие способности, которые демонстрируют компьютеры, всегда реализуются в очень узкой области: работа в более широкой сфере определенно выходит за рамки возможностей искусственного интеллекта. Хотя, возможно, не стоит относиться к этому столь критически, ведь многим людям-творцам бывает трудно объяснить свои творческие замыслы и процессы.
В работе Тьюринга обсуждаются также и «противоположные точки зрения» и приводится мнение сэра Джеффри Джефферсона, в то время руководившего кафедрой нейрохирургии Манчестерского университета. В ответ на успехи Baby Джефферсон в 1949 году написал об опасности «очеловечивания» машины:
Не раньше, чем машина сможет сочинить сонет или написать концерт на основе собственных мыслей и эмоций, а не случайного совпадения символов, мы сможем согласиться с тем, что машина находится на одном уровне с мозгом – когда она сможет не только писать произведения, но и сознавать, что она их написала. Ни один механизм не умеет чувствовать (а не просто искусственно сигнализировать, что является нехитрой уловкой) удовольствие от своих успехов, печаль от того, что у него сгорел предохранитель, ее не согревает лесть, она не может расстраиваться от своих ошибок, ее не привлекает секс, она не умеет сердиться и не впадает в депрессию, когда не может получить то, чего хочет [6].
Джефферсон утверждал, что поскольку искусство – это выражение и передача опыта человека, оно не может быть создано компьютером, хотя, как мы уже видели в контексте театра, машины могут пролить свет на человеческую сущность.
Многие исследователи сосредоточивают внимание на процессе создания произведения искусства, стремясь проникнуть в тайны творчества, при этом они оставляют в стороне необходимость считаться с субъективным мнением переменчивой людской критики. Система создания стихотворных текстов, разработанная Джоанной Мишталь-Радецкой и Бипин Индурхья из Ягеллонского университета в Кракове, – один из примеров таких систем [7]. Их стихотворения создаются компьютером, имитирующим некоторые сложные процессы мозга.
Представьте, что вы с коллегами попали на однодневный выездной семинар и получили задание совместно написать на флипчарте стихотворение. Стихотворение должно быть основано на сообщении, размещенном в блоге. Каждый из коллег специализируется на конкретном задании. Один может определять в тексте блога нужные для вдохновения ключевые слова, отыскивать слова, имеющие множество ассоциаций и, следовательно, подходящие для создания поэтического текста. Другой будет оценивать настроение блога, определяя, что преобладает: гнев, страх или радость. Кто-то работает с тезаурусом, выписывает на самоклеящиеся листочки возможные синонимы и антонимы к ключевым словам и прикрепляет их на флипчарт. Еще один коллега получает задание найти слова, вызывающие эмоции, отражающие настроение исходного текста. Далее весь этот общий котел идей передается другим участникам, которые создают фрагменты стихотворения. Они могут придумывать метафоры, оксюмороны или риторические вопросы, затем записывать их на других листочках. Кого-то из коллег просят их критически оценить и выбрать лучшие: например, проверить, попадают ли строки в нужный стихотворный размер. Так постепенно возникает стихотворение.
Алгоритмы Джоанны копируют этот процесс, но все задания выполняются программным обеспечением. Вот пример того, что получается. Это стихотворение возникло из следующего блога:
Помню, что меня бесконечно занимали похождения моих игрушек! Иногда они снова и снова умирали ужасной насильственной смертью, в другие дни они путешествовали в космос или обсуждали мои уроки плавания и то, что мне совершенно необходимо разрешить плавать в тот конец бассейна, где глубоко, особенно учитывая мое превосходное умение плавать по-собачьи [8].
Выбранная компьютером тема была «тот конец бассейна, где глубоко» (deep end), а эмоция – «гнев» (anger). Вот такое получилось стихотворение:
I knew the undisrupted end I was like the various end As deep as a transformation O end the left extremity Objective undisrupted end I hated the choleric end O end the dead extremity Я знал непрекращающийся конец Я был как разноцветный конец Глубокий как преобразованье О, кончи же оставшуюся опасность Объективный непрекращающийся конец Я ненавидел этот раздражительный конец О, прекрати мертвую опасностьКогда Джоанна и Бипин попросили своих сотрудников и знакомых высказаться по поводу подобных стихотворений, большинство информантов оценили эти произведения не очень высоко. Это едва ли удивляет, поскольку компьютер не умеет правильно определять значимость имеющихся строк. На самом деле, если подобные стихотворения и получатся содержательными, это будет просто счастливой случайностью. Но поэзия – это такая форма искусства, смысл которой находится в голове читателя. Насколько оценка вами этого стихотворения зависела от вашего знания о том, что оно написано компьютером? Некоторую ясность в этом вопросе мы можем получить, обратившись к исследованиям, проведенным на материале музыкальных произведений.
В научной статье, опубликованной в 2008 году, Николаус Стейнбейс и Стефан Келш из Института по когнитивным наукам и исследованиям мозга Общества Макса Планка в Лейпциге описали исследование, в котором изучались реакции мозга человека на музыку с использованием фМРТ-сканера [9]. Участники слушали музыку композиторов ХХ века – Арнольда Шенберга и Антона Веберна. Иногда исследователи делали вид, что автором произведения является компьютер, а в другое время слушателям сообщали, что музыку сочинил человек. Использовалась атональная музыка, потому что слушатели могли по наивности принять кажущиеся бессвязными ноты за произведение компьютера. Когда слушатели были убеждены, что музыка написана человеком, повышенная активность наблюдалась в тех отделах мозга, которые участвуют в прогнозировании того, что, возможно, думают другие. Эти результаты вместе с данными опроса, проведенного после окончания сканирования, показали, что в тех случаях, когда слушатели полагали, что автором музыки был человек, они пытались угадать намерения композитора. Но атональная музыка – это особая сфера, и было бы интересно расширить исследование и провести эксперимент на материале массовой музыки, особенно электронной, в которой множество синтетических звуков и электронных эффектов.
Предположительно то же самое происходит во время поэтических поединков, когда стихи сочиняют роботы, использующие программы машинного стихосложения. Не пытайтесь понять замысел автора в произведениях, созданных компьютером. Литература часто автобиографична и основывается на личном опыте писателя. Разве может машина понять, что́ значит быть живым? Результат деятельности компьютера не может быть приписан мятущемуся художнику, пишущему о своей непростой жизни. Конечно, такое представление о художнике очень романтично, но на данный момент его невозможно преобразовать в компьютерную программу. Мы убеждены, что ни в одном из созданных компьютером стихотворений мы не найдем «души», поэтому маловероятно, что компьютер сможет задействовать такие нейронные сети, формирующие модели психического состояния, какие имеются в нашем мозге.
Один из способов сократить подобный разрыв – поручить компьютерам перекраивать или достраивать тексты, в которых проявляются человеческие качества, потому что они написаны людьми. Именно этим занимаются участники Национального месяца генерирования романа (National Novel Generation Month). Этот проект создал Дарий Каземи, программист и художник, по аналогии с Национальным месяцем написания романа (National Novel Writing Month), события, в рамках которого сотни тысяч авторов пытаются создать черновой вариант романа из 50 000 слов всего за один месяц. Этот проект стартовал в США, но в настоящее время он привлекает участников со всего мира. В результате такого ускоренного процесса были написаны бестселлеры, например «Воды слонам!» Сары Груэн. Компьютерный проект призывает программистов попробовать себя в написании кода, который автоматически генерировал бы роман по меньшей мере такой же длины. В 2015 году в проекте зарегистрировалась пара сотен участников.
Когда на следующий год я встретился с Дарием, он сказал мне, что лучшие отрывки из сгенерированных компьютером произведений получаются в тех случаях, когда код «спотыкается», пытаясь быть похожим на человека. Компьютерный текст напоминает речь туриста, который путается в иностранном языке, и может быть забавно наблюдать, как в безуспешных попытках вдруг возникают случайные «прозрения». Любимый текст Дария был создан в 2014 году, он называется «Искатель» (The Seeker) и выложен от имени thricedotted [10]. Фактически это один из немногих вариантов, которые можно дочитать до конца. В нем используется изощренная метафора: это история об искусственном интеллекте, который учится быть человеком, читая статьи в проекте Wikihow. Поскольку главный герой – машина, читатель не ожидает, что английский, на котором написан роман, будет идеальным, и готов к тому, что значительная часть текста будет взята из корпуса текстов, написанных человеком. Основная часть книги состоит из высказываний, которые больше похожи на компьютерный код, чем на обычные предложения. Роман начинается со статьи из Wikihow «Как заставить девушку пригласить тебя на свидание», там приведены советы с сайта, например «01 … ВСЕГДА (ПОДДЕРЖИВАЙ_ГИГИЕНУ) => хорошо». На каждой четвертой странице приводится короткий отрывок сгенерированного прозаического текста, похожего на сюрреалистическую поэзию. Такая книга может понравиться любителям экспериментальной литературы, но, чтобы прочитать весь текст, нужно быть настоящим фанатом. Даже Дарий признался, что смог осилить не все страницы.
Возможно, компьютеры и не могут писать целые книги, но они уже создали тысячи коротких сообщений для Associated Press. Вот фрагмент сообщения АР об игре Малой бейсбольной лиги.
СТЕЙТ КОЛЛЕДЖ, ПЕНСИЛЬВАНИЯ (АР) – в среду Дилан Тайс занял первую базу, все базы заняты в 11-м иннинге, один игрок выведен из игры, что обеспечило State College Spikes победу над Brooklyn Cyclones со счетом 9–8 [11].
Хотя этот текст впечатляет, ведь он похож на текст на естественном языке, такое прямое перечисление фактов вряд ли заменит хорошие тексты на спортивные темы. Сейчас много говорят о том, что искусственный интеллект лишит многих работы, но в ближайшем будущем журналистам нечего бояться.
В настоящее время компьютеры пытаются овладеть и тонкостями создания сюжетов, и хитросплетениями повествования, которые необходимы для создания длинных текстов. «Не думаю, что мне удалось успешно сгенерировать от начала до конца захватывающий текст из 5000 слов без значительного вмешательства», – признается Дарий. Возьмем классическую детективную историю. Писатель-человек посеет сомнения и по всему тексту разбросает намеки, касающиеся убийства, а еще расставит ловушки в виде ложных ключей и отвлекающих маневров. Хорошая книга создается не объемным рассказом. Основной сюжет «Убийства в Восточном экспрессе» Агаты Кристи можно пересказать несколькими сотнями слов, но именно сложность повествования (изображение характеров, повороты сюжета, тупиковые ситуации и постепенные разоблачения), для которого понадобились десятки тысяч слов, сделала книгу бестселлером. Дарий объяснил, что компьютеры, конечно, никогда не заменят Агату Кристи, но могут посостязаться с Уильямом Берроузом.
Когда я знакомился с театром роботов и видел интервью с андроидом Bina48, эта беседа выглядела как отрывок из экспериментального текста. Как сделать так, чтобы Bina48 разговаривала более естественно? Некоторые ученые полагают, что для этого компьютерам понадобится умение понимать рассказы. Марк Ридл и его коллеги из Технологического института Джорджии коллективно разрабатывают идеи возможных способов развития сюжета, а затем используют эту информацию для создания блок-схем отдельных эпизодов. Ридл считает, что, для того чтобы установить контакт и создать реальные отношения с человеком, компьютеру требуется повествовательный интеллект, способность рассказывать и понимать истории [12]. Мы хоть раз в отчаянии да кричали на свой компьютер, ведь нам казалось, что он недоброжелательно настроен. Такое происходит, потому что машина не понимает, чего от нее хочет добиться пользователь. Если мы хотим свободно беседовать с машиной, то ей действительно потребуется повествовательный интеллект. Тогда компьютер смог бы научиться себя вести, прочитав книги об этикете, социальных нормах и ценностях. В конце концов, и мы имплицитно учимся правильному поведению через чтение историй или поучительных сказок, которые детям рассказывают на ночь, через романтические романы, рассказывающие о сложностях взаимоотношений.
Но даже если бы компьютер прочитал все книги в мире, его знания остались бы неполными. Одна из проблем заключается в том, что «смысл» истории часто скрыт, не выражен явно. Возьмем классическую притчу. Она будет сильнее воздействовать на читателя, если он сделает собственный вывод, лучше усвоит урок благодаря умственному усилию, необходимому для понимания скрытого значения. Или рассмотрим другой пример. В каком-то смысле мы получаем удовольствие от фильмов вроде «Донни Дарко», когда обсуждаем происходившее в фильме в беседе с друзьями на выходе из кинотеатра. Некоторые истории намеренно закручиваются и преподносятся неоднозначно, чтобы создать интригу. Кроме того, есть еще детали, которые рассказчики опускают и оставляют на волю воображения читателя или зрителя. Когда романист описывает грабителей, обчистивших банк и убегающих с места преступления, он опускает большинство деталей. Конечно, в описании может присутствовать шаблонная возня с ключом в замке зажигания машины, на которой должны скрыться преступники (такая сцена обычно добавляет напряжения), но другие детали, например как грабитель открывает дверь, садится на водительское место, закрывает дверь и т. п., просто опускаются, потому что они не нужны и будут наводить скуку.
И последнее, не менее важное: великие истории обычно рассказывают о необычном. Не имея собственного жизненного опыта, компьютеры, которые познакомятся с человеческим обществом по литературным произведениям, будут иметь искаженное представление о реальной жизни. Можно предположить, что беседа с будущим компьютером будет похожа на разговор в баре с занудой из зануд, который будет подробно излагать свой маршрут на работу, и эта история не будет ничем примечательна. Но вероятнее всего, случится как раз наоборот: компьютер будет рассказывать чересчур фантастические истории.
Нахождение баланса между обычным и необычайным лежит в основе творчества, будь вы отец, придумывающий историю на ночь, спортивный комментатор, описывающий игру, или комик, исполняющий импровизацию. Исследования, направленные на выяснение того, смогут ли компьютеры достигнуть этого, больше всего продвинулись в области музыки. Поскольку это абстрактная форма искусства, здесь гораздо легче запрограммировать компьютер так, чтобы он написал стилизацию какого-либо музыкального направления, чем сделать так, чтобы он писал прозу. Еще подростком я написал компьютерную программу, которая сочиняла регтаймы, используя простейшие вероятностные таблицы. Например, если текущая нота – это А, то какова вероятность, что следующей будет B, C, D и так далее? Ноты выбирались простым киданием костей. Затем я наложил на эти мелодии структуру и ритм регтайма. В результате получилась музыка в динамичном ритме регтайма, но без какого-либо направления или привязки. Конечно, ее качество даже нельзя сравнивать с композициями Скотта Джоплина – но, честно говоря, точно тем же закончились и мои попытки сочинять музыку с пером и бумагой. Современные алгоритмы музыкальной композиции используют более сложные методы, чем те, которые я наспех сочинял у себя в спальне. Лучшие из этих алгоритмов даже писали музыку, исполнявшуюся профессиональными оркестрами в концертных залах. Компьютерная программа «Эмили Хауэлл» сочиняет в стиле Моцарта или Бетховена, и можно купить CD с записями, хотя мне кажется маловероятным, что эти произведения будут исполняться через сто лет.
Легко загрузить в компьютер фрагмент мелодии и поручить ему написать несколько вариаций, скажем, в барочном стиле. Студенты-композиторы выполняют подобные упражнения для развития навыка, но никому не придет в голову сказать, что это такое уж творчество. И даже если бы существовали программы, создающие музыку, которую трудно отличить от настоящих произведений Иоганна Себастьяна Баха, зачем это делать машинам, если это уже сделал Бах? Впечатляет, конечно, но это всего лишь мимикрия. Компьютерная программа никогда не изменит существующие музыкальные направления и не создаст ничего абсолютно нового и захватывающего: восстания панк-рока не будет.
Один из подходов к машинному сочинительству – эволюционная обработка данных, при которой программа производит музыку, имитируя процесс естественного отбора. В природе хромосомы несут генетические коды, формирующие жизнь, а гены с течением времени развиваются как реакция на давление эволюции. В эволюционной композиции музыкальная партитура может быть представлена в качестве музыкальных хромосом, а каждая отдельная нота – в качестве гена. В природе эволюции требуется большой набор разнообразных индивидуумов, чтобы в процессе смены поколений постепенно отбирать гены, которые будут обеспечивать выживание. Аналогичным образом для создания музыкальных генов необходима популяция из множества различных мелодий. В процессе работы компьютерной программы рождаются новые поколения музыкальных партитур и умирают старые. Лучшие музыкальные образцы с большей вероятностью передадут свои гены следующему поколению. В природе это происходит так: в генах потомка объединены гены его отца и матери, поэтому новая музыкальная партитура представляет собой слияние родительских мелодий. Например, начало фразы может происходить от одного родителя, а конец – от другого. Слияние мелодий означает, однако, что популяция теряет разнообразие. В противовес этому частью процесса размножения являются мутации. Каждый раз, когда рождается новая мелодия, существует небольшой шанс, что какая-то мутация произвольно изменит ноту в партитуре для повышения генетического разнообразия.
В реальном процессе естественного отбора с наибольшей вероятностью будут размножаться те особи, которые лучше всего адаптировались к окружающей среде. В эволюционной композиции для отбора лучших родителей для размножения должна присутствовать оценка музыкальной ценности мелодий. В GenJam, программе, исполняющей джаз, качество каждой компьютерной импровизации определяется системным программистом Алем Билсом, опирающимся на свои знания: сам он играет на трубе. Когда Анна Иорданос из Кентского университета оценивала три разные системы музыкальной композиции в своей докторской диссертации, самые высокие оценки получила именно GenJam. Она больше всего походила на живого исполнителя и была в меньшей степени стереотипной. Как заметила Анна, это «придавало ей легкий оттенок человечности». В Сети можно найти выступление, в котором Билс играет на трубе, а компьютер – на синтезаторе-саксофоне [13]. Это выступление включает вопросно-ответные (call-and-response) импровизации на тему джазового стандарта Lady Bird, и на видео есть замечательный момент, где Билс улыбается компьютеру, когда тот выдает импровизированный ответ на его игру. Компьютер справляется с задачей на уровне обычного импровизатора. Анна надеется, что компьютеры смогут способствовать развитию творческих способностей человека. Она хочет, чтобы «компьютерные программы рассматривали как нечто, у чего музыканты могли бы поучиться или черпать вдохновение. На худой конец, можно использовать их для критики и таким образом учиться определять, что именно у компьютера получается плохо».
Когда наблюдаешь за дуэтом Билса и компьютера, возникает вопрос: насколько творческой является машина? Этот же вопрос возникнет и тогда, когда компьютеры научатся лучше писать прозу. Но ответ на него найти очень трудно. Философы не могут найти ответ на вопрос, что такое искусство, и ничуть не легче ответить на вопрос, что такое творчество. Критерии будут разными для ребенка, пишущего сочинение «Как я провел летние каникулы», и для автора, пишущего художественное произведение, например роман. Но и ребенок, и романист мыслят творчески. Анна полагает, что мы «судим компьютеры гораздо строже, поскольку нам становится некомфортно при мысли, что машина будет проявлять творческие способности». Когда мы критикуем компьютерное искусство, мы забываем о плохих произведениях, которые иногда создаются даже самыми выдающимися людьми (мой любимый пример – невероятно убогая Delilah группы Queen).
По словам Мэгги Боден, профессора-когнитивиста из Сассекского университета, «Творчество – это способность выдвигать идеи или создавать артефакты, которые отличаются новизной, оригинальностью и ценностью» [14]. Обезьяна, стучащая на пишущей машинке, выдаст произвольную цепочку букв, и в этом тоже будет новизна. Но маловероятно, что так возникнут хоть какие-то слова, не говоря уже о произведениях Шекспира, даже если посадить за машинки много обезьян и проявить недюжинное терпение [15]. Легко запрограммировать компьютер так, чтобы воспроизвести этот эксперимент с мартышками, но никто не будет читать поток случайно выбранных букв, который возникнет в надежде на волшебное появление чего-то стоящего. Творческие идеи нуждаются в оценке, и в качестве возможного решения можно предложить людям тщательно оценивать достоинство каждого созданного компьютером произведения, скажем, по десятибалльной шкале.
Боден предлагает три способа создания удивительных идей, соответствующих трем типам творческой деятельности. Первый – это необычное или маловероятное сопоставление. Возьмите, например, созданный Сальвадором Дали в 1930 году «Телефон-омар». В этом знаменитом сюрреалистическом объекте художник накрыл трубку телефона омаром. Многим зрителям нравится сходство формы этих двух объектов в сочетании с полной абсурдностью их совмещения [16]. Однако в этом объекте есть и более глубокий смысл, так как для Дали и омары, и телефоны имели сексуальные коннотации, и гениталии ракообразного здесь расположены рядом с микрофоном трубки. Второй тип творческой деятельности – исследование, эксперимент. Именно это делают джазовые музыканты, когда импровизируют: они исследуют воображаемое пространство. Конечно, они ограничены жанром, но тем не менее могут создавать новые музыкальные мотивы, звуки и ритмы. Это же делает и GenJam. Третий вид творческой деятельности, самый глубокий, раздвигает концептуальные пространства для создания поразительных идей, казавшихся ранее невозможными. Джеймс Джойс написал «Поминки по Финнегану» из фрагментов разных языков. Это произведение, опубликованное в 1939 году, до сих пор вызывает споры: шедевр это или нечитабельный вздор? Независимо от того, как его оценивать, этот роман был новаторским и освободил будущих писателей от жесткой необходимости следовать строгим правилам повествования, словаря и структуры.
Третья форма творческой деятельности труднодостижима, и попытки создать ее подобие у компьютера обычно ограничиваются разработками в области первых двух типов. Это подтвердил и смелый эксперимент, когда с помощью компьютера была сделана попытка создать целую пьесу для музыкального театра [17]. Это шоу было заказано Sky Arts и снято в 2016 году для двухсерийного документального фильма, Computer Says Show – это название вполне могло быть результатом работы программы, обученной писать каламбурные заголовки телепрограмм. Сам мюзикл назывался Beyond the Fence. Место действия – антиядерные протесты 1980-х годов в женском лагере мира в Гринэм-Коммон, медленно развивающийся сюжет – роман между матерью-одиночкой Мэри и американским летчиком Джимом. Газета Guardian поставила этой постановке на Вест-Энде две звезды: «Созданный компьютерной программой вест-эндский мюзикл смехотворно стереотипен, но приятен, как молочный коктейль».
Возможно, этот спектакль не достиг головокружительных высот описанного Боден глубочайшего типа творческой деятельности, но Герайнт Уиггинс, профессор вычислительной креативности в Лондонском университете королевы Марии, в беседе со мной заметил, что «это был вполне приличный мюзикл». Он признался, что в один из моментов даже «прослезился», хотя подозревал, что такая реакция возникла благодаря вмешательству людей – сценариста, композитора и исполнителей, – а не в результате работы компьютера. Тем не менее Уиггинс полагает, что программное обеспечение, сгенерировавшее основу для этого шоу, – это весьма значительный прыжок вперед.
Базовый сюжет мюзикла был написан What-if Machine (Машины «что-если»), созданной Марией Терезой Ллано и ее коллегами из Университета Голдсмитс. Эта машина пытается смоделировать создание сюжетов для произведений беллетристики [18]. Она выбирает темы, главных героев и сюжеты и комбинирует их в содержательные фразы, которые представляют собой сценарий. Например, темой могут быть амбиции, героем – солдат, а сюжетом – поиск. Один из предложенных сценариев мог бы быть таким: «Что, если солдату нужно избежать боя, чтобы одержать победу?» Вполне приемлемая идея, пусть и несколько избитая.
Один из подходов к конструированию подобных сценариев состоит в нарушении привычных ассоциаций. Марк Ридл на страницах журнала New Scientist отметил: «Нарративные психологи часто говорят, что историю стоит рассказывать только тогда, когда в ней есть нарушение условностей» [19]. Рассмотрим, например, факт: собаки любят кости. Машина «что-если» изменяет эту фразу, чтобы получить сценарий: «Что, если существовала бы маленькая собачка, которая боится костей?» Это как раз пример теории Боден о том, что творческая активность может возникать из неожиданных сопоставлений. Еще один способ – использование синонимов с целью преувеличения. Предложение «люди любят прыгать» становится гораздо более увлекательным в виде вопроса: «Что, если бы люди постоянно прыгали?» Но хотя отдельные творческие возможности Машины «что-если» впечатляют, ведь некоторыми пользуемся и мы при сочинении историй, многие аспекты у нее все же отсутствуют. Например, машина не может работать с разными модальностями. Вдохновением для увертюры Мендельсона «Гебриды» послужило неспокойное море и туманы, которые он видел во время переправы на пароме в Западной Шотландии [20]. Как может компьютер скопировать эту способность работать в разных областях? Людям позволяет это делать язык, благодаря которому мы можем перемещаться между разными ощущениями, воспоминаниями или эмоциями. Компьютерному алгоритму для раскрытия своего творческого потенциала также потребуется подобный язык.
Еще одна трудность для Машины «что-если» состоит в том, что она не обладает чувствами и не стремится создать что-то ценное. Фраза «Что, если бы жил-был маленький котенок, который не мог бы найти свой туалет?», возможно, помогла бы создать банальную историю для детей, но из такого сценария вряд ли получилось бы много продуктивных нарративов. У подобных идей, которые достаточно оригинальны, чтобы быть интригующими, но не столь произвольны, чтобы быть необъяснимыми, есть зона наилучшего восприятия. Для мюзикла Beyond the Fence понадобилось вмешательство человека, причем композитору и сценаристу пришлось перебрать 600 сценариев, чтобы выбрать лучший. И они выбрали такой: «Что, если бы раненому солдату пришлось узнать, как понять ребенка, чтобы найти настоящую любовь?»
Этот мюзикл – история любви из 1980-х со счастливым концом, в которой главной героиней была женщина. Сюжет был создан другой программой, написанной группой специалистов по машинному самообучению из Кембриджского университета. Они провели статистический анализ 17 000 мюзиклов, определяя, какие составляющие мюзикл элементы встречались в самых успешных из них. В результате была получена структура мюзикла и еще одна программа. Было обнаружено, что в произведениях такого типа необходимы вступительный номер, который зацепил бы слушателей (как «Willkommen» из «Кабаре»), и броский комедийный номер (как «Officer Krupke» из «Вестсайдской истории») [21]. Статистический анализ такого типа проводят и люди. «Я думаю, что именно так работает мозг», – говорит Герайнт. Если вы регулярно ходите в театр, то знаете, как будет структурирован мюзикл, хотя это знание будет в значительной степени неосознанным. Оно создает ожидания относительно сюжетных поворотов, например, необходимость песни «I am what I am», которую герой поет с вызовом и триумфом.
Особенно новаторским мюзикл Beyond the Fence сделало то, каким образом в нем сочетались различные аспекты творчества. Слова песен были написаны той же программой, которая пыталась дописать сонет Шекспира «Сравню ли я тебя…». Джеймс Ллойд и Алекс Дэвис, ученые, работавшие над кодом, загрузили в программу слова из мюзиклов, на основе которых можно было обучаться, но получившиеся в результате строки напоминали поток сознания человека, который постоянно отклоняется от темы [22]. Здесь опять вмешались люди-сценаристы и отобрали лучший материал. То же самое произошло и с музыкой: музыкант выбрал мелодии, созданные компьютером, и организовал их так, чтобы они соответствовали словам и стали похожи на полноценные песни [23].
Чтобы создавать песни для мюзиклов, например, в оптимистичном ключе, компьютеру нужно не просто отобрать радостные слова и веселую мелодию в мажорной тональности. При таком подходе в лучшем случае будет создана простенькая детская песенка. Обычно в музыке огромное количество оттенков. Хороший пример – хиты британской певицы и автора песен Лили Аллен. Одна из фишек Лили – записи, в которых чувства, передаваемые текстами, контрастируют с настроением музыки. В песне Not Fair Аллен с горечью поет о неспособности своего парня заниматься любовью, но аккомпанемент больше подошел бы веселенькой песенке с «Евровидения». Чтобы улучшить свои способности в области создания песен, компьютер должен стать внимательным слушателем: он должен научиться понимать, как мелодическая дуга музыки меняет просодию речи, как будет восприниматься текст и как все это способствует реализации повествовательного намерения. Человеку еще далеко до создания компьютера, который будет обнаруживать тончайшие голосовые маркеры сарказма и иронии, не говоря уже о том, чтобы создавать песни, обладающие всеми этими качествами.
Возможно, для решения этих проблем потребуются десятилетия работы, но исследователи уже придумали инструменты, которыми пользуются современные музыканты. FlowComposer компании Sony – это интерактивный сочинительский инструмент, задействующий искусственный интеллект. Сначала компьютер пишет партитуру, затем музыкант отлаживает и настраивает ее, создавая окончательный вариант композиции [24]. Маловероятно, что такое сотрудничество полностью заменит великих поэтов-песенников и композиторов, но ведь существует большое количество рутинных задач, где компьютер может оказаться полезным. Например, так можно быстро создать дорожку аккомпанемента к дешевому корпоративному видеоролику. Кроме того, искусственный интеллект может принести пользу в образовании. Можно научить алгоритмы обеспечивать обратную связь в процессе овладения новыми навыками – например, для обучающихся музыке студентов, начинающих осваивать импровизацию, или начинающих ораторов, работающих над постановкой харизматичного голоса.
Совместная работа искусственного интеллекта и человека над творческими проектами будет становиться все более привычной и за пределами сферы искусства. Например, в области разработки программного обеспечения. Написание компьютерной программы – это упражнение в решении задач: какие инструкции потребуются машине, чтобы она выполнила конкретное задание? Но сложные программы очень трудоемкие в плане кодирования, и там существует большая вероятность человеческих ошибок. В настоящее время исследователи разрабатывают инструменты, которые будут помогать специалистам по разработке программного обеспечения, как это делает FlowComposer, который помогает музыкантам. На самом простом уровне программисты могут с успехом использовать процесс, напоминающий интеллектуальный ввод текста, когда новые строки компьютерного кода создаются автоматически и человеку не приходится набирать их вручную. Анализируя обширную базу данных других компьютерных программ, алгоритм «догадывается», какие элементы кода должны последовать далее [25].
Другие ученые занимаются исследованием того, как научить компьютер писать коды самостоятельно. Google снабдил свои алгоритмы машинного обучения рабочей памятью, чтобы приблизиться к тому, что имеется в человеческом мозге. Нейронная машина Тьюринга от Google уже освоила создание процедур, которые выполняют простые вычислительные задачи, но пока эти машины научились только самым базовым процедурам, таким как неоднократное копирование и сортировка данных. Но даже на этапе своего младенчества искусственный интеллект уже позволяет компьютерам решать некоторые четко определенные задачи лучше, чем это делает человек. Например, поисковик Google теперь использует машинное самообучение, чтобы улучшить производительность, тогда как в прошлом люди должны были вручную создавать все основанные на правилах алгоритмы для ранжирования веб-страниц [26]. Компьютерное самокодирование – совсем молодое направление, но оно перевернет мир. Особенно учитывая последние радикальные и подрывные технологии, подобные iPhone, в основе которых находится программное обеспечение.
В других отраслях инженерного искусства становится все более обычным тот факт, что окончательные проекты на самом деле определяются компьютером, а не человеком. Я сам использовал такое программное обеспечение с целью разработки способов подбора материалов для улучшения звука в театрах. Как мы видели в главе 5, хорошо продуманная акустика помогает голосу актера достигнуть самой дальней части зала. Если правильно подобрать материал, форму и конфигурацию стен и других поверхностей, то характер отражения звука будет усиливать речь, а не мешать ей. Я специализируюсь на создании бугорчатых поверхностей, которые называются диффузорами и рассеивают звук. Когда диффузор размещается на большой плоской стене, это похоже на матирование зеркала. В матовом зеркале изображение смазано, подобным же образом акустический образ становится менее четким, когда звук отражается от диффузора. Это может помочь устранить акустические аберрации, такие как эхо, от задних стен театрального зала [27].
Когда я начинал работу над диффузорами, в лучших моделях использовались умные математические принципы. Моим нововведением стало использование компьютера для поиска топографий поверхностей, которые производят нужные акустические отражения и обладают внешними характеристиками, совместимыми с современной архитектурой. И делается это методом проб и ошибок, реализуемым на компьютере. Мы уже видели, как копирование правил эволюции позволяет сгенерировать новую музыку. Тот же процесс можно применить и в инженерной акустике.
Была ли деятельность моего компьютера творческой? Существует тест на искусственный интеллект, названный в честь математика XIX века Ады Лавлейс. Она считается первым программистом, потому что детально описала аналитическую машину Чарлза Бэббиджа – первый в мире проект компьютера. Следуя заданной программе, машина могла рассчитывать математические функции. Но сама Лавлейс признавала: «В ней не было даже малейших притязаний на то, чтобы что-то создавать. Она может делать все, что ей прикажут. Она может последовательно осуществлять анализ, но не обладает способностью предугадывать какие-либо аналитические связи или устанавливать истину» [28]. Тест Лавлейс проверяет возможности искусственного интеллекта создавать то, что не поддается описанию программиста. Чтобы добиться этого, моему компьютеру пришлось бы выдвинуть гипотезу о том, что подражание законам эволюции может привести к более удачным акустическим моделям, а затем разработать научные эксперименты, необходимые для доказательства истинности этой гипотезы. Мой компьютер не прошел бы тест Лавлейс.
В верхнем ряду показаны диффузоры 1970-х годов. Ниже – спроектированный мной волнистый потолок Синерамы, изгибы которого соответствуют современным тенденциям дизайна интерьера
Чтобы развиваться, науке, технике и математике нужны инновационные идеи и артефакты. Художник основывается на канонах предшествующих произведений искусства. Так и ученый «стоит на плечах гигантов», основываясь на современных знаниях и понимании. В конце концов, и художники, и ученые должны производить новое, удивительное и ценное. Научный поиск – одна из вершин человеческих достижений, но даже эта область не застрахована от вмешательства креативных компьютеров. Этот новый подход к науке лучше всего применяется в биологии. В Манчестерском университете профессор Росс Кинг и его коллеги создали ученого-робота по имени Ева, который, как они надеются, поможет открыть новые лекарственные препараты. Кинг устроил мне экскурсию по своим белоснежным лабораториям, включая маленькую комнатку, где работает Ева. Она выглядит как небольшой промышленный робот с двумя руками, которыми она берет образцы и умело ими манипулирует. Робота окружают стеллажи с химикатами, инкубаторы и камеры. Все это помогает Еве организовывать эксперименты, выращивать клеточные культуры, фотографировать результаты и использовать анализ изображений, чтобы выяснить, насколько хорошо растут клетки.
Ева автоматизирует утомительные экспериментальные процедуры, необходимые при разработке новых лекарств, и может исследовать 10 000 соединений в день. Ученые надеются найти лекарства против таких болезней, как малярия и африканский трипаносомоз. Лабораторный автомат – дело обычное, потому что роботы лучше управляются с пипеткой при отборе образцов и могут работать круглые сутки. Но Ева значительно умнее, чем использующая грубую силу машина, работающая методом проб и ошибок. Она не просто проверяет все возможные комбинации химикатов в надежде на то, что случайно наткнется на полезное лекарство, но выдвигает научные гипотезы, а затем проектирует и выполняет эксперименты для проверки этих идей. Кроме того, она совершенствует собственные знания, основываясь на том, что уже обнаружила.
Чтобы Ева могла работать, ей нужны знания в определенной области. Первым ученым-роботом, над которым работал Кинг, был Адам, в которого были загружены модели обмена веществ дрожжей и базовые знания по химии (клетки дрожжей напоминают человеческие). Однако одним из преимуществ использования искусственного интеллекта для исследования лекарственных препаратов является возможность компьютеров обладать более обширными и детализированными знаниями в конкретной области, чем человек. К сожалению, эти знания существуют преимущественно в научных публикациях, и переводить их в форму, которую сможет использовать машина, очень непросто и трудоемко. Однако постепенно и эта проблема решается. В одном исследовании компьютер Ватсон компании IBM (он известен тем, что выиграл в американском игровом шоу Jeopardy!) проанализировал 70 000 научных статей, посвященных белку-супрессору опухолей под названием p53. На основании прочитанного Ватсон идентифицировал шесть новых белков, которые могли модифицировать p53, для тестирования их в лабораторных условиях [29].
Каким образом Адам и Ева расширяют свои знания и проводят научные исследования? Они используют дедукцию, индукцию и абдукцию. Росс объясняет дедукцию, используя классический пример из Аристотеля. При наличии двух фактов: «некоторые птицы – это лебеди» и «все лебеди белые» – можно сделать вывод, что «некоторые птицы белые». Этот способ логического умозаключения лежит в основе многих областей информатики. Абдукция и индукция представляют повышенный интерес, потому что они как раз о том, как компьютер может создать достойную проверки научную гипотезу. Если Аристотель наблюдал птиц в Греции, он мог заключить, что все лебеди – белые. Но это умозаключение ложно, что можно продемонстрировать, посетив Австралию, где есть черные лебеди. К абдукции прибегает Шерлок Холмс, когда делает самый аргументированный вывод на основе наблюдений[43]. «Все лебеди белые», «та птица белая» и, следовательно, «та птица – лебедь» – это пример абдукции. Гипотезу, состоящую в том, что та птица – лебедь, можно затем проверить с помощью дальнейших наблюдений (Шерлок мог бы обнаружить, что на самом деле эта белая птица – гусь). Подобным образом, как только Адам конструирует абдукцию относительно дрожжей, компьютер проектирует наиболее подходящие эксперименты для проверки этой гипотезы, а затем принимается за работу, используя механические руки и другое оборудование. Культуры выращиваются в различных условиях, а для определения того, насколько хорошо растут клетки, используется фотография. В дальнейшем эти результаты показывают, окажется ли сформулированная ранее гипотеза правильной, и таким образом приводят находящиеся в памяти Адама теории в соответствие с новыми знаниями. Используя эти процессы, Адам получил новые научные знания о том, какие гены составляют конкретные энзимы в дрожжах.
Насколько изобретательным с точки зрения науки можно считать Адама? «Конечно, он не очень творческий, его наука проста; во многих отношениях этот робот не дорос до человека в своих умениях, – объясняет Росс. – Но в другом он превосходит человека, потому что знает все книги и может управляться с пипеткой лучше, чем человек». Правда, имеется один значительный недостаток. Росс говорит о нем так: «Например, чего он не может сделать, так это пересмотреть свое представление о проблеме, как это сделал бы человек».
Компьютеры играют центральную роль в большинстве научных исследований, но мы вступаем в эпоху, когда машины перестают быть просто безмолвными слугами, нужными для того, чтобы сделать научные изыскания менее скучными и утомительными. Но если объединить лучшие творческие умы с инструментами машинного самообучения, можно сделать так, что наука будет быстрее двигаться вперед. Росс полагает, что в будущем она пойдет еще дальше, когда компьютеры смогут делать науку лучше, чем люди. В отличие от искусства, использование искусственного интеллекта в науке не осложняется проблемами решения вопросов, связанных с человеческими ценностями. «Природа честна… мир не пытается нас обмануть, – объясняет Росс. – Это объективная штука, независимо от того, кто создает новую науку, компьютеры или нет» [30].
Искусственный интеллект может менять речь, создавать возможности для возникновения новой науки, ведущей к новым технологиям. Подобно фонографу Эдисона, эти технологии смогут революционизировать говорение и слушание.
В спорах о творческой деятельности часто проводится различие между новым для конкретного человека и новым для мира в целом. Теория относительности пришла в голову только Эйнштейну, это исторический факт. Но у каждого человека есть творческие способности, оригинальные мысли и новые решения каждодневных проблем. Я только что догадался, как запихать больше грязной посуды в новую посудомойку. Такое творческое мышление не имеет исторического значения, но для меня придуманное мной решение – новое. Естественно, историки обращают внимание на первооткрывателей и на созданные ими революционные предметы материальной культуры. Но творчество – это процесс, и важно, как он работает в обычной жизни. Это не заповедная область идеализированной элиты, обычное свойство человеческого интеллекта. Изобретательность в том, как поймать добычу, как сохранить пищу, чтобы не голодать, как защитить поселение от нападения – все это, возможно, не очень художественные вещи, но именно эти творческие способности помогают объяснить, почему люди стали доминировать в мире.
Конечно, интересно выяснить, может ли компьютер писать стихи, как Сирано, но повседневные истории, которые люди рассказывают друг другу, сидя вокруг костра или за обеденным столом, возможно, значительно более важны, чем литературное творчество. Именно повседневная деятельность позволяет знаниям о том, как выжить и процветать, переходить от одного человека к другому. Такие разговоры позволяют человеку выходить за рамки медленного процесса биологической эволюции, обеспечивая стремительное развитие культуры и технологий. Филип Пулман, когда его однажды спросили, почему для нас так важны подобные истории, ответил: «Потому что они развлекают и учат; они помогают наслаждаться жизнью и переносить ее тяготы. После пищи, крова и дружеского общения такие истории – это то, что нам нужно больше всего» [31].
В ближайшее время компьютер не сможет создать стихи, достойные пера Сирано де Бержерака, но и большинство людей не достигнет подобных литературных высот. Тем не менее компьютерная имитация процессов, происходящих в человеческом мозге, позволяет нам понять творческую деятельность. Герайнт Уиггинс объяснил мне, что творчество возникает из потребности мозга постоянно предсказывать то, что произойдет дальше, а это дает несомненные преимущества для выживания: наши системы защиты предугадывают, что может ожидать нас за углом, какая опасность может надвигаться, и наша бдительность сочетается с тем, что мы видим, слышим и обоняем. Следовательно, мозг должен всегда стремиться улучшать качество этих предсказаний, основываясь на успешном и неуспешном прошлом опыте. У нас развилась сильная реакция на результаты неправильных предсказаний, поэтому мы постоянно корректируем свои прогнозы.
Наша память не может сохранить точную копию того, что дано в ощущениях, исключительно из-за количества информации. Даже если бы у нас была возможность сохранить все детали, их поиск осуществлялся бы слишком медленно. Вот почему память – это реконструкция, основанная на некоторой приблизительной репрезентации прошедших событий в мозге. В результате дорогие вам первые детские воспоминания могут в действительности быть выдумкой, основанной на рассказываемых в семье историях. Память динамична. Мозг постоянно вырабатывает лучшие компактные репрезентации информации для эффективного хранения и эффективного предсказания.
Но прогнозы не бывают идеально правильными. Сильным наш мозг делает именно то, что одновременно совершаются несколько предсказаний, проигрывающих сценарии, основанные на разных предположениях. Следовательно, большая часть этой деятельности совершается бессознательно. На основании одного из процессов отбирается лучшее предсказание, которому нужно уделить внимание, и только тогда оно начинает осознаваться. Такая модель объясняет моменты творчества, когда мы говорим себе «Ага!». Нам кажется, что идея возникла из ниоткуда и появилась в мозге внезапно. На самом деле идеи не берутся из ниоткуда: они выходят из подсознания, предсказывающего будущее. Эта модель может также объяснить, почему, когда нам нужно принять сложное решение, тактически полезно на время заняться чем-то другим [32]. В то время, когда вы занимаетесь чем-то, что отвлекает от трудной задачи, мозг может подсознательно обдумывать ее решение.
Когда Эдисон записал и проиграл «У Мэри был маленький барашек», слушатели должны были постоянно предсказывать, что будет дальше: следующую фонему, следующее слово, следующую строчку песенки [33]. Предвосхищение того, как будет разворачиваться дискурс, очень важно, потому что позволяет справиться с неправильным произношением или неточно расслышанными фрагментами речи; в случае записи на фонографе именно это позволяет мозгу оценить фрагменты речи, которые невозможно расслышать из-за треска цилиндра из фольги. Герайнт Уиггинс продемонстрировал важность предсказания, резко останавливаясь в разные моменты нашего разговора: «Возьмите простое предложение и». Это – изощренная пытка, потому что мозг хочет знать, что произойдет дальше, но не может быть ни в чем уверен, поскольку конец предложения предсказать невозможно.
Люди делают предсказания на множестве уровней, начиная от предугадывания следующей фонемы и заканчивая выводами из того, что говорится в настоящий момент. И для этого нам нужен большой мозг с гигантской сетью взаимосвязанных нейронов. Нейробиология только начинает формировать представление о том, какие отделы мозга задействуются в творческой деятельности, и о том, насколько сложны связи между ними [34].
Если творческая деятельность возникает из процессов прогнозирования, обеспечивающих эволюционные преимущества, можно ли смоделировать эти процессы на компьютере? И сможет ли такая модель пойти еще дальше и помочь нам объяснить, как возник язык? Может ли она пролить новый свет на языковые способности древних гоминини? Сейчас ученые конфигурируют компьютеры так, чтобы скопировать особенности организации мозга: это даст нам возможность поиграть в игры «что-если» в исследовании этих вопросов. Возможно, мы сумеем узнать, как мог возникнуть протоязык, и лучше понять ту роль, которую в развитии речи сыграло творчество. Компьютерное творчество прошло долгий путь. Возможно, оно началось с любовных посланий, с помощью которых проверялись способности первого в мире современного компьютера, но в следующие десятилетия оно может открыть тайну возникновения нашей удивительной способности говорить.
Благодарности
Я хотел бы поблагодарить большое количество людей, которые помогали мне в работе над этой книгой, в их числе: Дэниэла Аалто, Джейми Энгуса, Кристеллу Энтони, Роберта Эшера, Мэтью Эйлета, Нахима Башира, Питера Белла, Тэма Блэкстера, Фабиана Брекхейна, Дэвида Бритена, представителей Альянса производителей программного обеспечения для коммерческих организаций, Патрика Кэмпбелла, Джена Честера, Кристиана Бека Кристенсена, Дебору Кокс, Дженни Кокс, Майкла Кокса, Натана Кокса, Питера Кокса, Стивена Кокса, Хелену Дафферн, Вила Дэвиса, Никки Диббен, Рейчел Эверард, Вруно Фазенду, Чарлза Фернихоу, Сью Фокс, Гэрета Фрая, Йорга Хенсгена, Джоса Хирста, Ника Холмса, Дэвида Хауэрда, Бипин Индурхья, Анну Иорданус, Дариуса Каземи, Саймона Кинга, Саймона Керби, Франсиско Ласерду, Адриана Лимана, Марка Льюни, Луизу Лепейдж, Дэвида Линка, Джеймса Ллойда, Софи Микинз, Дункана Миллера, Дэвида Милнера, Джоанну Мишталь-Радецкую, Джудит Ньюман, Джона Поттера, Луизу Притчард, Стива Риналса, Софи Скотт, Дэвида Шариатмадари, Дэна Стоуэлла, Йохана Санжберга, Питера Тэллака, Инго Титце, Рами Забара, Олдерта Врия, Анну-Софию Уотс, Оливера Уотса, Элоиз Уитмор, Герайнта Уиггинса, Стюарта Уильямса и Тима Уайза. И прошу прощения у всех, кого случайно не упомянул в этом списке.
Примечания
Введение
1. Из речи члена Королевского общества профессора Абеля к завершению 36-го регулярного общего собрания Общества телеграфных инженеров 13 февраля 1878 года. Из: Journal of the Society of Telegraph Engineers. 1878. Vol. 7 (21). P. 68–74.
2. Цитата из письма Альфреда Майера, профессора физики из Стивенсоновского технологического института, Томасу Эдисону после демонстрации фонографа. См.: Thomas A. Edison Papers. –15–78.pdf? DocId=D 7829C.
3. Альберт Шпеер, министр вооружения. Из: Huxley A. Brave New World Revisited. New York: Evanston, 1958.
4. London Weekly Graphic. 1878. 16 March. «Фонограф в Королевской ассоциации». Сначала многие отнеслись к фонографу Эдисона скептически, потому что он казался слишком простым и не внушал доверия. Один критически настроенный профессор колледжа, прочитав в новостях статью о фонографе, заявил, что журналист – «наемный писака в начальной стадии белой горячки». В другом комментарии говорилось, что Эдисон «дурак, проклятый негодяй и все вместе взятое». Сомнения были развеяны демонстрацией, которая поразила зрителей и привела их в восторг.
5. Этот фонограф идентичен тому, что я видел в Королевской ассоциации. Он отличается от аппарата, который использовался для первой демонстрации в Соединенном Королевстве, поскольку машина, отправленная Эдисоном, не успела прибыть в Англию. См.: Preece W. H. The phonograph // Journal of the Society of Telegraph Engineers. 1878. Vol. 7 (21). P. 68–74.
6. Rubery M. Thomas Edison’s Poetry Machine // Interdisciplinary Studies in the Long Nineteenth Century. 2014. Vol. 19.
7. Edison T. A. The phonograph and its future // North American Review. 1878. Vol. 126 (262). P. 527–536.
8. Это очень похоже на сюжет «Я скоро вернусь» из эпизода драмы «Черное зеркало» (2013).
9. Speak, Memory // The Verge.
10. Why Google, Microsoft and Amazon Love the Sound of Your Voice // Bloomberg. 2016.
11. Thompson E. The Soundscape of Modernity. Architectural Acoustics and the Culture of Listening in America. MIT Press, 2002. P. 49.
12. Pogue E. Unsettled Score // Scientific American. 2014. -digital-music-looks-set-to-replace-live-performances/
Глава 1
1. Ф. М. Мюллер (1861), цит. по: Noire L. The origin and philosophy of language. The Open Court Publishing Company, 1917. P. 73. Это высказывание приводится иначе в «Лекциях о науке о языке» Мюллера.
2. Здесь упускается из виду язык жестов.
3. Подробнее о теориях Дарвина и эволюции языка см. в: Fitch W. T. The Evolution of Language. Cambridge University Press, 2010.
4. Ball P. The Music Instinct: How Music Works and Why We Can’t Do Without It. Random House, 2010.
5. Lieberman D. The Evolution of the Human Head. Harvard University Press, 2011.
6. 600 Million Years – Acanthostega: Melbourne Museum // MuseumsVictoria. -million-years/timeline/devonian/acanthostega
7. Christensen C. B., Lauridsen H., Christensen-Dalsgaard J. et al. Better than fish on land? Hearing across metamorphosis in salamanders // Proceedings of the Royal Society of London B: Biological Sciences. 2015. Vol. 282 (1802). P. 20141943.
8. Kitazawa T., Takechi M., Hirasawa T. et al. Developmental genetic bases behind the independent origin of the tympanic membrane in mammals and diapsids // Nature communications. 2015. Vol. 6.
9. Yost W. A. Fundamentals of Hearing: An introduction. Academic Press, 1994.
10. В этом разделе исторические цитаты, касающиеся Рейхарта, взяты из: Asher R. J. Evolutionary Biology and Scepticism: the Reception of Darwinism in 19th Century German Embryology // Scepticism: Hero and Villain / eds. R. Calne, W. O’Reilly. NOVA publishers, 2012. P. 71–86.
11. Эта цитата может показаться напыщенной, но таков был стиль Геккеля; в наши дни его взгляды затмеваются его же научными ошибками. Вера Вайсбекер высказалась очень резко, назвав его «совершенно сумасшедшим», и подробно объяснила, почему «странная классификация», предложенная Геккелем, все еще создает проблемы для современных эволюционных биологов.
12. Grothe B., Pecka M. The natural history of sound localization in mammals: A story of neuronal inhibition // Inhibitory Function in Auditory Processing. 2015. В этой работе возникновение среднего уха датируется периодом 210–230 миллионов лет назад. Именно в триасовом периоде у амфибий, рептилий, птиц и млекопитающих (независимо друг от друга) формируется среднее ухо.
13. Luo Z. X., Chen P., Li G., Chen M. A new eutriconodont mammal and evolutionary development in early mammals // Nature. 2007. Vol. 446 (7133). P. 288–293.
14. Walsh S. A., Luo Z. X., Barrett P. M. Modern imaging techniques as a window to prehistoric auditory worlds // Insights from Comparative Hearing Research. Springer New York, 2013. P. 227–261.
15. Способность вычленять отдельные звуки из общего шума – это еще один очень важный фактор развития. Cм.: Fay R. R., Popper A. N. Evolution of hearing in vertebrates: the inner ears and processing // Hearing Research. 2000. Vol. 149 (1). P. 1–10.
16. Эти диапазоны частот возникают из-за разной длины звуковой волны на разных частотах. При низких частотах длина звуковой волны больше, чем голова, поэтому звук с легкостью огибает голову и попадает в дальнее ухо, и значение имеют показатели времени. При высоких частотах длина волны меньше головы, и звуку не так легко обогнуть голову и добраться до дальнего уха, поэтому здесь очень важны показатели высоты звука.
17. Martin T., Marugan-Lobon J., Vullo R., et al. A Cretaceous eutriconodont and integument evolution in early mammals // Nature. 2015. Vol. 526 (7573). P. 380–384.
18. Quam R., Martinez I., Rosa M. et al. Early hominin auditory capacities // Science advances. 2015. Vol. 1 (8). P. e1500355.
19. Australopithecus africanus // Australian Museum. 2016. -africanus. Этот экземпляр был обнаружен в 1924 году.
20. Современные люди утратили чувствительность в этой полосе частот, но зато мы способны лучше распознавать звуки высокой частоты.
21. Martinez I., Rosa M., Quam R., et al. Communicative capacities in Middle Pleistocene humans from the Sierra de Atapuerca in Spain // Quaternary International. 2013. Vol. 295. P. 94–101.
22. Homo sapiens // Smithsonian Institution. -fossils/species/homo-heidelber-gensis. См. также: Buck L. T., Stringer C. B. Homo heidelbergensis // Current Biology. 2014. Vol. 24 (6). P. R 214–R 215.
23. Самые последние данные дают основания предположить, что Homo sapiens может быть на 100 000 лет старше. Richter D., Grun R., Joannes-Boyau R. et al. The age of the hominin fossils from Jebel Irhoud, Morocco, and the origins of the Middle Stone Age // Nature. 2017. Vol. 546 (7657). P. 293–296.
24. Stoessel A., David R., Gunz P. et al. Morphology and function of Neandertal and modern human ear ossicles // Proceedings of the National Academy of Sciences. 2016. Vol. 113 (41). P. 11489–11494.
25. Со ссылкой на некоторые важные окаменелости, найденные в Испании, возрастом 530 000 лет.
26. Кроме того, можно сравнить более отдаленных друг от друга шимпанзе и людей. Хотя в течение 6–7 миллионов лет мы следовали разным эволюционным траекториям, шимпанзе тоже могут слышать речь, их можно научить реагировать на команды, произносимые людьми. Действительно, в пределах полосы частот речи (приблизительно 1000–5000 Гц) у людей более тонкий слух. Но это от силы 20 дБ – разница в громкости между спокойным и повышенным голосом. См.: Coleman M. N. What do primates hear? A meta-analysis of all known nonhuman primate behavioral audiograms // International journal of primatology. 2009. Vol. 30 (1). P. 55–91.
27. Neanderthal // Oxford Dictionaries. Oxford University Press.
28. Pagel M. How humans evolved language, and who said what first // New Scientist. 2016. Vol. 229 (3059). P. 26–29.
29. Bolhuis J. J., Tattersall I., Chomsky N., Berwick R. C. How could language have evolved? // PLOS Biology. 2014. Vol. 12 (8). P. e1001934.
30. Спектр голосовой щели представляет собой эффективную частотную характеристику, учитывающую импеданс (волновое сопротивление) излучения.
31. Aalto D., Aaltonen O., Happonen R. P. et al. Large-scale data acquisition of simultaneous MRI and speech // Applied Acoustics. 2014. Vol. 83. P. 64–75.
32. В одном исследовании было обнаружено, что более монотонный голос является показателем количества сексуальных партнеров в прошлом. См.: Hodges-Simeon C. R., Gaulin S. J., Puts D. A. Voice correlates of mating success in men: examining «contests» versus «mate choice» modes of sexual selection // Archives of Sexual Behavior. 2011. Vol. 40 (3). P. 551–557.
33. Это хороший пример индивидуального развития, повторяющего происходившие в ходе эволюции изменения. См.: Fitch W. T. The evolution of speech: a comparative review // Trends in Cognitive Sciences. 2000. Vol. 4 (7). P. 258–267.
34. D’Anastasio R., Wroe S., Tuniz C. et al. Micro-biomechanics of the Kebara 2 hyoid and its implications for speech in Neanderthals // PLOS One. 2013. Vol. 8 (12). P. e82261.
35. Lieberman D. The Evolution of the Human Head.
36. Fitch W. T., de Boer B., Mathur N., Ghazanfar A. A. Monkey vocal tracts are speech-ready. Science Advances. 2016. Vol. 2 (12). P. e1600723.
37. Fitch W. T. The Evolution of Language.
38. Bowling D. L., Garcia M., Dunn J. C. et al. Body size and vocalization in primates and carnivores // Scientific Reports. 2017. Vol. 7. Опущение гортани не единственный способ звукового преувеличения размеров тела. На острове Русинга в Кении были найдены ископаемые останки вымершей антилопы гну со значительно увеличенным носовым ходом. Считают, что это создавало возможность издавать низкие трубные звуки. См.: Ice Age Beast Honked Like a Dinosaur // National Geographic. 2016. -ancient-wildebeest-fossil-ice-age-dinosaur/.
39. Fitch W. T., Giedd J. Morphology and development of the human vocal tract: A study using magnetic resonance imaging // Journal of the Acoustical Society of America. 1999. Vol. 106 (3). P. 1511–1522.
40. Создание большего количества звуков низкой частоты позволяет крикам распространяться по лесу на большие расстояния.
41. Boer B. de. Loss of air sacs improved hominin speech abilities // Journal of Human Evolution. 2012. Vol. 62 (1). P. 1–6.
42. Одно время считалось, что исследование ископаемых останков для оценки размеров нервов, контролирующих значимые для речи мускулы, может оказаться полезным, но в наши дни это признано маловероятным. См., например: Meyer M. R., Haeusler M. Spinal cord evolution in early Homo // Journal of Human Evolution. 2015. Vol. 88. P. 43–53.
43. Lieberman D. The Evolution of the Human Head. Также см.: Schoenemann P. T. Evolution of the size and functional areas of the human brain // Annual Review of Anthropology. 2006. Vol. 35. P. 379–406.
44. Lieberman D. The Evolution of the Human Head.
45. Обычно люди не подражают самим звукам, а дают название источнику звука, потому что это более точный способ идентификации этого источника. См.: Bones O. C., Davies W. J., Cox T. J. Clang, chitter, crunch: Perceptual organisation of onomatopoeia // Journal of the Acoustical Society of America. 2017. Vol. 141. P. 3694.
46. Otto J. Language; Its Nature, Development and Origin. G. Allen & Unwin Ltd., 1922.
47. Кто-то может возразить, что начальным этапом эволюции языка были скорее отдельные слова, а не целые фразы; синтаксические операции должны были появиться позднее с целью комбинации слов в предложения. Голосовое подражание также сыграло главную роль в возникновении большого словаря.
48. Эти слова начинают возникать из-за случайных связей, которые обнаруживаются в произвольных цепочках текста на начальных этапах эксперимента. См.: Kirby S., Cornish H., Smith K. Cumulative cultural evolution in the laboratory: An experimental approach to the origins of structure in human language // Proceedings of the National Academy of Sciences. 2008. Vol. 105 (31). P. 10681–10686.
49. В последнее время Саймон занимается исследованием языков, которые возникают спонтанно. Это происходит в обособленных сообществах, где в силу наследственных условий начинают рождаться глухие дети. Родителям и детям приходится изобретать язык знаков для коммуникации.
50. Bolhuis J. J., Tattersall I., Chomsky N., Berwick R. C. How could language have evolved?
51. La Chapelle-aux-Saints // Smithsonian Institution. -fossils/fossils/la-chapelle-aux-saints.
52. Wells H. G. The Outline of History: Volume 1. Macmillan, New York, 1921. P. 67.
53. Исключением являются неандертальцы, жившие к югу от Сахары. См.: Fu Q., Hajdinjak M., Moldovan O. T. et al. An early modern human from Romania with a recent Neanderthal ancestor // Nature. 2015. Vol. 524 (7564). P. 216–219.
54. A comment on «Ancient gene flow from early modern humans into Eastern Neanderthals» paper published in Nature // Natural History Museum. 2016. -office/press-releases/a-comment-on-_ancient-gene-flow-from-early-modern-humans-into-ea.html#sthash.cvJmZJFI.dpuf.
55. Lieberman D. The Evolution of the Human Head.
56. Но FOXP2 неандертальца не в точности такой, как у Homo sapiens. Генетические данные указывают на мутации, сформировавшие FOXP2 современного человека 1,8–1,9 миллиона лет назад.
Глава 2
1. Mehl M. R., Vazire S., Ramirez-Esparza N. et al. Are women really more talkative than men?’ // Science. 2007. Vol. 317 (5834). P. 82. В этой работе утверждается, что мы произносим в среднем 16 000 слов в день, так что среднее количество в год составляет 6 миллионов. Если считать, что в среднем человек живет 80 лет, это дает 500 миллионов слов за всю жизнь.
2. Wolke D., Bilgin A., Samara M. Systematic Review and Meta-Analysis: Fussing and Crying Durations and Prevalence of Colic in Infants // Journal of Pediatrics. 2017. DOI: 10.1016/j.jpeds.2017.02.020.
3. Wermke K., Mende W. From emotion to notion: the importance of melody // Decety J., Cacioppo J. T. The Oxford Handbook of Social Neuroscience. Oxford University Press, USA, 2011.
4. Mampe B., Friederici A. D., Christophe A., Wermke K. Newborns cry melody is shaped by their native language // Current Biology. 2009. Vol. 19 (23). P. 1994–1997.
5. В большом количестве исследований изучается эффективность проигрывания звуков материнской утробы недоношенным младенцам. См.: Rand K., Lahav A. Maternal sounds elicit lower heart rate in preterm newborns in the first month of life // Early human development. 2014. Vol. 90 (10). P. 679–683.
6. Caveat emptor [покупатель действует на свой страх и риск (положение общего права, согласно которому покупатель принимает на себя риск, связанный с качеством товаров и условиями сделки). – Перев.]; эта статья касается производителя продукции. См.: Lopez-Teijon M., Garcia-Faura A., Prats-Galino A. Fetal facial expression in response to intravaginal music emission // Ultrasound. 2015. Vol. 23 (4). P. 216–223.
7. Из этических соображений никому не пришло в голову исследовать голосовые связки младенца, чтобы убедиться, как они работают.
8. Эта информация базируется на исследовании 100 000 случаев плача. См.: Wermke K., Mende W. From emotion to notion: the importance of melody.
9. IPhone Application Translates Babies’ Howls // The Wired. 2009. -application-translatesbabies-howls/.
10. Kuhl P. K. Baby Talk // Scientific American. 2015. Vol. 313 (5). P. 64–69.
11. Vouloumanos A., Hauser M. D., Werker J. F., Martin A. The tuning of human neonates’ preference for speech // Child development. 2010. Vol. 81 (2). P. 517–527.
12. Звуки голосов Clangers производились с помощью слайд-свистка.
13. В другом эксперименте сравнивались обычная и проигранная в обратном порядке речь: Pena M., Maki A., Kovacic D., Dehaene-Lambertz G. et al. Sounds and silence: an optical topography study of language recognition at birth // Proceedings of the National Academy of Sciences. 2003. Vol. 100 (20). P. 11702–11705.
14. Graddol D., Swann J. Speaking fundamental frequency: some physical and social correlates // Language and Speech. 1983. Vol. 26 (4). P. 351–366.
15. Kuhl P. K. Baby Talk.
16. Robot companion’s can-do attitude rubs off on children // New Scientist.
17. Roy B. C., Frank M. C., DeCamp P. et al. Predicting the birth of a spoken word // Proceedings of the National Academy of Sciences. 2015. Vol. 112 (41). P. 12663–12668.
18. Это запись выступления Роя на TED. roy_the_birth_of_a_word?language=en.
19. Ramirez-Esparza N., Garcia-Sierra A., Kuhl P. K. Look who’s talking: speech style and social context in language input to infants are linked to concurrent and future speech development // Developmental Science. 2014. Vol. 17 (6). P. 880–891.
20. Curtiss S. Genie: a psycholinguistic study of a modern-day wild child. Academic Press, 2014.
21. То же самое можно сказать и о бедственном положении румынских сирот: имеется множество исследований, демонстрирующих, что воспитание в учреждениях закрытого типа с ограниченными возможностями речевой деятельности и социализации оказывает отрицательное воздействие на овладение языком.
22. Kuhl P. The linguistic genius of babies. (28.07.2016).
23. Hakuta K., Bialystok E., Wiley E. Critical evidence a test of the critical-period hypothesis for second-language acquisition // Psychological Science. 2003. Vol. 14 (1). P. 31–38.
24. Scovel T. A critical review of the critical period research // Annual Review of Applied Linguistics. 2000. Vol. 20. P. 213–223.
25. У одного из пяти левшей обработка языка фокусируется в правом полушарии. См.: Handedness and the Brain // Right Left Right Wrong. 2012. .
26. Plaza M., Gatignol P., Leroy M., Duffau H. Speaking without Broca’s area after tumor resection // Neurocase. 2009. Vol. 15 (4). P. 294–310.
27. Miller N. Stuttering isn’t only psychological – and a cure might be coming // New Scientist. 2016. Vol. 3067.
28. Однако эксперимент должен быть тщательно спланирован, потому что с использованием фМРТ-сканера для исследования заикания могут возникнуть трудности. Включение и выключение мощных магнитов сканера создает в электромагнитных катушках огромные силы, и это создает очень громкий ритмичный шум. И это может способствовать беглости речи!
29. Мы можем видеть явные различия между мозгом того, кто заикается, и мозгом того, кто не заикается, но мы не знаем, являются ли эти различия причиной заикания или они представляют собой последствия развития мозга, сдерживаемого заиканием.
30. Я беседовал с Патриком за обедом на конференции, но эта цитата взята из блога Британской ассоциации заикания.
31. Lewis Carroll // Encyclopædia Britannica. -Carroll.
32. Lewis Carroll // Stuttering Foundation of America. -people/lewis-carroll.
33. Хороший пример такого влияния окружения – мальчики, которые до пубертатного периода обычно говорят более низким голосом, чем девочки, хотя речевая анатомия одинакова у обоих полов. Но, незначительно изменяя длину голосового тракта, дети делают свои голоса более похожими на мужские или на женские.
34. Schneider B., Bigenzahn W. Influence of glottal closure configuration on vocal efficacy in young normal-speaking women // Journal of Voice. 2003. Vol. 17 (4). P. 468–480.
35. Xu Y., Lee A., Wu W. L., Liu X., Birkholz P. Human vocal attractiveness as signaled by body size projection // PLOS One. 2013. Vol. 8 (4). P. e62397.
36. Привлекательные мужские голоса, кроме того, являются более монотонными. См.: Puts D. A. Mating context and menstrual phase affect women’s preferences for male voice pitch // Evolution and Human Behavior. 2005. Vol. 26 (5). P. 388–397.
37. Scott S., McGettigan C. The voice: From identity to interactions // APA handbook of nonverbal communication / eds. D. Matsumoto, H. C. Hwang, M. G. Frank. American Psychological Association, 2016. P. 289–305.
38. Кроме того, женские голоса меняются в течение менструального цикла, что неявно указывает на наиболее благоприятный момент для зачатия. См.: Fischer J., Semple S., Fickenscher G. et al. Do women’s voices provide cues of the likelihood of ovulation? The importance of sampling regime // PLOS One. 2011. Vol. 6 (9). P. e24490.
39. Simmons L. W., Peters M., Rhodes G. Low-pitched voices are perceived as masculine and attractive but do they predict semen quality in men? // PLOS One. 2011. Vol. 6 (12). P. e29271.
40. Hatzinger M., Voge D., Stastny M. et al. Castrati singers – All for fame // Journal of Sexual Medicine. 2012. Vol. 9 (9). P. 2233–2237.
41. All mouth and no trousers // The Guardian. 2002. .
42. 0ws. Некоторые утверждают, что, когда делались записи, голос Морески был уже не так хорош.
43. Он записал пение мальчика-сопрано, а затем сделал его компьютерную обработку, чтобы убрать резонансы голосового тракта. В остатке было приблизительно то, что создавали голосовые связки мальчика. Затем для усиления звука связок была использована компьютерная симуляция голосового тракта баритона, чтобы усилить одни частоты и заглушить другие. Таким образом, моделирование показало, что голосовой тракт кастрата был таким же, как у взрослого мужчины.
44. Может быть, кастраты использовали голосовой тракт подобно тому, как это делают современные сопрано, а не баритоны? В главе 5 рассказывается о том, как оперные певцы по-разному используют форманты.
45. Цитата из: Jenkins J. S. The voice of the castrato // Lancet. 1998. Vol. 351 (9119). P. 1877–1880. См. также: Brosses C. de. Lettres historiques et critiques sur l’Italie: 3 vols. Paris, 1799. Vol. 3. P. 246.
46. Are you damaging your voice? // The Telegraph. 2004. -you-damaging-your-voice.html. Некоммерческая организация Voice Care Network дает ценные советы, как сохранить голос здоровым. http:// voicecare.org.uk/.
47. Мы произносим 6 миллионов слов в год (см. примечание 1) и в среднем каждое слово длится около 0,3 секунды. См.: Yuan J., Liberman M., Cieri C. Towards an integrated understanding of speaking rate in conversation // Interspeech. 2006. September. Это означает, что мы говорим примерно 2 миллиона секунд в год (около 24 дней!). Учитывая, что мужчина произносит слова на частоте примерно 120 Гц, его голосовые связки открываются и закрываются более 200 миллионов раз ежегодно.
48. Эффективность работы легких снижается, а их емкость уменьшается примерно на 40 %.
49. Изменение высоты голоса трудно проследить по записям последних передач Кука, потому что продюсеры усилили басовые частоты. Анализ приводится по: Reubold U., Harrington J., Kleber F. Vocal aging effects on F 0 and the first formant: a longitudinal analysis in adult speakers // Speech Communication. 2010. Vol. 52 (7). P. 638–651.
50. Pemberton C., McCormack P., Russell A. Have women’s voices lowered across time? A cross-sectional study of Australian women’s voices // Journal of Voice. 1998. Vol. 12 (2). P. 208–213.
51. How Sinatra did it My Way – via a French pop star and a Canadian lounge act // The Guardian. 2007. .
52. Больше об ожиданиях в музыке см.: Ball P. The Music Instinct: How Music Works and Why We Can’t Do Without It.
53. The ageing population: key issues for the 2010 Parliament // Parliamentary. 2010.
54. Golub J. S., Chen P. H., Otto K. J. et al. Prevalence of perceived dysphonia in a geriatric population // Journal of the American Geriatrics Society. 2006. Vol. 54 (11). P. 1736–1739. См. также: Johns M. M., Arviso L. C., Ramadan F. Challenges and opportunities in the management of the aging voice // Otolaryngology – Head and Neck Surgery. 2011.
55. См.: Voice lifts: something to shout about // Guardian. 2012. -lift-vocal-cord-treatment, “Voice Lift” Surgery, In Most Cases, Not Worth It // Seattle Plastic Surgery Center. /%E 2 %80 %9Cvoice-lift%E 2 %80 %9D-surgery-in-most-cases-not-worth-it/.
56. Другие советы по поддержанию здоровья голоса можно найти на сайте /.
57. Tay E. Y. L., Phyland D. J., Oates J. The effect of vocal function exercises on the voices of aging community choral singers // Journal of Voice. 2012. Vol. 26 (5). P. 672–e19.
58. Stemple J. C. Vocal function exercises. Plural Publishing Incorporated, 2002.
59. Prakup B. Acoustic measures of the voices of older singers and nonsingers // Journal of Voice. 2012. Vol. 26 (3). P. 341–350.
60. Lortie C. L., Rivard J., Thibeault M., Tremblay P. The Moderating Effect of Frequent Singing on Voice Aging // Journal of Voice. 2016. Vol. 31 (1). P. 112. e1–e12.
Глава 3
1. Monrad-Krohn G. H. Dysprosody or altered “melody of language” // Brain: a journal of neurology. 1947.
2. Интервью проводились через шесть месяцев после начала болезни. См.: Miller N., Taylor J., Howe C., Read J. Living with foreign accent syndrome: insider perspectives // Aphasiology. 2011. Vol. 25 (9). P. 1053–1068.
3. DiLollo A., Scherz J., Neimeyer R. A. Psychosocial implications of foreign accent syndrome: two case examples // Journal of Constructivist Psychology. 2014. Vol. 27 (1). P. 14–30.
4. Некоторые больные рассказывают, что, когда они разговаривают другим голосом, их родственники раздражаются, пугаются или не доверяют им, считая, что они притворяются.
5. Документальный фильм Дэвида Торпа «Я разговариваю как гей?» (Do I Sound Gay?, 2014) посвящен этому вопросу. В частности, в нем исследуется, почему некоторые мужчины-геи обращаются к логопедам. Этот автобиографический фильм показывает, что хотя некоторые считают, что проблема состоит в голосе, часто это оказывается симптомом более глубоких психологических проблем.
6. Rule N. O. Perceptions of sexual orientation from minimal cues // Archives of Sexual Behavior. 2017. Vol. 46 (1). P. 129–139.
7. В одном исследовании сравнивались актеры, играющие роли как гетеро-, так и гомосексуалов. Результаты показали, что когда эти актеры играли гомосексуалов, они повышали тон голоса до верхних пределов диапазона мужского голоса. См.: Cartei V., Reby D. Acting gay: Male actors shift the frequency components of their voices towards female values when playing homosexual characters // Journal of Nonverbal Behavior. 2012.Vol. 36 (1). P. 79–93.
8. Другие характеристики, которые исследовались в меньшей степени, но обычно ассоциируются с типичными голосами гомосексуалов, включают более чистые и протяжные гласные, более выраженные [л] и подчеркнутые [п], см.: Do I Sound Gay? А также «голосовое шкворчание» («жареный» голос, скрипучий звук, подобный тому, какой Бритни Спирс использует в самом начале …Baby One More Time), и предложения, заканчивающиеся восходящим тоном.
9. Van Borsel J., Van de Putte A. Lisping and male homosexuality // Archives of Sexual Behavior. 2014. Vol. 43 (6). P. 1159–1163.
10. Еще один пример: тон мужского голоса стремится к нижнему пределу мужской голосовой анатомии. У женщин этого не происходит. Предполагается, что мужчины стараются использовать нижнюю часть диапазона голоса, потому что это считается более привлекательным. См.: Graddol D., Swann J. Speaking fundamental frequency: some physical and social correlates // Language and Speech. 1983. Vol. 26 (4). P. 351–366.
11. В прошлом этот стереотип подкреплялся тем, что единственными ролевыми моделями гомосексуальных голосов в средствах массовой информации были комики стиля «кэмп», такие звезды, как Ларри Грейсон, ведущий программ The Generation Game и Blankety Blank.
12. Считается, что гораздо больше тех, кто не обращается за медицинской помощью. По некоторым оценкам, только 0,2 % людей настолько несовместимы с собственным полом, что задумываются о медицинском вмешательстве. См.: Gender identity clinic services under strain as referral rates soar // The Guardian. 2016. -clinic-waiting-times-patient-numbers-soar-gender-identity-services.
13. Научные публикации не дают ясной картины, поскольку смена голоса на женский наряду с хирургическим вмешательством требует применения речевой терапии. А количество и качество такой терапии могут значительно отличаться в разных случаях.
14. Hancock A., Helenius L. Adolescent male-to-female transgender voice and communication therapy // Journal of Communication Disorders. 2012. Vol. 45 (5). P. 313–324.
15. Davies S., Papp V. G., Antoni C. Voice and communication change for gender nonconforming individuals: giving voice to the person inside // International Journal of Transgenderism. 2015. Vol. 16 (3). P. 117–159.
16. Hillenbrand J. M., Clark M. J. The role of f 0 and formant frequencies in distinguishing the voices of men and women // Attention, Perception, & Psychophysics. 2009. Vol. 71 (5). P. 1150–1166.
17. Я основываюсь здесь на комментариях Кристеллы. Имеется небольшое количество работ, посвященных исследованию успешности изменения этих характеристик, но их результаты неубедительны.
18. Утверждают, что последователям Пифагора, акусматикам, было разрешено слышать только бестелесный голос учителя из-за занавеса. Некоторые, однако, в этом сомневаются. См.: Kane B. Sound Unseen: Acousmatic Sound in Theory and Practice. Oxford University Press, USA, 2014.
19. Pear T. H. Voice and Personality. Chapman & Hall, 1931. P. 151. Все цитаты в данном разделе заимствованы из этой книги.
20. Lehr S., Banaji M. Implicit Association Test (IAT) // Oxford Bibliographies in Psychology. 2011. doi: 10.1093/obo/9780199828340–0033.
21. Kalat J. W. Biological psychology. Nelson Education, 2015.
22. Johnson D. R., Cushman G. K., Borden L. A., McCune M. S. Potentiating empathic growth: Generating imagery while reading fiction increases empathy and prosocial behavior // Psychology of Aesthetics, Creativity, and the Arts. 2013. Vol. 7 (3). P. 306.
23. Исследования мозга показали, что, когда читатели придумывают более живые образы, наряду с «классическими» языковыми центрами разума активизируются и многие другие отделы мозга. Например, при интерпретации определенных метафор кооперируются сенсорные и моторные отделы мозга. Если вы читаете о человеке, у которого был «трудный день», или о «мерзком человеке», в значительной степени задействуются сенсорные отделы мозга, связанные с осязанием. См.: Lacey S., Stilla R., Sathian K. Metaphorically feeling: comprehending textural metaphors activates somatosensory cortex // Brain and Language. 2012. Vol. 120 (3). P. 416–421.
24. Andersen E. S. The acquisition of sociolinguistic knowledge: Some evidence from children’s verbal role-play // Western Journal of Communication (includes Communication Reports). 1984. Vol. 48 (2). P. 125–144.
25. Kreiman J., Sidtis D. Foundations of voice studies: An interdisciplinary approach to voice production and perception. John Wiley & Sons, 2011.
26. Слушатели обычно переоценивают возраст молодых людей. Вероятно, это происходит из-за проблемы нижней границы: для любого человека с взрослым голосом существует возраст, ниже которого предположения не распространяются, например, 15 лет, но имеется множество вариантов для старшего возраста.
27. Если вы хотите определить рост, лучше прислушаться к тембру голоса, который создается резонансами дыхательных путей. В таком случае можно установить рост с точностью до 10 см. См.: Morton J., Sommers M., Lulich S. et al. Acoustic features mediating height estimation from human speech // Journal of the Acoustical Society of America. 2013. Vol. 134 (5). P. 4072.
28. В настоящее время эта модель узнавания используется чаще всего, но не все ее признают. См.: Mathias S. R., Kriegstein K. von. How do we recognise who is speaking? // Front Biosci (Schol Ed). 2014. Vol. 6. P. 92–109.
29. -content/uploads/2014/12/r-v-dwaine-george.pdf.
30. Legge G. E., Grosmann C., Pieper C. M. Learning unfamiliar voices // Journal of Experimental Psychology: Learning, Memory, and Cognition. 1984. Vol. 10 (2). P. 298.
31. Saslove H., Yarmey A. D. Long-term auditory memory: Speaker identification // Journal of Applied Psychology. 1980. Vol. 65 (1). P. 111.
32. По данным исследований, узнавание по «алло», произнесенному знакомым голосом, на 20–60 % успешно. Такая большая вариативность объясняется тем, что успех в значительной степени зависит от условий эксперимента. Kreiman J., Sidtis D. Foundations of voice studies: An interdisciplinary approach to voice production and perception. P. 177.
33. Wolfe T. The Bonfire of the Vanities. Vintage, 1987. P. 16–17.
34. Kreiman J., Sidtis D. Foundations of voice studies: An interdisciplinary approach to voice production and perception. P. 160–162.
35. Пингвинам проигрывают обработанную версию их собственного крика, в которой может быть изменен, например, тон. Если изменить тон слишком сильно, то гнездовые пингвины, такие как папуанские, уже не будут узнавать крик. При этом проигрывание записи в обратном порядке никак не повлияет на узнавание. Это показывает, что последовательность и ритм не столь важны.
36. Kreiman J., Sidtis D. Foundations of voice studies: An interdisciplinary approach to voice production and perception. P. 182.
37. Mythbusters: 5 misplaced beliefs about voice biometrics // Nuance. 2016. -experience/five-common-voice-biometrics-myths/.
38. First Impressions // Wired. 2016. May.
39. BBC fools HSBC voice recognition security system // BBC. 2017. -39965545.
40. Waugh P. The novelist as voice hearer // Lancet. 2015. Vol. 386 (10010). P. e54–e55. В этой книге мне понравилось описание того, как писатели сдерживают силу внутреннего голоса, чтобы создать воображаемых персонажей, мысли и чувства которых переплетаются с мыслями и чувствами реальных читателей.
41. Perrone-Bertolotti M., Rapin L., Lachaux J. P., Baciu M., Loevenbruck H. What is that little voice inside my head? Inner speech phenomenology, its role in cognitive performance, and its relation to self-monitoring // Behavioral Brain Research. 2014. Vol. 261. P. 220–239.
42. Продолжение цитаты: «Сначала это молчание создавало состояние почти полной эйфории, но потом меня полностью захватило великолепие окружающей меня энергии. А так как я больше не чувствовала размеры своего тела, я ощущала себя громадной и необузданной. Я чувствовала единство со всей этой энергией, и там было очень красиво». . См. также: Morin A. Self-awareness deficits following loss of inner speech: Dr. Jill Bolte Taylor’s case study // Consciousness and Cognition. 2009. Vol. 18 (2). P. 524–529.
43. Filik R., Barber E. Inner speech during silent reading reflects the reader’s regional accent // PLOS One. 2011. Vol. 6 (10). P. e25782.
44. Еще один пример: у людей, которые заикаются, часто более беглая внутренняя речь.
45. Perrone-Bertolotti M., Rapin L., Lachaux J. P., Baciu M., Loevenbruck H. What is that little voice inside my head? Inner speech phenomenology, its role in cognitive performance, and its relation to self-monitoring.
46. Woods A., Jones N., Alderson-Day B., Callard F., Fernyhough C. Experiences of hearing voices: analysis of a novel phenomenological survey // Lancet Psychiatry. 2014. Vol. 2 (4). P. 323–331.
47. Wilkinson S., Bell V. The representation of agents in auditory verbal hallucinations // Mind & Language. 2016. Vol. 31 (1). P. 104–126.
48. Alderson-Day B., Bernini M., Fernyhough C. Uncharted features and dynamics of reading: Voices, characters, and crossing of experiences // Consciousness and Cognition. 2017. Vol. 49. P. 98–109.
Глава 4
1. Данные из материалов избирательной кампании вплоть до 1 июля 2016 года. См.: A fact checker looked into 158 things Donald Trump said. 78 percent were false // Washington Post. 2016. -fix/wp/2016/07/01/donald-trump-has-been-wrong-way-more-often-than-all-the-other-2016-candidates-combined/.
2. Atwill J. M. Rhetoric reclaimed: Aristotle and the liberal arts tradition. Cornell University Press, 2009. P. 37.
3. Эта попытка изменить голос, конечно, не сработала. То, как меняла акцент Хиллари Клинтон, также привлекло внимание – например, комментаторы жестко критиковали ее за использование южной манеры растягивать слова в ходе кампании в южных штатах. -walker-hones-his-image-among-republicans-for-possible-presidential-race.html?_r=0.
4. Crystal B., Crystal D. You Say Potato: The Story of English Accents. Macmillan, 2015. P. 63. См. также: Received Pronunciation // British Library. -out-more/received-pronunciation/.
5. Для тех, кто любит критиковать американских актеров, исполняющих Шекспира: современное американское произношение, вероятно, ближе к тому, которое можно было услышать во времена Шекспира, чем любой из современных британских акцентов. См.: Crystal B., Crystal D. You Say Potato: The Story of English Accents.
6. Эта традиция практически не менялась большую часть XX века, исключая короткий эксперимент с использованием местных акцентов во время Второй мировой войны.
7. По иронии судьбы Кэри Грант в действительности родился и воспитывался в Бристоле, Англия. Если бы Мейсон использовал заметный местный акцент из Британии, американским зрителям, возможно, пришлось бы прикладывать усилия, чтобы его понять. Когда в США в прокат вышел фильм «На игле», речь Юэна Макгрегора дублировалась актером с более мягким шотландским акцентом.
8. Например, «Five plump peas in a pea pod pressed. One grew, two grew, and so did all the rest. They grew and grew and grew and grew and grew and never stopped. Till they grew so plump and perky that the pea pod popped!» [Подобные стишки используются в качестве упражнений для тренировки артикуляции отдельных звуков, в данном случае – английского звука [p] (условно соответствует русскому [п]). В английском произношении этот звук очень важен, но произносить его правильно трудно, нужна специальная тренировка. В качестве примера для русского языка можно привести скороговорки, в которых отрабатываются звуки [с]-[ш] или [л]-[р]: «Тридцать три корабля лавировали-лавировали, лавировали-лавировали, да не вылавировали». – Перев.]
9. В некоторых странах, например в Швейцарии, акцент связан в большей степени с географией, а не с социальным статусом.
10. Clark L. Fish «chat» to each other and may have «regional accents» // Wired. 2016. -to-regional-accents-of-cod.
11. Перемещение одной из групп в другую среду обитания может вызвать изменения в звуковых сигналах с целью оптимизации общения. В этом случае расхождения в способах вокализации возникают еще быстрее. О роли акцентов в эволюции человека см.: Cohen E. The evolution of tag-based cooperation in humans // Current Anthropology. 2012. Vol. 53 (5). P. 588–616.
12. Чтение литературы об иконичности вдохновило меня на исследование звукоподражания. См.: Bones O. C., Davies W. J., Cox T. J. Clang, chitter, crunch: Perceptual organisation of onomatopoeia // Journal of the Acoustical Society of America. 2017. Vol. 141. P. 3694.
13. Еще один пример универсалий можно найти в исследовании, где два вида форм нужно было соотнести с бессмысленными словами «буба» и «кики». Большинство людей соотносили «буба» с круглой фигурой, а «кики» – с остроугольной. Исследование 2016 года впервые показало, что универсалии распространены гораздо шире, чем предполагалось ранее[44]. См.: Blasi D. E., Wichmann S., Hammarstrom H. et al. Sound-meaning association biases evidenced across thousands of languages // Proceedings of the National Academy of Sciences. 2016. P. 201605782.
14. Kaplan S. A nose by any other name: Biology may affect the way we invent words // Washington Post. 2016.
15. Одной из причин является разнообразие населения в далеком прошлом. На Британских островах обосновались племена из различных частей Европы, и эти группы были в достаточной степени изолированными, чтобы сохранялись речевые варианты. См.: Crystal B., Crystal D. You Say Potato: The Story of English Accents.
16. McDonnell A. It’s scone as in «gone» not scone as in «bone» // You-Gov. -scone-gone-not-scone-bone/. Количество распределяется следующим образом: средний класс – 45 % рифмуется с bone, 46 % – с gone; эконом-класс – 40 % рифмуется с bone, 55 % – с gone. Общая сумма не равна 100 %, так как были ответы «другие варианты / не знаю».
17. Еще один подход к сбору данных дал возможность увидеть на карте распределение новых способов выражения в американском английском. Основываясь на материале почти миллиона привязанных к местности тегов, Джек Грив из Астонского университета создал карты, которые показывают, что shit, damn и bitch более распространены на юго-востоке по сравнению с остальной территорией США. См.: Gajanan M. Want to know how to curse like a proper American? Have a look at these maps // Guardian. 2015.
18. Кроме того, лексические варианты используются довольно редко, особенно по сравнению со стандартным произношением гласных. Поэтому произношение изменить сложнее: оно слишком прочно укоренилось в вашей манере разговора.
19. Лиман выдвигает гипотезу, что это было вызвано переселением людей из городов после Второй мировой войны. В результате произошло размывание сельских акцентов.
20. Это правило применимо и к произношению [r] в конце слова, например, far.
21. Правда, так говорят не все носители английского языка: в Шотландии, Ирландии и Америке многие все еще произносят [r].
22. Quinn B. David Starkey claims “the whites have become black” // Guardian. 2011. Starkey также ссылается на речь Эноха Пауэлла «Реки крови».
23. Fox S. The New Cockney: New Ethnicities and Adolescent Speech in the Traditional East End of London. Palgrave Macmillan, 2015.
24. Сью Фокс цитирует профессора Пенелопу Экерт из Стэнфордского университета. И в западных промышленно развитых обществах так и происходит.
25. Kerswill P. TEDxEastEnd. 2011.
26. Aitchinson J. Is our language sick? // Independent. -style/reith-lectures-is-our-language-in-decay-1317695.html.
27. В другом исследовании Сью Фокс обнаружила, что дети уже в четыре года схватывают эти языковые особенности, что еще раз доказывает: это не просто подростковое увлечение, а скорее долговременное изменение языка.
28. McGlone M. S., Tofighbakhsh J. The Keats heuristic: Rhyme as reason in aphorism interpretation // Poetics. 1999. Vol. 26 (4). P. 235–244.
29. Guerini M., Ozbal G., Strapparava C. Echoes of persuasion: The effect of euphony in persuasive communication // arXiv preprint arXiv:1508.05817. 2015. Уровень успешности составляет 72–88 %, когда система разработана и протестирована на одном наборе данных: например, разработчики использовали уже отработанную информацию «Твиттера» и протестировали ее на твитах. Если далее система применяется к другой базе данных, например слоганов для фильмов, уровень успешности снижается до 50–60 %.
30. Взрывные звуки также очень часто встречаются в названиях брендов.
31. Lev-Ari S., Keysar B. Why don’t we believe non-native speakers? The influence of accent on credibility // Journal of Experimental Social Psychology. 2010. Vol. 46 (6). P. 1093–1096.
32. Разница в оценках для сильного акцента составляла 5 % по всей шкале. Эксперимент был организован таким образом, что человек повторял фразу за носителем, чтобы попытаться устранить предубеждения.
33. /
34. 70 % аплодисментов приходится на долю семи риторических приемов. См.: Heritage J., Greatbatch D. Generating applause: A study of rhetoric and response at party political conferences // American Journal of Sociology. 1986. Vol. 92 (1). P. 110–157.
35. Предметом этого исследования были аплодисменты, подсказанные аудитории оратором. Проводилось их сравнение со спонтанными аплодисментами в неожиданных местах.
36.
37. Huettel S. A., Mack P. B., McCarthy G. Perceiving patterns in random series: dynamic processing of sequence in prefrontal cortex // Nature Neuroscience. 2002. Vol. 5 (5). P. 485–490.
38. Shu S. B., Carlson K. A. When three charms but four alarms: identifying the optimal number of claims in persuasion settings // Journal of Marketing. 2014. Vol. 78 (1). P. 127–139.
39. Еще одним мощным риторическим приемом является метафора – например, использование Трампом фразы «мы осушим это болото» в Вашингтоне.
40. Bull P. E. The use of hand gesture in political speeches: Some case studies // Journal of Language and Social Psychology. 1986. Vol. 5. P. 103–118.
41. Тон голоса стал предметом исследования и для представителей других профессий. Руководители высокого ранга с низкими голосами получают большее вознаграждение и руководят более крупными компаниями. Однако данное исследование является ассоциативным, поэтому низкий голос может и не привести к успеху, поскольку причинно-следственная связь здесь не доказана. См.: Mayew W. J., Parsons C. A., Venkatachalam M. Voice pitch and the labor market success of male chief executive officers // Evolution and Human Behavior. 2013. Vol. 34 (4). P. 243–248.
42. Atkinson M. Our Masters’ Voices: The Language and Body Language of Politics. Psychology Press, 1984. P. 113.
43. Этот комментарий Бирд взят из: Davies C. Mary Beard: vocal women treated as “freakish androgynes” // Guardian. 2014; Dowell B. Mary Beard suffers “truly vile” online abuse after Question Time // Guardian. 2014.
44. Reeve E. Why Do So Many People Hate the Sound of Hillary Clinton’s Voice? // New Republic. 2015. -do-so-many-people-hate-sound-hillary-clintons-voice.
45. Эта закономерность действует для политиков, но исследования, в которых в качестве испытуемых использовались юристы, показали, что мужчины-юристы, голоса которых оценивались как менее мужественные, имеют больше шансов на успех. Одной из причин может быть то, что юристы подсознательно используют более мужественный стиль речи, когда понимают, что доводы в деле не очень убедительны.
46. Klofstad C. A., Nowicki S., Anderson R. C. How Voice Pitch Influences Our Choice of Leaders // American Scientist. 2016. Vol. 104 (5). P. 282.
47. Tigue C. C., Borak D. J., O’Connor J. J. et al. Voice pitch influences voting behavior // Evolution and Human Behavior. 2012. Vol. 33 (3). P. 210–216.
48. Klofstad C. A., Anderson R. C., Nowicki S. Perceptions of competence, strength, and age influence voters to select leaders with lower-pitched voices // PLOS One. 2015. Vol. 10 (8). P. e0133779.
49. Klofstad C. A. Candidate voice pitch influences election outcomes // Political Psychology. 2015. Имелись, однако, исключения, например, в борьбе между кандидатами-мужчинами и кандидатами-женщинами лучше оказался высокий мужской голос. Клофстед высказывает предположение, что это может быть связано с тем, что мужчины-кандидаты с низкими голосами оказались в этом случае слишком агрессивными.
50. Gupta R. What is Vocal Fry? // Osborne Head & Neck Institute. 2011. -perry-voice-vocal-fry/.
51. Anderson R. C., Klofstad C. A., Mayew W. J., Venkatachalam M. Vocal fry may undermine the success of young women in the labor market // PLOS One. 2013. Vol. 9 (5). P. e97506.
52. Побочным эффектом этой демонстрации гормонов, однако, является подавление иммунной функции. Поэтому лишь здоровые во всех отношениях индивиды могут позволить себе иметь высокие уровни этого гормона. Высота тона голоса, следовательно, может сигнализировать о качестве генов. Это также может объяснить, почему физически более симметричные люди имеют более привлекательные голоса. См.: Hughes S. M., Pastizzo M. J., Gallup Jr G. G. The sound of symmetry revisited: Subjective and objective analyses of voice // Journal of Nonverbal Behavior. 2008. Vol. 32 (2). P. 93–108.
53. Cheng J. T., Tracy J. L., Ho S., Henrich J. Listen, follow me: Dynamic vocal signals of dominance predict emergent social rank in humans’ Journal of experimental psychology: general. 2016. Vol. 145 (5). P. 536.
54. Rosenberg A., Hirschberg J. Charisma perception from text and speech // Speech Communication. 2009. Vol. 51 (7). P. 640–655.
55. В тех случаях, когда имеются убедительные доказательства, медленная речь более предпочтительна. См.: Von Hippel W., Ronay R., Baker E. et al. Quick Thinkers Are Smooth Talkers Mental Speed Facilitates Charisma // Psychological Science. 2016. Vol. 27 (1). P. 119–122.
56. Jurgens R., Grass A., Drolet M., Fischer J. Effect of Acting Experience on Emotion Expression and Recognition in Voice: Non-Actors Provide Better Stimuli than Expected // Journal of Nonverbal Behavior. 2015. Vol. 39 (3). P. 195–214.
57. Контур речи может быть преувеличен игрой актера или чтением фраз вслух, так как люди естественным образом делают так, чтобы заставить себя звучать более заинтересованно. Именно это, конечно, я должен делать, когда выступаю на радио.
Глава 5
1. Milner G. Perfecting Sound Forever: The Story of Recorded Music. Granta Books, 2011.
2. Bing Crosby and Al Jolson. Alexander’s Ragtime Band. См.: Potter J. Vocal Authority: Singing Style and Ideology. Cambridge University Press, 2006.
3. Этим агентом был Арт Клейн. См.: Freedland M. Jolie: The Al Jolson Story. WH Allen, 1985. P. 52.
4. Важно не упустить из виду фактор культуры. Potter J. Vocal Authority: Singing Style and Ideology. О том, как изменилось поведение аудитории, см. также: Byrne D. How Music Works. Canongate Books, 2012.
5. BBC, 1956. The Listener.
6. Еще одной проблемой был традиционный валлийский хор: звук мужского хора на заднем плане. Продюсер нанял уличных музыкантов, которые пели в коридоре. Чтобы создать иллюзию громкости и расстояния (то ближе, то дальше), он открывал и закрывал звуконепроницаемую дверь студии.
7. Иногда используется оружие: в попытке установить мировой рекорд реверберации я использовал стартовый пистолет в нефтяном резервуаре Inchindown. См.: Cox T. Sonic Wonderland: A Scientific Odyssey of Sound. Random House, 2014.
8. Кроме того, она разместила звуки на разных позициях.
9. Отличное обсуждение постановки вокала см. в: Lacasse S. Listen to my voice, the evocative power of voice in recorded rock music and other forms of vocal expression: diss. Liverpool, 2000. Там же можно найти другие примеры такого воспроизведения.
10. Более полное исследование с использованием сканирования мозга и оценки критериев восприятия описано в: Kumar S., Kriegstein K. von, Friston K., Griffiths T. D. Features versus feelings: dissociable representations of the acoustic features and valence of aversive sounds // Journal of Neuroscience. 2012. Vol. 32 (41). P. 14184–14192.
11. Arnal L. H., Flinker A., Kleinschmidt A. et al. Human screams occupy a privileged niche in the communication soundscape // Current Biology. 2014. Vol. 25 (15). P. 2051–2056.
12. LeDoux J. E. The Amygdala Is NOT the Brain’s Fear Center // Psychology Today. 2015. /i-got-mind-tell-you/201508/the-amygdala-is-not-the-brains-fear-center.
13. В проекте S 3A принимают участие университеты Суррея, Солфорда и Саутгемптона, а также BBC R&D[45].
14. Weaver M. “I will mumble this only once”: BBC’s Nazi drama SS-GB hit by dialogue complaints // Guardian. 2017.
15. Gentleman A., Gibbons F. Outcry at Nunn’s use of mikes in theatre // Guardian. 1999.
16. Billington M. Review: Troilus and Cressida// Guardian. 1999.
17. Кроме того, он дважды получил премию Лоуренса Оливье за лучший дизайн звука.
18. Реверберацию можно использовать и для обозначения большего объема пространства. Когда я разговаривал о радиопостановках с Элоиз Уитмор, она объяснила, что часто реверберация используется, чтобы обозначить воспоминания или нечто нереальное.
19. Cox T. Reverb: Why we dig messy sound // New Scientist. 2014. Vol. 3000.
20. Еще один пример того, как музыкальные продюсеры играют с ожиданиями слушателей, – это «Смерть поезда» Даниэля Лануа, созданная в 1993 году. Контрэхо на этой записи напоминает обработку звука, которая использовалась фирмой Sun Records еще в 1950-х. Таким образом, реверберация придает песне Лануа ностальгическое настроение.
21. Fry G. Capturing sound for Complicite’s The Encounter // Stage. 2014. -a-trip-to-the-amazon-rainforest-to-capture-the-perfect-sound.
22. Эти ориентиры обсуждались в главе 1.
23. Хотя оперный голос в значительной степени сформирован необходимостью его усиления, важно учитывать и культурные факторы, см.: Potter J. Vocal Authority: Singing Style and Ideology.
24. При оперном пении слушатели часто не могут разобрать, на каком языке поют артисты (возьмем, к примеру, аудиозапись «Барселоны» в исполнении Фредди Меркьюри и Монсеррат Кабалье).
25. По мнению Джона Поттера, современный оперный голос, скорее всего, отличается от того, каким он был в XIX веке. Критические замечания в адрес современных певцов указывают на то, что раньше, вероятно, использовались более разнообразные стили пения.
26. Long C. Bob Dylan and the Manchester Free Trade Hall “Judas” show // BBC. 2016. -arts-36211789.
27. Кроме того, они изменяют вибрации голосовых связок, чтобы усилить гармоники в наиболее чувствительном диапазоне частот. Относительно того, используют ли певицы настройку форманты, до сих пор ведутся споры. Последние данные указывают на то, что они, скорее всего, этого не делают, а просто прибегают к изменению вибрации голосовых связок. См.: Master S., De Biase N. G., Madureira S. What About the «Actor’s Formant» in Actresses’ Voices? // Journal of Voice. 2012. Vol. 26 (3). P. e117–e122.
28. Smith J., Wolfe J. Vowel-pitch matching in Wagner’s operas: implications for intelligibility and ease of singing // JASA Express Letters, Journal of the Acoustical Society of America. 2009. Vol. 125, EL196.
29. Al Bowlly. «Melancholy Baby». . Этот пример взят из: Potter J., Sorrell N. A History of Singing. Cambridge University Press, 2012.
30. Frith S. Art versus technology: The strange case of popular music // Media, Culture & Society. 1986. Vol. 8 (3). P. 263–279.
31. Leslie J., Snyder R. History of The Early Days of Ampex Corporation. AES Historical Committee, 2010.
32. Hammer P. In Memoriam John T. (Jack) Mullin // Journal of the Audio Engineering Society. 1994. Vol. 42 (6).
33. Billie Holiday Dies Here at 44; Jazz Singer Had Wide Influence // New York Times. 1959. .
34. Empire K. Let’s judge women on their talent, not their pain // Guardian. 2006.
35. Adele. «Someone Like You». .
36. На самом деле компрессия сокращает уровень громкости в громких частях произведения, но это делается в тандеме с увеличением громкости, что приводит к усилению тихих частей.
37. Мода, однако, может меняться, и тогда хриплый голос станет более популярным. См.: Robinson P. «Whisperpop»: why stars are choosing breathy intensity over vocal paint-stripping // Guardian. 2017.
38. McCormick N. Take that, says Robbie as he faces his critics // Telegraph. 2005.
39. Цитаты из: Creating Pitch-Perfect // BBC Radio 4. 2014. .
40. Дэн рассказал и о том, как нужно балансировать ритм, чтобы не получилось, что ты не полностью вдохнул или выдохнул.
41. Rahzel. «If Your Mother Only Knew». .
42. Если битбоксер не хочет просто петь a капелла, он будет использовать микрофон, чтобы извлечь из своего голоса больше басов. Большинство вокальных микрофонов устроено таким образом, что чем ближе поднести микрофон ко рту, тем больше получится басов (благодаря эффекту близости).
43. Если очень внимательно прислушаться к Rahzel, можно услышать, что звук [l] в слове only замещается сложным звуком.
44. Sparky and the Talking Train.
45. Актеру приходится закрывать голосовую щель, иначе значительная доля звука пропадет в легких.
46. Обязательно послушайте альбомную версию. /x-G28iyPtz0.
47. Hildebrand H. A., Auburn Audio Technologies Inc. Pitch detection and intonation correction apparatus and method. 1999. US Patent 5,973,252.
48. Есть основанная на этом эффекте замечательная акустическая иллюзия, которую Дайана Дойч назвала «песня речи». См.: Speech to Song Illusion // DianaDeutsch. .
49. Еще один пример – «перемещающиеся» голоса в песне A Day in the Life (The Beatles), причем этот эффект наиболее очевиден в наушниках. Когда Леннон начинает петь I read the news today, его голос доносится справа. К концу первого стиха, который заканчивается словами I’d love to turn you on, он уже переместился налево. И это отголосок вековой традиции антифонального пения, при котором два разных хора поют перекличкой для создания эффекта пространственного разделения музыки.
Глава 6
1. An Evening With Edison // New York Times. 1878. 6 April.
2. Preece W. H. The Phonograph // Journal of the Society of Arts. 1878. Vol. 26. P. 537.
3. Thompson E. Machines, Music, and the Quest for Fidelity: Marketing the Edison Phonograph in America, 1877–1925 // Musical Quarterly. 1995. Vol. 79 (1). P. 131–171.
4. BBC introduces new automatic virtual voiceover translations // BBC. 2015. -russian-virtual-voice-over.
5. Dudley H., Tarnoczy T. H. The speaking machine of Wolfgang von Kempelen // Journal of the Acoustical Society of America. 1950. Vol. 22 (2). P. 151–166.
6. Davis A. Mechanical chess player baffled crowds for nearly a century // IEEE. 2016.
7. См. демонстрационный ролик на: 6Gpo. Эта машина отличается от машины Науэрда, но не слишком сильно. См.: Brackhane F., Trouvain J. What makes «Mama» and «Papa» acceptable? – Experiments with a replica of von Kempelen’s speaking machine // Proceedings of the 8th International Speech Production Seminar. 2008. P. 333–336.
8. Заимствовано из: Trouvain J., Brackhane F. Wolfgang von Kempelen’s “speaking machine” as an instrument for demonstration and research // Proceedings of the 17th International Congress of Phonetic Sciences / eds. W. – S. Lee, E. Zee. 2011. P. 164–167.
9. The Speaking Machine // Punch. 1846. Vol. 11. P. 83.
10. Altick R. D. The Shows of London. Harvard University Press, 1978. P. 355.
11. The New York Fair // Bell Telephone Quartely. 1940. January. P. 63.
12. Schroeder M. R. Dudley, Homer W.: A Tribute // Journal of the Acoustical Society of America. 1981. Vol. 69 (4). P. 1222.
13. Dlugan A. What is the Average Speaking Rate? // Six Minutes. 2012. -rate/.
14. Рисунок основан на: Dudley H., Riesz R. R, Watkins S. S. A. A synthetic speaker // Journal of the Franklin Institute. 1939. Vol. 227. P. 739–764.
15. Исторические записи можно найти онлайн.
16. Fagen M. D., Millman S., Joel A. E., Schindler G. E. A History of Engineering and Science in the Bell System: Communications sciences (1925–1980). Vol. 5. Bell Telephone Laboratories Inc., 1975. P. 101ff.
17. -speak-spell_introduced.htm.
18. Who is Hatsune Miku? // Cryptone. .
19. Kenmochi H., Ohshita H. VOCALOID-commercial singing synthesizer based on sample concatenation // Interspeech. 2007. P. 4009–4010.
20. Можно найти на YouTube.
21. Boone J. V., Peterson R. R. Sigsaly – The Start of the Digital Revolution // NSA. 2016. -heritage/historical-fig-ures-publications/publications/wwii/sigsaly-start-digital.shtml.
22. Kahn D. How I Discovered World War Il’s Greatest Spy and Other Stories of Intelligence and Code. CRC Press. 2014.
23. Vox Ex Machina // 99 % Invisible Podcast. 2016.
24. -group.com/.
25. Victoria T. How we fell in love with our voice-activated home assistants // New Scientist. 2016. Vol. 3104.
26. Parke P. Is it cruel to kick a robot dog? // CNN. 2015.
27. См. демонстрационные ролики на /. Также: Waytz A., Epley N., Cacioppo J. T. Social cognition unbound: Insights into anthropomorphism and dehumanization // Current Directions in Psychological Science. 2010. Vol. 19 (1). P. 58–62.
28. Newman J. To Siri with Love: How One Boy With Autism Became BFF With Apple’s Siri // New York Times. 2014.
29. Ramaswamy C. “Alexa, sort your life out”: when Amazon Echo goes rogue // Guardian. 2017. В 2015 году на Samsung посыпались отрицательные отзывы в прессе, когда обнаружилось, что записи, сделанные его умным пультом дистанционного управления ТВ, посылались в стороннюю фирму, которая делала анализ речи.
30. Hern A. Murder defendant volunteers Echo recordings Amazon fought to protect // Guardian. 2017.
31. Eng J. NYC to Parents: Make Sure Your Baby Monitors Don’t Get Hacked // NBC News. 2016.
32. Walker T. How local accents have replaced Stephen Hawking-style voice boxes // Guardian. 2017.
33. Донорские голоса обычно стараются усреднить, так как это дает лучший конечный результат.
34. Поиграйте с демонстрационными роликами на: /.
35. В этом исследовании также участвовали люди, говорящие с региональными и иностранными акцентами. См.: McGettigan C., Eisner F., Agnew Z. K. et al. T’ain’t what you say, it’s the way that you say it – left insula and inferior frontal cortex work in interaction with superior temporal regions to control the performance of vocal impersonations // Journal of Cognitive Neuroscience. 2013. Vol. 25 (11). P. 1875–1886.
36. The neuroscience of a good impression // The Naked Scientists. 2016. -good-impression.
37. Logan T. Nice talking to you, machine // New Scientist. 2007. Vol. 2590.
38. Spinney L. Exploring the uncanny valley: Why almost-human is creepy // New Scientist. 2017. Vol. 3097.
39. Makarainen M., Katsyri J., Forger K., Takala T. The funcanny valley: A study of positive emotional reactions to strangeness // Proceedings of the 19th International Academic Mindtrek Conference. 2015. P. 175–181.
40. Katsyri J., Forger K., Makarainen M., Takala T. A review of empirical evidence on different uncanny valley hypotheses: Support for perceptual mismatch as one road to the valley of eeriness // Frontiers in Psychology. 2015. Vol. 6. P. 390.
41. Mitchell W. J., Szerszen Sr. K. A., Lu A. S. et al. A mismatch in the human realism of face and voice produces an uncanny valley // i-Perception. 2011. Vol. 2 (1). P. 10–12; Tinwell A., Grimshaw M., Nabi D. A. The effect of onset asynchrony in audio-visual speech and the Uncanny Valley in virtual characters // International Journal of Mechanisms and Robotic Systems. 2015. Vol. 2 (2). P. 97–110.
42. /.
43. Кроме того, у Bina48 отсутствуют так называемые каналы обратной связи, то есть почти незаметные реакции, которые все мы проявляем, когда хотим показать, что внимательно слушаем, как, например, реакция Сибил из «Фолти Тауэрс»: «О, я знааааю».
44. Согласно другой гипотезе, это чувство возникает из-за реакции отвращения. Гуманоид, который выглядит не совсем как человек, почему-то кажется неправильным, например больным, поэтому возникает реакция отвращения и желание держаться подальше.
45. Такие же чувства испытывала и Джуди Норман, которая вместе с роботом играла в пьесе «Осколки: история любви». Во время беседы она сказала зрителям: «Робот, по правде говоря, не так уж и отличается от актера. Я думала, это будет совершенно иной опыт, но реальность показала совсем другое… Самым трудным в работе оказалось то, что робот не поможет тебе выбраться из неловкой ситуации в случае ошибки».
46. Обычная практика – дать человеку озвучить реплики компьютерного персонажа, как в фильме «2001 год: Космическая одиссея», где голосом компьютера HAL-9000 был канадский актер Дуглас Рэйн.
47. Можно было бы также использовать некоторые автоматизированные движения лица – например, робот мог бы пытаться установить зрительный контакт.
Глава 7
1. Levi-Minzi M., Shields M. Serial sexual murderers and prostitutes as their victims: Difficulty profiling perpetrators and victim vulnerability as illustrated by the Green River case // Brief Treatment and Crisis Intervention. 2007. Vol. 7 (1). P. 77.
2. Party B. W. A review of the current scientific status and fields of application of polygraphic deception detection // British Psychological Society. 2004.
3. Innocent Until Proved Guilty? // ABC News. 2006.
4. Juslin P. N., Laukka P. Communication of emotions in vocal expression and music performance: Different channels, same code? // Psychological Bulletin. 2003. Vol. 129 (5). P. 770.
5. В опубликованной работе о музыкальных заставках использовались методы опорных векторов, а не нейронные сети, потому что нам было интересно, насколько хорошо они будут работать. См.: Mann M., Cox T. J., Li F. F. Music Mood Classification of Television Theme Tunes // International Society of Music Information Retrieval. 2011. P. 735–740.
6. Если у вас большие объемы данных и достаточно вычислительных мощностей, можете загружать сырой аудиоматериал в Deep Neural Network и пропустить этап извлечения звуковых характеристик. Однако у нас не было больших массивов данных.
7. Вы можете услышать эту мелодию на: .
8. Kreiman J., Sidtis D. Foundations of voice studies: An interdisciplinary approach to voice production and perception.
9. Elaad E. Effects of feedback on the overestimated capacity to detect lies and the underestimated ability to tell lies // Applied Cognitive Psychology. 2003. Vol. 17 (3). P. 349–363.
10. Можно использовать другую тактику, обратившись к инстинкту соперничества подростков, и сказать им, что они пытаются обмануть очень одаренных охотников за врунами. Лучше всего не прибегать к помощи актеров, так как они, скорее всего, представят преувеличенные, стереотипные подсказки.
11. Средний показатель точности по всем исследованиям составляет 45 %. См.: Bond C. F., DePaulo B. M. Accuracy of deception judgments // Personality and social psychology Review. 2006. Vol. 10 (3). P. 214–234. Среди исследователей, занимающихся обманом, нет единого мнения по поводу реального существования «волшебников», которые могут определить ложь по микропроявлениям эмоций. Из этого предположения исходят авторы телевизионного сериала «Обмани меня».
12. Wiseman R. The megalab truth test // Nature. 1995. Vol. 373 (6513). P. 391.
13. Это подтвердилось в 90 % стран. См.: Vrij A., Granhag P. A., Porter S. Pitfalls and opportunities in nonverbal and verbal lie detection // Psychological Science in the Public Interest. 2010. Vol. 11 (3). P. 89–121.
14. Shermer M. The Believing Brain. Macmillan, 2011.
15. К сожалению, есть одна группа людей, которые в случае лживого поведения получают непосредственную обратную связь, – это профессиональные преступники, и обратная связь дает им возможность научиться принимать контрмеры, чтобы обдуривать следователей.
16. Лжецы, кроме того, концентрируют свое внимание на том, чтобы рассказать правдоподобную историю, но если вы постоянно проверяете, какое впечатление она производит на других, вы создаете себе дополнительную когнитивную нагрузку. Правда, то же самое можно сказать и о нервных правдивых рассказчиках.
17. Vrij A., Edward K., Bull R. People’s insight into their own behaviour and speech content while lying // British Journal of Psychology. 2001. Vol. 92 (2). P. 373–389.
18. Serota K. B., Levine T. R., Boster F. J. The Prevalence of Lying in America: Three Studies of Self-Reported Lies // Human Communication Research. 2010. Vol. 36 (1). P. 2–25.
19. Ten Brinke L., Stimson D., Carney D. R. Some evidence for unconscious lie detection // Psychological Science. 2014. P. 0956797614524421.
20. С этим методом мы познакомились ранее, когда рассматривали голосовые предрассудки.
21. Lie detectors ‹cut car claims› // BBC News. 2003. .
22. Heingartner D. It’s the Way You Say It, Truth Be Told // New York Times. 2004. -s-the-way-you-say-it-truth-be-told.html.
23. Lacerda F. LVA technology: The illusion of lie detection // FONETIK. 2009. June.
24. Kreiman J., Sidtis D. Foundations of voice studies: An interdisciplinary approach to voice production and perception. P. 369.
25. Eriksson A., Lacerda F. Charlatanry in forensic speech science: A problem to be taken seriously // International Journal of Speech, Language and the Law. 2007. Vol. 14 (2). P. 169–193.
26. Defamation Act 2013 aims to improve libel laws // BBC News. 2013. -25551640.
27. Damphousse K. R., Pointon L., Upchurch D., Moore R. K. Assessing the validity of voice stress analysis tools in a jail setting. 2007. Этот доклад был представлен в Министерстве юстиции США.
28. Когда арестанты думали, что их речь анализируют, 14 % солгали, сказав, что не употребляют наркотики. Однако когда они не знали, что их речь подвергается анализу на наличие стресса в голосе, солгали 40 %. См.: Damphousse K. R., Pointon L., Upchurch D., Moore R. K. Assessing the validity of voice stress analysis tools in a jail setting.
29. Jones E. E., Sigall H. The bogus pipeline: a new paradigm for measuring affect and attitude // Psychological Bulletin. 1971. Vol. 76 (5). P. 349.
30. Arthur C. Government data shows £ 2.4m «lie detection» didn’t work in 4 of 7 trials. -lva-technology-ghosts-in-the-noise/#disqus_thread.
31. Ekman P. Telling Lies: Clues to Deceit in the Marketplace, Politics, and Marriage (revised edition). WW Norton & Company, 2009.
32. Exxon Valdez creates oil slick disaster // BBC News. .
33. Schuller B., Batliner A., Steidl S. et al. The Interspeech 2011 speaker state challenge // Interspeech. 2011. January. P. 3201–3204.
34. Bone D., Black M., Li M. et al. Intoxicated Speech Detection by Fusion of Speaker Normalized Hierarchical Features and GMM Supervectors // Interspeech. 2011. August. P. 3217–3220.
35. Показатель успешности составляет 74 %, если сравниваются два образца, записанные одним человеком (в трезвом состоянии и в состоянии опьянения). Если представлен только один образец и сравнение невозможно, показатель успешности снижается до 65 %. См.: Pisoni D. B., Martin C. S. Effects of Alcohol on the Acoustic-Phonetic Properties of Speech: Perceptual and Acoustic Analyses // Alcoholism: Clinical and Experimental Research. 1989. Vol. 13 (4). P. 577–587.
36. Эмоции, стресс и усталость также могли оказать влияние. См.: Kreiman J., Sidtis D. Foundations of voice studies: An interdisciplinary approach to voice production and perception. P. 360.
37. Oberlader V. A., Naefgen C., Koppehele-Gossel J. Validity of content-based techniques to distinguish true and fabricated statements: A meta-analysis // Law and Human Behavior. 2016. Vol. 40 (4). P. 440.
38. Jim Flanagan et al. Techniques for expanding the capabilities of practical speech recognizers // Trends in Speech Recognition. 1980. Больше об Одри см.: Davis K. H., Biddulph R., Balashek S. Automatic recognition of spoken digits // Journal of the Acoustical Society of America. 1952. Vol. 24 (6). P. 637–642.
39. Say what? iPhone has problems with Scots accents // BBC. 2011. -scotland-15475989.
40. Caliskan A., Bryson J. J., Narayanan A. Semantics derived automatically from language corpora contain human-like biases // Science. 2017. Vol. 356 (6334). P. 183–186.
41. Этот пример взят из: Biased bots: Human prejudices sneak into artificial intelligence systems // Science News. 2017. .
42. Dahl G. E., Yu D., Deng L., Acero A. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition // Audio, Speech, and Language Processing. 2012. IEEE Transactions. Vol. 20 (1). P. 30–42.
43. Rayner K., White S. J., Johnson R. L., Liversedge S. P. Raeding Wrods With Jubmled Lettres There Is a Cost // Psychological science. 2006. Vol. 17 (3). P. 192–193.
44. В 2011 году голосовой поиск Google натренировали на 240 миллиардов слов, загруженных от миллионов пользователей. См.: Speech Recognition Lightning Talk – Google and AAAI 2011. .
45. Dong X. L. et al. Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources // IEEE Data Eng. Bulletin. 2016. Vol. 39 (2). P. 106–117.
46. Chilton M. The best spoonerisms // Telegraph. 2015.
47. Kiddon C., Brun Y. That’s what she said: double entendre identification // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011. Vol. 2. P. 89–94.
48. Scott S. K., Lavan N., Chen S., McGettigan C. The social life of laughter // Trends in Cognitive Sciences. 2014. Vol. 18 (12). P. 618–620.
49. Непроизвольный смех в целом длится дольше, сопровождается короткими вспышками хохота, его тон выше, в нем больше невокализованных сегментов, он имеет более низкую среднюю интенсивность, чем нарочитый смех. Такой смех назализован. См.: Lavan N., Scott S. K., McGettigan C. Laugh like you mean it: Authenticity modulates acoustic, physiological and perceptual properties of laughter // Journal of Nonverbal Behavior. 2016. Vol. 40 (2). P. 133–149.
50. Карр рассказывает замечательный анекдот о том, как он смотрел выступление своего коллеги Ника Хелма: «…Oн разыгрывал интермедию, которая мне показалась ужасно смешной, и я смеялся до упаду. Ник просто остановил выступление и сказал: “Знаешь, Джимми, я ведь не смеюсь, когда прихожу на твои выступления”». -carr-compares-laugh-weird-honking-goose-while-talking-new-netflix-show/.
51. Плач столь же необычен и также усиливает активность в слуховой зоне коры головного мозга, см.: Arnal L. H. et al. Human screams occupy a privileged niche in the communication soundscape // Current Biology. 2015. Vol. 25 (15). P. 2051–2056.
52. Truong K. P., Van Leeuwen D. A. Automatic discrimination between laughter and speech // Speech Communication. 2007. Vol. 49 (2). P. 144–158.
53. Цит. по: Lynn J., Jay A. The Complete Yes Minister: The Diaries of a Cabinet Minister, by the Right Hon. James Hacker MP. BBC Books, 1984.
54. BBC World Service. The Why Factor, «The Lie».
55. McNally L., Jackson A. L. Cooperation creates selection for tactical deception // Proceedings of the Royal Society B. 2013, July. Vol. 280 (1762). P. 20130699. The Royal Society.
Глава 8
1. Слова Барака Туровски, главы управления производством и пользовательскими запросами в Google Translate. -v-machine-robots-artificial-intelligence-cook-write.
2. Campbell-Kelly M. Programming the Mark I: Early programming activity at the University of Manchester // Annals of the History of Computing. 1980. Vol. 2 (2). P. 130–168.
3. There must be an Angel. On the Beginnings of Arithmetics of Rays // Transmediale. -must-be-an-angel-on-the-beginnings-of-arithmetics-of-rays.
4. Poetry and computational creativity // James Robert Lloyd. 2015. -2016–04–18-poetry-net.
5. Эта идея была мысленным экспериментом Тьюринга, а не конкретным планом теста. См.: Turing A. M. Computing machinery and intelligence // Mind. 1950. Vol. 59 (236). P. 433–460.
6. Jefferson G. The Mind of Mechanical Man // British Medical Journal. 1949. Vol. 1 (4616). P. 1105–1110.
7. Misztal-Radecka J., Indurkhya B. A blackboard system for generating poetry // Computer Science. 2016. Vol. 17 (2). P. 265.
8. Depression Part Two // Hyperbole and a half. -part-two.html.
9. Steinbeis N., Koelsch S. Understanding the intentions behind man-made products elicits neural activity in areas dedicated to mental state attribution // Cerebral Cortex. 2009. Vol. 19 (3). P. 619–623. Еще одно исследование в этой области показало, что музыка оценивалась ниже, если людям говорили, что она написана компьютером. Неудивительно, что такое предубеждение относительно компьютерных сочинений в наибольшей степени свойственно музыкантам. См.: Moffat D. C., Kelly M. An investigation into people’s bias against computational creativity in music composition // Proceedings of the 3rd International Joint Workshop on Computational Creativity. ECAI06 Workshop, Riva del Garda, Italy. 2006.
10. .
11. White E. M. Automated earnings stories multiply // AP. 2015. -earnings-stories-multiply. См. также: Benedictus L. Man v machine: can computers cook, write and paint better than us? // Guardian. 2016; AP expands Minor League Baseball coverage // AP. 2016. -releases/2016/ap-expands-minor-league-baseball-coverage.
12. Riedl M. O. Computational Narrative Intelligence: A Human-Centered Goal for Artificial Intelligence // arXiv preprint arXiv:1602.06484. 2016.
13. Можно найти на YouTube.
14. Boden M. A. The Creative Mind: Myths and Mechanisms. Psychology Press, 2004. P. 1–10.
15. В 2003 году в зоопарке Пейнтон попытались воспроизвести этот эксперимент с шестью черными павианами. В результате получили пять страниц текста, заполненных преимущественно буквой «с». См.: Adam D. Give six monkeys a computer, and what do you get? Certainly not the Bard // Guardian. 2003.
16. Компьютеры, создающие каламбуры и другие шутки с использованием игры слов, опираются на этот же тип творческой деятельности. См.: Ritchie G. Can Computers Create Humor? // AI Magazine. 2009. Vol. 30 (3). P. 71–81.
17. С использованием искусственного интеллекта был также создан короткий научно-фантастический фильм. См.: Newitz A. Movie written by AI algorithm turns out to be hilarious and intense // Ars Technica. 2016. -multiverse/2016/06/sunspring-movie-watch-written-by-ai-details-interview.
18. Llano M. T., Colton S., Hepworth R., Gow J. Automated fictional ideation via knowledge base manipulation // Cognitive Computation. 2016. Vol. 8 (2). P. 153–174.
19. Parkin S. Automatic authors: Making machines that tell tales // New Scientist. 2014. Vol. 2990.
20. Schwarm B. The Hebrides, Op. 26 // Britannica. 2013.
21. Более подробная схема повествования была создана с использованием системы PropperWryter в рамках исследовательского проекта под руководством доктора Пабло Херваса из Мадридского университета. См.: Colton S. et al. The beyond the fence musical and computer says show documentary // Proceedings of the International Conference on Computational Creativity. 2016. June.
22. В исходные данные случайно попали несколько рецензий на спектакли, поэтому нейронная сеть то и дело неожиданно начинала пародировать неграмотного критика. Один из абзацев, получившихся в результате работы машины, выглядел так: «Мелодия труппы и танцевальное музыкальное шоу, как может показаться, боятся возбуждения публики и анализирующей благосклонности хита, постановка которого – это The Boat of the Party and The Indian show («Лодка вечеринки и индийское шоу»), версия 2004 года.
23. Люди делают попытки разработать программы генерирования текстов для песен, например, см. в: Gongalo Oliveira H. Tra-la-lyrics 2.0: Automatic generation of song lyrics on a semantic domain // Journal of Artificial General Intelligence. 2015. Vol. 6 (1). P. 87–110.
24. Ghedini F., Pachet F., Roy P. Creating music and texts with flow machines // Multidisciplinary Contributions to the Science of Creative Thinking. Springer Singapore, 2016. P. 325–343.
25. Майкрософт и Кембриджский университет создали систему для написания очень коротких программ, заимствуя онлайн-код. Идея состоит в том, чтобы дать людям возможность описать идею программы, а затем поручить системе написать нужный код. См.: Balog M. et al. DeepCoder: Learning to Write Programs // arXiv preprint arXiv:1611.01989. 2016.
26. Metz C. AI is transforming Google Search. The rest of the web is next // Wired. 2016.
27. Cox T. J., D’Antonio P. Acoustic Absorbers and Diffusers: Theory, Design and Application. CRC Press, 2016.
28. Riedl M. O. The Lovelace 2.0 Test of Artificial Creativity and Intelligence // arXiv preprint arXiv:1410.6142. 2014.
29. Steadman I. IBM’s Watson is better at diagnosing cancer than human doctors // Wired. 2013. –02/11/ibm-watson-medical-doctor. Утверждают, что компьютер достиг среднего уровня знаний студента-второкурсника медицинского вуза. См.: IBM Watson Ushers in a New Era of Data-Driven Discoveries // IBM, 2014. https://www-03.ibm.com/press/us/en/pressrelease/44697.wss.
30. Кроме того, компьютер может устранить предвзятость исследователя, и именно по этой причине он начинает оказывать влияние на нейробиологию. См.: Lorenz R. et al. The automatic neuroscientist: a framework for optimizing experimental design with closed-loop real-time fMRI // NeuroImage. 2016. Vol. 129. P. 320–334.
31. Pullman, Philip // Oxford Encyclopedia of Children’s Literature, 2006.
32. Dijksterhuis A., Bos M. W., Nordgren L. F., Van Baaren R. B. On making the right choice: the deliberation-without-attention effect // Science. 2006. Vol. 311. P. 1005–1007.
33. Вплоть до более высоких уровней абстракции, например предугадать, как слушатели отреагируют на стишок, и предположить, кто следующим будет пробовать машину.
34. И эти процессы не просто прерогатива правого полушария, как утверждает популярный миф.
Фотоматериалы
Фото Томаса Эдисона предоставлено отделом гравюр и фотографий Библиотеки конгресса (/).
Оригинальное фото индейца пиеган – из коллекции Герберта Е. Френча, Библиотека Конгресса (). В книге используется версия Harris & Ewing ().
Рисунок слуховой системы человека основан на векторном файле (© Inductiveload, ), который является копией рисунка из: Chittka L., Brockmann A. Perception Space – The Final Frontier // PLOS Biology. 2005. Vol. 3 (4). P. e137. .
Голосовой тракт, измеренный фМРТ-сканером, воспроизводится с разрешения Дэниэла Аалто (Aalto D., Aaltonen O., Happonen R. P. et al. Large scale data acquisition of simultaneous MRI and speech // Applied Acoustics. 2014. Vol. 83. P. 64–75).
Френологическая иллюстрация из библиотеки Wellcome в Лондоне: The Phrenological Journal (“Know Thyself”), гравюра Dr E. Clark.
Современное изображение мозга с акцентом на установлении связей предоставлено Лабораторией нейровизуализации Центра биометрических изображений Мартинос. Проект Человеческий коннектом ().
Фотография эксперимента Пира заимствована из: Pear T. H. Voice and Personality. Chapman & Hall, 1931. P. 151.
Карта произношения слова scone на Британских островах воспроизводится с разрешения Адриана Лимана, Дэвида Бритена и Тэма Блэкстера.
Фотография головы манекена – Торстен Кринке (/).
Рисунок машины фон Кемпелена взят из кн.: Kempelen W. von. Mechanismus der menschlichen Sprache. Degen, 1791. S. 438. Фотография реплики воспроизводится с разрешения Фабиана Брекхейна и Юргена Трувейна.
Фотография Водера на Всемирной выставке из Публичной библиотеки Нью-Йорка, номер по каталогу ID (B-number): b11686556.
Фотография андроида Repliee Q2 сделана Максом Брауном (/)
Фотография из пьесы «Осколки: история любви» Стива Таннера, публикуется с разрешения театра Pipeline.
Проверка на детекторе лжи: фотография Эда Весткотта, предоставлена Американским отделением архива Energy Photo.
Фотографии диффузоров и их использования воспроизводятся по: Cox T. J., D’Antonio P. Acoustic Absorbers and Diffusers: Theory, Design and Application. CRC Press, 2016.
Примечания
1
Шекспир У. Генрих V. Акт III. Сцена 1. Перевод Е. Бируковой.
(обратно)2
Фраза Mad dog (бешеная собака), проигранная наоборот, превращается в God dam(n) (черт побери!). – Здесь и далее, если не указано иное, примеч. перев.
(обратно)3
Монолог Глостера из трагедии Шекспира «Ричард III». Перевод Е. Бируковой.
(обратно)4
На своем месте (лат.).
(обратно)5
Вера попросила меня разъяснить, что специально для этого исследования сумчатых не убивали, а использовали образцы, собранные для других проектов. – Примеч. автора.
(обратно)6
Между самой высокой частотой, которую может слышать млекопитающее, и размером его головы существует сильная зависимость. – Примеч. автора.
(обратно)7
Ушная раковина и отражение от плеча крайне важны для определения звука, доносящегося сверху, что имело большое значение для мелких грызунов, старавшихся укрыться в траве от больших динозавров над головой. – Примеч. автора.
(обратно)8
В системе наименований, используемых для описания эволюции человека, недавно произошли изменения, и это может вызвать путаницу. Термином «гоминини» обозначаются современные люди, вымершие человеческие виды и прочие прямые предки. «Гоминиды» – это более обширная группа, включающая человекообразных обезьян. – Примеч. автора.
(обратно)9
В Mr Blue Sky использовался вокодер. К сожалению, Daft Punk не раскрывают используемую технологию. В одной из следующих глав я рассмотрю двух потенциальных кандидатов. – Примеч. автора.
(обратно)10
Более того, если подъязычная кость в процессе эволюции меняла форму, чтобы обеспечить говорение, почему тогда подобные изменения не были скопированы в ходе развития человека? Evo-devo могла бы предугадать вероятные изменения в форме подъязычной кости у современных младенцев и мальчиков-подростков по мере того, как опускается их гортань, но этого не происходит. – Примеч. автора.
(обратно)11
Некоторые исследователи использовали важную роль пения в установлении связей между матерью и младенцем в качестве аргумента для подтверждения того, что половой отбор играл второстепенную роль в эволюции языка. В главе 2 более подробно рассказывается о материнском языке. – Примеч. автора.
(обратно)12
Теперь он вполне здоровый взрослый парень. – Примеч. автора.
(обратно)13
В научной литературе такой голос называется «ориентированная на ребенка речь». – Примеч. автора.
(обратно)14
Некоторые думают, что это преувеличение, но, несомненно, это соотношение именно такого порядка, особенно для мужчин: у них заикание бывает чаще. – Примеч. автора.
(обратно)15
Somewhere Over the Rainbow (Over the Rainbow) – «Где-то над радугой», баллада, написанная Г. Арленом и Э. Харбургом для мюзикла «Волшебник из страны Оз» (1939), визитная карточка Джуди Гарленд.
(обратно)16
Swing Low, Sweet Chariot – популярный американский негритянский госпел.
(обратно)17
В литературе имеются определенные предубеждения, поэтому почти все исследования проводились с мужчинами. Вот почему в этом разделе дается ограниченная информация о женщинах. – Примеч. автора.
(обратно)18
Bizarre – странный, эксцентричный (англ.).
(обратно)19
Как будет сказано далее, в определении пола по голосу, помимо высоты тона, играют роль и другие факторы. Поэтому, чтобы изменить все значимые аспекты голоса, потребуется специальное обучение. – Примеч. автора.
(обратно)20
Возможность говорить про себя имеет очевидные преимущества для выживания – только представьте себе попытку незаметно подкрасться к врагу, если каждую мысль, которая возникает в голове, вы произносите вслух! – Примеч. автора.
(обратно)21
По-русски эти лимерики будут звучать примерно так, но здесь языковая игра касается не территориальных вариантов произношения, а словесного ударения. 1. «Молодая бегунья из Бата / Споткнулась и шлепнулась задом; Ей никто не помог – / Тренер был очень строг / И отдал ее место Кэти там». 2. «Жила-была в Бате старушка, / Провожала сынка на пирушку; / Он ворота открыл – / И дружков своих сбил, / Джерри, Саймона, Гарри-лапушку». В переводе явление, которое обсуждает Тревор Кокс, примерно иллюстрируется последними строками: рифма соблюдается только при неправильном ударении в предпоследнем и последнем слове. Есть детский стишок, демонстрирующий эту игру: «Я сижу на берегу́, не могу поднять ногу́. – Не ногу́, а но́гу. – Ну, тогда не мо́гу».
(обратно)22
Простое объяснение, что эта самостоятельность возникает из-за бредовых убеждений людей, больных шизофренией, никак не объясняет случаи, когда люди слышат голоса, не будучи больными. – Примеч. автора.
(обратно)23
Русский вариант цитаты приводится по изданию: Цицерон Марк Туллий. Три трактата об ораторском искусстве / Под ред. М. Л. Гаспарова. М.: Наука, 1972.
(обратно)24
За исключением [р] перед согласными. Обычно об этом варианте произношения говорят так, как будто это единый, неизменяющийся акцент, но на самом деле у него есть варианты, и он изменился с течением времени. – Примеч. автора.
(обратно)25
Перевод цитаты: П. Мелкова, Н. Рахманова (предисловие и послесловие). В кн.: Бернард Шоу. Избранные произведения. М.: Панорама, 1993.
(обратно)26
Это старое исследование проводилось только в Англии, поэтому нет данных относительно других регионов Британских островов. – Примеч. автора.
(обратно)27
Русские пословицы заимствованы в качестве переводов из кн.: Беквит Гарри. Без раздумий / Пер. с англ. 2-е изд. М.: Альпина Паблишер, 2017.
(обратно)28
Это дословный перевод, в котором сохраняется свойство, обсуждаемое авторами цитируемой Тревором Коксом работы. Более соответствующим замыслу поэта, однако, представляется перевод Андрея Пустогарова: «Красота – это правда, утверждайте красоту».
(обратно)29
На YouTube можно найти множество таких музыкальных примеров. – Примеч. автора.
(обратно)30
В контексте песни эти слова означают «После туч обязательно появится солнце», хотя у данной строки есть и переносное значение: «Нет худа без добра».
(обратно)31
Если вы хотите послушать эту машину, в интернете можно найти несколько видеороликов, в Примечаниях имеются адреса соответствующих сайтов. Интернет-сайты можно найти и для поиска других устройств, которые описаны в этой главе. – Примеч. автора.
(обратно)32
Фраза из монолога Жака комедии Шекспира «Как вам это понравится» дана в переводе Т. Л. Щепкиной-Куперник.
(обратно)33
SIGSALY – это вымышленное название, а не аббревиатура. – Примеч. автора.
(обратно)34
Отрывок монолога дается в переводе М. Лозинского.
(обратно)35
Перевод С. Я. Маршака.
(обратно)36
Перевод Д. Иванова, В. Недошивина.
(обратно)37
WHL – Западная хоккейная лига.
(обратно)38
И это наука? – Примеч. автора.
(обратно)39
Например, они могут создавать ботов-терапевтов, которые имитируют терапевтические беседы. Имеются свидетельства того, что некоторые люди с большей охотой беседуют с техническим устройством, чем с врачом. – Примеч. автора.
(обратно)40
Перевод М. И. Чайковского.
(обратно)41
Не все «слова» в этом стихотворении – реальные, в нем есть и грамматические, и орфографические ошибки. Почему так получилось, станет ясно, когда будет описан метод создания текста. — Примеч. автора.
(обратно)42
Эти «предложения» уже можно попытаться перевести на русский язык: «Разве вы не приятны?» и «И так как я ухожу ты моя жизнь как земляные черви?».
(обратно)43
Часто говорят, что Холмс использует дедуктивный метод, но на самом деле это не так: он использует абдукцию. – Примеч. автора.
(обратно)44
Исследования подобного рода проводились в Советском Союзе еще в 80-e годы XX века. См., например: Журавлев А. П. Звук и смысл. М. : Просвещение, 1991; Горелов И. Н. Разговор с компьютером: Психолингвистический аспект проблемы. М. : Наука, 1987.
(обратно)45
BBC R&D (BBC Research & Development) – Национальный отдел технических исследований BBC.
(обратно)
Комментарии к книге «Зачем мы говорим», Тревор Кокс
Всего 0 комментариев