Искусственный интеллект смог уловить «смешинку» в словах

0

Исследователи из США и Великобритании решили проверить, сможет ли искусственный интеллект отличать «смешные» слова от «несмешных». Оказалось, что может, и не только это: машину также научили выделять слова, забавные для определенных групп людей — например, мужчин, женщин или стариков.

В последнее время искусственный интеллект часто используют для решения разных лингвистических задач, в частности, для усовершенствования машинного перевода или программ вроде чат-ботов. Ученые достигли в этой области определенных успехов, однако заменить человека ИИ до сих пор не может. Особенно в таких специфических вещах, как понимание юмора.

Чтобы научить искусственный интеллект понимать юмор хотя бы на уровне отдельных слов, ученым из Оксфордского университета, Microsoft Research и стартапа TRASH нужно было понять, какие характеристики слов делают их смешными. Для этого авторы изучили теории юмора и выделили шесть основных свойств, которые присущи «смешным» словам. Согласно этой формализации, такие слова должны (а) забавно звучать; (б) представлять собой неожиданные сочетания уже существующих слов или разговорные выражения; или (в) быть связаны с ругательствами, сексом или экскрементами.

Ученые использовали популярный у исследователей искусственного интеллекта алгоритм word2vec, который строит векторные представления слов, и массив данных, собранный Томасом Энгельталером и Томасом Хиллсом. В последнем содержится 4997 слов, забавность которых по шкале от 1 до 5 оценивали через краудсорсинговую онлайн-платформу более 800 человек. Алгоритм определял, как забавность того или иного слова коррелирует со средним уровнем оценки юмора. Однако этого результата ученым оказалось недостаточно.

В следующем этапе работы авторы хотели научить ИИ лучше разбираться в том, какие слова разные люди находят смешными, и собрать небольшой массив самых смешных слов, который основывался бы на оценках большого количества людей. Для этого они собрали подмассив данных из 120 тысяч слов, основанный на датасете Google News. С помощью онлайн-платформы Mechanical Turk исследователи набрали около 1 700 добровольцев, которые выбирали из представленных самые смешные слова. В основном это были работающие американцы, хорошо говорящие на английском языке. В каждом случае добровольцу показывали шесть слов, из которых он должен был выбрать одно, самое смешное. Таким образом из 120 тысяч добровольцы выбрали 8120, и далее, уже из них выделили 216 самых смешных слов. Среди них были, например, whakapapa (слово маорийского происхождения, обозначающее перечень предков), boobies (оно означает птиц олушей, либо, в просторечии, «болваны, олухи») или schmaltzy (прилагательное, обозначающее чересчур сентиментального человека).

Далее в дело вступал искусственный интеллект. С его помощью исследователи проверяли, насколько оценки людей коррелировали с теоретическими характеристиками смешных слов. Кроме того (собственно, это было главной целью работы), авторы выяснили, что алгоритм ИИ на основе уже имеющихся оценок может понять, что неизвестное ему слово забавное или, напротив, несмешное. Также ИИ смог отличить слова, которые показались бы более или менее смешными мужчинам или женщинам, молодежи или людям постарше. Но ограничения все же остались.

«До сих пор ИИ не может понять юмор, заключенный в предложениях или еще более длинных текстах, но мы надеемся, что наша работа будет отправной точкой для подобных исследований», — отмечает один из авторов работы, главный научный сотрудник Microsoft Research Адам Тауман Калаи.

Исследователи планируют сделать полученные данные общедоступными. Они считают, что их работа будет полезна авторам юмористическиих текстов, а также разработчикам чат-ботов, которым нужно подстраиваться под разговор с разными собеседниками.