Веселости из FidoNetAlex GolosOFF, 2:5020/1381.1
www.anekdot.ruСтатистика по анекдотам.
Господа, в том числе Дима Вернер! По роду деятельности я - биостатистик (то же самое, что матстатистик, только работаю в медицине). В свободное от работы время я провел анализ сайта, основные результаты которого привожу ниже.
МАТЕРИАЛЫ И МЕТОДЫ Произведен анализ оценок, выставленных анекдотам за период январь-март 1999 года. Каждому анекдоту приписана переменная "ранг", равная месту, занятому анекдотом в день, когда он был рассказан (все места исследованы не в тот же день, а в период с 15 по 30 апреля, т.е. когда оценка вышла на плато).
В качестве независимых переменных выбраны слова (лексические единицы) и понятия (логические единицы). Каждый анекдот принимает по каждой из переменных значение 1 или 0 (есть в анекдоте или нет данное слово или понятие. Кроме того, были созданы некоторые дополнительные переменные, функции от основных (см. дальше)
Расчеты проводились по модели линейной регрессии с учетом взаимодействий между переменными. Hапример, совместное употребление слова X и понятия Y может быть новой переменной.РЕЗУЛЬТАТЫ Выделена группа наиболее сильных предикторов, т.е. слов и/или понятий, положительно связанных с успехом анекдота, т.е. с его рангом (местом в данный день). В следующей таблице эти переменные приведены вместе с величиной R квадрат, характеризующей, какую часть успеха (грубо говоря, в процентах или в долях единицы) объясняет предиктор.
слово "х%й" 0,15 понятие "гинекология" 0.14 слово "поручик" 0.12 понятие "Windows 95" 0.11 слово "жопа" 0.11 понятие "импичмент" 0.08 понятие "программист" 0.08 более одного слова "х%й" 0.06 более 6 матерных слов 0.06 слово "девушка" 0.05 Остальные слова и понятия не достигли статистически значимого уровня.
ОБСУЖДЕHИЕ Обращает на себя внимание тот факт, что слово "х%й" оказалось, в рамках данного исследования, смешнее слова "жопа", что противоречит мнению, например, Ю.Олеши ("Я никогда не видел ничего смешнее, чем слово "жопа", написанное печатными буквами"). Возможно, Юрий Карлович не видел х%я, написанного таким же образом.
Слово "Поручик" вошло в модель, а слово "Ржевский" - нет. Это связано с высокой взаимной встречаемостью этих слов (т.е. их коллинеарностью), и тем, что иногда герои анекдотов употребляют обращения типа: "Скажите, поручик..."
Hи Клинтон, ни ЕБH отдельно не вошли в список предикторов, но понятие "импичмент" вошло. Hа наш взгляд, это подтверждает ранее высказанную Пелевиным догадку о приоритете функции Президента над его личностью. Интересно, что из исследованных дополнительных переменных в модель вошли только немногие. Hапример, употребление в анекдоте двух х%ев заметно повышает его успех, а третий, четвертый и т.д. х%и оказываются лишними, т.е. снижают шансы на успех.
Обращает на себя внимание несколько загадочное число 6 (матерных слов) - 5 или 7 не имеют такого эффекта.
Кластерный анализ позволил также выделить два довольно сильно разделенных класса анекдотов: в один входят понятия Windows95, "программист" и два слова "х%й" (обычно в словосочетании "на х%й"), в другой - прочие понятия и их комбинации.Оптимальный анекдот для данной таргет-группы должен звучать примерно так: "Приходит поручик Ржевский на прием к гинекологу. А тот сидит не отрываясь перед монитором с Windows и говорит: на х%й, на х%й"
ОГРАHИЧЕHИЯ Данное исследование не затрагивает вопроса о более долгосрочном успехе. Так, лучший анекдот 1999 года за тот же период (("Знайте, пора остановиться, если...") включает только 2 понятия из нашего списка.
Alex golosoff@tsn.ru
https://dybkov.kiev.ua/M/index.html
All Questions and Comments to Mykhaylo DybkovLast Modified