В то время как вы читаете это предложение, в мире появляются более
тысячи новых твитов и море новых постов в блогах. Большинство из этой
информации является ничего не значащей чепухой: это "лытдыбр" и
сплетни, неинтересные никому, кроме их участников. Но, несмотря на все
это, можно использовать такой поток информации, чтобы делать прогнозы
по поводу социальных и экономических тенденций, которые затрагивают нас
всех.
Интерес
к предсказаниям на основе анализа данных Сети появился около года
назад, когда исследователи из Google использовали периодичность тех или
иных поисковых запросов, чтобы предсказать динамику цен на
недвижимость, автомобили и другие товары. Этой теме посвящена статья
портала New Scientist в переводе "Руформатора".
В своих
исследованиях Хэл Вэриан (Hal Varian), ведущий экономист Google, и его
коллега Цой Хен Йон (Choi Hyunyoung) показали, как массивы поисковых
данных по некоторым продуктам, таким как типы автомобилей, поднимались
и опускались в рейтинге в соответствии с ежемесячными продажами. Google
ведет обширные хроники того, что в настоящее время ищут люди, и вся эта
информация доступна практически мгновенно. Это может сделать метод
Вэриана и Цоя куда более быстрым, чем традиционные способы исследования
покупательских предпочтений и прогнозы продаж, которые часто создаются
с учетом приобретенных ранее моделей.
Другие исследователи
анализировали поисковые запросы по всем типам поведения. В конце 2009
года экономисты Банка Италии показали, что тонны поисковых запросов
вроде "как искать работу" являются хорошим индикатором предстоящих
изменений показателя уровня безработицы в США. Исследователи Рурского
университета в Бохуме, Германия, показали, что отслеживание поисковых
запросов в Google по поводу товаров народного потребления позволяет
лучше прогнозировать уровень розничных продаж в США по сравнению с
традиционными методами опросов пользователей - так называемого индекса
потребительского доверия.
Другие источники информации, наподобие
постов в блогах и твитов, тоже имеют значение, и большое количество
разных тем означает, что может быть изучено больше различных аспектов.
"Возможности просто невероятны",- говорит Джозеф Энгельберг (Joseph
Engelberg), финансовый исследователь Университета Северной Каролины в
Чапел-Хилл.
Твиты могут доказать пользу и политических опросов. Брайан Рутледж
(Brian Rutledge) и его коллеги из Университета Карнеги Меллон в
Питтсбурге, Пенсильвания, запустили анализ настроений в твитах в момент
предвыборной борьбы 2008 года за президентское кресло США, чтобы
попытаться предугадать результаты выборов.
Исследователи
обнаружили, что этот рейтинг Twitter позволяет внимательней следить и
за традиционными формами опросов. И хотя это не может положительно
повлиять на их точность, но это показывает, как Twitter может
обеспечить дешевую и быструю альтернативу обычным поллам, добавил
Рутледж.
Посты в блогах могут быть использованы и для
предсказаний курсов на фондовых биржах, утверждают Эрик Гилберт (Eric
Gilbert) и Кэрри Карахалиос (Karrie Karahalios) из Университета
Иллинойса в Урбана-Шампейне, которые представили свои исследования в
прошлом месяце на Международной конференции по веб-блогам и социальным
медиа в Вашингтоне, округ Колумбия.
Они использовали более 20
млн постов в ЖЖ для создания "индекса настроения жителей США", который
они назвали "Индекс страха". Он является отражением частоты
использования в блогах слов, относящихся к арестам, например, "нервно".
Гилберт и Карахалиос описали, как они использовали индекс для улучшения
предсказаний колебаний S&P 500, индекса фондовой биржи, который
базируется на основе мнений крупных компаний в США. Этот индекс может
быть предсказан с высоким уровнем точности, используя модель, которая
обрабатывает цены на бирже за последние три дня. Гилберт и Карахалиос
обнаружили, что когда "Индекс страха" резко возрастает, S&P 500 к
концу дня обязательно снижается, вне зависимости от того, что
происходило в предыдущие три дня. Это показывает, как говорят
исследователи, что индекс может быть использован как очень хороший
индикатор поведения экономики. "Блоги обеспечивают образец того, что
происходит в обществе", - отметил Гилберт.
Посты в Twitter могут
обладать похожей силой. Йохан Боллен (Johan Bollen) и его коллеги из
Университета Индианы в Блумингтоне создали "рейтинг беспокойства",
основываясь на анализе сотен миллионов твитов жителей США. Их
исследования пока еще не опубликованы, но Боллен говорит, что они
обнаружили изменение рейтинга в сторону увеличения на шкале,
скоррелированной с падением цен на бирже. "Мы поражены, - говорит он. -
Мы не думали, что это может быть настолько предсказуемо".
Это
произошло потому, что очень мало твитов действительно посвящены биржам.
Вместо этого появляются сообщения о "национальном настроении", которые
в массе влияют на решения о покупке и продаже акций.
Такие
знания могут быть полезны для брокеров. Они будут менее подвержены
опасности, если знают, что потребители настроены пессимистично,
например, из-за того, что их расходы составляют большую часть бюджета.
Еще
одна группа, которая может воспользоваться результатами подобных
исследований, -это хедж-фонды. Для них неправильные предсказания могут
стоить миллионы долларов. Энгельберг анализирует ключевые слова в
поисковых системах для прогнозирования поведения рынка, и ему было
предложено представить свои результаты главе нью-йоркского хедж-фонда в
этом месяце. "Они были хорошо знакомы с данными, - говорит он. - У меня
сложилось ощущение, что они уже используют их".
Вполне вероятно,
что сила предсказаний с помощью этих методов будет возрастать по мере
того, как исследователи будут разрабатывать все более сложные способы
оценки эмоционального содержания блогов и твитов. Например, вполне
возможно, что Гилберт и Карахалиос отладят свой "Индекс страха" для
мониторинга более широкого спектра эмоциональных сигналов.
Другие
исследователи, однако, настроены скептически в отношении блогов и
твитов. Пол Тетлок (Paul Tetlock) из Колумбийского Университета в
Нью-Йорке исследовал, как фондовые рынки подвергаются влиянию
неожиданных событий. В 2007 году он доказал, что мнения, отраженные в
колонках Wall Street Journal, могут влиять на поведение фондового рынка.
Проблема
с использованием анализа настроений в блогах и тому подобных средствах,
по словам Тетлока, заключается в том, что они имеют лишь косвенное
отношение к принимаемым решениям на биржах. "Человек, сообщающий о
своем беспокойстве в блоге или твите, может питать неприязнь к торговым
рискам. А может и не питать, - говорит он. - Кроме того, люди на многих
этих сайтах еще являются детьми, и общее беспокойство, вероятно, слабо
коррелирует с поведением их родителей".
Поисковые запросы, с
другой стороны, "действительно перспективны" в сфере прогнозирования
поведения рынка, говорит Тетлок. Они являются прямым показателем того,
на что люди обращают внимание, и поэтому, вероятно, могут быть
скоррелированы с поведением в реальном мире.
Текст: Артур Лоянич