Наука про дані дає можливість спрогнозувати, який продукт ви придбаєте або за кого проголосуєте. Це галузь, яка швидко розвивається і яка не зупиниться
Політичні кампанії – це рекламні кампанії, спрямовані на те, щоб переконати виборців проголосувати за певного кандидата, зазначив директор політтехнологічної компанії The Office of Jason Jay Smart, LLC Джейсон Джей Смарт.
Нещодавно вийшов новий фільм під назвою "Великий злам" (The great hack), який викликав бурхливу реакцію – у всьому світі людей стало мучити питання, у який же спосіб науку про дані (data science) – або, як її називають, "великі дані" (big data) – використовувала компанія Cambridge Analytica на президентських виборах 2016 року у США та під час багатьох інших переможних виборчих кампаній по всій планеті. Річ у тім, що Cambridge Analytica, яка наразі є найвідомішою компанією у сфері роботи з даними, пропонувала сервіси, що не дуже й відрізнялися від сотень інших корпорацій у всьому світі. Розповіді про "чари" Cambridge Analytica було підкріплено тим, що вони допомогли обратися президенту Трампу, а також перемогти у голосуванні за Brexit кампанії "Голосуй за вихід".
По суті, наука про дані – це аналіз великих обсягів даних про події, що сталися, із метою створення кореляцій, які дають можливість прогнозувати майбутні події. У разі комерційних і політичних кампаній вони одержують ці дані від постачальників, котрі продають їх фірмам, які займаються аналізом цих даних (як Cambridge Analytica). Фільм звертає увагу на той важливий факт, що ваші дані не було вкрадено: переважно люди самі їх надають продавцям. Саме тому юридичний текст заявки та документи для видавання таких речей, як дисконтні картки магазинів (саме тому магазини і надають дисконтні картки – заради підвищення лояльності і створення профілю про те, які придбання ви швидше будете робити), кредитні картки (зацікавлені фірми можуть легально купити дані про ваші придбання, хоча їх продають без прив'язки до вашого імені), протоколи виборів, документи про освіту, записи про придбання, що підлягають зберіганню в державних архівах (наприклад, землі) і дані соціальних мереж – скрізь є попередження про відмову від відповідальності, згідно з яким інформація буде у відкритому доступі, або її можуть використовувати для інших комерційних цілей, щойно ви підпишетеся/погодитеся.
Знову ж таки, наука про дані не настільки страшна, як її малюють: це просто використання статистики для встановлення кореляції між змінними у спробі передбачити ймовірність того, що ви вчините якісь дії (наприклад, придбаєте конкретний продукт чи проголосуєте за конкретного кандидата). Для ілюстрації науки про дані в тому вигляді,у якому її використовують у комерції, візьмемо приклад дисконтних карток в аптеках. Уявіть собі жінку, яка заповнює форму на отримання такої картки в місцевій аптеці: вона вказує своє ім'я, адресу (залежно від того, де/як вона живе, можна зробити багато оцінок і висновків щодо її соціально-економічного класу), а також номер телефону.
Далі логіка така: якщо вона регулярно купує дитячі підгузки – велика ймовірність того, що в неї є дитина. Якщо вона купує вдвічі більше підгузків, ніж звичайна матір, то велика ймовірність того, що в неї дві дитини. Якщо вона кожного місяця купує дві дорослі зубні щітки й удвічі більше зубної пасти, ніж звичайний споживач, – імовірність того, що вона заміжня, вища. Якщо вона перестане купувати контрацептиви і почне купувати тести на вагітність, є велика ймовірність того, що вона намагається завести дитину. Якщо незабаром після цього вона перестає щомісяця купувати прокладки – це велика вірогідність того, що їй удалося завагітніти... І це ми ще не говоримо про те, що може передбачити список ліків, які ви купуєте.
Дехто міг би поскаржитися, що такі дані є особистими і навіть інтимними, і що ніхто не може мати на них права. Однак, незважаючи на особистісний характер, це ті дані, які було добровільно передано аптеці в обмін на знижку: гіпотетична "вона" заповнила бланк, ідентифікувавши себе і давши згоду на те, що її придбання можуть відслідковувати. Уявімо, як багато всього іншого можна було б припустити про неї, якби в нас були дані її кредитних карток, виписки за страховкою, документи про членство у профспілці, перелік газет, які вона купує, інформація з інших знижкових карток (наприклад, у продуктовий магазин, на АЗС, у кафе тощо).
Незважаючи на те, що доступ до даних Facebook нині більш ускладнено, дані "ВКонтакте" і "Одноклассников" залишаються легкодоступними, а звідти ми знаємо – хто ваші друзі і до яких груп ви приєдналися. З огляду на те, які групи у соціальних мережах ви лайкнули, наука про дані може передбачити, хто з ваших друзів, швидше за все, поділяє з вами політичні вподобання. Ми також можемо передбачити, хто з ваших друзів найвпливовіший (такий собі лідер думки), тим самим даючи нам зрозуміти, хто становить найбільшу цінність для реклами, оскільки має великий вплив на свої контакти.
Відповідь на запитання, чому це має стосунок до політики, не огидна і не страшна, а вкрай проста: політичні кампанії – це всього лише рекламні кампанії, спрямовані на те, щоб переконати виборців проголосувати за кандидата X і не голосувати за кандидата Y. Саме тому під час політкампаній проводять опитування громадської думки: якщо ми знаємо, що чоловіки віком 25–35 років, які проживають у сільській місцевості, зацікавлені в економіці, найчастіше збираються голосувати за нашого кандидата, то ми маємо провести фокус-групи, щоб з'ясувати, який саме аспект економіки найбільше їх (знову ж, чоловіків 25–35 років, сільська місцевість) цікавить, щоб можна було розробити брошури, рекламні щити й оголошення в соцмережах, які будуть їм цікаві. Але це не говорить нам про те, які ці люди: що їм подобається? Що рухає їхнім інтересом? Які аспекти економіки чинять на них найбільший вплив?
Тепер, завдяки науці даних, ми можемо піти ще далі й не тільки розглядати дуже широкі змінні (як вік, стать, місце проживання тощо), але дивитися ще глибше, наприклад: "чоловіки 25–30 років, які живуть на бульварі Тараса Шевченка, але не на проспекті Перемоги в Києві, які працюють на заводі "Більшовик", але не є членами профспілки, мають середню 10/11-річну освіту, не одружені, але мають одну дитину, у яких немає машини, які читають "Обозреватель" і "ГОРДОН", у повсякденні спілкуються українською, люблять полювання і найбільше турбуються про інфляцію та ціни на продукти", найімовірніше, проголосують за нашого кандидата. Тоді ми знаємо – щоб досягти успіху в переконанні цих виборців, наша найкраща стратегія – це створити агітматеріали і рекламу, які будуть демонструвати, що наш кандидат контролює зростання цін на споживчі товари для людей робітничого класу, які проживають там-то й там-то, у яких є дитина, і ці матеріали буде написано українською. Отже, кожен окремий сегмент суспільства розбивають на ще вужчі категорії для того, щоб зрозуміти, як краще на них можна вплинути.
У кожному з випадків реклама, яку виборець побачить у соціальних мережах, буде про людей, схожих на нього (картинка показуватиме людину того самого віку, раси, рівня достатку, із такою самою кількістю дітей тощо) і з меседжем, найбільш важливим конкретно для нього на цих виборах (чи то споживчі ціни, дороги, школи, податки, зовнішня політика чи щось інше). Якщо ми покажемо їм повідомлення на тему, яка виборцю байдужа, або покажемо людей, до яких вони не мають стосунку (бідний 75-річний чоловік хоче бачити людей похилого віку, на нього не здійснить позитивного впливу реклама, у якій багаті діти граються із своєю 24-річною матір'ю з високим рівнем доходу) – це не дасть позитивного результату в переконуванні. навіть більше, така реклама може нашкодити й відвернути виборців від нас.
Якщо це звучить приголомшливо – так воно і є. Якщо це звучить дуже складно – так воно і є. Щоб дати уявлення про те, наскільки саме це складно: моя політконсалтингова компанія підписала контракт із Cambridge Analytica у 2016 році (консалтинг із процесу виборів президента США). Cambridge Analytica (у межах цієї кампанії) складалася із 12 осіб: усі вони були докторами наук у галузях математики (переважно в астрофізиці), у них були ступені докторів наук престижних університетів (переважно Кембриджу), вони працювали цілодобово, щоб визначити статистичні дані, на підставі яких можна було б зробити висновки щодо аудиторії.
Хоча внутрішня цінність деяких кореляцій невисока (наприклад, виборці-республіканці частіше п'ють пиво, ніж вино), є й інші зв'язки, вельми цінні (наприклад, виборці Республіканської партії з більшою ймовірністю будуть дивитися телевізор рано ввечері, ніж пізно, – це означає, що мільйони доларів, витрачені нами на телевізійну рекламу, було зосереджено на тих часових слотах і телепрограмах, які йшли пізно ввечері – їх із більшою ймовірністю могли дивитися наші виборці). Аналіз також засвідчив, які саме теми становлять найбільший інтерес для наших потенційних виборців – ми точно знали, які брошури маємо надіслати їм поштою, яке послання волонтери будуть їм читати під час обходу від дверей до дверей, і яку рекламу вони мають побачити в соціальних мережах.
Отже, коли волонтер стукав у їхні двері, додаток для iPhone чи Android, який ми розробили, давав змогу волонтеру клікнути місцеперебування: наприклад, "вул. Головна, 123, кв. 1". Якби містер Сміт відкрив двері, фахівці зі збору даних уже (попередньо) підрахували, що волонтеру потрібно буде прочитати підготовлений текст, у якому обговорюється інфляція серед споживачів і необхідна підтримка містера Сміта, оскільки є 63% ймовірність, що містера Сміта можна переконати проголосувати за нас. Однак якби двері відкрила місіс Сміт, наші розрахунки показали б, що волонтер має прочитати текст про необхідність поліпшення доріг, і що ймовірність того, що вона голосуватиме за нас, становила б уже 92% (була б вищою). Тут суть повідомлення полягала не в переконанні голосувати за нас, а просто в нагадуванні їй про важливість голосування в день виборів.
Якби розрахунки показали, що ймовірність того, що містер Сміт-молодший, який відкрив двері, проголосує за нас, становить 0% (тому що він не голосує), ми б просто дали йому брошуру, не витрачали б час та пішли. Оскільки мета виборів – максимально використати ресурси (час і гроші), щоб набрати якнайбільше голосів – той, хто не голосує або голосує проти нас, не коштує цих ресурсів. Якби було 85% шансу, що Сміт-молодший проголосує проти нас на виборах, можна було б замість брошур залишити йому інформацію про те, чому кандидат, якому він віддає перевагу, насправді поганий вибір, – так би ми збільшили шанс того, що в день виборів він залишиться вдома і не буде голосувати ні проти нас, ні за іншого кандидата, тим самим не псуючи розрахованих нами підсумків виборів.
Так, хтось може поскаржитися, що все це – вторгнення у приватне життя, але тут я б запитав: чому ви вирішили зробити інформацію доступною для бізнесів? Якщо ви не хочете ділитися нею – ви завжди можете відмовитися від дисконтної картки. Навіть більше, я б сказав, що майже всі серйозні кампанії в усьому світі вже почали використовувати цю технологію з тієї самої причини, що й усі великі фірми (аптеки, пошукові системи, Facebook, продуктові магазини) використовують науку про дані протягом стількох років: це ефективно. Так клієнт/виборець одержує найкраще обслуговування від компанії. Наука про дані – це галузь, яка швидко розвивається і яка не зупиниться. Тому, замість того щоб питати політиків, добре це чи погано, треба прийняти це як факт і з'ясувати, як (і з допомогою кого – досвідченого політконсультанта) використовувати це у своїх кампаніях, тому що опоненти, імовірно, уже впровадили "великі дані" у свою стратегію.
Джерело: "ГОРДОН"