Прес-центр

Дата-платформа: індустріальна модель трансформації аналізу та обробки даних

01-12-2020

Наразі медійні дослідження відзначаються значним зростання обсягів даних та необхідністю оперативно їх обробляти, з’являється об’єктивна потреба дослідження даних з різних джерел, зокрема і крос-медійна аналітика. Медійний ринок потребує створення технологічної та методологічної платформи для обробки даних такого типу з архітектурою, яка б дозволила комплексно вирішувати завдання по крос-медіа аналізу.

Пропонуємо ознайомитись з одним із прикладів таких рішень – дата-платформа від Mediascope (технологічна дослідницька компанія на російському ринку медіавимірювань, моніторингу реклами та ЗМІ).

 

DATA PLATFORM: БАЧЕННЯ MEDIASCOPE 

Базовим у забезпеченні кросмедійних досліджень стало рішення Mediascope створити відкриту платформу, яка дозволить працювати з великим обсягом даних, вирішувати аналітичні та дослідницькі завдання не лише самому провайдеру (дослідницькій компанії, що поставляє ринку дані), але й іншим гравцям ринку.

Так, у 2020 р. Mediascope. запустила власну дата-платформу Data Platform, яка дозволяє зберігати та обробляти в уніфікованому вигляді різнорідні дані про медіаспоживання та поведінку споживача.

Першочергово у компанії Mediascope було кілька архітектурних вимог, однією з яких стало використання програмного забезпечення з відкритим кодом, що дозволило об’єднати дані Mediascope та зовнішні вхідні дані від партнерів чи самих клієнтів.

Компанія позиціонує створення такої відкритої платформу як один із елементів розбудови індустріальної моделі обробки даних та переходу до data driven моделі.

 

СУТЬ DATA PLATFORM 

Фундаментом підходу у створенні дата-платформи стала концепція Data Science, як набір інструментів і технологій, комплексний напрямок дослідницької діяльності. Саме тому при розробці платформи використовували стек технологій з метою вироблення гнучкого інструментарію, що дозволяє швидко отримувати та розподіляти дані, будувати на їх основі розрахунки, але при цьому - контролювати якість одержуваних даних.

Основними цілями дата-платформи стали: підвищення якості даних та обчислень в діючих клієнтських моделях та підвищення якості клієнтських розміщень (планування, оптимізація та ін.). Для досягнення вказаних цілей платформа повинна забезпечити перенесення роботи в єдиний простір даних для пошуку нових рішень, алгоритмів та інсайті, що повинно забезпечуватись принципово новими алгоритмічними big data продуктами.

Саме тому в дата-платформі Mediascope не лише консолідуються дані, але й інструменти для їх аналізу та створення агрегатів (прим.авт. - результатів обробки) даних, зберігання отриманих агрегатів, забезпечення простого, але надійного доступу до цих агрегатів.

Дата-платформа – високопродуктивна система, що функціонує в умовах великої кількості процесів, де основною площиною для раціоналізованої роботи з даними є DataLab.

Проект DataLab забезпечує доступ до «сирих» даних на платформі в межах єдиної технічної площини (т.з. «пісочниці»). За допомогою чого клієнти компанії можуть вільно аналізувати та оперувати різними типами та пластами даних від різних медіа одночасно, визначати взаємозв’язок між ними, тестувати маркетингові гіпотези, інсайти та вибудовувати нові алгоритмічні продукти на основі цих даних.

Це дозволяє прискорити, поглибити та персоналізувати аналітику в крос-медійному середовищі.

*зображення подане за матеріалами публічної презентації Data Platform, офіційний сайт Mediascope

Важливим елементом дата-платформи є те, що клієнти мають доступ не лише до «сирих» даних, але і до математичних сертифікованих self-service інструментів (наприклад, fusion).

Всі транзакційні дані обробляються в потоковому режимі near real-time аналітики, що забезпечує максимально швидкий доступ до цієї інформації.

Це дозволяє співставляти дані, оперативно та уніфіковано аналізувати інформацію з різних джерел, включаючи клієнтські дані, та на їх основі будувати різні атрибуційні моделі, в тому числі впливу рекламної комунікації на користувача онлайн-сервісів, так і на споживчу поведінку і онлайн офлайн продажу.

В основу DataLab закладена індустріальна модель даних, побудована у вигляді event log, яка містить всю інформацію про контакти індивіда з медіа та рекламою, а також його інтереси, уподобання та споживацьку поведінку. Така єдина структура подій event log медіаспоживання забезпечує можливість отримання цілісної, всебічної предметно-орієнтованої аналітики, що, фактично, спрощує пошук та доступ до готових даних.

При цьому, дата платформа має централізований сервіс контроля якості даних через організований процес – data governance, що розроблений підтримувати та управляти якістю аналітики.  

 

АРХІТЕКТУРА І ІНФРАСТРУКТУРА ДАТА-ПЛАТФОРМИ

Технічна інфраструктура Data Platform від Mediascope складається з:

- open source;

- 2 дата-центри;

- хмарне сховище для роботи з великими обсягами даних SberCloud (прим.авт.  хмарна платформа Групи Сбербанк, що надає послуги на it-базі найбільшого банку РФ, СНД та Східної Європи), що підтримується в партнерстві з компанією Huawei.

Технічна та it-системи:

- розроблена на базі проекту Hadoop та його екосистеми, зокрема Hadoop Hortonworks як середовище зберігання робочих даних;

- для роботи з великими даними та стрімінгової обробки та засобу доставки даних - утиліта Kafka;

- Spark - фреймворк для обчислень;

- інших інструментів потокового обчислення, інструменти self-service аналітики.

*зображення подане за матеріалами публічної презентації Data Platform, офіційний сайт Mediascope 

Для проведення аудиту Mediascope вибрала компанію Softline спільно з «Інфосекьюріті» (входить у ГК Softline).

Клієнти вже розпочали працювати з дата-платформою в тестовому дослідницькому режимі. Data Platform використовується в комерційній поставці даних з 2020 р.


Загальними перевагами дата-платформи такого типу можна назвати наступні:

- Несуперечливі дані з різних медійний джерел в одній робочій площині;

- Збагачення основних даних медіадосліджень (провайдера) даними з інших джерел, зокрема партнерів та клієнтів;

- Інструменти швидкої аналітики для консолідації, обробки та аналізу даних, а також перевірки гіпотез та пошуку закономірностей чи інсайтів;

- Open api (універсальний інтерфейс для роботи з функціонально різним програмним забезпеченням та даними) /гнучкість та персоналізація в доставці даних.

 

 

У публікації використані наступні джерела:

 -https://mediascope.net/news/1231592/

-https://www.cnews.ru/special_project/2020/mediascope/

-https://mediascope.net/news/1224085/?sphrase_id=211246

-https://bit.ly/2Jtxo2L 

 

*Матеріали підготовлені ІТК. У разі виникнення запитань чи рекомендацій щодо змісту публікації - звертайтесь.