Платформа даних: рекомендації та типові помилки

10 травня
Олексій Уткін, провідний експерт фінансової практики DataArt
Платформа даних: рекомендації та типові помилки
Якщо вам доводиться мати справу з великими обсягами даних, є підстави підозрювати, що механізми їхньої обробки є недосконалими. Вибрати придатну платформу даних — непроста задача. Сподіваюсь, ця інструкція допоможе намітити план її пошуку та впровадження, уникнувши найпоширеніших помилок. Дотримуючись базових рекомендацій, можна отримати перші результати через кілька тижнів, а не місяців, та отримати від MVP-рішення максимальну користь.

КРОК 1. РОЗБЕРІТЬСЯ, ЧИ ПОТРІБНА ВАМ ДОПОМОГА ЗЗОВНІ

Хмарні рішення для обробки даних є нестандартними проектами, довіряти їхнє впровадження внутрішньому IT-відділу — серйозний ризик. Брак досвіду призводить до перевитрати часу, а отже, і грошей, але головне — результатом завжди може виявитися лише копія знайомого локального ПЗ, механічно перенесена у хмарне сховище. Тобто позбутись обмежень власними силами часто не вдається.

Перевага власних співробітників полягає у глибокому знанні внутрішніх процесів. І максимального результату, найімовірніше, дозволить досягти об'єднання їхніх зусиль з досвідом зовнішніх консультантів, здатних полегшити процес міграції. Така співпраця може значно скоротити витрати на розробку та інфраструктуру, а також дозволяє бізнесу усвідомлено підійти до кожного з аспектів проектування.

Не варто: Покладатися лише на внутрішні ресурси — ризик перевищити бюджет і не отримати бажаного результату є дуже високим.

Потрібно: Знайти консультанта, здатного підібрати архітектурний шаблон, придатний для вашого випадку. Це дозволить прискорити міграцію, зняти проблемні обмеження та не платити хмарним сервісам за послуги, які вам не знадобляться.

КРОК 2: УЗГОДЬТЕ СТРАТЕГІЮ І ТАКТИКУ

Команда, відповідальна за міграцію, має детально розписати майбутній процес, враховуючи кінцеву бізнес-задачу. Стратегія і тактика мають бути зафіксовані письмово — у вигляді, який влаштує і розробників, і тих, кому в підсумку доведеться експлуатувати систему.

Якщо зв'язок між командою розробки та бізнесом буде порушено, є ризик, що:

  • За час розробки потреби бізнесу зміняться.
  • Бізнес не зможе швидко пристосуватися до загального обсягу змін.
  • Підсумкове рішення виявиться зовсім не таким, яким уявляв його бізнес.

Не варто: Робити ставку на радикальні зміни. Це загрожує довгим очікуванням виходу на ринок, низькою продуктивністю та надмірними витратами.

Потрібно: Зрозуміти цінність рішення бізнесу, визначити ітерації розробки, процес впровадження, подальший розвиток платформи. На основі спілкування зі стейкхолдерами IT-команда має скласти успішний сценарій і тільки потім переходити до технічних моментів.

КРОК 3. ОЦІНІТЬ ПОТОЧНИЙ І ЦІЛЬОВИЙ СТАНИ

На цьому етапі ваша задача — визначити критерії оцінки ефективності рішення для обробки даних та співвіднести їх з успішним бізнес-сценарієм. Лише таким чином уже після інтеграції ви зможете зрозуміти, чи відповідає нова платформа вашим очікуванням.

Не варто: Поспішати з запуском проекту, не розібравшись, як оцінювати його успіх у майбутньому. Самі собою розробка та інтеграція нової платформи вам навряд потрібні — питання в тому, чи розв’яжуть вони ваші проблеми.

Потрібно: Визначити метрики для вимірювання продуктивності, зокрема швидкості обробки та обсягу даних, можливості впровадження нових сценаріїв їхнього використання.

Ще важливіше уявити, як із вашими даними взаємодіятимуть кінцеві користувачі та як вплине нова платформа на їхні життя. Усі ваші побудови мають бути виражені в числах, на які ви зможете спертися при плануванні, а в подальшому і при аналізі ефективності роботи.

КРОК 4. ВИБЕРІТЬ СУЧАСНУ ПЛАТФОРМУ ДАНИХ

Далі потрібно визначитись із самою платформою. Це непросто, оскільки їх вибір є дуже багатим. Перш за все, ще раз обміркуйте поставлені цілі та зіставте їх з одним із видів інструментів:

  • Сховища даних — оптимізовані для структурованих, очищених та інтегрованих даних, призначені для широкого кола бізнес-користувачів.
  • Озера даних — для неструктурованих даних, які зберігаються в оригінальному форматі. Вони дозволяють акумулювати величезний обсяг різноманітної інформації порівняно недорогим способом та легко масштабуються. З озерами даних частіше працюють досвідчені бізнес-аналітики, фахівці з роботи з даними та розробники.
  • Рішення для потокової аналітики — технологічно схожі з озерами даних, проте сконфігуровані так, щоб забезпечити найвищу швидкість відгуку.
  • Гібридні інструменти.

Snowflake, Oracle Exadata, Teradata, Microsoft Parallel Data Warehouse та AWS є провідними постачальниками хмарних рішень для обробки даних і пропонують клієнтам інструменти всіх перерахованих видів.

Не варто: Заздалегідь вибирати тип платформи, не розібравшись із потребами бізнесу. Припустимо, ступінь гнучкості і масштабованості мають бути не максимальними, а необхідними і достатніми. Лише так можна забезпечити рентабельність рішення.

Потрібно: Вибрати хмарне рішення, постачальника технологій, інструменти, що відповідають типу і виду даних, з якими працює ваша компанія.

КРОК 5. ПЕРЕВІРТЕ РІШЕННЯ ЗА ДОПОМОГОЮ MVP

Рухайтесь уперед, створивши простий MVP, здатний продемонструвати функціональність вашої платформи. Познайомте з ним реальних користувачів системи та отримайте зворотний зв'язок. Це допоможе скорегувати проект на ранньому етапі та заощадити бюджет.

Не варто: Відразу намагатися створити готовий продукт.

Потрібно: Продемонструвати всі переваги рішення за допомогою MVP та переконатись, що ті, хто має працювати з платформою даних, їх оцінять.

КРОК 6: СТВОРІТЬ СТРАТЕГІЧНИЙ ПЛАН МАСШТАБУВАННЯ

Сплануйте сценарії масштабування вашого інструменту та визначте метрики. Хороші підходи до реалізації враховують три потоки:

  • Поступове впровадження бізнес-сценаріїв використання.
  • Нарощування архітектури та інструментальної бази.
  • Інкрементальне бізнес-прийняття нових можливостей передачі даних і операційної моделі.

Безпосередньо до розробки буде розумно залучити вузькопрофільного фахівця — досвідченого консультанта, який зможе поділитися знаннями з вашою командою.

Не варто: Нехтувати можливістю навчитися на чужому досвіді, тобто економити, відмовившись від консультанта.

Потрібно: Вчитись у партнерів та інвестувати в навчання команди — вона має бути в курсі технологічних новинок і тенденцій.

КРОК 7. ВІДСТЕЖУЙТЕ ТА ОПТИМІЗУЙТЕ

Раніше продуктивність платформи даних оцінювали ще до розгортання. Але в сучасному хмарному середовищі це може статися й одразу після, головне — пам'ятати, що такий аналіз провести необхідно.

Не варто: Забувати про платформу після розгортання. Без оптимізації витрат на зберігання даних хмарні обчислення можуть зростати в геометричній прогресії.

Потрібно: Відстежувати робочі навантаження і пайплайни платформи, щоб не пропустити момент, коли їй знадобиться оптимізація.