تکامل خطوط لوله داده هوشمند


به نظر می رسد پتانسیل هوش مصنوعی (AI) و یادگیری ماشین (ML) در توانایی آن برای به دست آوردن و هدایت منابع جدید ارزش های مشتری، محصول، خدمات، عملیاتی، محیطی و اجتماعی تقریباً نامحدود است. اگر سازمان شما می خواهد در اقتصاد آینده رقابت کند، هوش مصنوعی باید در مرکز عملیات تجاری شما باشد.

مطالعه Kearney با عنوان “تاثیر تجزیه و تحلیل در سال 2020″، سودهای استفاده نشده و پیامدهای تجاری را برای سازمان هایی که به دنبال توجیه سرمایه گذاری در علم داده (AI / ML) و مدیریت داده خود هستند، برجسته می کند:

  • اگر کاوشگرها به اندازه رهبران مؤثر باشند، می توانند سود خود را تا 20 درصد افزایش دهند
  • اگر فالوورها به اندازه رهبران موثر باشند، می توانند سود را تا 55 درصد افزایش دهند
  • اگر عقب مانده ها به اندازه رهبران موثر باشند، می توانند سود را تا 81 درصد بهبود بخشند

نتایج تجاری، عملیاتی و اجتماعی می تواند شگفت انگیز باشد، به جز یک چالش مهم سازمانی – داده ها. پدرخوانده هوش مصنوعی، نه کمتر از اندرو نگ، به موانع موجود در مدیریت داده ها و داده ها اشاره کرد که سازمان ها و جوامع را قادر می سازد تا پتانسیل هوش مصنوعی و ML را تشخیص دهند:

«مدل ها و کدها اساساً مشکل اکثر برنامه ها هستند. اکنون که مدل‌ها به نقطه خاصی رسیده‌اند، باید داده‌ها را نیز اجرا کنیم. – اندرو نگ

دیتا یک مرکز آموزشی برای مدل های هوش مصنوعی و ML است. و از آنجایی که داده‌های باکیفیت و قابل اعتماد از طریق خطوط لوله بسیار کارآمد و مقیاس‌پذیر سازمان‌دهی می‌شوند، هوش مصنوعی می‌تواند نتایج تجاری و عملیاتی جذابی را ایجاد کند. همانطور که یک قلب سالم به اکسیژن و جریان خون قابل اطمینان نیاز دارد، جریان ثابت داده های دقیق، دقیق، غنی و قابل اعتماد برای موتور AI / ML حیاتی است.

به عنوان مثال، یک CIO تیمی متشکل از 500 مهندس داده دارد که بیش از 15000 کار استخراج، تبدیل و بارگذاری (ETL) را برای بازیابی، جابجایی، ادغام، استانداردسازی و تراز کردن داده ها از 100 مخزن داده (داده) با هدف خاص مدیریت می کنند. مسئول این هستند. Marts، Data Warehouse، Data Lake و Data Lakehouse). آنها این وظایف را در سیستم های عملیاتی و مشتریان سازمان تحت قراردادهای سطح خدمات (SLA) انجام می دهند تا از تعداد فزاینده مشتریان داده های مختلف خود پشتیبانی کنند. به نظر می رسد که روبی گلدبرگ باید معمار داده باشد (شکل 1).

شکل 1: معماری داده روبی گلدبرگ

کاهش ساختار ضعیف معماری اسپاگتی برنامه‌های ETL استاتیک تک‌منظوره برای جابجایی، تمیز کردن، هم‌ترازی و اصلاح داده‌ها، «زمان برای بینش» مورد نیاز سازمان‌ها را برای بهره‌برداری کامل از ویژگی‌های اقتصادی منحصربه‌فرد داده‌ها تا حد زیادی محدود می‌کند. به “با ارزش ترین منبع جهان” اقتصاد دان.

ظهور خطوط لوله داده هوشمند

هدف از خط لوله داده، خودکارسازی و مقیاس بندی کلی و تکراری داده ها، ویرایش، تبدیل، حرکت، و وظایف یکپارچه سازی است. استراتژی‌های خط لوله داده که به درستی ساخته شده‌اند می‌توانند فرآیند جمع‌آوری، تمیز کردن، تبدیل، غنی‌سازی و انتقال داده‌ها به سیستم‌ها و برنامه‌های پایین‌دستی را تسریع و خودکار کنند. با افزایش حجم، تنوع و سرعت داده ها، نیاز به خطوط لوله داده قابل اندازه گیری خطی در محیط های ابری و ابری ترکیبی برای عملیات تجاری به طور فزاینده ای حیاتی می شود.

خط لوله داده به مجموعه ای از فعالیت های پردازش داده اشاره دارد که منطق عملیاتی و تجاری را برای منبع یابی پیشرفته، تبدیل و بارگذاری داده ها ترکیب می کند. خط لوله داده می تواند در زمان واقعی (جریان سازی) بر اساس برنامه ریزی شده اجرا شود یا توسط مجموعه ای از قوانین یا شرایط از پیش تعریف شده فعال شود.

علاوه بر این، منطق و الگوریتم‌هایی برای ایجاد خطوط لوله داده «هوشمند» را می‌توان در خط لوله داده ایجاد کرد. خطوط لوله هوشمند دارایی‌های مالی قابل استفاده مجدد و قابل توسعه هستند که می‌توانند برای سیستم منبع تنظیم شوند و داده‌های مورد نیاز برای پشتیبانی از داده‌های منحصربه‌فرد و الزامات تحلیلی برای سیستم یا برنامه هدف را تغییر دهند.

همانطور که یادگیری ماشین و AutoML رایج تر می شود، خطوط لوله داده هوشمندتر می شوند. خطوط لوله داده می توانند داده ها را بین ماژول های پیشرفته غنی سازی و تبدیل انتقال دهند، جایی که شبکه های عصبی و الگوریتم های یادگیری ماشین می توانند تبدیل و غنی سازی داده های پیشرفته تری ایجاد کنند. این شامل تقسیم بندی، تجزیه و تحلیل رگرسیون، خوشه بندی و توسعه شاخص های پیشرفته و امتیازات روند است.

در نهایت، هوش مصنوعی می‌تواند داده‌ها را در خطوط لوله ادغام کند، زیرا آنها به طور مداوم بر اساس نیازمندی‌های تجاری و عملیاتی در حال تکامل سیستم‌های منبع، تغییر و ارتقای داده‌های مورد نیاز، و سیستم‌ها و برنامه‌های هدف قرار می‌گیرند و سازگار می‌شوند.

به عنوان مثال، یک خط لوله داده هوشمند در مراقبت‌های بهداشتی می‌تواند گروهی از کدهای تشخیصی مرتبط با مراقبت‌های بهداشتی (DRG) را برای اطمینان از سازگاری و کامل بودن ارسال‌های DRG تجزیه و تحلیل کند و هنگام انتقال داده‌ها از منبع داده DRG از طریق خط لوله، تقلب را تشخیص دهد. سیستم به سیستم تحلیلی

آگاهی از ارزش حرفه ای

افسران ارشد داده و مدیران ارشد تحلیلگران داده برای افشای ارزش تجاری داده‌های خود به چالش کشیده می‌شوند – برای اعمال داده‌ها برای کسب‌وکارها برای ایجاد تأثیر اقتصادی کمی.

توانایی دریافت داده های با کیفیت بالا و قابل اعتماد به مصرف کنندگان داده مناسب در زمان مناسب برای تصمیم گیری های به موقع و دقیق تر، تفاوت قابل توجهی برای شرکت های غنی از داده های امروزی خواهد بود. سیستم Rub Goldberg اسکریپت ELT و مخازن متمایز و تخصصی متمرکز بر تجزیه و تحلیل، توانایی سازمان برای دستیابی به آن هدف را تضعیف می کند.

در مورد خط لوله داده هوشمند بیشتر بدانید خط لوله داده های سازمانی مدرن (ebook) از طریق Dell Technologies در اینجا.

این محتوا توسط Dell Technologies ایجاد شده است. این توسط تحریریه MIT Technology Review نوشته نشده است.


تمامی اخبار به صورت تصادفی و رندومایز شده پس از بازنویسی رباتیک در این سایت منتشر شده و هیچ مسئولتی در قبال صحت آنها نداریم