کلان داده - نظریه و عمل جدید. داده های بزرگ چیست: ما همه مهم ترین چیزها را در مورد کلان داده جمع آوری کردیم

اصطلاح Big Data معمولاً به هر مقدار داده ساختاریافته، نیمه ساختاریافته و بدون ساختار اشاره دارد. با این حال، مورد دوم و سوم را می توان و باید برای تجزیه و تحلیل بعدی اطلاعات سفارش داد. کلان داده با حجم واقعی برابری نمی کند، اما وقتی در مورد بیگ دیتا صحبت می کنیم در بیشتر موارد منظور ما ترابایت، پتابایت و حتی اکسترا بایت اطلاعات است. هر کسب‌وکاری می‌تواند این مقدار داده را در طول زمان، یا در مواردی که یک شرکت نیاز به دریافت اطلاعات زیادی دارد، در زمان واقعی جمع‌آوری کند.

تجزیه و تحلیل کلان داده

وقتی صحبت از تجزیه و تحلیل کلان داده می شود، در درجه اول به معنای جمع آوری و ذخیره سازی اطلاعات از منابع مختلف است. به عنوان مثال، داده های مربوط به مشتریانی که خرید کرده اند، ویژگی های آنها، اطلاعات مربوط به کمپین های تبلیغاتی راه اندازی شده و ارزیابی اثربخشی آن، داده های مرکز تماس. بله، همه این اطلاعات قابل مقایسه و تجزیه و تحلیل هستند. ممکن و ضروری است. اما برای انجام این کار، باید سیستمی راه اندازی کنید که به شما امکان می دهد اطلاعات را بدون تحریف جمع آوری و تبدیل کنید، آن ها را ذخیره کنید و در نهایت آن ها را تجسم کنید. موافقم، با داده های بزرگ، جداول چاپ شده در چندین هزار صفحه کمک چندانی به تصمیم گیری های تجاری نمی کند.

1. رسیدن کلان داده ها

اکثر سرویس هایی که اطلاعات مربوط به اقدامات کاربر را جمع آوری می کنند، قابلیت صادرات را دارند. برای اطمینان از اینکه آنها به شکل ساختار یافته به شرکت می رسند، از سیستم های مختلفی استفاده می شود، به عنوان مثال، Alteryx. این نرم افزار به شما این امکان را می دهد که اطلاعات را به صورت خودکار دریافت، پردازش کنید، اما مهمتر از همه، بدون تحریف آن ها را به فرم و فرمت دلخواه تبدیل کنید.

2. ذخیره سازی و پردازش داده های بزرگ

تقریباً همیشه هنگام جمع آوری حجم زیادی از اطلاعات، مشکل ذخیره سازی آن پیش می آید. از بین تمام پلتفرم هایی که ما مطالعه کردیم، شرکت ما Vertica را ترجیح می دهد. بر خلاف سایر محصولات، Vertica قادر است به سرعت اطلاعات ذخیره شده در آن را "بازپس دهد". از معایب آن می توان به ضبط طولانی مدت اشاره کرد، اما هنگام تجزیه و تحلیل داده های بزرگ، سرعت بازگشت برجسته می شود. به عنوان مثال، اگر ما در مورد کامپایل با استفاده از یک پتابایت اطلاعات صحبت می کنیم، سرعت آپلود یکی از مهمترین ویژگی ها است.

3. تجسم داده های بزرگ

و در نهایت مرحله سوم تجزیه و تحلیل حجم زیاد داده ها می باشد. برای انجام این کار، به پلتفرمی نیاز دارید که بتواند به صورت بصری تمام اطلاعات دریافتی را به شکلی مناسب منعکس کند. به نظر ما، تنها یک محصول نرم افزاری می تواند با این کار کنار بیاید - Tableau. البته یکی از بهترین راه حل های امروزی که می تواند به صورت بصری هر اطلاعاتی را نشان دهد، تبدیل کار شرکت به یک مدل سه بعدی، جمع آوری اقدامات همه بخش ها در یک زنجیره واحد وابسته به هم (می توانید در مورد قابلیت های Tableau بیشتر بخوانید).

در عوض، بیایید توجه داشته باشیم که تقریباً هر شرکتی اکنون می تواند داده های بزرگ خود را ایجاد کند. تجزیه و تحلیل کلان داده دیگر یک فرآیند پیچیده و پرهزینه نیست. اکنون مدیریت شرکت ملزم به فرمول صحیح سؤالات در مورد اطلاعات جمع آوری شده است، در حالی که عملاً هیچ ناحیه خاکستری نامرئی باقی نمانده است.

دانلود تابلو

دانلود نسخه کامل Tableau Desktop به صورت رایگان، 14 روزه و دریافت مطالب آموزشی Tableau Business Analytics به عنوان هدیه

بر اساس مواد تحقیق و روند

Big Data چند سالی است که بحث مطبوعات IT و بازاریابی است. و واضح است: فناوری های دیجیتال در زندگی انسان مدرن نفوذ کرده است، "همه چیز نوشته شده است." حجم داده ها در مورد جنبه های مختلف زندگی در حال افزایش است و در عین حال امکانات ذخیره سازی اطلاعات نیز در حال افزایش است.

فناوری های جهانی برای ذخیره سازی اطلاعات

منبع: هیلبرت و لوپز، «ظرفیت تکنولوژیکی جهان برای ذخیره، برقراری ارتباط و محاسبه اطلاعات»، Science، 2011 جهانی.

اکثر کارشناسان موافق هستند که تسریع رشد داده ها یک واقعیت عینی است. شبکه‌های اجتماعی، دستگاه‌های تلفن همراه، داده‌های دستگاه‌های اندازه‌گیری، اطلاعات تجاری - اینها تنها چند نوع منبع هستند که می‌توانند حجم عظیمی از اطلاعات را تولید کنند. با توجه به مطالعه IDCجهان دیجیتال، منتشر شده در سال 2012، در 8 سال آینده حجم داده ها در جهان به 40 ZB (زتابایت) می رسد که معادل 5200 گیگابایت برای هر ساکن کره زمین است.

رشد جمع آوری اطلاعات دیجیتال در ایالات متحده


منبع: IDC

بسیاری از اطلاعات توسط افراد ایجاد نمی‌شود، بلکه توسط روبات‌هایی که هم با یکدیگر و هم با سایر شبکه‌های داده، مانند حسگرها و دستگاه‌های هوشمند تعامل دارند، ایجاد می‌شوند. به گفته محققان با این سرعت رشد، میزان داده ها در جهان هر سال دو برابر می شود. با گسترش و ایجاد مراکز داده جدید، تعداد سرورهای مجازی و فیزیکی در جهان ده برابر خواهد شد. در نتیجه، نیاز روزافزونی به استفاده موثر و کسب درآمد از این داده ها وجود دارد. از آنجایی که استفاده از داده های بزرگ در تجارت نیاز به سرمایه گذاری قابل توجهی دارد، باید وضعیت را به وضوح درک کنید. و در اصل ساده است: شما می توانید کارایی کسب و کار را با کاهش هزینه ها و/یا افزایش حجم فروش افزایش دهید.

چرا به داده های بزرگ نیاز داریم؟

پارادایم کلان داده سه نوع اصلی از مشکلات را تعریف می کند.

  • ذخیره و مدیریت صدها ترابایت یا پتابایت داده که پایگاه های داده رابطه ای معمولی نمی توانند به طور موثر از آنها استفاده کنند.
  • سازماندهی اطلاعات بدون ساختار متشکل از متون، تصاویر، ویدئوها و انواع دیگر داده ها.
  • تجزیه و تحلیل کلان داده، که سوال راه های کار با اطلاعات بدون ساختار، تولید گزارش های تحلیلی و همچنین اجرای مدل های پیش بینی را مطرح می کند.

بازار پروژه داده های بزرگ با بازار تجزیه و تحلیل کسب و کار (BA) تلاقی می کند که حجم جهانی آن، به گفته کارشناسان، در سال 2012 حدود 100 میلیارد دلار بود. این شامل اجزای فناوری شبکه، سرورها، نرم افزارها و خدمات فنی است.

همچنین، استفاده از فناوری‌های کلان داده برای راه‌حل‌های کلاس تضمین درآمد (RA) که برای خودکارسازی فعالیت‌های شرکت‌ها طراحی شده‌اند، مرتبط است. سیستم‌های تضمین درآمد مدرن شامل ابزارهایی برای تشخیص ناسازگاری‌ها و تجزیه و تحلیل عمیق داده‌ها هستند که امکان تشخیص به موقع ضررهای احتمالی یا تحریف اطلاعات را فراهم می‌کنند که می‌تواند منجر به کاهش نتایج مالی شود. در مقابل این پس زمینه، شرکت های روسی، با تایید وجود تقاضا برای فناوری های Big Data در بازار داخلی، خاطرنشان می کنند که عواملی که توسعه Big Data را در روسیه تحریک می کند، رشد داده ها، تسریع در تصمیم گیری مدیریت و بهبود کیفیت آنها است.

چه چیزی شما را از کار با داده های بزرگ باز می دارد

امروزه، تنها 0.5 درصد از داده‌های دیجیتالی انباشته شده مورد تجزیه و تحلیل قرار می‌گیرند، علی‌رغم این واقعیت که به طور عینی مشکلاتی در سطح صنعت وجود دارد که می‌توان با استفاده از راه‌حل‌های تحلیلی کلاس داده‌های بزرگ حل کرد. بازارهای توسعه یافته فناوری اطلاعات در حال حاضر نتایجی دارند که می توانند برای ارزیابی انتظارات مرتبط با انباشت و پردازش کلان داده ها مورد استفاده قرار گیرند.

یکی از اصلی ترین عواملی که اجرای پروژه های بیگ دیتا را کند می کند، علاوه بر هزینه بالا، در نظر گرفته می شود مشکل انتخاب داده های پردازش شده: یعنی تعیین اینکه کدام داده ها نیاز به بازیابی، ذخیره و تجزیه و تحلیل دارند و کدام ها باید نادیده گرفته شوند.

بسیاری از نمایندگان کسب و کار خاطرنشان می کنند که مشکلات در اجرای پروژه های کلان داده با کمبود متخصص - بازاریابان و تحلیلگران همراه است. سرعت بازگشت سرمایه در Big Data به طور مستقیم به کیفیت کار کارکنان درگیر در تجزیه و تحلیل های عمیق و پیش بینی کننده بستگی دارد. پتانسیل عظیم داده های موجود در یک سازمان اغلب نمی تواند توسط خود بازاریابان به دلیل فرآیندهای تجاری قدیمی یا مقررات داخلی به طور موثر مورد استفاده قرار گیرد. بنابراین، پروژه‌های کلان داده اغلب توسط کسب‌وکارها نه تنها اجرا، بلکه ارزیابی نتایج نیز دشوار است: ارزش داده‌های جمع‌آوری‌شده. ماهیت خاص کار با داده ها به بازاریابان و تحلیلگران نیاز دارد که توجه خود را از فناوری و ایجاد گزارش به حل مشکلات خاص تجاری تغییر دهند.

با توجه به حجم زیاد و سرعت بالای جریان داده ها، فرآیند جمع آوری داده ها شامل رویه های ETL در زمان واقعی است. برای مرجع:ETL - از جانبانگلیسیاستخراج کردن, تبدیل, بار- به معنای واقعی کلمه "استخراج، تبدیل، بارگذاری") - یکی از فرآیندهای اصلی در مدیریت انبارهای داده که شامل: استخراج داده ها از منابع خارجی، تبدیل آنها و نظافت برای رفع نیازها ETL نه تنها باید به عنوان یک فرآیند انتقال داده ها از یک برنامه به برنامه دیگر، بلکه به عنوان ابزاری برای آماده سازی داده ها برای تجزیه و تحلیل در نظر گرفته شود.

و سپس مسائل مربوط به اطمینان از امنیت داده هایی که از منابع خارجی می آیند باید راه حل هایی داشته باشند که با حجم اطلاعات جمع آوری شده مطابقت داشته باشد. از آنجایی که روش های تجزیه و تحلیل کلان داده تنها به دنبال رشد حجم داده ها در حال توسعه هستند، توانایی پلتفرم های تحلیلی برای استفاده از روش های جدید تهیه و تجمیع داده ها نقش مهمی ایفا می کند. این نشان می‌دهد که، برای مثال، داده‌های مربوط به خریداران بالقوه یا یک انبار داده عظیم با سابقه کلیک در سایت‌های خرید آنلاین ممکن است برای حل مشکلات مختلف مفید باشد.

سختی ها متوقف نمی شوند

علیرغم تمام مشکلاتی که در پیاده سازی Big Data وجود دارد، این کسب و کار قصد دارد سرمایه گذاری در این زمینه را افزایش دهد. همانطور که از داده‌های گارتنر برمی‌آید، در سال 2013، 64٪ از بزرگترین شرکت‌های جهان قبلاً سرمایه‌گذاری کرده‌اند یا برنامه‌هایی برای سرمایه‌گذاری در استقرار فناوری‌های Big Data برای تجارت خود داشته‌اند، در حالی که در سال 2012، 58٪ بود. طبق تحقیقات گارتنر، پیشتازان صنایع سرمایه‌گذاری در داده‌های بزرگ، شرکت‌های رسانه‌ای، مخابرات، بانکداری و شرکت‌های خدماتی هستند. نتایج موفقیت‌آمیز اجرای Big Data در حال حاضر توسط بسیاری از بازیگران اصلی صنعت خرده‌فروشی از نظر استفاده از داده‌های به‌دست‌آمده با استفاده از ابزارهای شناسایی فرکانس رادیویی، لجستیک و سیستم‌های جابجایی به دست آمده است. دوباره پر کردن- انباشت، دوباره پر کردن - تحقیق و توسعه)، و همچنین از برنامه های وفاداری. تجربه موفق خرده‌فروشی، سایر بخش‌های بازار را تشویق می‌کند تا راه‌های مؤثر جدیدی برای کسب درآمد از کلان داده بیابند تا تجزیه و تحلیل آن را به منبعی تبدیل کنند که برای توسعه کسب‌وکار کار می‌کند. به گفته کارشناسان، در بازه زمانی تا سال 2020، سرمایه گذاری در مدیریت و ذخیره سازی به ازای هر گیگابایت داده از 2 دلار به 0.2 دلار کاهش می یابد، اما برای مطالعه و تجزیه و تحلیل ویژگی های تکنولوژیکی داده های بزرگ تنها 40 درصد افزایش می یابد.

هزینه های ارائه شده در پروژه های مختلف سرمایه گذاری در حوزه داده های بزرگ ماهیت متفاوتی دارند. اقلام هزینه بستگی به انواع محصولاتی دارد که بر اساس تصمیمات خاصی انتخاب می شوند. به گفته کارشناسان، بیشترین بخش از هزینه ها در پروژه های سرمایه گذاری به محصولات مربوط به جمع آوری، ساختار داده ها، تمیز کردن و مدیریت اطلاعات اختصاص دارد.

چگونه انجام می شود

ترکیب‌های زیادی از نرم‌افزار و سخت‌افزار وجود دارد که به شما امکان می‌دهد راه‌حل‌های Big Data موثر برای رشته‌های مختلف کسب‌وکار ایجاد کنید: از رسانه‌های اجتماعی و برنامه‌های کاربردی تلفن همراه، تا تجزیه و تحلیل هوشمند و تجسم داده‌های تجاری. مزیت مهم Big Data سازگاری ابزارهای جدید با پایگاه های داده است که به طور گسترده در تجارت مورد استفاده قرار می گیرند، که به ویژه در هنگام کار با پروژه های بین رشته ای، مانند سازماندهی فروش چند کانالی و پشتیبانی مشتری، اهمیت زیادی دارد.

توالی کار با داده های بزرگ شامل جمع آوری داده ها، ساختاردهی اطلاعات دریافتی با استفاده از گزارش ها و داشبوردها، ایجاد بینش ها و زمینه ها، و تدوین توصیه هایی برای اقدام است. از آنجایی که کار با داده های بزرگ مستلزم هزینه های زیادی برای جمع آوری داده ها است که نتیجه پردازش آن از قبل ناشناخته است، وظیفه اصلی این است که به وضوح درک کنیم که داده ها برای چه چیزی هستند و نه اینکه چه مقدار از آن در دسترس است. در این حالت، جمع آوری داده ها به فرآیندی برای به دست آوردن اطلاعاتی تبدیل می شود که منحصراً برای حل مسائل خاص ضروری است.

به عنوان مثال، ارائه دهندگان مخابرات حجم عظیمی از داده ها، از جمله موقعیت جغرافیایی را که به طور مداوم به روز می شود، جمع آوری می کنند. این اطلاعات ممکن است برای آژانس های تبلیغاتی مورد توجه تجاری قرار گیرد، که ممکن است از آن برای ارائه تبلیغات هدفمند و محلی و همچنین خرده فروشان و بانک ها استفاده کنند. چنین داده‌هایی می‌توانند نقش مهمی را هنگام تصمیم‌گیری برای باز کردن یک فروشگاه خرده‌فروشی در یک مکان خاص بر اساس داده‌های مربوط به حضور یک جریان هدفمند قدرتمند از مردم ایفا کنند. نمونه ای از اندازه گیری اثربخشی تبلیغات در بیلبوردهای فضای باز در لندن وجود دارد. اکنون تنها با قرار دادن افراد با وسیله ای خاص در نزدیکی سازه های تبلیغاتی که رهگذران را شمارش می کنند، می توان وسعت چنین تبلیغاتی را سنجید. در مقایسه با این نوع اندازه گیری اثربخشی تبلیغات، اپراتور تلفن همراه فرصت های بسیار بیشتری دارد - او دقیقاً مکان مشترکین خود را می داند، ویژگی های جمعیتی، جنسیت، سن، وضعیت تأهل و غیره را می داند.

بر اساس چنین داده هایی، در آینده با استفاده از ترجیحات شخصی خاص که از کنار بیلبورد عبور می کند، امکان تغییر محتوای پیام تبلیغاتی وجود دارد. اگر داده ها نشان می دهد که شخصی که از آنجا می گذرد زیاد سفر می کند، می توان یک تبلیغ برای یک استراحتگاه به او نشان داد. برگزارکنندگان یک مسابقه فوتبال فقط می توانند تعداد هواداران را زمانی که به مسابقه می آیند تخمین بزنند. اما اگر آنها بتوانند از ارائه‌دهنده تلفن همراه خود اطلاعاتی درباره مکان حضور بازدیدکنندگان یک ساعت، یک روز یا یک ماه قبل از مسابقه بپرسند، به سازمان‌دهندگان این امکان را می‌دهد که مکان‌های تبلیغاتی را برای مسابقات آینده برنامه‌ریزی کنند.

مثال دیگر این است که چگونه بانک ها می توانند از داده های بزرگ برای جلوگیری از کلاهبرداری استفاده کنند. اگر مشتری مفقود شدن کارت را گزارش دهد و هنگام خرید با آن، بانک به صورت لحظه ای موقعیت تلفن مشتری را در منطقه خریدی که تراکنش انجام می شود مشاهده کند، بانک می تواند اطلاعات درخواست مشتری را بررسی کند. تا ببیند آیا قصد فریب او را دارد یا خیر. یا برعکس، وقتی مشتری در فروشگاهی خریدی انجام می دهد، بانک می بیند که کارت مورد استفاده برای تراکنش و تلفن مشتری در یک مکان هستند، بانک می تواند به این نتیجه برسد که صاحب کارت از آن استفاده می کند. به لطف چنین مزایای Big Data، مرزهای انبارهای داده سنتی در حال گسترش است.

برای تصمیم گیری موفقیت آمیز برای اجرای راه حل های کلان داده، یک شرکت نیاز به محاسبه یک مورد سرمایه گذاری دارد و این امر به دلیل بسیاری از مؤلفه های ناشناخته، مشکلات زیادی را ایجاد می کند. پارادوکس تجزیه و تحلیل در چنین مواردی پیش بینی آینده بر اساس گذشته است که اطلاعاتی در مورد آن اغلب وجود ندارد. در این مورد، یک عامل مهم برنامه ریزی واضح اقدامات اولیه شما است:

  • اول، لازم است یک مشکل تجاری خاص را تعیین کنیم که برای آن از فناوری های داده های بزرگ استفاده می شود. شما باید روی جمع آوری داده های مربوط به این کار خاص تمرکز کنید و در طول اثبات مفهوم می توانید از ابزارها، فرآیندها و تکنیک های مدیریتی مختلفی استفاده کنید که به شما امکان می دهد در آینده تصمیمات آگاهانه تری بگیرید.
  • ثانیاً، بعید است که یک شرکت بدون مهارت و تجربه تجزیه و تحلیل داده بتواند با موفقیت پروژه Big Data را پیاده سازی کند. دانش لازم همیشه از تجربه قبلی تجزیه و تحلیل نشات می گیرد که عامل اصلی تأثیرگذار بر کیفیت کار با داده ها است. فرهنگ داده مهم است زیرا اغلب تجزیه و تحلیل داده ها حقایق سختی را در مورد یک کسب و کار آشکار می کند و برای پذیرش و کار با آن حقایق نیاز به اقدامات داده است.
  • سوم، ارزش فناوری‌های کلان داده در ارائه بینش نهفته است. آنها معمولاً متخصصانی نامیده می شوند که درک عمیقی از معنای تجاری داده ها دارند و می دانند چگونه از آنها به درستی استفاده کنند. تجزیه و تحلیل داده ها وسیله ای برای دستیابی به اهداف تجاری است و برای درک ارزش کلان داده ها، باید مطابق آن رفتار کنید و اقدامات خود را درک کنید. در این صورت کلان داده اطلاعات مفید زیادی در مورد مصرف کنندگان ارائه می دهد که بر اساس آن می توان تصمیماتی گرفت که برای تجارت مفید است.

علیرغم این واقعیت که بازار داده های بزرگ روسیه به تازگی در حال شکل گیری است، پروژه های فردی در این زمینه در حال حاضر با موفقیت اجرا می شوند. برخی از آنها در زمینه جمع آوری داده ها موفق هستند، مانند پروژه های خدمات مالیاتی فدرال و بانک سیستم های اعتباری Tinkoff، برخی دیگر - از نظر تجزیه و تحلیل داده ها و کاربرد عملی نتایج آن: این پروژه Synqera است.

بانک سیستم های اعتباری Tinkoff پروژه ای را برای پیاده سازی پلت فرم EMC2 Greenplum، که ابزاری برای محاسبات موازی گسترده است، اجرا کرد. در سال‌های اخیر، این بانک به دلیل نرخ رشد بالای تعداد کاربران کارت اعتباری، الزامات سرعت پردازش اطلاعات انباشته و تجزیه و تحلیل داده‌ها را در زمان واقعی افزایش داده است. این بانک برنامه‌هایی را برای گسترش استفاده از فناوری‌های Big Data، به ویژه برای پردازش داده‌های بدون ساختار و کار با اطلاعات شرکتی دریافت شده از منابع مختلف، اعلام کرد.

سرویس مالیات فدرال روسیه در حال حاضر در حال ایجاد یک لایه تحلیلی برای انبار داده فدرال است. بر اساس آن، یک فضای اطلاعاتی و فناوری یکپارچه برای دسترسی به داده های مالیاتی برای پردازش آماری و تحلیلی ایجاد می شود. در طول اجرای این پروژه، کار برای متمرکز کردن اطلاعات تحلیلی از بیش از 1200 منبع در سطح محلی خدمات مالیاتی فدرال در حال انجام است.

نمونه جالب دیگری از تجزیه و تحلیل کلان داده در زمان واقعی، استارتاپ روسی Synqera است که پلتفرم Simplate را توسعه داده است. این راه حل مبتنی بر پردازش مقادیر زیادی از داده ها است. صفحه‌های لمسی با حسگرهایی که احساسات مشتری را تشخیص می‌دهند، در صندوق‌های فروشگاه‌های زنجیره‌ای از لوازم آرایشی نصب شدند. این برنامه خلق و خوی فرد را تعیین می کند، اطلاعات مربوط به او را تجزیه و تحلیل می کند، زمان روز را تعیین می کند و پایگاه داده تخفیف فروشگاه را اسکن می کند، پس از آن پیام های هدفمندی را در مورد تبلیغات و پیشنهادات ویژه به خریدار ارسال می کند. این راه حل باعث افزایش وفاداری مشتری و افزایش فروش خرده فروشان می شود.

اگر در مورد موارد موفق خارجی صحبت کنیم، تجربه استفاده از فناوری های Big Data در شرکت Dunkin`Donuts که از داده های بلادرنگ برای فروش محصولات استفاده می کند، در این زمینه جالب است. نمایشگرهای دیجیتال در فروشگاه ها پیشنهاداتی را به نمایش می گذارند که هر دقیقه بسته به زمان روز و در دسترس بودن محصول تغییر می کند. شرکت با استفاده از رسیدهای نقدی، داده هایی را دریافت می کند که کدام پیشنهادها بیشترین پاسخ را از مشتریان دریافت کرده اند. این رویکرد پردازش داده به ما امکان داد تا سود و گردش کالا را در انبار افزایش دهیم.

همانطور که تجربه اجرای پروژه های Big Data نشان می دهد، این حوزه برای حل موفقیت آمیز مشکلات تجاری مدرن طراحی شده است. در عین حال، یکی از عوامل مهم در دستیابی به اهداف تجاری هنگام کار با داده های بزرگ، انتخاب استراتژی مناسب است که شامل تجزیه و تحلیل هایی است که نیازهای مصرف کننده را شناسایی می کند و همچنین استفاده از فناوری های نوآورانه در زمینه داده های بزرگ را شامل می شود.

بر اساس یک نظرسنجی جهانی که سالانه توسط Econsultancy و Adobe از سال 2012 در میان بازاریاب‌های شرکتی انجام می‌شود، «داده‌های بزرگ» که اقدامات افراد در اینترنت را مشخص می‌کند، می‌تواند کارهای زیادی انجام دهد. آنها می توانند فرآیندهای کسب و کار آفلاین را بهینه کنند، به درک اینکه چگونه صاحبان دستگاه های تلفن همراه از آنها برای جستجوی اطلاعات استفاده می کنند، یا به سادگی "بازاریابی را بهتر می کنند" کمک کنند. کارآمدتر. علاوه بر این، تابع دوم از سال به سال بیشتر و بیشتر محبوب می شود، همانطور که از نمودار ارائه شده به شرح زیر است.

زمینه های اصلی کار بازاریابان اینترنتی از نظر ارتباط با مشتری


منبع: Econsultancy و Adobe، منتشر شده است– emarketer.com

توجه داشته باشید که ملیت پاسخ دهندگان چندان مهم نیست. همانطور که نظرسنجی انجام شده توسط KPMG در سال 2013 نشان می دهد، سهم "خوشبین"، یعنی. کسانی که از Big Data هنگام توسعه یک استراتژی تجاری استفاده می کنند 56٪ است و تغییرات از منطقه به منطقه کوچک است: از 63٪ در کشورهای آمریکای شمالی تا 50٪ در EMEA.

استفاده از داده های بزرگ در مناطق مختلف جهان


منبع: KPMG، منتشر شد– emarketer.com

در همین حال، نگرش بازاریابان به چنین "روندهای مد" تا حدودی یادآور یک شوخی معروف است:

وانو بگو گوجه دوست داری؟
- من دوست دارم غذا بخورم، اما نه اینطور.

علیرغم این واقعیت که بازاریابان به صورت شفاهی Big Data را دوست دارند و به نظر می رسد حتی از آن استفاده می کنند، در واقعیت، همانطور که در مورد محبت های قلبی خود در شبکه های اجتماعی می نویسند، "همه چیز پیچیده است".

بر اساس یک نظرسنجی که توسط Circle Research در ژانویه 2014 در میان بازاریابان اروپایی انجام شد، از هر 5 پاسخ‌دهنده، 4 نفر از داده‌های بزرگ استفاده نمی‌کنند (هر چند که البته «آن را دوست دارند»). دلایل متفاوت است. تعداد کمی از شکاکان بدبین وجود دارد - 17٪ و دقیقاً همان تعداد پادپاهای آنها، یعنی. کسانی که با اطمینان پاسخ می دهند: "بله." بقیه مردد و شک هستند، «مرداب». آنها به بهانه های قابل قبولی مانند «هنوز نه، اما به زودی» یا «منتظر می مانیم تا بقیه شروع کنند» از پاسخ مستقیم اجتناب می کنند.

استفاده از داده های بزرگ توسط بازاریابان، اروپا، ژانویه 2014


منبع:dnx، منتشر شده -بازاریابcom

چه چیزی آنها را گیج می کند؟ مزخرف محض برخی (دقیقا نیمی از آنها) به سادگی این داده ها را باور نمی کنند. دیگران (همچنین تعداد کمی از آنها وجود دارد - 55٪) به سختی می توانند مجموعه ای از "داده ها" و "کاربران" را با یکدیگر مرتبط کنند. برخی از مردم به سادگی (به بیان سیاسی) یک آشفتگی داخلی شرکتی دارند: داده ها بدون نظارت بین بخش های بازاریابی و ساختارهای فناوری اطلاعات سرگردان هستند. برای دیگران، نرم افزار نمی تواند با هجوم کار کنار بیاید. و غیره. از آنجایی که کل سهام به طور قابل توجهی بیش از 100٪ است، واضح است که وضعیت "موانع چندگانه" غیر معمول نیست.

موانع استفاده از داده های بزرگ در بازاریابی


منبع:dnx، منتشر شده -بازاریابcom

بنابراین، ما باید بپذیریم که در حالی که "داده های بزرگ" یک پتانسیل بزرگ است که هنوز باید از آن استفاده کرد. به هر حال، این ممکن است دلیلی باشد که Big Data هاله یک "روند شیک" را از دست می دهد، همانطور که داده های نظرسنجی انجام شده توسط شرکت Econsultancy قبلاً ذکر شده نشان می دهد.

مهم ترین روندها در بازاریابی دیجیتال 2013-2014


منبع: مشاوره و Adobe

آنها با یک پادشاه دیگر جایگزین می شوند - بازاریابی محتوا. چه مدت؟

نمی توان گفت که داده های بزرگ نوعی پدیده اساساً جدید است. سال‌هاست که منابع بزرگ داده وجود داشته است: پایگاه‌های اطلاعاتی در مورد خرید مشتری، تاریخچه اعتباری، شیوه زندگی. و برای سال‌ها، دانشمندان از این داده‌ها برای کمک به شرکت‌ها در ارزیابی ریسک و پیش‌بینی نیازهای آینده مشتریان استفاده کرده‌اند. اما امروزه وضعیت از دو جنبه تغییر کرده است:

ابزارها و تکنیک های پیچیده تری برای تجزیه و تحلیل و ترکیب مجموعه داده های مختلف پدیدار شده اند.

این ابزارهای تحلیلی با انبوهی از منابع داده جدید که با دیجیتالی کردن تقریباً تمام روش‌های جمع‌آوری و اندازه‌گیری داده‌ها هدایت می‌شوند، تکمیل می‌شوند.

گستره اطلاعات موجود برای محققانی که در محیط های تحقیقاتی ساختاریافته پرورش یافته اند، هم الهام بخش و هم دلهره آور است. احساسات مصرف کننده توسط وب سایت ها و انواع رسانه های اجتماعی ضبط می شود. واقعیت مشاهده یک تبلیغ نه تنها توسط جعبه های تنظیم، بلکه با کمک برچسب های دیجیتال و دستگاه های تلفن همراهی که با تلویزیون ارتباط برقرار می کنند، ثبت می شود.

داده های رفتاری (مانند حجم تماس، عادات خرید و خریدها) اکنون در زمان واقعی در دسترس هستند. بنابراین، بسیاری از آنچه قبلاً می‌توانست از طریق تحقیق به دست آید، اکنون با استفاده از منابع کلان داده قابل یادگیری است. و تمام این دارایی های اطلاعاتی بدون در نظر گرفتن هر گونه فرآیند تحقیقاتی به طور مداوم تولید می شوند. این تغییرات ما را به این فکر می‌اندازد که آیا کلان داده می‌تواند جایگزین تحقیقات بازار کلاسیک شود.

این در مورد داده ها نیست، در مورد پرسش و پاسخ است.

قبل از اینکه ناقوس مرگ را برای تحقیقات کلاسیک به صدا در آوریم، باید به خود یادآوری کنیم که وجود برخی از دارایی های داده مهم نیست، بلکه چیز دیگری است. دقیقا چه چیزی؟ توانایی ما برای پاسخ دادن به سوالات، همین است. یک چیز خنده دار در مورد دنیای جدید داده های بزرگ این است که نتایج به دست آمده از دارایی های داده جدید منجر به سؤالات بیشتر می شود و این سؤالات معمولاً توسط تحقیقات سنتی بهترین پاسخ را می دهند. بنابراین، با رشد داده‌های بزرگ، شاهد افزایش موازی در دسترس بودن و نیاز به «داده‌های کوچک» هستیم که می‌تواند پاسخ‌هایی به سؤالات دنیای داده‌های بزرگ ارائه دهد.

وضعیت را در نظر بگیرید: یک تبلیغ کننده بزرگ به طور مداوم ترافیک فروشگاه و حجم فروش را در زمان واقعی نظارت می کند. روش‌های تحقیق موجود (که در آن از اعضای پانل در مورد انگیزه‌های خرید و رفتار محل فروش آنها نظرسنجی می‌کنیم) به ما کمک می‌کند بخش‌های خاص خریدار را بهتر هدف قرار دهیم. این تکنیک‌ها را می‌توان گسترش داد تا طیف وسیع‌تری از دارایی‌های کلان داده را در بر گیرد، تا جایی که داده‌های بزرگ به وسیله‌ای برای مشاهده غیرفعال تبدیل شود و تحقیق به روشی برای بررسی مداوم و با تمرکز محدود تغییرات یا رویدادهایی تبدیل شود که نیاز به مطالعه دارند. به این ترتیب کلان داده ها می توانند تحقیقات را از روال غیر ضروری رها کنند. تحقیقات اولیه دیگر نیازی به تمرکز بر آنچه در حال وقوع است ندارد (داده های بزرگ این کار را انجام می دهد). در عوض، تحقیقات اولیه می‌تواند بر توضیح اینکه چرا ما روندهای خاص یا انحراف از روندها را مشاهده می‌کنیم، تمرکز کند. محقق قادر خواهد بود کمتر در مورد به دست آوردن داده ها فکر کند و بیشتر به نحوه تجزیه و تحلیل و استفاده از آنها فکر کند.

در عین حال، می بینیم که کلان داده می تواند یکی از بزرگترین مشکلات ما را حل کند: مشکل مطالعات بیش از حد طولانی. بررسی خود مطالعات نشان داده است که ابزارهای تحقیقاتی بیش از حد متورم تأثیر منفی بر کیفیت داده ها دارند. اگرچه بسیاری از کارشناسان مدت‌هاست که به این مشکل اذعان کرده بودند، اما همیشه با عبارت «اما من به این اطلاعات برای مدیریت ارشد نیاز دارم» پاسخ دادند و مصاحبه‌های طولانی ادامه یافت.

در دنیای داده های بزرگ، جایی که می توان معیارهای کمی را از طریق مشاهده غیرفعال به دست آورد، این موضوع بحث برانگیز می شود. بیایید دوباره به همه این مطالعات در مورد مصرف فکر کنیم. اگر داده‌های بزرگ از طریق مشاهده غیرفعال به ما بینشی در مورد مصرف می‌دهد، آن‌گاه تحقیقات پیمایشی اولیه دیگر نیازی به جمع‌آوری این نوع اطلاعات ندارد و ما در نهایت می‌توانیم دیدگاه خود را از نظرسنجی‌های کوتاه با چیزی فراتر از تفکر آرزو پشتیبان کنیم.

Big Data به کمک شما نیاز دارد

در نهایت، "بزرگ" تنها یکی از ویژگی های کلان داده است. مشخصه "بزرگ" به اندازه و مقیاس داده ها اشاره دارد. البته، این ویژگی اصلی است، زیرا حجم این داده ها فراتر از هر چیزی است که قبلاً با آن کار کرده ایم. اما سایر ویژگی‌های این جریان‌های داده جدید نیز مهم هستند: آنها اغلب قالب‌بندی ضعیفی دارند، ساختاری ندارند (یا در بهترین حالت، تا حدی ساختار یافته‌اند) و مملو از عدم قطعیت هستند. یک حوزه نوظهور از مدیریت داده ها، که به درستی آنالیز موجودیت نامیده می شود، به مشکل کاهش نویز در داده های بزرگ می پردازد. وظیفه آن تجزیه و تحلیل این مجموعه داده ها و تعیین تعداد مشاهدات مربوط به یک شخص است، مشاهدات فعلی و کدام یک قابل استفاده هستند.

این نوع پاکسازی داده ها برای حذف نویز یا داده های اشتباه هنگام کار با دارایی های داده بزرگ یا کوچک ضروری است، اما کافی نیست. ما همچنین باید بر اساس تجربیات قبلی، تجزیه و تحلیل و دانش دسته بندی، زمینه ای را پیرامون دارایی های کلان داده ایجاد کنیم. در واقع، بسیاری از تحلیلگران به توانایی مدیریت عدم قطعیت ذاتی در داده های بزرگ به عنوان منبع مزیت رقابتی اشاره می کنند، زیرا امکان تصمیم گیری بهتر را فراهم می کند.

اینجاست که تحقیقات اولیه نه تنها خود را با داده های بزرگ رها می کند، بلکه به ایجاد و تجزیه و تحلیل محتوا در داده های بزرگ نیز کمک می کند.

یک مثال بارز از این کار استفاده از چارچوب جدید ارزش ویژه برند ما در رسانه های اجتماعی است (در مورد توسعه یافته صحبت می کنیممیلوارد رنگ قهوه ایرویکردی جدید برای اندازه گیری ارزش ویژه برندرا معنی دار ناهمسان چارچوب- "پارادایم تفاوت معنی دار" -آر & تی ). این مدل از نظر رفتاری در بازارهای خاص آزمایش می‌شود، بر اساس استاندارد پیاده‌سازی می‌شود، و می‌تواند به راحتی در سایر بخش‌های بازاریابی و سیستم‌های اطلاعاتی پشتیبانی تصمیم اعمال شود. به عبارت دیگر، مدل ارزش ویژه برند ما، که توسط تحقیقات پیمایشی (اگرچه نه منحصراً مبتنی بر) است، تمام ویژگی‌های مورد نیاز برای غلبه بر ماهیت بدون ساختار، ناپیوسته و نامطمئن داده‌های بزرگ را دارد.

داده‌های احساسات مصرف‌کننده ارائه شده توسط رسانه‌های اجتماعی را در نظر بگیرید. در شکل خام، اوج و فرود در احساسات مصرف کننده اغلب با معیارهای آفلاین ارزش ویژه برند و رفتار همبستگی حداقلی دارند: صرفاً نویز بیش از حد در داده ها وجود دارد. اما ما می‌توانیم این نویز را با استفاده از مدل‌های معنای مصرف‌کننده، تمایز برند، پویایی و متمایز بودن در داده‌های خام مصرف‌کننده کاهش دهیم - راهی برای پردازش و جمع‌آوری داده‌های رسانه‌های اجتماعی در این ابعاد.

هنگامی که داده ها بر اساس چارچوب ما سازماندهی می شوند، روندهای شناسایی شده معمولاً با ارزش ویژه برند آفلاین و معیارهای رفتاری همسو می شوند. اساسا، داده های رسانه های اجتماعی نمی توانند برای خود صحبت کنند. استفاده از آنها برای این منظور نیاز به تجربه و مدل هایی دارد که بر اساس برندها ساخته شده اند. وقتی رسانه‌های اجتماعی اطلاعات منحصربه‌فردی را به ما می‌دهند که به زبانی که مصرف‌کنندگان برای توصیف برندها استفاده می‌کنند بیان می‌شود، ما باید از آن زبان هنگام ایجاد تحقیقات خود استفاده کنیم تا تحقیقات اولیه را بسیار مؤثرتر کنیم.

مزایای تحقیقات معاف

این ما را به این موضوع برمی‌گرداند که چگونه داده‌های بزرگ نه آنقدر که جایگزین تحقیقات می‌شوند بلکه آن‌ها را آزاد می‌کنند. محققان از نیاز به ایجاد یک مطالعه جدید برای هر مورد جدید رها خواهند شد. دارایی‌های کلان داده در حال رشد را می‌توان برای موضوعات مختلف تحقیقاتی مورد استفاده قرار داد، و به تحقیقات اولیه بعدی اجازه می‌دهد تا عمیق‌تر به موضوع بپردازند و شکاف‌های موجود را پر کنند. محققان از تکیه بر نظرسنجی های بیش از حد متورم رها خواهند شد. در عوض، آنها می توانند از نظرسنجی های کوتاه استفاده کنند و بر روی مهمترین پارامترها تمرکز کنند که کیفیت داده ها را بهبود می بخشد.

با این آزادسازی، محققان می‌توانند از اصول و ایده‌های تثبیت‌شده خود برای افزودن دقت و معنا به دارایی‌های کلان داده‌ها استفاده کنند و زمینه‌های جدیدی را برای تحقیقات پیمایشی ایجاد کنند. این چرخه باید به درک بیشتر در مورد طیف وسیعی از موضوعات استراتژیک و در نهایت حرکت به سمت آنچه که همیشه باید هدف اصلی ما باشد - اطلاع رسانی و بهبود کیفیت تصمیمات برند و ارتباطات منجر شود.

ستون توسط معلمان HSE در مورد افسانه ها و موارد کار با داده های بزرگ

به نشانک ها

معلمان دانشکده رسانه های جدید در دانشکده عالی اقتصاد دانشگاه تحقیقات ملی، کنستانتین رومانوف و الکساندر پیاتیگورسکی، که همچنین مدیر تحول دیجیتال در Beeline است، ستونی برای سایت در مورد تصورات غلط اصلی درباره کلان داده نوشتند - نمونه هایی از استفاده تکنولوژی و ابزار نویسندگان پیشنهاد می کنند که این نشریه به مدیران شرکت کمک می کند تا این مفهوم را درک کنند.

افسانه ها و باورهای غلط در مورد داده های بزرگ

کلان داده بازاریابی نیست

اصطلاح Big Data بسیار مد شده است - در میلیون ها موقعیت و با صدها تفسیر مختلف استفاده می شود که اغلب به آنچه که هست مربوط نمی شود. مفاهیم اغلب در ذهن افراد جایگزین می شوند و کلان داده با یک محصول بازاریابی اشتباه گرفته می شود. علاوه بر این، در برخی از شرکت ها، داده های بزرگ بخشی از بخش بازاریابی است. نتیجه تجزیه و تحلیل کلان داده در واقع می تواند منبعی برای فعالیت بازاریابی باشد، اما نه چیزی بیشتر. بیایید ببینیم چگونه کار می کند.

اگر ما لیستی از کسانی که دو ماه پیش در فروشگاه ما کالاهایی به ارزش بیش از سه هزار روبل خریدند شناسایی کردیم و سپس نوعی پیشنهاد برای این کاربران ارسال کردیم، این یک بازاریابی معمولی است. ما یک الگوی واضح از داده های ساختاری استخراج می کنیم و از آن برای افزایش فروش استفاده می کنیم.

با این حال، اگر داده‌های CRM را با جریان اطلاعات از مثلاً اینستاگرام ترکیب کنیم و آن‌ها را تجزیه و تحلیل کنیم، الگویی پیدا می‌کنیم: فردی که فعالیت خود را در عصر چهارشنبه کاهش داده است و آخرین عکسش بچه‌گربه‌ها را نشان می‌دهد، باید پیشنهاد خاصی ارائه دهد. این قبلاً Big Data خواهد بود. ما یک محرک پیدا کردیم، آن را به بازاریابان دادیم و آنها از آن برای اهداف خود استفاده کردند.

از این نتیجه می‌شود که فناوری معمولاً با داده‌های بدون ساختار کار می‌کند، و حتی اگر داده‌ها ساختاریافته باشند، سیستم همچنان به دنبال الگوهای پنهان در آن می‌گردد، کاری که بازاریابی انجام نمی‌دهد.

کلان داده IT نیست

مرحله دوم این داستان: کلان داده اغلب با فناوری اطلاعات اشتباه گرفته می شود. این به دلیل این واقعیت است که در شرکت های روسی، به عنوان یک قاعده، متخصصان فناوری اطلاعات، محرک تمام فناوری ها، از جمله داده های بزرگ هستند. بنابراین، اگر همه چیز در این بخش اتفاق بیفتد، شرکت به طور کلی این تصور را ایجاد می کند که این نوعی فعالیت فناوری اطلاعات است.

در واقع، در اینجا یک تفاوت اساسی وجود دارد: Big Data فعالیتی است با هدف به دست آوردن یک محصول خاص که اصلاً به فناوری اطلاعات مربوط نیست، اگرچه فناوری بدون آن نمی تواند وجود داشته باشد.

کلان داده همیشه جمع آوری و تجزیه و تحلیل اطلاعات نیست

تصور نادرست دیگری درباره کلان داده وجود دارد. همه می دانند که این فناوری شامل مقادیر زیادی داده است، اما اینکه منظور از چه نوع داده ای است، همیشه روشن نیست. اکنون هر کسی می تواند اطلاعات را جمع آوری کرده و از آن استفاده کند. تنها سوال این است که دقیقاً چه چیزی را جمع آوری کنید و چگونه از آن به نفع خود استفاده کنید.

اما باید درک کرد که فناوری Big Data جمع آوری و تجزیه و تحلیل مطلقاً هیچ اطلاعاتی نخواهد بود. به عنوان مثال، اگر داده‌های مربوط به یک فرد خاص را در شبکه‌های اجتماعی جمع‌آوری کنید، داده‌های بزرگ نخواهد بود.

Big Data واقعا چیست؟

کلان داده از سه عنصر تشکیل شده است:

  • داده ها؛
  • تجزیه و تحلیل؛
  • فن آوری ها

Big Data تنها یکی از این اجزا نیست، بلکه ترکیبی از هر سه عنصر است. مردم اغلب مفاهیم را جایگزین می کنند: برخی معتقدند که داده های بزرگ فقط داده است، برخی دیگر معتقدند که این فناوری است. اما در واقع، مهم نیست چقدر داده جمع آوری می کنید، بدون فناوری و تجزیه و تحلیل مناسب نمی توانید کاری با آن انجام دهید. اگر تجزیه و تحلیل خوبی وجود داشته باشد، اما داده ای وجود نداشته باشد، حتی بدتر است.

اگر در مورد داده ها صحبت کنیم، این فقط متن نیست، بلکه تمام عکس های ارسال شده در اینستاگرام و به طور کلی همه چیزهایی است که می توان آن ها را تجزیه و تحلیل کرد و برای اهداف و کارهای مختلف استفاده کرد. به عبارت دیگر داده به حجم عظیمی از داده های داخلی و خارجی ساختارهای مختلف اطلاق می شود.

تجزیه و تحلیل نیز مورد نیاز است، زیرا وظیفه Big Data ایجاد برخی الگوها است. یعنی تجزیه و تحلیل شناسایی وابستگی های پنهان و جستجوی پرسش ها و پاسخ های جدید بر اساس تجزیه و تحلیل کل حجم داده های ناهمگن است. علاوه بر این، داده های بزرگ سوالاتی را مطرح می کند که نمی توان مستقیماً از این داده ها استخراج کرد.

وقتی صحبت از تصاویر می شود، این واقعیت که شما عکسی از خود با پوشیدن یک تی شرت آبی ارسال می کنید، معنایی ندارد. اما اگر از عکاسی برای مدل سازی Big Data استفاده می کنید، ممکن است معلوم شود که در حال حاضر باید وام ارائه دهید، زیرا در گروه اجتماعی شما چنین رفتاری نشان دهنده یک پدیده خاص در عمل است. بنابراین، داده های "لخت" بدون تجزیه و تحلیل، بدون شناسایی وابستگی های پنهان و غیر آشکار، داده های بزرگ نیستند.

بنابراین ما داده های بزرگ داریم. آرایه آنها بسیار بزرگ است. یک تحلیلگر هم داریم. اما چگونه می توانیم مطمئن شویم که از این داده های خام به یک راه حل خاص می رسیم؟ برای انجام این کار، ما به فناوری هایی نیاز داریم که به ما امکان می دهد نه تنها آنها را ذخیره کنیم (و این قبلا غیرممکن بود)، بلکه آنها را تجزیه و تحلیل کنیم.

به زبان ساده، اگر داده های زیادی دارید، به فناوری هایی مانند Hadoop نیاز خواهید داشت که امکان ذخیره تمام اطلاعات به شکل اصلی خود را برای تجزیه و تحلیل بعدی فراهم می کند. این نوع فناوری در غول های اینترنتی به وجود آمد، زیرا آنها اولین کسانی بودند که با مشکل ذخیره حجم زیادی از داده ها و تجزیه و تحلیل آن برای کسب درآمد بعدی مواجه شدند.

علاوه بر ابزارهایی برای ذخیره سازی داده ها بهینه و ارزان، به ابزارهای تحلیلی و همچنین افزونه هایی برای پلتفرم مورد استفاده نیاز دارید. به عنوان مثال، یک اکوسیستم کامل از پروژه‌ها و فناوری‌های مرتبط در اطراف Hadoop شکل گرفته است. در اینجا به برخی از آنها اشاره می کنیم:

  • Pig یک زبان تجزیه و تحلیل داده های اعلامی است.
  • Hive - تجزیه و تحلیل داده ها با استفاده از زبانی مشابه SQL.
  • Oozie - گردش کار Hadoop.
  • Hbase یک پایگاه داده (غیر رابطه ای) مشابه Google Big Table است.
  • ماهوت - یادگیری ماشینی.
  • Sqoop - انتقال داده از RSDB به Hadoop و بالعکس.
  • فلوم - انتقال لاگ به HDFS.
  • Zookeeper، MRUnit، Avro، Giraph، Ambari، Cassandra، HCatalog، Fuse-DFS و غیره.

همه این ابزارها به صورت رایگان در دسترس همه هستند، اما تعدادی افزونه پولی نیز وجود دارد.

علاوه بر این، متخصصان مورد نیاز هستند: یک توسعه دهنده و یک تحلیلگر (به اصطلاح دانشمند داده). همچنین به مدیری نیاز است که بتواند نحوه استفاده از این تجزیه و تحلیل را برای حل یک مشکل خاص درک کند، زیرا به خودی خود اگر در فرآیندهای تجاری ادغام نشود کاملاً بی معنی است.

هر سه کارمند باید به صورت تیمی کار کنند. مدیری که به متخصص علوم داده وظیفه پیدا کردن یک الگوی خاص را می‌دهد، باید بداند که همیشه دقیقاً آنچه را که نیاز دارد پیدا نمی‌کند. در این مورد، مدیر باید با دقت به آنچه دانشمند داده یافته است گوش دهد، زیرا اغلب یافته های او برای کسب و کار جالب تر و مفیدتر است. وظیفه شما این است که این را در یک تجارت اعمال کنید و از آن محصول بسازید.

علیرغم این واقعیت که در حال حاضر انواع مختلفی از ماشین ها و فناوری ها وجود دارد، تصمیم نهایی همیشه با خود شخص باقی می ماند. برای انجام این کار، اطلاعات باید به نحوی تجسم شوند. ابزارهای بسیار زیادی برای این کار وجود دارد.

بارزترین مثال، گزارش های زمین تحلیلی است. شرکت Beeline با دولت های شهرها و مناطق مختلف بسیار کار می کند. اغلب، این سازمان‌ها گزارش‌هایی مانند «ازدحام ترافیک در یک مکان خاص» را سفارش می‌دهند.

واضح است که چنین گزارشی باید به شکلی ساده و قابل فهم به دست سازمان های دولتی برسد. اگر جدول عظیم و کاملاً نامفهومی را در اختیار آنها قرار دهیم (یعنی اطلاعاتی به شکلی که آن را دریافت می کنیم)، بعید است که چنین گزارشی را بخرند - کاملاً بی فایده خواهد بود، آنها از آن آگاهی نخواهند گرفت که آنها می خواستند دریافت کنند.

بنابراین، مهم نیست که دانشمندان داده چقدر خوب هستند و مهم نیست که چه الگوهایی پیدا می کنند، بدون ابزارهای تجسم خوب نمی توانید با این داده ها کار کنید.

منابع اطلاعات

آرایه داده های به دست آمده بسیار بزرگ است، بنابراین می توان آنها را به چند گروه تقسیم کرد.

داده های داخلی شرکت

اگرچه 80 درصد از داده های جمع آوری شده متعلق به این گروه است، اما همیشه از این منبع استفاده نمی شود. اغلب این داده هایی است که ظاهراً هیچ کس اصلاً به آنها نیاز ندارد، مثلاً لاگ. اما اگر از زاویه دیگری به آنها نگاه کنید، گاهی اوقات می توانید الگوهای غیرمنتظره ای را در آنها پیدا کنید.

منابع اشتراک‌افزار

این شامل داده های شبکه های اجتماعی، اینترنت و همه چیزهایی است که می توان به صورت رایگان به آنها دسترسی داشت. چرا اشتراک‌افزار رایگان است؟ از یک طرف، این داده ها در دسترس همه است، اما اگر یک شرکت بزرگ هستید، پس به دست آوردن آن در اندازه یک پایگاه مشترک ده ها هزار، صدها یا میلیون ها مشتری دیگر کار آسانی نیست. بنابراین، خدمات پولی در بازار برای ارائه این داده ها وجود دارد.

منابع پولی

این شامل شرکت هایی می شود که داده ها را برای پول می فروشند. اینها ممکن است مخابرات، DMP ها، شرکت های اینترنتی، دفاتر اعتباری و تجمیع کننده ها باشند. در روسیه، مخابرات داده نمی فروشد. اولاً از نظر اقتصادی زیان آور است و ثانیاً قانوناً ممنوع است. بنابراین، آنها نتایج پردازش خود را می فروشند، به عنوان مثال، گزارش های geoanalytical.

باز کردن داده ها

دولت با مشاغل سازگار است و به آنها فرصت می دهد تا از داده هایی که جمع آوری می کنند استفاده کنند. این امر در غرب به میزان بیشتری توسعه یافته است، اما روسیه از این نظر نیز با زمان پیش می رود. به عنوان مثال، یک پورتال اطلاعات باز دولت مسکو وجود دارد که در آن اطلاعات مربوط به تأسیسات مختلف زیرساخت شهری منتشر می شود.

برای ساکنان و مهمانان مسکو، داده ها به صورت جدولی و نقشه برداری و برای توسعه دهندگان - در قالب های ویژه قابل خواندن توسط ماشین ارائه می شود. در حالی که پروژه در حالت محدود کار می کند، در حال توسعه است، به این معنی که منبع داده ای است که می توانید برای کارهای تجاری خود از آن استفاده کنید.

پژوهش

همانطور که قبلا ذکر شد، وظیفه Big Data پیدا کردن یک الگو است. اغلب، تحقیقاتی که در سراسر جهان انجام می شود می تواند به نقطه اتکای برای یافتن یک الگوی خاص تبدیل شود - می توانید یک نتیجه خاص بگیرید و سعی کنید منطق مشابهی را برای اهداف خود اعمال کنید.

کلان داده حوزه ای است که همه قوانین ریاضی در آن اعمال نمی شود. به عنوان مثال، "1" + "1" "2" نیست، بلکه بسیار بیشتر است، زیرا با مخلوط کردن منابع داده می توان اثر را به طور قابل توجهی افزایش داد.

نمونه های محصول

بسیاری از افراد با سرویس انتخاب موسیقی Spotify آشنا هستند. این عالی است زیرا از کاربران نمی پرسد که حال و هوای امروز آنها چیست، بلکه آن را بر اساس منابع موجود محاسبه می کند. او همیشه می داند که اکنون به چه چیزی نیاز دارید - جاز یا هارد راک. این تفاوت کلیدی است که آن را در اختیار طرفداران قرار می دهد و آن را از سایر خدمات متمایز می کند.

چنین محصولاتی معمولاً محصولات حسی نامیده می شوند - آنهایی که مشتریان خود را احساس می کنند.

فناوری Big Data در صنعت خودروسازی نیز مورد استفاده قرار می گیرد. به عنوان مثال، تسلا این کار را انجام می دهد - آخرین مدل آنها دارای خلبان خودکار است. این شرکت در تلاش است تا خودرویی بسازد که خود مسافر را به جایی که نیاز دارد ببرد. بدون Big Data، این غیرممکن است، زیرا اگر ما فقط از داده‌هایی استفاده کنیم که مستقیماً دریافت می‌کنیم، همانطور که یک شخص انجام می‌دهد، خودرو نمی‌تواند پیشرفت کند.

وقتی خودمان ماشین می‌رانیم، از نورون‌هایمان برای تصمیم‌گیری بر اساس عوامل زیادی استفاده می‌کنیم که حتی متوجه آن‌ها هم نمی‌شویم. به عنوان مثال، ممکن است متوجه نشویم که چرا تصمیم گرفتیم بلافاصله با چراغ سبز شتاب ندهیم، اما بعد معلوم شد که این تصمیم درست بوده است - ماشینی با سرعت سرسام آور از کنار شما رد شد و شما از تصادف جلوگیری کردید.

همچنین می توانید مثالی از استفاده از داده های بزرگ در ورزش ارائه دهید. در سال 2002، مدیر کل تیم بیسبال اوکلند دو و میدانی، بیلی بین، تصمیم گرفت پارادایم نحوه جذب ورزشکاران را بشکند - او بازیکنان را "بر اساس اعداد" انتخاب و آموزش داد.

معمولاً مدیران به موفقیت بازیکنان نگاه می کنند ، اما در این مورد همه چیز متفاوت بود - برای به دست آوردن نتیجه ، مدیر با توجه به ویژگی های فردی به ترکیبی از ورزشکاران مورد نیاز خود پرداخت. علاوه بر این ، او ورزشکارانی را انتخاب کرد که به خودی خود پتانسیل زیادی نداشتند ، اما تیم به طور کلی آنقدر موفق بود که بیست مسابقه متوالی را برد.

کارگردان بنت میلر متعاقباً فیلمی را به این داستان اختصاص داد - "مردی که همه چیز را تغییر داد" با بازی برد پیت.

فناوری Big Data در بخش مالی نیز مفید است. حتی یک نفر در جهان نمی تواند به طور مستقل و دقیق تعیین کند که آیا ارزش وام دادن به کسی را دارد یا خیر. برای تصمیم گیری، نمره گذاری انجام می شود، یعنی یک مدل احتمالی ساخته می شود که از روی آن می توان فهمید که آیا این شخص پول را پس می دهد یا خیر. علاوه بر این، امتیازدهی در تمام مراحل اعمال می شود: به عنوان مثال، می توانید محاسبه کنید که در یک لحظه خاص، شخص پرداخت را متوقف می کند.

کلان داده به شما امکان می دهد نه تنها پول در بیاورید، بلکه آن را نیز ذخیره کنید. به طور خاص، این فناوری به وزارت کار آلمان کمک کرد تا هزینه مزایای بیکاری را 10 میلیارد یورو کاهش دهد، زیرا پس از تجزیه و تحلیل اطلاعات مشخص شد که 20٪ از مزایا به طور غیرمستقیم پرداخت شده است.

فن آوری ها همچنین در پزشکی استفاده می شود (این امر به ویژه برای اسرائیل معمول است). با کمک بیگ دیتا، می توانید تحلیل بسیار دقیق تری نسبت به یک پزشک با سی سال تجربه انجام دهید.

هر پزشک هنگام تشخیص، فقط به تجربه خود متکی است. وقتی دستگاه این کار را انجام می دهد، از تجربه هزاران پزشک از این قبیل و تمام سوابق پرونده موجود می آید. این در نظر می گیرد که خانه بیمار از چه موادی ساخته شده است، قربانی در چه منطقه ای زندگی می کند، چه نوع دودی وجود دارد و غیره. یعنی فاکتورهای زیادی را در نظر می گیرد که پزشکان در نظر نمی گیرند.

نمونه ای از استفاده از داده های بزرگ در مراقبت های بهداشتی، پروژه پروژه آرتمیس است که توسط بیمارستان کودکان تورنتو اجرا شد. این یک سیستم اطلاعاتی است که داده های مربوط به نوزادان را در زمان واقعی جمع آوری و تجزیه و تحلیل می کند. این دستگاه به شما امکان می دهد در هر ثانیه 1260 شاخص سلامتی هر کودک را تجزیه و تحلیل کنید. این پروژه با هدف پیش بینی وضعیت ناپایدار کودک و پیشگیری از بیماری در کودکان انجام می شود.

استفاده از داده های بزرگ در روسیه نیز آغاز شده است: به عنوان مثال، Yandex دارای یک بخش کلان داده است. این شرکت به همراه AstraZeneca و انجمن روسی انکولوژی بالینی RUSSCO، پلتفرم RAY را راه‌اندازی کرد که برای متخصصان ژنتیک و زیست‌شناسان مولکولی در نظر گرفته شده است. این پروژه به ما امکان می دهد تا روش های تشخیص سرطان و شناسایی استعداد ابتلا به سرطان را بهبود بخشیم. این پلتفرم در دسامبر 2016 راه اندازی می شود.

فقط تنبل‌ها درباره کلان داده صحبت نمی‌کنند، اما به سختی می‌دانند که چیست و چگونه کار می‌کند. بیایید با ساده ترین چیز شروع کنیم - اصطلاحات. به زبان روسی، داده‌های بزرگ ابزارها، رویکردها و روش‌های مختلفی برای پردازش داده‌های ساختاریافته و بدون ساختار به منظور استفاده از آنها برای وظایف و اهداف خاص است.

داده های بدون ساختار اطلاعاتی هستند که ساختار از پیش تعیین شده ای ندارند یا به ترتیب خاصی سازماندهی نشده اند.

اصطلاح «داده‌های بزرگ» توسط کلیفورد لینچ، سردبیر مجله نیچر در سال 2008 در یک شماره ویژه به رشد انفجاری حجم اطلاعات جهان معرفی شد. اگرچه، البته، خود داده های بزرگ قبلا وجود داشته است. به گفته کارشناسان، دسته داده های بزرگ شامل اکثر جریان های داده بیش از 100 گیگابایت در روز است.

همچنین بخوانید:

امروزه، این اصطلاح ساده تنها دو کلمه را پنهان می کند - ذخیره سازی و پردازش داده ها.

داده های بزرگ - به عبارت ساده

در دنیای مدرن، داده های بزرگ یک پدیده اجتماعی-اقتصادی است که با این واقعیت همراه است که قابلیت های فناوری جدید برای تجزیه و تحلیل حجم عظیمی از داده ها پدید آمده است.

همچنین بخوانید:

برای درک آسان تر، سوپرمارکتی را تصور کنید که در آن همه کالاها به ترتیبی که شما به آن عادت کرده اید نیست. نان کنار میوه، رب گوجه فرنگی در کنار پیتزای یخ زده، مایع فندکی جلوی قفسه تامپون که شامل آووکادو، توفو یا قارچ شیتاکه است. بیگ دیتا همه چیز را در جای خود قرار می دهد و به شما کمک می کند شیر آجیل را پیدا کنید، از هزینه و تاریخ انقضا مطلع شوید و همچنین چه کسی به جز شما این شیر را می خرد و چرا بهتر از شیر گاو است.

کنت کوکیر: کلان داده ها داده های بهتری هستند

فناوری داده های بزرگ

حجم عظیمی از داده ها پردازش می شود تا فرد بتواند نتایج خاص و لازم را برای استفاده مؤثر بیشتر از آنها به دست آورد.

همچنین بخوانید:

در واقع داده های بزرگ راه حلی برای مشکلات و جایگزینی برای سیستم های سنتی مدیریت داده است.

تکنیک ها و روش های تجزیه و تحلیل قابل استفاده برای داده های بزرگ طبق مک کینزی:

  • جمع سپاری؛

    اختلاط و ادغام داده ها؛

    فراگیری ماشین؛

    شبکه های عصبی مصنوعی؛

    الگو شناسی؛

    تجزیه و تحلیل پیش بینی کننده؛

    شبیه سازی مدل سازی;

    تحلیل فضایی؛

    تحلیل آماری؛

  • تجسم داده های تحلیلی

مقیاس پذیری افقی که پردازش داده ها را امکان پذیر می کند، اصل اساسی پردازش کلان داده است. داده ها در گره های محاسباتی توزیع می شوند و پردازش بدون کاهش عملکرد انجام می شود. مک‌کینزی همچنین سیستم‌های مدیریت رابطه‌ای و هوش تجاری را در زمینه کاربردپذیری گنجاند.

فن آوری ها:

  • NoSQL;
  • MapReduce;
  • هادوپ
  • راه حل های سخت افزاری

همچنین بخوانید:

برای کلان داده ها، مشخصه های تعریف کننده سنتی وجود دارد که توسط متا گروپ در سال 2001 توسعه یافته است، که به نام " سه V»:

  1. جلد- مقدار حجم فیزیکی
  2. سرعت- نرخ رشد و نیاز به پردازش سریع داده ها برای به دست آوردن نتایج.
  3. تنوع- توانایی پردازش همزمان انواع مختلف داده ها.

داده های بزرگ: برنامه ها و فرصت ها

پردازش حجم اطلاعات دیجیتالی ناهمگن و به سرعت در حال رسیدن با ابزارهای سنتی غیرممکن است. تجزیه و تحلیل داده ها به خودی خود به شما امکان می دهد الگوهای مشخص و نامحسوسی را ببینید که شخص نمی تواند آنها را ببیند. این به ما امکان می دهد تا تمام زمینه های زندگی خود را - از مدیریت دولتی گرفته تا تولید و مخابرات - بهینه کنیم.

به عنوان مثال، چند سال پیش برخی از شرکت ها از مشتریان خود در برابر کلاهبرداری محافظت کردند و مراقبت از پول مشتری به معنای مراقبت از پول خود است.

سوزان اتلیگر: کلان داده چطور؟

راه حل های مبتنی بر داده های بزرگ: Sberbank، Beeline و سایر شرکت ها

Beeline اطلاعات بسیار زیادی در مورد مشترکین دارد که آنها نه تنها برای کار با آنها، بلکه برای ایجاد محصولات تحلیلی مانند مشاوره خارجی یا تجزیه و تحلیل IPTV از آنها استفاده می کنند. Beeline با استفاده از HDFS و Apache Spark برای ذخیره سازی و Rapidminer و Python برای پردازش داده ها، پایگاه داده را بخش بندی کرد و از مشتریان در برابر کلاهبرداری مالی و ویروس ها محافظت کرد.

همچنین بخوانید:

یا بیایید Sberbank را با پرونده قدیمی آنها به نام AS SAFI به یاد بیاوریم. این سیستمی است که عکس ها را برای شناسایی مشتریان بانک و جلوگیری از کلاهبرداری تجزیه و تحلیل می کند. این سیستم در سال 2014 معرفی شد، این سیستم مبتنی بر مقایسه عکس‌های پایگاه داده است که به لطف دید کامپیوتری از دوربین‌های وب روی پایه‌ها به آنجا می‌رسند. اساس سیستم یک پلت فرم بیومتریک است. به همین دلیل موارد کلاهبرداری 10 برابر کاهش یافته است.

کلان داده در جهان

تا سال 2020، طبق پیش بینی ها، بشریت 40 تا 44 زتابایت اطلاعات تولید خواهد کرد. بر اساس گزارش The Data Age 2025 که توسط تحلیلگران IDC تهیه شده است، تا سال 2025 رشد 10 برابری خواهد داشت. این گزارش خاطرنشان می‌کند که بیشتر داده‌ها به جای مصرف‌کنندگان عادی، توسط خود کسب‌وکارها تولید می‌شوند.

تحلیلگران پژوهشی بر این باورند که داده ها به یک دارایی حیاتی تبدیل خواهند شد و امنیت به پایه ای حیاتی در زندگی تبدیل خواهد شد. نویسندگان این اثر همچنین مطمئن هستند که این فناوری چشم انداز اقتصادی را تغییر خواهد داد و کاربر معمولی حدود 4800 بار در روز با دستگاه های متصل ارتباط برقرار می کند.

بازار داده های بزرگ در روسیه

کلان داده معمولا از سه منبع به دست می آید:

  • اینترنت (شبکه های اجتماعی، انجمن ها، وبلاگ ها، رسانه ها و سایت های دیگر)؛
  • آرشیو اسناد شرکتی؛
  • قرائت از حسگرها، ابزار و سایر دستگاه ها.

کلان داده در بانک ها

علاوه بر سیستم توضیح داده شده در بالا، استراتژی Sberbank برای 2014-2018 شامل موارد زیر است: در مورد اهمیت تجزیه و تحلیل داده های فوق العاده برای خدمات مشتری با کیفیت، مدیریت ریسک و بهینه سازی هزینه صحبت می کند. اکنون بانک از داده های بزرگ برای مدیریت ریسک ها، مبارزه با تقلب، تقسیم بندی و ارزیابی اعتبار مشتریان، مدیریت پرسنل، پیش بینی صف در شعب، محاسبه پاداش برای کارکنان و سایر وظایف استفاده می کند.

VTB24 از داده‌های بزرگ برای تقسیم‌بندی و مدیریت جریان‌های خروجی مشتری، تولید گزارش‌های مالی و تجزیه و تحلیل نظرات در شبکه‌های اجتماعی و انجمن‌ها استفاده می‌کند. برای انجام این کار، او از راه حل های Teradata، SAS Visual Analytics و SAS Marketing Optimizer استفاده می کند.

زمانی اصطلاح Big Data را از آلمانی Gref (رئیس Sberbank) شنیدم. آنها می گویند که اکنون به طور فعال روی پیاده سازی کار می کنند، زیرا این به آنها کمک می کند زمان کار با هر مشتری را کاهش دهند.

دومین باری که با این مفهوم مواجه شدم در فروشگاه اینترنتی مشتری بود که روی آن کار می کردیم و مجموعه را از چند هزار به چند ده هزار کالا افزایش می دادیم.

بار سوم دیدم که Yandex به یک تحلیلگر کلان داده نیاز دارد. سپس تصمیم گرفتم عمیق تر به این موضوع بپردازم و در عین حال مقاله ای بنویسم که بگوید چه نوع اصطلاحی است که ذهن مدیران برتر و فضای اینترنت را به هیجان می آورد.

VVV یا VVVVV

من معمولاً هر یک از مقالات خود را با توضیح این که چه نوع اصطلاحی است شروع می کنم. این مقاله نیز از این قاعده مستثنی نخواهد بود.

با این حال، این در درجه اول به دلیل تمایل به نشان دادن چقدر باهوش نیست، بلکه به دلیل این واقعیت است که موضوع واقعاً پیچیده است و نیاز به توضیح دقیق دارد.

به عنوان مثال، می‌توانید داده‌های بزرگ در ویکی‌پدیا را بخوانید، چیزی را متوجه نشوید، و سپس به این مقاله بازگردید تا همچنان تعریف و کاربرد آن برای تجارت را درک کنید. بنابراین، اجازه دهید با یک توضیح شروع کنیم، و سپس به مثال هایی برای تجارت می پردازیم.

کلان داده، کلان داده است. شگفت انگیز است، درست است؟ در واقع، این از انگلیسی به عنوان "داده بزرگ" ترجمه می شود. اما می توان گفت این تعریف برای آدمک ها است.

مهم. فناوری کلان داده یک رویکرد/روش پردازش داده های بیشتر برای به دست آوردن اطلاعات جدید است که پردازش آن با استفاده از روش های مرسوم دشوار است.

داده ها می توانند پردازش شوند (ساختار یافته) یا پراکنده (به عنوان مثال بدون ساختار).

خود این اصطلاح به تازگی ظاهر شده است. در سال 2008، یک مجله علمی پیش بینی کرد که این رویکرد برای مقابله با حجم زیادی از اطلاعات که به طور تصاعدی در حال رشد هستند، ضروری است.

به عنوان مثال هر ساله اطلاعاتی که در اینترنت نیاز به ذخیره و البته پردازش دارند 40 درصد افزایش می یابد. از نو. +40% هر سال اطلاعات جدیدی در اینترنت ظاهر می شود.

اگر اسناد چاپی واضح هستند و روش های پردازش آنها نیز واضح است (انتقال به فرم الکترونیکی، کوک کردن در یک پوشه، شماره)، پس با اطلاعاتی که در "رسانه ها" کاملاً متفاوت و مجلدهای دیگر ارائه می شود چه باید کرد:

  • اسناد اینترنتی؛
  • وبلاگ ها و شبکه های اجتماعی؛
  • منابع صوتی/تصویری؛
  • دستگاه های اندازه گیری؛

ویژگی هایی وجود دارد که اجازه می دهد اطلاعات و داده ها به عنوان داده های بزرگ طبقه بندی شوند.

یعنی ممکن است همه داده ها برای تجزیه و تحلیل مناسب نباشند. این ویژگی ها دقیقاً حاوی مفهوم کلیدی داده های بزرگ است. همه آنها در سه Vs قرار می گیرند.

  1. جلد (از مجلد انگلیسی). داده ها بر حسب حجم فیزیکی "سند" مورد تجزیه و تحلیل اندازه گیری می شوند.
  2. سرعت (از سرعت انگلیسی). داده ها در توسعه خود ثابت نمی مانند، اما دائما در حال رشد هستند، به همین دلیل است که پردازش سریع آن برای به دست آوردن نتایج مورد نیاز است.
  3. تنوع (از انواع انگلیسی). داده ها ممکن است از یک فرمت نباشند. یعنی می توانند پراکنده، ساختاریافته یا جزئی ساختارمند باشند.

با این حال، هر از گاهی یک V چهارم (صحت) و حتی یک V پنجم به VVV اضافه می شود (در برخی موارد این دوام است، در برخی دیگر ارزش است).

در جایی حتی 7 ولت را دیدم که داده های مربوط به کلان داده را مشخص می کند. اما به نظر من این از یک سری است (که P به صورت دوره ای اضافه می شود، البته 4 اولیه برای درک کافی است).

ما در حال حاضر بیش از 29000 نفر هستیم.
روشن کن

چه کسی به این نیاز دارد؟

یک سوال منطقی مطرح می شود: چگونه می توانید از اطلاعات استفاده کنید (در صورت وجود، داده های بزرگ صدها و هزاران ترابایت است)؟ نه حتی آن.

در اینجا اطلاعات است. پس چرا تاریخ بزرگ در آن زمان اختراع شد؟ کاربرد کلان داده در بازاریابی و تجارت چیست؟

  1. پایگاه های داده معمولی نمی توانند حجم عظیمی از اطلاعات را ذخیره و پردازش کنند (در حال حاضر حتی در مورد تجزیه و تحلیل صحبت نمی کنم، بلکه صرفاً ذخیره و پردازش می کنند).

    کلان داده این مشکل اصلی را حل می کند. حجم زیادی از اطلاعات را با موفقیت ذخیره و مدیریت می کند.

  2. اطلاعات به دست آمده از منابع مختلف (ویدئو، تصاویر، اسناد صوتی و متنی) را به یک شکل واحد، قابل فهم و قابل هضم می سازد.
  3. تولید تجزیه و تحلیل و ایجاد پیش بینی های دقیق بر اساس اطلاعات ساختاریافته و پردازش شده.

این پیچیده است. به بیان ساده، هر بازاریاب که می داند اگر حجم زیادی از اطلاعات (در مورد شما، شرکت، رقبا، صنعت شما) را مطالعه کنید، می توانید نتایج بسیار مناسبی کسب کنید:

  • درک کامل شرکت و کسب و کار شما از طرف اعداد.
  • رقبای خود را مطالعه کنید و این به نوبه خود امکان پیشروی با تسلط بر آنها را فراهم می کند.
  • اطلاعات جدیدی در مورد مشتریان خود بیابید.

و دقیقاً به این دلیل که فناوری کلان داده نتایج زیر را به دست می‌دهد، همه با عجله به دنبال آن هستند.

آنها سعی دارند این تجارت را در شرکت خود بگنجانند تا فروش را افزایش داده و هزینه ها را کاهش دهند. و اگر به طور خاص، پس:

  1. افزایش فروش متقابل و فروش اضافی به دلیل آگاهی بهتر از ترجیحات مشتری؛
  2. جستجوی محصولات محبوب و دلایلی که چرا مردم آنها را می خرند (و بالعکس).
  3. بهبود یک محصول یا خدمات؛
  4. ارتقای سطح خدمات؛
  5. افزایش وفاداری و تمرکز مشتری؛
  6. پیشگیری از تقلب (بیشتر مربوط به بخش بانکی)؛
  7. کاهش هزینه های غیر ضروری.

متداول ترین مثالی که در همه منابع آورده شده است، البته شرکت اپل است که اطلاعات کاربران خود (تلفن، ساعت، کامپیوتر) را جمع آوری می کند.

به دلیل وجود یک اکوسیستم است که شرکت اطلاعات زیادی در مورد کاربران خود دارد و متعاقباً از آن برای کسب سود استفاده می کند.

شما می توانید این و نمونه های دیگر استفاده را در هر مقاله دیگری به جز این مقاله بخوانید.

به آینده برویم

من در مورد یک پروژه دیگر به شما خواهم گفت. یا بهتر است بگوییم درباره شخصی که با استفاده از راه حل های کلان داده آینده را می سازد.

این ایلان ماسک و شرکتش تسلا هستند. رویای اصلی او این است که ماشین ها را خودمختار کند، یعنی شما پشت فرمان بنشینید، از مسکو تا ولادی وستوک اتوپایلوت را روشن کنید و ... بخوابید، زیرا اصلاً نیازی به رانندگی با ماشین ندارید، زیرا این کار را انجام می دهد. خود همه چیز

فوق العاده به نظر می رسد؟ اما نه! فقط ایلان بسیار عاقلانه تر از گوگل عمل کرد که ماشین ها را با استفاده از ده ها ماهواره کنترل می کند. و از راه دیگر رفت:

  1. هر ماشین فروخته شده مجهز به یک کامپیوتر است که تمام اطلاعات را جمع آوری می کند.

    همه - این یعنی همه چیز. در مورد راننده، سبک رانندگی او، جاده های اطرافش، حرکت ماشین های دیگر. حجم چنین داده هایی به 20-30 گیگابایت در ساعت می رسد.

  2. سپس، این اطلاعات از طریق ارتباطات ماهواره ای به یک کامپیوتر مرکزی منتقل می شود که این داده ها را پردازش می کند.
  3. بر اساس کلان داده های پردازش شده توسط این کامپیوتر، مدلی از یک وسیله نقلیه بدون سرنشین ساخته شده است.

به هر حال، اگر گوگل خیلی بد عمل می کند و ماشین های آنها همیشه تصادف می کنند، ماسک، به دلیل این که با داده های بزرگ کار می کند، بسیار بهتر عمل می کند، زیرا مدل های آزمایشی نتایج بسیار خوبی را نشان می دهند.

اما ... همه چیز در مورد اقتصاد است. همه ما در مورد سود چیست، اما در مورد سود؟ بسیاری از مواردی که یک تاریخ بزرگ می تواند تصمیم بگیرد کاملاً به درآمد و پول ربطی ندارد.

آمار گوگل بر اساس کلان داده ها نکته جالبی را نشان می دهد.

قبل از اینکه پزشکان شروع یک اپیدمی بیماری را در یک منطقه خاص اعلام کنند، تعداد جستجوهای جستجو در مورد درمان این بیماری در آن منطقه به طور قابل توجهی افزایش می یابد.

بنابراین، مطالعه صحیح داده ها و تجزیه و تحلیل آنها می تواند پیش بینی ها را شکل دهد و شروع یک بیماری همه گیر (و بر این اساس، پیشگیری از آن) را بسیار سریعتر از نتیجه گیری ارگان های رسمی و اقدامات آنها پیش بینی کند.

کاربرد در روسیه

با این حال، روسیه، مانند همیشه، کمی "آهسته" می شود. بنابراین، تعریف کلان داده در روسیه بیش از 5 سال پیش ظاهر شد (من اکنون در مورد شرکت های معمولی صحبت می کنم).

و این در حالی است که این یکی از سریع ترین بازارهای در حال رشد در جهان است (مواد مخدر و سلاح ها در حاشیه دود عصبی دارند)، زیرا هر سال بازار نرم افزار برای جمع آوری و تجزیه و تحلیل کلان داده ها 32 درصد رشد می کند.

برای توصیف بازار کلان داده در روسیه، یک جوک قدیمی را به خاطر می آورم. یک قرار بزرگ مانند داشتن رابطه جنسی قبل از 18 سالگی است.

همه در مورد آن صحبت می کنند، هیاهوی زیادی در اطراف آن وجود دارد و عمل واقعی کمی وجود دارد، و همه شرم دارند که بپذیرند که خودشان این کار را انجام نمی دهند. در واقع، تبلیغات زیادی در مورد این وجود دارد، اما عمل واقعی کمی وجود دارد.

اگرچه شرکت تحقیقاتی معروف گارتنر قبلاً در سال 2015 اعلام کرد که داده های بزرگ دیگر یک روند رو به رشد (به هر حال مانند هوش مصنوعی) نیست، بلکه ابزارهای کاملاً مستقل برای تجزیه و تحلیل و توسعه فناوری های پیشرفته است.

فعال ترین جایگاه هایی که در روسیه از داده های بزرگ استفاده می شود، بانک ها / بیمه هستند (بیهوده نیست که مقاله را با رئیس Sberbank شروع کردم)، بخش مخابرات، خرده فروشی، املاک و مستغلات و ... بخش عمومی.

به عنوان مثال، من با جزئیات بیشتری در مورد چند بخش اقتصادی که از الگوریتم های کلان داده استفاده می کنند، به شما خواهم گفت.

بانک ها

بیایید با بانک ها و اطلاعاتی که درباره ما و اقدامات ما جمع آوری می کنند شروع کنیم. به عنوان مثال، من 5 بانک برتر روسیه را که به طور فعال در داده های بزرگ سرمایه گذاری می کنند، انتخاب کردم:

  1. اسبربانک؛
  2. گازپروم بانک؛
  3. وی تی بی 24;
  4. آلفا بانک؛
  5. تینکاف بانک.

دیدن آلفا بانک در میان رهبران روسیه بسیار لذت بخش است. حداقل، خوب است بدانید که بانکی که شما شریک رسمی آن هستید، نیاز به معرفی ابزارهای بازاریابی جدید را در شرکت خود درک می کند.

اما می‌خواهم نمونه‌هایی از استفاده و اجرای موفقیت‌آمیز کلان داده‌ها را در بانکی نشان دهم که به دلیل دیدگاه و اقدامات غیرمتعارف مؤسس آن را دوست دارم.

من در مورد بانک Tinkoff صحبت می کنم. چالش اصلی آنها توسعه سیستمی برای تجزیه و تحلیل کلان داده ها در زمان واقعی به دلیل رشد مشتریانشان بود.

نتایج: زمان فرآیندهای داخلی حداقل 10 برابر و برای برخی بیش از 100 برابر کاهش یافت.

خوب، کمی حواس پرتی. آیا می دانید چرا شروع کردم به صحبت در مورد رفتارهای غیر معمول اولگ تینکوف؟

فقط به نظر من، آنها بودند که به او کمک کردند تا از یک تاجر متوسط، که هزاران نفر در روسیه وجود دارد، به یکی از مشهورترین و شناخته شده ترین کارآفرینان تبدیل شود. برای تایید این موضوع، این ویدیوی غیرمعمول و جالب را تماشا کنید:

مشاور املاک

در املاک و مستغلات همه چیز بسیار پیچیده تر است. و این دقیقاً مثالی است که می‌خواهم برای درک تاریخ‌های بزرگ در تجارت معمولی به شما بگویم. اطلاعات اولیه:

  1. حجم زیاد اسناد متنی؛
  2. منابع باز (ماهواره های خصوصی انتقال داده ها بر روی تغییرات زمین)؛
  3. حجم عظیمی از اطلاعات کنترل نشده در اینترنت؛
  4. تغییرات مداوم در منابع و داده ها.

و بر این اساس، لازم است که ارزش یک قطعه زمین، به عنوان مثال، در نزدیکی روستای اورال تهیه و ارزیابی شود. انجام این کار به یک متخصص یک هفته زمان نیاز دارد.

جامعه ارزیاب و روزکو روسیه که در واقع تجزیه و تحلیل کلان داده ها را با استفاده از نرم افزار پیاده سازی کرده است، بیش از 30 دقیقه کار آرام را به خود اختصاص نخواهد داد. مقایسه کنید، یک هفته و 30 دقیقه. یک تفاوت بزرگ

خوب، برای یک میان وعده

البته حجم عظیمی از اطلاعات را نمی توان روی هارد دیسک های ساده ذخیره و پردازش کرد.

و نرم‌افزاری که داده‌ها را ساختار و تجزیه و تحلیل می‌کند، عموماً دارای مالکیت معنوی و هر بار توسعه نویسنده است. با این حال، ابزارهایی وجود دارد که بر اساس آنها این همه زیبایی ایجاد می شود:

  • Hadoop & MapReduce.
  • پایگاه های داده NoSQL؛
  • ابزارهای کلاس کشف داده.

صادقانه بگویم، نمی توانم به وضوح برای شما توضیح دهم که تفاوت آنها با یکدیگر چیست، زیرا آشنایی و کار با این موارد در موسسات فیزیک و ریاضیات تدریس می شود.

پس چرا در مورد این موضوع صحبت کردم اگر نتوانستم آن را توضیح دهم؟ به یاد دارید در همه فیلم ها، سارقان به هر بانکی می روند و تعداد زیادی از انواع قطعات سخت افزاری متصل به سیم را می بینند؟

در تاریخ بزرگ هم همینطور است. به عنوان مثال، در اینجا مدلی وجود دارد که در حال حاضر یکی از رهبران بازار است.

ابزار تاریخ بزرگ

هزینه حداکثر پیکربندی به 27 میلیون روبل در هر قفسه می رسد. البته این نسخه لوکس است. من از شما می خواهم که از قبل ایجاد داده های بزرگ در تجارت خود را امتحان کنید.

به طور خلاصه در مورد اصل مطلب

ممکن است بپرسید، چرا شما، یک کسب و کار کوچک و متوسط، نیاز به کار با داده های بزرگ دارید؟

در این مورد من با نقل قولی از یک نفر به شما پاسخ خواهم داد: "در آینده نزدیک، مشتریان تقاضای شرکت هایی خواهند بود که رفتار و عادات آنها را بهتر درک کنند و به بهترین وجه برای آنها مناسب باشد."

اما بیایید با آن روبرو شویم. برای پیاده‌سازی کلان داده در یک کسب‌وکار کوچک، نه تنها باید بودجه زیادی برای توسعه و پیاده‌سازی نرم‌افزار، بلکه برای نگهداری متخصصان، حداقل مانند یک تحلیلگر داده‌های بزرگ و یک مدیر سیستم، داشته باشید.

و اکنون در مورد این واقعیت که شما باید چنین داده هایی را برای پردازش داشته باشید سکوت کرده ام.

خوب. این موضوع تقریباً برای مشاغل کوچک قابل استفاده نیست. اما این بدان معنا نیست که شما باید هر آنچه در بالا خواندید را فراموش کنید.

فقط داده های خود را مطالعه نکنید، بلکه نتایج تجزیه و تحلیل داده های شرکت های معروف خارجی و روسی را مطالعه کنید.

به عنوان مثال، زنجیره خرده فروشی Target، با استفاده از تجزیه و تحلیل داده های بزرگ، دریافت که زنان باردار قبل از سه ماهه دوم بارداری (از هفته اول تا دوازدهم بارداری) به طور فعال محصولات معطر سازمان ملل را خریداری می کنند.

با استفاده از این داده‌ها، کوپن‌هایی با تخفیف‌های محدود برای محصولات بدون عطر برایشان ارسال می‌کنند.

مثلاً اگر فقط یک کافه خیلی کوچک باشید چه؟ بله خیلی ساده از یک برنامه وفاداری استفاده کنید.

و پس از مدتی و به لطف اطلاعات انباشته شده، می توانید نه تنها غذاهای مرتبط با نیازهای مشتریان را ارائه دهید، بلکه تنها با چند کلیک ماوس، فروش نرفته ترین و پر حاشیه ترین ظروف را نیز مشاهده خواهید کرد.

از این رو نتیجه گیری. بعید است که یک کسب و کار کوچک داده های بزرگ را پیاده سازی کند، اما استفاده از نتایج و پیشرفت های شرکت های دیگر ضروری است.

 
مقالات توسطموضوع:
نحوه ایجاد یک ویدئو کنفرانس در اسکایپ
اسکایپ یکی از محبوب ترین اپلیکیشن ها برای ارتباط بین کاربران اینترنت است. این برنامه به شما امکان تبادل پیامک و همچنین برقراری تماس صوتی و تصویری را می دهد. اسکایپ در سال 2003 ظاهر شد و محبوبیت زیادی به دست آورد
داده های بزرگ چیست: ما همه مهم ترین چیزها را در مورد کلان داده جمع آوری کردیم
اصطلاح Big Data معمولاً به هر مقدار داده ساختاریافته، نیمه ساختاریافته و بدون ساختار اشاره دارد. با این حال، مورد دوم و سوم را می توان و باید برای تجزیه و تحلیل بعدی اطلاعات سفارش داد. کلان داده معادل نیست
چگونه یک آواتار برای
درود بر تمام کاربران مبتدی یوتیوب در مقاله قبلی شما را به همه معرفی کردم و امروز با اولین و مهمترین چیز - چهره کانال شروع می کنیم. من به شما خواهم گفت که چگونه یک آواتار برای یوتیوب بسازید (نماد کانال). بیایید ببینیم چه نوع نمادهایی وجود دارد، چه نوع
نرم افزار کاور هوشمند نیلکین – اپلیکیشن Kview
قاب‌های «هوشمند» موفقیت جدیدی در بازار گجت‌های موبایل هستند. و اگرچه اولین مدل های این دستگاه ها بیش از یک سال پیش در قفسه های فروشگاه ظاهر شد، اما اکنون واقعاً محبوب شده اند. برای مدت طولانی آنها فقط یک لوازم جانبی جزئی بودند