علم داده‌ها چیست و چه کاربردی دارد؟

علم داده‌ها چیست؟

علم داده دانشی میان‌رشته‌ای در ارتباط با استخراج دانش و دستیابی به آگاهی با استناد به مجموعه‌‌ای از داده‌ها است. به بیان دقیق‌تر، علم داده را باید هم‌گرایی چند رشته فنی دانست که سعی دارند از داده‌های به ظاهر غیر مهم، اطلاعات مهمی را استخراج کنند. از جمله این حوزه‌ها می‌توان به ریاضیات، آمار، مهندسی داده، بازشناخت الگو و علوم مرتبط اشاره کرد. توماس دونپورت و دی جی پاتیل کارشناسن علم داده‌ها این مفهوم را این‌گونه تشریح کردند: «علم داده جذاب‌ترین شغل قرن بیست و یکم است. متخصصین علم داده افرادی هستند که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ‌های موردنیاز کسب‌وکار‌ها را پیدا کنند. علم داده رشته نو ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد. علم داده مهندسی عمران داده‌ها است. متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.»

چه افرادی متخصص علم داده هستند؟

به شاغلین در حوزه علم داده، متخصص علم داده (data scientist) می‌گویند. چن فو جف‌وو در سال ۱۹۹۸ اولین بار در سخنرانی خود از واژه متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشته علمی، مسائل پیچیده مطرح شده در حوزه داده را حل می‌کنند. به‌طور کلی انتظار می‌رود که متخصصین علم داده قادر باشند در بخش‌هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک متخصص علم داده می‌بایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه‌ها دارای مهارت کافی باشد. نتایج نظرسنجی‌ها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است. متخصصین علم داده می‌توانند مهارت‌هایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. از مهم‌ترین مهارت‌های موردنیاز متخصصان علم داده‌ها می‌توان به توانایی استخراج و تفسیر منابع داده، مدیریت حجم زیاد اطلاعات با سخت‌افزار، محدودیت‌های نرم‌افزاری و پهنای باند، ادغام منابع داده با یکدیگر، تضمین پایداری مجموعه‌های داده، مصورسازی داده برای فهم آن، ساخت مدل‌های ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقه‌بندی، مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب و به‌اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام اشاره کرد.

علم داده‌ها چگونه پدید آمد؟

عبارت علم داده بیش از یک دهه است که وجود دارد. ویلیام کلیولند اولین فردی بود که اصطلاح علم داده را در سال ۲۰۰۱ شرح داد. وی در مقاله «علم داده: برنامه‌ای برای گسترش جنبه‌های فنی در رشته آمار» پیشنهاد کرد که علم داده به عنوان یک رشته مستقل شناخته شود. کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و داده‌کاوی می‌دانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است. چون مهندسین کامپیوتر شناخت کمی از روشهای کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است؛ بنابراین تلفیق این دو گروه می‌تواند منجر به نوآوری‌های زیادی شود. دپارتمانهای علم داده باید اساتیدی داشته باشد که بتوانند دانش داده‌ها را با دانش محاسبات تلفیق کنند. با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشته‌است. ناپلئون بناپارت از مدلهای ریاضی برای تصمیم‌گیری در میادین جنگی استفاده می‌کرده‌است. این مدلها را ریاضیدانان تهیه می‌کردند.

تصمیم‌گیری داده‌محور چیست؟

تصمیم‌گیری داده محور (Data-Driven Decision Making) یکی از مهم‌ترین کاربردهای علم داده است. فرآیند تصمیم‌گیری بر اساس تحلیل داده به جای اتکای صرف به تجربه و شهود (Gut-Based Decision Making) است. یک متخصص بازاریابی می‌تواند تنها بر اساس تجریه خود نوع تبلیغات برای محصول را انتخاب کند یا بر اساس داده‌های قبلی که نشان می‌دهد مشتریان چه‌طور به تبلیغات واکنش نشان می‌دهند. همین‌طور می‌تواند ترکیبی از این رویکردها را در تصمیم‌گیری داشته باشد. تصمیم‌گیری داده‌محور حالت همه یا هیچ (یا صفر و یکی) ندارد. شرکتهای مختلف می‌توانند به تناسب شرایط خودشان از این رویکرد استفاده کنند. بسیاری از شرکت‌ها تصور می‌کنند که داده‌محور هستند چرا که گزارشهای زیادی دارند یا داشبوردهای زیادی برای آنها طراحی شده‌است. در حالی که لزوماً چنین نیست. سازمان‌ها زمانی داده‌محور عمل می‌کنند که داده‌های مناسب را جمع‌آوری کنند، داده‌ها معتبر باشند، تحلیل درستی روی آنها انجام شود، نتایج آنها در تصمیم‌گیری در نظر گرفته شود و منجر به اقداماتی شوند که ارزش داده‌ها در آنها کاملاً قابل درک باشد. چنین ترتیبی زنجیره ارزش تحلیل داده‌ها نامیده می‌شود. تنها سازمان‌هایی داده‌محور هستند که بتوانند کل این زنجیره را تا رسیدن به تصمیم‌ها و اقدام‌های لازم در کسب‌وکار طی کنند. تحلیل داده‌ها یک عنصر کلیدی در سازمان‌های داده محور است. اما اگر نتایج آن جدی گرفته نشود یا به درستی بکار گرفته نشود، سازمان داده‌محور نخواهد بود. سازمان برای داده‌محور بودن باید فرایندهای لازم و فرهنگ تصمیم‌گیری بر اساس داده‌ها را داشته باشد به طوری که این تصمیم‌ها روی کسب‌وکار سازمان مؤثر باشد. فرهنگ موضوعی چندبعدی است که کیفیت داده‌ها و به اشتراک‌گذاری آنها، استخدام و آموزش متخصصین علم داده، ارتباطات، ساختار سازمانی، طراحی شاخص‌ها و فرایندهای تصمیم‌گیری را دربرمی‌گیرد.

استفاده درست از داده‌ها تنها یک مسئله فنی نیست اینکه چه پایگاه‌داده‌هایی دارید یا چند متخصص علم داده استخدام کرده‌اید بلکه تعامل پیچیده‌ای بین داده‌هایی است که در اختیار دارید، این که در کجا ذخیره می‌شوند، انسانها چگونه با آنها کار می‌کنند و روی چه مسائلی در سازمان کار می‌شود و تصور می‌شود ارزش حل شدن دارند. بیشتر مردم راجع به فناوری صحبت می‌کنند اما سازمان‌های موفق می‌دانند که انسانها در مرکز این فرایند پیچیده قرار دارند. در هر سازمانی پاسخ به سوالهایی از قبیل چه کسی روی داده‌ها کنترل و نظارت دارد؟ این افراد به چه کسانی گزارش می‌دهند؟ و چه طور تصمیم می‌گیرند که روی چه مسائلی کار کنند خیلی مهمتر این است که از پایگاه داده SQL Server شرکت مایکروسافت استفاده می‌کنید یا شرکت اوراکل. از مهم‌ترین سازمان‌های داده‌محور می‌توان به گوگل، آمازون، فیسبوک، مایکروسافت و لینکدین اشاره کرد. البته داده‌محور بودن مختصص شرکت‌های فعال در فضای مجازی نیست. والمارت از دهه 70 میلادی بر پایه علم داده‌ها استراتژی‌های تجاری خود را پیش برده است. این شرکت از اولین شرکت‌هایی است که از انباره داده‌های حجیم برای مدیریت موجودی کالا استفاده کرد. در دهه ۱۹۸۰ والمارت اولین شرکتی بود که برای افزایش کیفیت داده‌های خود از اسکنرهای بارکد استفاده کرد و بعدها که تعداد فروشگاه‌ها و کالاها به سرعت افزایش یافت، اولین شرکت بزرگی بود که در فناوریهای RFID سرمایه‌گذاری کرد و در حال حاضر از فناوری‌های پیشرفته پردازش داده‌ها مانند هدوپ و کاساندرا استفاده می‌کند.

بزرگ داده‌ها مفهوم عجین شده با علم داده‌ها

بزرگ داده‌ها به مجموعه گسترده‌ای از داده‌ها اشاره دارد که به شکل روزافزون تولید می‌شوند و به روش‌های پردازشی تازه‌ای نیاز دارند تا بتوان در تصمیم‌گیری‌ها از آن‌ها استفاده کرد و بینش به‌دست آورد. بزرگ داده‌ها مسیر حرکت کسب و کار و فرایند چرخش کار در سازمان‌ها را مشخص می‌کنند. در بزرگ‌داده با داده‌های متمایز و بزرگ که دائماً از لحاظ حجم، نرخ تولید داده و تنوع در حال تغییر هستند سروکار داریم. در اینجا، داده‌های پرشتاب داده‌هایی‌اند که با شتاب بالایی تولید می‌شوند. کلان‌داده از چند ۱۰ ترابایت به چندین پتابایت در یک مجموعه داده دارد می‌گسترد. نمونه‌هایی از کلان‌داده چنین‌اند: گزارش‌های وبی، سامانه‌های بازشناسی با موج‌های رادیویی، شبکه‌های حسگر، شبکه‌های اجتماعی، متن‌ها و سندهای اینترنتی، نمایه‌های جستجوهای اینترنتی، اخترشناسی، مدرک‌های پزشکی، بایگانی عکس، بایگانی ویدئو، پژوهش‌های زمین‌شناسی و بازرگانی در اندازه‌های بزرگ.

بزرگ داده‌ها چه ویژگی‌های شاخصی دارند؟

از مهم‌ترین فاکتورهایی که باعث می‌شوند مجموعه گسترده‌ای از اطلاعات را به عنوان بزرگ داده توصیف کنیم به موارد زیر می‌توان اشاره کرد:

اندازه: اندازه داده‌های تولید شده و ذخیره شده. اندازه داده در شناسایی ارزش یا کلانگی داده کلیدی است. اگر داده کوچک باشد، بزرگ داده توصیف نمی‌شود.

گوناگونی : دسته‌بندی داده‌ها به گونه‌های مختلف به شناخت بهتر ختم می‌شود.

نرخ تولید شده: همان سرعت تولید داده‌‌ها است. نرخ بالای تولید داده، چالش‌هایی را در زمینه ذخیره‌سازی و پردازش داده پدید می‌آورد.

درست: کیفیت داده‌های گردآوری شده بر داده‌کاوی دقیق داده‌ها اثر مستقیم می‌گذارد.

اینترنت اشیا یکی از مهم‌ترین صنایعی است که باعث شده بزرگ داده‌ها بیش از گذشته به چشم بیایند. اطلاعات عامل کلیدی ابزار آلات دارای ارتباط داخلی است و به هدف‌گذاری دقیق کمک می‌کند. اینترنت اشیاء، به کلان‌داده کمک می‌کند، بنابراین تبدیل صنعت، شرکت‌ها و حتی دولت‌های راسته‌ای، حوزه جدیدی را برای رقابت‌پذیری و رشد اقتصادی فراهم می‌سازد. ارتباط بین افراد، اطلاعات و الگوریتم هوشمند دارای تأثیراتی برای کارایی رسانه‌ای است. ثروت اطلاعات جمع‌آوری شده به بیان کردن لایه‌های موجود در مکانیزم هدف موجود صنعت، کمک می‌کند. فناوری ای‌بی از انباره اطلاعاتی ۷٫۵ پتا بایت و ۴۰ پتا بایت و ۴۰ پتا بایت گروه هادوپ برای پژوهش، اظهارات مصرف‌کنندگان و بازرگانی استفاده می‌کند. در شرکت ای‌بی۹۰ پتا بایت انباره اطلاعاتی دارد. Amazon.com با میلیون‌ها عملیات انتهایی در طول روز سرو کار دارد، همچنین در بیش از نیم میلیون از فروشنده نفر سوم، پژوهش می‌کند. فناوری اصلی که که عملکرد آمازون را بر مبنای لینوکس اجرا می‌کند و از ۲۰۰۵ سومین پایگاه داده عظیم جهانی را دارد، که ظرفیت آن ۷٫۸ پتا بایت، ۱۸٫۵ پتا بایت و ۲۴٫۷ پتا بایت می‌باشد. فیس‌بوک با بیش از ۵۰ میلیارد عکس استفاده‌کنندگان سرو کار دارد. از اوت ۲۰۱۲ گوگل در حدود ۱۰۰ میلیارد پژوهش در هر ماه اجرا می‌کند. پایگاه داده Oracle NoSQL 1 مگ مشاهده در هر ثانیه را در ۸ قالب آزمایش کرده و به بیش از ۱٫۲ مگ عملیات در هر ثانیه در ۱۰ قالب رسیده‌است.

تصمیم‌گیری مبتنی بر علم داده‌ها چه سودی برای شرکت‌ها به همراه دارد؟

مزایای تصمیم‌گیری داده‌محور بر همگان آشکار شده‌است. اریک برینجولفسن و همکارانش در دانشگاه‌های ام‌آی‌تی و مدرسه وارتون دانشگاه پنسیلوانیا مطالعه‌ای روی این موضوع انجام دادند که تصمیم‌گیری داده‌محور چه طور روی عملکرد شرکتها تأثیر می‌گذارد. آنها شاخصی را طراحی کردند که نشان می‌داد شرکتها تا چه حد از داده‌ها در تصمیم‌گیری استفاده می‌کنند و نشان دادند که به لحاظ آماری هر چه یک شرکت داده‌محورتر باشد بهره‌وری آن بیشتر است. حتی با در نظر گرفتن گستره وسیعی از متغیرهای مداخله‌گر چنین نتیجه‌ای به دست می‌آید. یک انحراف معیار بالاتر در شاخص طراحی شده به معنای چهار تا شش درصد بهره‌وری بیشتر است. همین مطالعه نشان داد که تصمیم‌گیری داده‌محور با نرخ بازگشت دارایی‌ها، بازگشت سهام، استفاده از دارایی‌ها و ارزش بازاری همبستگی مثبت دارد و این رابطه علی و معلولی به نظر می‌رسد. گزارش دیگری نشان داد که در سال ۲۰۱۴ هر دلاری که برای تحلیل داده‌ها هزینه می‌شود به‌طور میانگین ۱۳٫۰۱ دلار بازگشت سرمایه دارد. این نسبت در سال ۲۰۱۱ میلادی ۱۰٫۶۶ دلار بوده‌است. مطالعه دیگری که در دانشگاه نیویورک انجام شد، این مورد را بررسی کرد که استفاده از فناوریهای کلان‌داده تا چه اندازه می‌تواند به سازمان‌ها کمک کند. این مطالعه نشان داد که با کنترل متغیرهای مداخله‌گر احتمالی، استفاده از فناوریهای کلان‌داده با رشد در بهره‌وری در ارتباط است. یک انحراف معیار بالاتر در استفاده از فناوریهای کلان‌داده با یک تا سه درصد بهره‌وری بیشتر در مقایسه با یک سازمان میانگین در ارتباط است و یک انحراف معیار پایین‌تر با یک تا سه درصد بهره‌وری کمتر.