جهان امروز، جهان داده است و ذخیرهسازی و استفاده بهینه از داده از چالشهای اصلی سازمانها در یک دهه گذشته بوده است. ازاین رو در سالهای اخیر، تمرکز اصلی متخصصان داده و شرکتهای متخصص داده روی ساختن چهارچوبها و راهحلهایی برای مدیریت دادهها (از استخراج و ذخیرهسازی تا تحلیل و استراتژیهای دادهمحور) یا علم داده بوده است.
علم داده (Data Science) در حقیقت حلقۀ اتصال و هدایتگر این وضعیت است. نقش علمداده و متخصصان علوم داده، امروز تا جایی برجسته شده است که حتی عدهای باور دارند تمام ایدههایی که در فیلمهای علمی-تخیلی هالیوود دیده میشود، میتواند بهوسیلۀ علم داده به واقعیت تبدیل شود.
پیشنیازهای علم داده
پیش از آشنایی با علم داده چیست، لازم است با مفاهیم و موضوعات کلیدی و پایهای آن آشنا شویم.
یادگیری ماشین (Machine Learning)
یادگیری ماشین را میتوان بهعنوان ستون فقرات علم داده معرفی کرد. یادگیری ماشین، روشی برای تحلیل دادهها است که مدلهای تحلیلی را بهصورت خودکار ایجاد میکند. این علم، شاخهای از هوش مصنوعی است که مبتنی بر این ایده است که سیستمها میتوانند با حداقل دخالت انسان از دادهها بیاموزند، الگوها را شناسایی کنند و بر اساس آن تصمیم بگیرند.
مدلسازی (Modeling)
مدلهای ریاضی به شما کمک میکنند بر اساس آنچه از دادهها میدانید، محاسبات سریع و پیشبینی انجام دهید. مدلسازی بخشی از یادگیری ماشین است و به معنی شناسایی مناسبترین الگوریتمها برای حل مسئله و نحوۀ آموزش مدلها است.
آمار (Statistics)
آمار هستۀ اصلی علم داده است. دانش خوب درزمینۀ آمار به شما کمک کند هوشمندانهتر رفتار کرده و نتایج معنیدارتری کسب کنید.
برنامهنویسی (Programming)
برای اجرای یک پروژۀ موفق در حوزۀ داده، به سطحی مشخص از برنامهنویسی نیاز است. رایجترین زبانهای برنامهنویسی پایتون (Python) و آر (R) هستند. به علت یادگیری آسان و پشتیبانی از چندین کتابخانۀ علم داده و یادگیری ماشین، پایتون در بین مهندسان داده بسیار محبوب است.
پایگاه داده (Database)
یک دانشمند توانمند داده باید نحوۀ کار پایگاه داده، مدیریت آن و نحوۀ استخراج داده از آن را بهخوبی بداند.
شاید برای پوشش دادن تمام نقشهای داده در یک سازمان و کسبوکار دادهمحور لازم باشد که مفاهیم و موضوعات دیگری نیز مطرح شود، اما در حال حاضر ما کلیدیترین مفاهیم را برای ورود به بحث در اختیار داریم.
اگر به یادگیری عمیق علامند شدید می توانید آموزش پایتون در علم داده را مشاهده کنید.
علم داده چیست؟
با پیشرفت آمار ریاضی و تحلیل داده در سالهای اخیر، اصطلاح «علم داده» ظهور پیدا کرده است. در حقیقت علم داده مجموعهای از ابزارها، الگوریتمها و اصول یادگیری ماشین است که هدف آن کشف کردن الگو از میان دادههای خام است. ممکن است بپرسید این کاری بود که متخصصین آمار برای سالیان زیاد انجام میدادند، پس تفاوت در چیست؟
جواب این سؤال در تفاوت بین توضیح دادن و پیشبینی نهفته است.
تحلیلگر داده با بررسی تاریخچۀ دادهها، به توضیح آن میپردازد. درحالیکه دانشمند داده نهتنها برای دریافت بینش از دادهها به تحلیل اکتشافی (Exploratory Analysis) میپردازد، بلکه از الگوریتمهای پیچیده یادگیری ماشین برای پیشبینی یک رویداد خاص در آینده استفاده میکند. دانشمند داده از زوایای مختلف به دادهها نگاه میکند، زوایایی که پیشازاین ناشناخته بودند.
دلایل اهمیت علم داده
در گذشته، دادهها اغلب ساختاریافته بودند و در حجم بسیار کم وجود داشتند. این ویژگیها امکان تحلیل آنها را با استفاده از ابزارهای سادۀ هوش تجاری (Business Intelligence) فراهم میکرد؛ اما طی سالهای اخیر با رشد تکنولوژیهای دیجیتال و توسعه دسترسی به اینترنت و اینترنت اشیا (IoT)، شرکتها، دادههای فراوانی را ذخیره کردهاند و اکنون ما با انبوهی از داده روبرو هستیم.
دادههایی که در صورت مدیریت صحیح، کاربردهای زیادی خواهند داشت. حوزه پزشکی، جرمشناسی، صنایع، روابط اجتماعی، کسبوکار و هر اقدامی که امروز در جهان در حال اجراست، میتواند دادهمحور (data-driven) انجام شود؛ البته به شرطی که بهاندازه کافی داده در اختیار داشته باشیم، سواد داده (data literacy) داشته باشیم و کسانی در کنارمان باشند که در حوزه مدیریت داده و استفاده از آن تخصص داشته باشند.
با استفاده از تکنیکهای دادهکاوی میتوانید به نتایج دلخواه کاربران دست پیدا کنید.علم داده و رویکرد داده-محور به موضوعات، سبب تصمیمگیری بهتر، تحلیلهای پیشبینانه و کشف الگوها میشود و برای شما قابلیتهایی زیر را فراهم میکند:
- یافتن علت اصلی یک مشکل
- انجام تحلیل اکتشافی روی دادهها
- مدلسازی دادهها با استفاده از الگوریتمهای مختلف
- انتقال و نمایش نتایج با استفاده از نمودار و داشبوردها را میدهد.
مزایای علم داده
در ارائه یک خدمت، در تولید محصولات گوناگون و در تمامی اقدامات اجرایی که بهصورت مستمر انجام میشوند، داده تولید میشود. دادههای عبور و مرور وسایل نقلیه از یک جاده، دادههای یک خط تولید، نتایج تزریق یک واکسن جدید به تعداد زیادی از متقاضیان و… همه از جمله این دادهها هستند. علم داده از مرحلۀ طراحی تا مرحلۀ اصلاح آن خدمات و محصولات و اقدامات میتواند مزایای زیادی ایجاد کند و باعث شود که ما کمتر به شهود استناد کنیم و کمتر مسیرهای پرهزینه و آزمونوخطا را پیبگیریم.
سال گذشته، شرکت مک کینزی (شرکت آمریکایی مشاورۀ مدیریت) تخمین زده بود که ابتکارات کلان داده (Big Data) در سیستم مراقبتهای بهداشتی ایالاتمتحده میتواند سبب 300 تا 450 میلیارد دلار یا به عبارتی 12 تا 17 درصد کاهش در هزینههای درمانی 2.6 تریلیون دلاری شود.
ممکن است بپرسید چگونه؟
حتی چند اقدام ساده برگرفته از دادهها میتواند تأثیر بسزایی داشته باشد. بهعنوانمثال، دادهها نشان دادهاند که مصرف آسپرین توسط افرادی که در معرض بیماری عروق کرونر قلب هستند، همراه با غربالگری اولیه کلسترول و ترک سیگار، میتواند هزینۀ کل مراقبت از این بیماران را بیش از ۳۰ میلیارد دلار در سال کاهش دهد. امروزه دادهها امکان شناسایی سریعتر بیماران پرخطر، مداخلات مؤثرتر و نظارت دقیق را فراهم میکند و درنتیجه هزینههای بهداشتی سالانه به میزان قابلتوجهی کاهش خواهد یافت.
در کسبوکار نیز مدیریت داده میتواند به خلق و ایجاد مزیت رقابتی برای سازمانها منجر شود.
تفاوت علم داده و دادهکاوی
دادهکاوی (Data Mining) به معنای پیدا کردن روند در بین مجموعۀ دادههاست (Datasets) و از یادگیری ماشین، آمار و سیستمهای پایگاه داده (Database Systems) برای این کار استفاده میکند.
دادهکاوی علمی بینرشتهای و زیرشاخۀ علوم کامپیوتر است. هدف کلی از دادهکاوی استخراج اطلاعات از بین دادهها با استفاده از روشهای هوشمند و تبدیل این اطلاعات به ساختارهای قابلدرک برای استفاده در کسبوکار است.
در سال 1989، گریگوری پیاتتسکی-شاپیرو برای اولین بار اصطلاح «کشف دانش در پایگاه داده» (Knowledge Discovery in Database) را استفاده کرد. در دهۀ 1990، دادهکاوی برای اولین بار در بین متخصصان پایگاه داده استفاده شد. شرکتهای مالی و خردهفروشی از دادهکاوی برای تحلیل دادهها و تشخیص روندها استفاده میکنند تا مشتریان خود را افزایش دهند و بتوانند نوسانات نرخ بهره، قیمت سهام و تقاضای مشتری را پیشبینی کنند.
بیشتر بدانیم : مشاهده آموزش یادگیری ماشین
علم داده، یک حوزۀ بینرشتهای است که از روشهای علمی، فرایندها، الگوریتم و سیستمها برای استخراج دانش و بینش از میان دادههای زیاد ساختاریافته یا بدون ساختار استفاده میکند. علم داده به دادهکاوی، یادگیری عمیق (Deep Learning) و کلان داده مربوط میشود.
در سال ۱۹۷۴، اولین بار پیتر نائور اصطلاح علم داده را بهعنوان جایگزینی برای علم کامپیوتر استفاده کرد. در سال ۱۹۹۷ جف وو، پیشنهاد کرد که بهتر است آمار به علم داده تغییر نام دهد و علت این کار را هم کلیشههایی بیان کرد که در خصوص آمار وجود داشت که آن را معادل حسابداری و یا محدود به توصیف دادهها میدانستند. هرچند در سال ۱۹۹۸، چیکیو هایاشی بیان کرد که علم داده، مفهومی جدید و بینرشتهای است.
هرچند هنوز بین متخصصان دانشگاهی و صنعت، بر سر ارائۀ تعریف درست دادهکاوی و علم داده بحث وجود دارد؛ برای اینکه بیشتر با تفاوت هریک از این دو مفهوم آشنا شوید و بدانید در چه زمینهای از هریک بیشتر استفاده میشود، جدول زیر را مطالعه کنید:
# | داده کاوی | علم داده |
---|---|---|
ماهیت | دادهکاوی در اصل یک تکنیک است است | علم داده یک حوزه و رشته علمی است. |
تمرکز | تمرکز دادهکاوی روی فرایندهای کسبوکار است | تمرکز علم داده روی مطالعات علمی است |
هدف | کاربردی کردن دادهها یافتن روندهایی که هنوز ناشناختهاند | ساختن محصولات دادهمحور برای یک سازمان تحلیل اجتماعی، ساخت مدلهای پیشبینانه |
خروجی | خروجی دادهکاوی اغلب الگوها هستند | خروجی علم داده بسیار متنوع است. |
چشمانداز شغلی | فردی با دانش داده و درک آماری که بتواند دادهکاوی انجام دهد | فردی که یادگیری ماشین، برنامهنویسی، روشهای نمایش اطلاعات را میداند |
وسعت | دادهکاوی زیرمجموعۀ علم داده است | چند رشتهای – علم داده شامل تصویرسازی دادهها، علوم اجتماعی محاسباتی، آمار، دادهکاوی، پردازش زبان طبیعی و غیره است |
مرتبط با (نوع داده) | اغلب ساختاریافته | تمام اشکال داده – ساختاریافته، نیمه ساختاریافته و بدون ساختار |
فرآیند علم داده
فرایند تحلیل داده و اقدام بر اساس نتایج تحلیل یک فرایند خطی نیست و بیشتر فرایندی رفت و برگشتی است. معمولاً چرخۀ عمر علم داده (Data Science Lifecycle) و مدلسازی داده به شرح زیر است:
مرحلۀ ۱- کشف (Discovery):
قبل از شروع پروژه، باید نیازمندیها، اولویتها و مقیاس کار را مشخص کنید. باید توانایی پرسیدن سؤالات درست را داشته باشید. همچنین باید ببینید که منابع موردنیاز ازجمله افراد متخصص، فناوری، زمان و دادههای موردنیاز برای انجام پروژه را در اختیاردارید؟ در این مرحله مشخص کردن چارچوب مسئلۀ موردنظر و همچنین ارائۀ فرضیههای اولیۀ کاری مفید است.
مرحلۀ ۲- آمادهسازی دادهها (Data Preparation):
در این مرحله باید دادهها را بررسی کنید و پردازشهای اولیه را قبل از مدلسازی انجام دهید. سپس نوبت استخراج، تبدیل، بارگذاری و تبدیل است تا دادهها برای تحلیل آماده شوند. با استفاده از نرمافزار R میتوانید دادهها را تمیز، تبدیل و تصویرسازی کنید. این کار کمک خواهد کرد تا دادههای پرت (outlier) را مشخص کرده و بین متغیرها رابطه ایجاد کنید. زمانی که دادهها را تمیز و آماده کردید، وقت انجام تحلیل اکتشافی روی آنهاست.
مرحلۀ ۳- برنامهریزی مدل (Model Planning)
در این مرحله، تصمیم میگیرید از چه روش و تکنیکی برای ایجاد رابطۀ بین متغیرها استفاده کنید. این روابط پایۀ الگوریتمهایی خواهد بود که در گام بعد استفاده خواهید کرد. تحلیل اکتشافی دادهها (EDA) را با استفاده از فرمولهای آماری و ابزارهای تصویرسازی متفاوتی میتوانید انجام دهید.
چند مورد از ابزارهای رایج برنامهریزی مدل: SQL, R, SAS/ACCESS هستند.
R: مجموعۀ کاملی از قابلیتهای مدلسازی را دارا است و فضای خوبی برای ساخت مدلهای تفسیری فراهم میکند.
SQL: میتواند با استفاده از توابع دادهکاوی متداول و مدلهای سادۀ پیشبینانه، تحلیل درون پایگاه داده را انجام دهد.
SAS / ACCESS: میتواند برای دسترسی به دادههای هدوپ و برای ایجاد نمودارهای مدل تکرارپذیر استفاده شود. اکنونکه بینشی از ماهیت دادهها به دست آوردید و تصمیم گرفتید از چه الگوریتمی استفاده کنید. میتوانید در گام بعد از این الگوریتم استفاده کرده و مدلسازی انجام دهید.
مرحلۀ ۴- ساخت مدل (Model building):
در این مرحله برای آموزش و آزمایش مدل، مجموعۀ دادهها را ایجاد میکنید. در اینجا باید بررسی کنید که آیا ابزارهای موجود شما برای اجرای مدلها کافی است یا به یک محیط مستحکمتر (مانند پردازش سریع و موازی) نیاز دارد. شما برای ساخت مدل، تکنیکهای مختلف یادگیری مانند طبقهبندی، ارتباط و خوشهبندی را تجزیهوتحلیل خواهید کرد. با استفاده از این ابزارها میتوانید مدلسازی را انجام دهید:
SAS Enterprise Miner, WEKA, SPCS Modeler, Matlab, Alpine Miner, Statistica
مرحلۀ ۵- اجرا (Operationalize):
در این مرحله، شما گزارشهای نهایی، جلسات توجیهی، کد و اسناد فنی را ارائه میدهید. علاوه بر این، گاهی اوقات یک پروژه آزمایشی نیز در یک محیط تولید در زمان واقعی اجرا میشود. با این کار قبل از استقرار کامل، تصویری واضح از عملکرد و سایر محدودیتهای مربوطه در مقیاس کوچک به دست میآید.
مرحلۀ ۶- اعلام نتایج (Communicate Results):
ارزیابی اینکه آیا توانستهاید به هدف اولیه، برسید یا نه مهم است؛ بنابراین، در این مرحله، تمام یافتههای اصلی را شناسایی میکنید، با ذینفعان ارتباط برقرار میکنید و بر اساس معیارهای تدوینشده در مرحله نخست، موفقیت یا شکست نتایج پروژه را تعیین میکنید.
مرحلۀ ۷ – نظارت بر مدل (Monitoring Model):
نباید فراموش کنیم که استقرار یک مدل به معنی اتمام کار نیست. مدلها باید همیشه پس از استقرار کنترل شوند تا از عملکرد صحیح آنها اطمینان حاصل شود. دادههایی که مدل با استفاده از آنها آموزش دادهشده است، ممکن است برای پیشبینیهای آینده پس از یک دوره زمانی قابلاستفاده نباشد. بهعنوانمثال، در کلاهبرداریها، مجرمان همیشه راههای جدیدی برای هک حسابها ارائه میدهند.
کاربردهای علم داده
علم داده در مواجهه با بسیاری از مشکلات دنیای واقعی مؤثر بوده و بهمنظور اتخاذ تصمیمهای هوشمندانه و آگاهانهتر، بهطور فزاینده در تمامی صنایع از آن استفاده میشود. استفاده از رایانه برای کارهای روزمره و شخصی، تقاضا برای ماشینهای هوشمند که میتوانند رفتار انسان و الگوهای کار را یاد بگیرند را افزایش داده است. این امر سبب توجه بیشتر به علم داده و تحلیل کلان دادهها میشود.
کاربرد علم داده در پزشکی
شرکتهای پزشکی از علم داده برای ساختن ابزارهای پزشکی پیچیده برای تشخیص و درمان بیماریها استفاده میکنند.
بازی سازی و علم داده
بازیهای ویدیویی و رایانهای اکنون با کمک علم داده ایجاد میشوند و همین امر تجربه بازی را به سطح بالاتری انتقال داده است.
بیشتر بدانیم : مشاهده آموزش پردازش متن (Natural Language Processing)
کاربرد علم داده تشخیص تصویر:
شناسایی الگوها در تصاویر و تشخیص اشیا در تصویر یکی از محبوبترین کاربردهای علم داده است که ما امروز نتیجه آن را در دسترسیهای بیومتریک حسابهای کاربری، دستگاههای دیجیتال و جز اینها میبینیم.
سیستمهای پیشنهاددهنده:
نتفلیکس و آمازون بر اساس آنچه کاربر سیستمعاملهای آنها تماشا، خرید یا مرور میکند، فیلم و محصول خاص پیشنهاد میدهند.
تشخیص کلاهبرداری:
مؤسسات بانکی و مالی از علم داده و الگوریتمهای مرتبط برای کشف کلاهبرداری در معاملات استفاده میکنند.
آینده علم داده
دانشگاه هاروارد بهدرستی بیان کرده است که شغل دانشمند داده جذابترین شغل در قرن ۲۱ است. این شغل پر تقاضا میتواند تأثیر قابلتوجهی در موفقیت مالی، عملیاتی و استراتژیک شرکتها داشته باشد.
شرکتها دادههای زیادی جمعآوری میکنند و بیشتر اوقات از آنها غافل میشوند یا کامل از آنها استفاده نمیکنند. در صورت استخراج اطلاعات معنیدار و کشف بینشهای عملی از این دادهها، میتوان برای تصمیمهای مهم و ایجاد تغییرات قابلتوجه در کسبوکار از آنها استفاده کرد.
همچنین میتوانند برای رضایت مشتری و پسازآن جذب و نگهداری آنها و رشد سازمان مورداستفاده قرار گیرند. دقیقا اینجاست که علم داده، نقش محوری و کلیدیای دارد و با سرمایهگذاریای که روی آن انجام میشود، احتمالاً نقش و اهمیت آن هر روز بیشازپیش بر ما نمایان میشود و افراد فعال در حوزه داده،نقشهای کلیدیتر و محوریتری را در این خصوص بر عهده خواهند گرفت.