برنامه نویسی, مهندسی, مهندسی صنایع, هوش مصنوعی و دیتا ساینس

آشنایی با علم داده

daka

3 سال پیش

جهان امروز، جهان داده‌ است و ذخیره‌سازی و استفاده بهینه از داده‌ از چالش‌های اصلی سازمان‌ها در یک دهه گذشته بوده است. ازاین‌ رو در سال‌های اخیر، تمرکز اصلی متخصصان داده و شرکت‌های متخصص داده روی ساختن چهارچوب‌ها و راه‌حل‌هایی برای مدیریت داده‌ها (از استخراج و ذخیره‌سازی تا تحلیل و استراتژی‌های داده‌محور) یا علم داده بوده است.

علم داده (Data Science) در حقیقت حلقۀ اتصال و هدایت‌گر این وضعیت است. نقش علم‌داده و متخصصان علوم داده، امروز تا جایی برجسته شده است که حتی عده‌ای باور دارند تمام ایده‌هایی که در فیلم‌های علمی-تخیلی هالیوود دیده می‌شود، می‌تواند به‌وسیلۀ علم داده به واقعیت تبدیل شود.

پیش‌نیازهای علم داده

پیش از آشنایی با علم داده چیست، لازم است با مفاهیم و موضوعات کلیدی و پایه‌ای آن‌ آشنا شویم.

یادگیری ماشین (Machine Learning)

یادگیری ماشین را می‌توان به‌عنوان ستون فقرات علم داده معرفی کرد. یادگیری ماشین، روشی برای تحلیل داده‌ها است که مدل‌های تحلیلی را به‌صورت خودکار ایجاد می‌کند. این علم، شاخه‌ای از هوش مصنوعی است که مبتنی بر این ایده است که سیستم‌ها می‌توانند با حداقل دخالت انسان از داده‌ها بیاموزند، الگوها را شناسایی کنند و بر اساس آن تصمیم بگیرند.

مدل‌سازی (Modeling)

مدل‌های ریاضی به شما کمک می‌کنند بر اساس آنچه از داده‌ها می‌دانید، محاسبات سریع و پیش‌بینی انجام دهید. مدل‌سازی بخشی از یادگیری ماشین است و به معنی شناسایی مناسب‌ترین الگوریتم‌ها برای حل مسئله و نحوۀ آموزش مدل‌ها است.

آمار (Statistics)

آمار هستۀ اصلی علم داده است. دانش خوب درزمینۀ آمار به شما کمک کند هوشمندانه‌تر رفتار کرده و نتایج معنی‌دارتری کسب کنید.

برنامه‌نویسی (Programming)

برای اجرای یک پروژۀ موفق در حوزۀ داده، به سطحی مشخص از برنامه‌نویسی نیاز است. رایج‌ترین زبان‌های برنامه‌نویسی پایتون (Python) و آر (R) هستند. به علت یادگیری آسان و پشتیبانی از چندین کتابخانۀ علم داده و یادگیری ماشین، پایتون در بین مهندسان داده بسیار محبوب است.

پایگاه داده (Database)

یک دانشمند توانمند داده باید نحوۀ کار پایگاه داده‌، مدیریت آن‌ و نحوۀ استخراج داده‌ از آن‌ را به‌خوبی بداند.

شاید برای پوشش دادن تمام نقش‌های داده در یک سازمان و کسب‌وکار داده‌محور لازم باشد که مفاهیم و موضوعات دیگری نیز مطرح شود، اما در حال حاضر ما کلیدی‌ترین مفاهیم را برای ورود به بحث در اختیار داریم.

اگر به یادگیری عمیق علامند شدید می توانید آموزش پایتون در علم داده را مشاهده کنید.

علم داده چیست؟

با پیشرفت آمار ریاضی و تحلیل داده در سال‌های اخیر، اصطلاح «علم داده» ظهور پیدا کرده است. در حقیقت علم داده مجموعه‌ای از ابزارها، الگوریتم‌ها و اصول یادگیری ماشین است که هدف آن کشف کردن الگو از میان داده‌های خام است. ممکن است بپرسید این کاری بود که متخصصین آمار برای سالیان زیاد انجام می‌دادند، پس تفاوت در چیست؟

جواب این سؤال در تفاوت بین توضیح دادن و پیش‌بینی نهفته است.

تحلیلگر داده با بررسی تاریخچۀ داده‌ها، به توضیح آن می‌پردازد. درحالی‌که دانشمند داده نه‌تنها برای دریافت بینش از داده‌ها به تحلیل اکتشافی (Exploratory Analysis) می‌پردازد، بلکه از الگوریتم‌های پیچیده یادگیری ماشین برای پیش‌بینی یک رویداد خاص در آینده استفاده می‌کند. دانشمند داده از زوایای مختلف به داده‌ها نگاه می‌کند، زوایایی که پیش‌ازاین ناشناخته بودند.

دلایل اهمیت علم داده

در گذشته، داده‌ها اغلب ساختاریافته بودند و در حجم بسیار کم وجود داشتند. این ویژگی‌ها امکان تحلیل آن‌ها را با استفاده از ابزارهای سادۀ هوش تجاری (Business Intelligence) فراهم می‌کرد؛ اما طی سال‌های اخیر با رشد تکنولوژی‌های دیجیتال و توسعه دسترسی به اینترنت و اینترنت اشیا (IoT)، شرکت‌ها، داده‌های فراوانی را ذخیره کرده‌اند و اکنون ما با انبوهی از داده‌ روبرو هستیم.

داده‌هایی که در صورت مدیریت صحیح، کاربردهای زیادی خواهند داشت. حوزه پزشکی، جرم‌شناسی، صنایع، روابط اجتماعی، کسب‌وکار و هر اقدامی که امروز در جهان در حال اجراست، می‌تواند داده‌محور (data-driven) انجام شود؛ البته به شرطی که به‌اندازه کافی داده‌ در اختیار داشته‌ باشیم، سواد داده (data literacy) داشته‌ باشیم و کسانی در کنارمان باشند که در حوزه مدیریت داده و استفاده از آن تخصص داشته باشند.

با استفاده از تکنیک‌های داده‌کاوی می‌توانید به نتایج دلخواه کاربران دست پیدا کنید.علم داده و رویکرد داده-محور به موضوعات، سبب تصمیم‌گیری بهتر، تحلیل‌های پیش‌بینانه و کشف الگوها می‌شود و برای شما قابلیت‌هایی زیر را فراهم می‌کند:

یافتن علت اصلی یک مشکل
انجام تحلیل اکتشافی روی داده‌ها
مدل‌سازی داده‌ها با استفاده از الگوریتم‌های مختلف
انتقال و نمایش نتایج با استفاده از نمودار و داشبوردها را می‌دهد.

مزایای علم داده

در ارائه یک خدمت، در تولید محصولات گوناگون و در تمامی اقدامات اجرایی که به‌صورت مستمر انجام می‌شوند، داده تولید می‌شود. داده‌های عبور و مرور وسایل نقلیه از یک جاده، داده‌های یک خط تولید، نتایج تزریق یک واکسن جدید به تعداد زیادی از متقاضیان و… همه از جمله این داده‌ها هستند. علم داده از مرحلۀ طراحی تا مرحلۀ اصلاح آن خدمات و محصولات و اقدامات می‌تواند مزایای زیادی ایجاد کند و باعث شود که ما کمتر به شهود استناد کنیم و کمتر مسیرهای پرهزینه و آزمون‌وخطا را پی‌بگیریم.

سال گذشته، شرکت مک کینزی (شرکت آمریکایی مشاورۀ مدیریت) تخمین زده بود که ابتکارات کلان داده (Big Data) در سیستم مراقبت‌های بهداشتی ایالات‌متحده می‌تواند سبب 300 تا 450 میلیارد دلار یا به عبارتی 12 تا 17 درصد کاهش در هزینه‌های درمانی 2.6 تریلیون دلاری شود.

ممکن است بپرسید چگونه؟

حتی چند اقدام ساده برگرفته از داده‌ها می‌تواند تأثیر بسزایی داشته باشد. به‌عنوان‌مثال، داده‌ها نشان داده‌اند که مصرف آسپرین توسط افرادی که در معرض بیماری عروق کرونر قلب هستند، همراه با غربالگری اولیه کلسترول و ترک سیگار، می‌تواند هزینۀ کل مراقبت از این بیماران را بیش از ۳۰ میلیارد دلار در سال کاهش دهد. امروزه داده‌ها امکان شناسایی سریع‌تر بیماران پرخطر، مداخلات مؤثرتر و نظارت دقیق را فراهم می‌کند و درنتیجه هزینه‌های بهداشتی سالانه به میزان قابل‌توجهی کاهش خواهد یافت.

در کسب‌وکار نیز مدیریت داده می‌تواند به خلق و ایجاد مزیت رقابتی برای سازمان‌ها منجر شود.

تفاوت علم داده و داده‌کاوی

داده‌کاوی (Data Mining) به معنای پیدا کردن روند در بین مجموعۀ داده‌هاست (Datasets) و از یادگیری ماشین، آمار و سیستم‌های پایگاه داده (Database Systems) برای این کار استفاده می‌کند.

داده‌کاوی علمی بین‌رشته‌ای و زیرشاخۀ علوم کامپیوتر است. هدف کلی از داده‌کاوی استخراج اطلاعات از بین داده‌ها با استفاده از روش‌های هوشمند و تبدیل این اطلاعات به ساختارهای قابل‌درک برای استفاده در کسب‌وکار است.

در سال 1989، گریگوری پیاتتسکی-شاپیرو برای اولین بار اصطلاح «کشف دانش در پایگاه داده» (Knowledge Discovery in Database) را استفاده کرد. در دهۀ 1990، داده‌کاوی برای اولین بار در بین متخصصان پایگاه داده استفاده شد. شرکت‌های مالی و خرده‌فروشی از داده‌کاوی برای تحلیل داده‌ها و تشخیص روندها استفاده می‌کنند تا مشتریان خود را افزایش دهند و بتوانند نوسانات نرخ بهره، قیمت سهام و تقاضای مشتری را پیش‌بینی کنند.

بیشتر بدانیم : مشاهده آموزش یادگیری ماشین

علم داده، یک حوزۀ بین‌رشته‌ای است که از روش‌های علمی، فرایندها، الگوریتم‌ و سیستم‌ها برای استخراج دانش و بینش از میان داده‌های زیاد ساختاریافته یا بدون ساختار استفاده می‌کند. علم داده به داده‌کاوی، یادگیری عمیق (Deep Learning) و کلان داده‌ مربوط می‌شود.

در سال ۱۹۷۴، اولین بار پیتر نائور اصطلاح علم داده را به‌عنوان جایگزینی برای علم کامپیوتر استفاده کرد. در سال ۱۹۹۷ جف وو، پیشنهاد کرد که بهتر است آمار به علم داده تغییر نام دهد و علت این کار را هم کلیشه‌هایی بیان کرد که در خصوص آمار وجود داشت که آن را معادل حسابداری و یا محدود به توصیف داده‌ها می‌دانستند. هرچند در سال ۱۹۹۸، چیکیو هایاشی بیان کرد که علم داده، مفهومی جدید و بین‌رشته‌ای است.

هرچند هنوز بین متخصصان دانشگاهی و صنعت، بر سر ارائۀ تعریف درست داده‌کاوی و علم داده بحث وجود دارد؛ برای اینکه بیشتر با تفاوت هریک از این دو مفهوم آشنا شوید و بدانید در چه زمینه‌ای از هریک بیشتر استفاده می‌شود، جدول زیر را مطالعه کنید:

#	داده کاوی	علم داده
ماهیت	داده‌کاوی در اصل یک تکنیک است است	علم داده یک حوزه و رشته علمی‌ است.
تمرکز	تمرکز داده‌کاوی روی فرایندهای کسب‌وکار است	تمرکز علم داده روی مطالعات علمی است
هدف	کاربردی کردن داده‌ها یافتن روندهایی که هنوز ناشناخته‌اند	ساختن محصولات داده‌محور برای یک سازمان تحلیل اجتماعی، ساخت مدل‌های پیش‌بینانه
خروجی	خروجی داده‌کاوی اغلب الگوها هستند	خروجی علم داده بسیار متنوع است.
چشم‌انداز شغلی	فردی با دانش داده و درک آماری که بتواند داده‌کاوی انجام دهد	فردی که یادگیری ماشین، برنامه‌نویسی، روش‌های نمایش اطلاعات را می‌داند
وسعت	داده‌کاوی زیرمجموعۀ علم داده است	چند رشته‌ای – علم داده شامل تصویرسازی داده‌ها، علوم اجتماعی محاسباتی، آمار، داده‌کاوی، پردازش زبان طبیعی و غیره است
مرتبط با (نوع داده)	اغلب ساختاریافته	تمام اشکال داده – ساختاریافته، نیمه ساختاریافته و بدون ساختار

فرآیند علم داده

فرایند تحلیل داده و اقدام بر اساس نتایج تحلیل یک فرایند خطی نیست و بیشتر فرایندی رفت و برگشتی است. معمولاً چرخۀ عمر علم داده (Data Science Lifecycle) و مدل‌سازی داده به شرح زیر است:

مرحلۀ ۱- کشف (Discovery):

قبل از شروع پروژه، باید نیازمندی‌ها، اولویت‌ها و مقیاس کار را مشخص کنید. باید توانایی پرسیدن سؤالات درست را داشته باشید. همچنین باید ببینید که منابع موردنیاز ازجمله افراد متخصص، فناوری، زمان و داده‌های موردنیاز برای انجام پروژه را در اختیاردارید؟ در این مرحله مشخص کردن چارچوب مسئلۀ موردنظر و همچنین ارائۀ فرضیه‌های اولیۀ کاری مفید است.

مرحلۀ ۲- آماده‌سازی داده‌ها (Data Preparation):

در این مرحله باید داده‌ها را بررسی کنید و پردازش‌های اولیه را قبل از مدل‌سازی انجام دهید. سپس نوبت استخراج، تبدیل، بارگذاری و تبدیل است تا داده‌ها برای تحلیل آماده شوند. با استفاده از نرم‌افزار R می‌توانید داده‌ها را تمیز، تبدیل و تصویرسازی کنید. این کار کمک خواهد کرد تا داده‌های پرت (outlier) را مشخص کرده و بین متغیرها رابطه ایجاد کنید. زمانی که داده‌ها را تمیز و آماده کردید، وقت انجام تحلیل اکتشافی روی آن‌هاست.

مرحلۀ ۳- برنامه‌ریزی مدل (Model Planning)

در این مرحله، تصمیم می‌گیرید از چه روش و تکنیکی برای ایجاد رابطۀ بین متغیرها استفاده کنید. این روابط پایۀ الگوریتم‌هایی خواهد بود که در گام بعد استفاده خواهید کرد. تحلیل اکتشافی داده‌ها (EDA) را با استفاده از فرمول‌های آماری و ابزارهای تصویرسازی متفاوتی می‌توانید انجام دهید.

چند مورد از ابزارهای رایج برنامه‌ریزی مدل: SQL, R, SAS/ACCESS هستند.

R: مجموعۀ کاملی از قابلیت‌های مدل‌سازی را دارا است و فضای خوبی برای ساخت مدل‌های تفسیری فراهم می‌کند.

SQL: می‌تواند با استفاده از توابع داده‌کاوی متداول و مدل‌های سادۀ پیش‌بینانه، تحلیل درون پایگاه داده را انجام دهد.

SAS / ACCESS: می‌تواند برای دسترسی به داده‌های هدوپ و برای ایجاد نمودارهای مدل تکرارپذیر استفاده شود. اکنون‌که بینشی از ماهیت داده‌ها به دست آوردید و تصمیم گرفتید از چه الگوریتمی استفاده کنید. می‌توانید در گام بعد از این الگوریتم استفاده کرده و مدل‌سازی انجام دهید.

مرحلۀ ۴- ساخت مدل (Model building):

در این مرحله برای آموزش و آزمایش مدل، مجموعۀ داده‌ها را ایجاد می‌کنید. در اینجا باید بررسی کنید که آیا ابزارهای موجود شما برای اجرای مدل‌ها کافی است یا به یک محیط مستحکم‌تر (مانند پردازش سریع و موازی) نیاز دارد. شما برای ساخت مدل، تکنیک‌های مختلف یادگیری مانند طبقه‌بندی، ارتباط و خوشه‌بندی را تجزیه‌وتحلیل خواهید کرد. با استفاده از این ابزارها می‌توانید مدل‌سازی را انجام دهید:

SAS Enterprise Miner, WEKA, SPCS Modeler, Matlab, Alpine Miner, Statistica

مرحلۀ ۵- اجرا (Operationalize):

در این مرحله، شما گزارش‌های نهایی، جلسات توجیهی، کد و اسناد فنی را ارائه می‌دهید. علاوه بر این، گاهی اوقات یک پروژه آزمایشی نیز در یک محیط تولید در زمان واقعی اجرا می‌شود. با این کار قبل از استقرار کامل، تصویری واضح از عملکرد و سایر محدودیت‌های مربوطه در مقیاس کوچک به دست می‌آید.

مرحلۀ ۶- اعلام نتایج (Communicate Results):

ارزیابی اینکه آیا توانسته‌اید به هدف اولیه، برسید یا نه مهم است؛ بنابراین، در این مرحله، تمام یافته‌های اصلی را شناسایی می‌کنید، با ذینفعان ارتباط برقرار می‌کنید و بر اساس معیارهای تدوین‌شده در مرحله نخست، موفقیت یا شکست نتایج پروژه را تعیین می‌کنید.

مرحلۀ ۷ – نظارت بر مدل‌ (Monitoring Model):

نباید فراموش کنیم که استقرار یک مدل به معنی اتمام کار نیست. مدل‌ها باید همیشه پس از استقرار کنترل شوند تا از عملکرد صحیح آن‌ها اطمینان حاصل شود. داده‌هایی که مدل با استفاده از آن‌ها آموزش داده‌شده است، ممکن است برای پیش‌بینی‌های آینده پس از یک دوره زمانی قابل‌استفاده نباشد. به‌عنوان‌مثال، در کلاه‌برداری‌ها، مجرمان همیشه راه‌های جدیدی برای هک حساب‌ها ارائه می‌دهند.

کاربردهای علم داده

علم داده در مواجهه با بسیاری از مشکلات دنیای واقعی مؤثر بوده و به‌منظور اتخاذ تصمیم‌های هوشمندانه و آگاهانه‌تر، به‌طور فزاینده‌ در تمامی صنایع از آن استفاده می‌شود. استفاده از رایانه برای کارهای روزمره و شخصی، تقاضا برای ماشین‌های هوشمند که می‌توانند رفتار انسان و الگوهای کار را یاد بگیرند را افزایش داده است. این امر سبب توجه بیشتر به علم داده و تحلیل کلان داده‌ها می‌شود.

کاربرد علم داده در پزشکی

شرکت‌های پزشکی از علم داده برای ساختن ابزارهای پزشکی پیچیده برای تشخیص و درمان بیماری‌ها استفاده می‌کنند.

بازی سازی و علم داده

بازی‌های ویدیویی و رایانه‌ای اکنون با کمک علم داده ایجاد می‌شوند و همین امر تجربه بازی را به سطح بالاتری انتقال داده است.

بیشتر بدانیم : مشاهده آموزش پردازش متن (Natural Language Processing)

کاربرد علم داده تشخیص تصویر:

شناسایی الگوها در تصاویر و تشخیص اشیا در تصویر یکی از محبوب‌ترین کاربردهای علم داده است که ما امروز نتیجه آن را در دسترسی‌های بیومتریک حساب‌های کاربری، دستگاه‌های دیجیتال و جز این‌ها می‌بینیم.

سیستم‌های پیشنهاددهنده:

نتفلیکس و آمازون بر اساس آنچه کاربر سیستم‌عامل‌های آن‌ها تماشا، خرید یا مرور می‌کند، فیلم و محصول خاص پیشنهاد می‌دهند.

تشخیص کلاه‌برداری:

مؤسسات بانکی و مالی از علم داده و الگوریتم‌های مرتبط برای کشف کلاه‌برداری در معاملات استفاده می‌کنند.

آینده علم داده

دانشگاه هاروارد به‌درستی بیان کرده است که شغل دانشمند داده جذاب‌ترین شغل در قرن ۲۱ است. این شغل پر تقاضا می‌تواند تأثیر قابل‌توجهی در موفقیت مالی، عملیاتی و استراتژیک شرکت‌ها داشته باشد.

شرکت‌ها داده‌های زیادی جمع‌آوری می‌کنند و بیشتر اوقات از آن‌ها غافل می‌شوند یا کامل از آن‎‌ها استفاده نمی‌کنند. در صورت استخراج اطلاعات معنی‌دار و کشف بینش‌های عملی از این داده‌ها، می‌توان برای تصمیم‌های مهم و ایجاد تغییرات قابل‌توجه در کسب‌وکار از آن‌ها استفاده کرد.

همچنین می‌توانند برای رضایت مشتری و پس‌ازآن جذب و نگهداری آن‌ها و رشد سازمان مورداستفاده قرار گیرند. دقیقا اینجاست که علم داده‌، نقش محوری و کلیدی‌ای دارد و با سرمایه‌گذاری‌ای که روی آن انجام می‌شود، احتمالاً نقش و اهمیت آن هر روز بیش‌ازپیش بر ما نمایان می‌شود و افراد فعال در حوزه داده،‌نقش‌های کلیدی‌تر و محوری‌تری را در این خصوص بر عهده خواهند گرفت.