Menu


علم داده چیست | کاربردهای رشته دیتا ساینس


علم داده چیست

بسیاری از ما شنیده‌ایم که علم داده (Data Science) علمِ دنیای فرداست و متخصصان علم داده به سرعت توسط کسب و کارها جذب می‌شوند؛ اما شاید فرصتی پیش نیامده باشد تا درباره‌ی قلمرو علم داده و زیرمجموعه‌های آن مطالعه کنیم.

با این فرض، می‌خواهیم در این درس به صورت بسیار مختصر به تعریف علم داده و معرفی دانش‌ها و مهارتهای وابسته به آن بپردازیم.

آیا ما هم با دستاوردهای علم داده سر و کار داریم؟

ممکن است در نگاه اول به نظر برسد که بحث علم داده، یک بحث تخصصی برای محققان است و انسان‌های عادی، با دستاوردهای آن سر و کار ندارند (یا این‌که هنوز سر و کار ندارند)، اما چنین فرضی درست نیست:

  • هر بار که به جستجو در گوگل می‌پردازیم؛
  • هر بار که یک وب‌سایت را باز می‌کنیم و تبلیغاتی متناسب با سلیقه‌ی ما نمایش داده می‌شود؛
  • هر بار که آمازون یا سایت‌های خرده‌فروشی دیگر، بر اساس خریدهای قبلی و انتخاب‌های فعلی ما، پیشنهادهای جدیدی را مطرح می‌کنند (سامانه های توصیه‌گر

در حال استفاده از دستاوردهای علم داده هستیم. ضمن این‌که در برخی کشورهای توسعه‌یافته، حق بیمه، مدیریت چراغ‌های راهنمایی و رانندگی و توزیع امکانات و فرصت‌های شهری هم با تکیه بر علم داده انجام می‌شود.

واقعیت این است که علم داده به معنای خاص، چند دهه قدمت دارد و به معنای عام، ریشه‌های آن را می‌توان در قرن‌های گذشته هم جستجو کرد. اما قدرت گرفتن چند «روند» طی سال‌های اخیر، باعث شده که علم داده بیش از پیش مورد توجه قرار بگیرد. از جمله‌ی این روندها می‌توان به موارد زیر اشاره کرد:

  • افزایش حجم داده‌ها (در حدی که بیگ دیتا به مسئله‌ی بسیاری از کسب و کارها تبدیل شد)
  • افزایش قدرت محاسباتی سیستم‌های سخت‌افزاری (که پیاده‌سازی بسیاری از پروژه‌های علم داده را توجیه‌پذیر کرد)
  • افزایش حجم تولید داده در اینترنت (از اطلاعات تراکنش‌های انسان‌ها و فعالیت در شبکه‌های اجتماعی تا داده‌های گردآوری شده توسط سنسورها، مثلاً اطلاعات موقعیت فیزیکی انسان‌ها در لحظات مختلف)
  • خلق روش‌های جدیدتر برای تحلیل داده‌ها

در حال حاضر، بسیاری از کسب و کارها برای حل مسائل خود و به‌خصوص سیاست‌گذاری و انجام اقدام‌های پیشگیرانه، از علم داده کمک می‌گیرند. به این مثال توجه کنید:

فرض کنید یک کسب و کار پوشاک، باشگاهی برای مشتریان خود راه‌اندازی کرده است. بیشتر مشتریانِ مکرر این کسب و کار، عضو باشگاه مشتریان هستند و از مزیت‌های آن بهره می‌برند.

اما اعضای هیچ باشگاهی، برای همیشه در آن باشگاه باقی نمی‌مانند. بلکه زمانی می‌رسد که تصمیم می‌گیرند به سراغ برندهای دیگر بروند و همه‌ی امتیازهای جمع‌شده و مزایا و ساز و کارهای گیمیفیکیشن را که یک کسب و کار، برای درگیر کردن و افزایش وفاداری مشتریان خود طراحی کرده، رها کنند.

فرض کنید کسب و کار مد نظر ما، بنا به تجربه به نتیجه رسیده است که وقتی یک عضو باشگاه، برای یکسال از کارت عضویت خود هیچ استفاده‌ای نمی‌کند، آن مشتری را می‌توان از دست‌ رفته دانست.

به واسطه‌ی سیستم نرم‌افزاری باشگاه مشتریان، تمام داده‌های مربوط به مشتریان قبلی که از دست رفته‌اند نیز موجود است (از سن و جنسیت گرفته تا تعداد و زمان و مبلغ تراکنش‌ها و نوع کالاهایی که خریده‌اند و تخفیف‌ها و مزایایی که استفاده کرده‌اند).

سوال این‌جاست که چگونه می‌توان همین امروز، کسانی را که عضو باشگاه مشتریان هستند و هنوز غیر فعال نشده‌اند، اما «احتمال غیرفعال‌شدن‌شان در یک سال آینده بالاست» پیدا کرد؟

اگر این افراد با دقت نسبتاً خوبی تشخیص داده شوند، می‌توان به شیوه‌های مختلف (از تماس تلفنی و نظرسنجی تا ارائه‌ی امتیازها و تخفیف‌های ویژه)، احتمال غیرفعال‌شدن‌ آن‌ها را کاهش داد.

این یکی از نمونه سوال‌هایی است که متخصص علوم داده می‌تواند به آن پاسخ دهد.

تعریف علم داده چیست؟

می‌گویند علم داده گرفتارِ جنگ تعریف‌ها است (+). به این معنا که افراد مختلف، آن را به شکل‌های متفاوتی تعریف کرده‌اند و چون هیچ‌کس از تعریف دیگری راضی نیست، همه مشغول نقد تعریف یکدیگر هستند.

واقعیت این است که مدعیان تخصص علم داده هم در این میان بی‌تقصیر نیستند. در حدی که گاهی یک نفر که صرفاً توانایی ترسیم چند نمودار در اکسل را دارد، خود را متخصص علم داده معرفی می‌کند و نتیجه این می‌شود که عده‌ای می‌گویند: «متخصص علم داده، همان کارشناس آمار است که حقوق بیشتری می‌خواهد.»

اگر از این اختلاف‌نظرها و افراط‌ها بگذریم، می‌توان گفت دو تعریف زیر تقریباً در میان غالب متخصصان علم داده پذیرفته شده‌اند:

تعریف علم داده توسط براشلر و همکاران (منبع)

علم داده به ترکیب منحصر‌به‌فردی از اصول و روش‌ها، اعم از تحلیل، مهندسی، کارآفرینی و علم ارتباطات اشاره دارد که می‌کوشد از داده‌ها، ارزش اقتصادی خلق کند.

تعریف علم داده توسط کِهِلِر (منبع)

علم داده شامل مجموعه‌ای از اصول، مسائل، الگوریتم‌ها و فرایندهاست که برای استخراج الگوهای غیرواضح و قابل‌استفاده از حجم بزرگ داده‌ها به‌کار گرفته می‌شود.

این الگوها واضح نیستند؛ به این معنا که غالباً با تحلیل شهودی کارشناسان، نمی‌توان آن‌ها را یافت و درک کرد.

این الگوها کاربردی هستند؛ به این معنا که صرفاً داده‌های پیش رو را توصیف نمی‌کنند؛ بلکه مسیری برای اقدام عملی در اختیار ما می‌گذارند.

آیا علم داده همان داده کاوی است؟

گاهی اوقات علم داده (Data Science) را با داده کاوی (Data Mining) و گاه با یادگیری ماشین (Machine Learning) مترادف در نظر می‌گیرند.

گاهی هم پیش می‌آید که آن را زیرمجموعه‌ی علم آمار فرض می‌کنند. اما منطقی‌تر است که برای علم داده تعریف گسترده‌تری در نظر بگیریم. زیرا:

  • علم داده ، بر خلاف داده کاوی، تمام فرایند مرتبط با داده، از گردآوری اولیه تا عرضه‌ی محصول مبتنی بر داده‌ها را در برمی‌گیرد و صرفاً به تحلیل داده محدود نیست.
  • علم داده بر خلاف روش غالب در آمار، معمولاً از جنبه‌ی توصیفی و استنتاجی فاصله می‌گیرد و می‌کوشد بر اساس داده‌های موجود، به پیش‌بینی و تجویز بپردازد.

بنابراین بهتر است علم داده را به معنای عام‌تر در نظر بگیریم و فرض کنیم سایر شاخه‌ها (مثل آمار، داده کاوی و یادگیری ماشینی) دستاوردهای خود را در اختیار علم داده قرار می‌دهند.

علم داده با چه دانش‌ها و مهارت‌هایی در ارتباط است؟

علم داده چنان گسترده است که معمولاً یک متخصص علم داده هم نمی‌تواند در همه‌ی زمینه‌های آن متخصص شود و مدعی باشد. معمولاً یک متخصص در یکی دو مورد از رشته‌ها، تخصص عمیق دارد و آشنایی‌اش با سایر حوزه‌ها، در حد عمومی باقی می‌ماند. در این‌جا چند مورد از دانش‌ها و مهارت‌های مرتبط با علم داده را مرور می‌کنیم (+):

محدودیت در دسترسی کامل به درس‌های سواد دیجیتال

دوست عزیز. دسترسی کامل مجموعه درس‌های سواد دیجیتال برای اعضای ویژه‌ی متمم در نظر گرفته شده است.

  تعداد درس‌ها: ۷۶ عدد

  دانشجویان این درس: ۶۹۷۰ نفر

  تمرین‌های ثبت‌شده: ۳۹۰۶ مورد

 البته با عضویت ویژه، به مجموعه درس‌های بسیار بیشتری به شرح زیر دسترسی پیدا می‌کنید:

 فهرست درس‌های متمم

البته اگر به تسلط بر تکنولوژی و سواد دیجیتال علاقه دارید، احتمالاً مطالعه‌ی مباحث زیر برایتان در اولویت خواهد بود:

  آموزش CRMاتوماسیون بازاریابی

  استراتژی محتوا | آموزش بازاریابی محتوا | دیجیتال مارکتینگ

  آموزش سئو | ایمیل مارکتینگ | شبکه های اجتماعی

  شبکه های اجتماعی | تولید محتوا

  دوره MBA (پیگیری منظم مجموعه درس‌ها)

اگر با فضای متمم آشنا نیستید و دوست دارید درباره‌ی متمم بیشتر بدانید، می‌توانید نظرات دوستان متممی را درباره‌ی متمم بخوانید و ببینید متمم برایتان مناسب است یا نه. این افراد کسانی هستند که برای مدت طولانی با متمم همراه بوده و آن را به خوبی می‌شناسند:

سوالهای مصاحبه برای استخدام متخصص علوم داده

اگر واقعاً برایتان جذاب است که به عنوان یک Data Scientist فعالیت کنید، پیشنهاد می‌کنیم فایل PDF زیر را دانلود کرده و بخوانید:

120 Interview Questions for Data Scientists

کارل شان و همکارانش، متخصصان علوم داده هستند و کتابی هم با عنوان The Data Science Handbook نوشته‌اند. آن‌ها در این فایل، چارچوب سوال‌های مصاحبه استخدام متخصص علوم داده را آورده‌اند که می‌تواند هم برای مصاحبه‌کنندگان و هم مصاحبه‌شوندگان مفید باشد.

اگر به بازاریابی محتوا علاقه‌مند هستید، این کار را می‌توانید از زاویه‌ی بازاریابی محتوا هم ببینید. چون این نویسندگان در پایان این فایل PDF، کتاب‌شان را هم معرفی کرده‌اند و در واقع این محتوا، برای بازاریابی یک محصول دیگر تولید و عرضه شده است.

بعد از خواندن این درس چه کار کنم؟

  درس بازار کار علم داده به کاربردهای علم داده می‌پردازد و عملاً بخش دوم این درس محسوب می‌شود. پس حتماً آن درس را هم بخوانید.

  مطالعه‌ی درس بیگ دیتا (کلان داده) می‌تواند مکمل این درس باشد.

  خواندن درس تحلیل کسب و کار بر پایه داده‌ها هم می‌تواند برایتان مفید باشد. در این درس رشته‌ی MBAn معرفی شده که به نظر می‌رسد قرار است رونق رشته MBA را در اختیار خود بگیرد.

  مطالعهٔ درس تحلیل شبکه های اجتماعی هم شما را با یکی از کاربردهای علم داده آشنا می‌کند.

  کتاب همه دروغ می گویند هم یک کتاب بسیار ساده و ابتدایی درباره‌ی علم داده و کاربرد بیگ دیتا در علوم اجتماعی است که شاید برایتان جذاب باشد.

  داستان پروژه GFT هم آموزنده و خواندنی است. پروژه‌ای که در آن گوگل با استفاده از علم داده و تحلیل نتایج جستجوی کاربران می‌خواست نرخ شیوع آنفولانزا را محاسبه کند؛ اما در آن شکست خورد.

ترتیبی که متمم برای خواندن مطالب سری علم داده به شما پیشنهاد می‌کند:

سری مطالب حوزه علم داده

سوال‌های پرتکرار دربارهٔ متمم

متمم چیست و چه می‌کند؟

فهرست دوره های آموزشی متمم را کجا ببینیم؟

هزینه ثبت نام در متمم چقدر است؟

آیا در متمم فایل های صوتی رایگان هم برای دانلود وجود دارد؟

با متمم همراه شوید

آیا می‌دانید که فقط با ثبت ایمیل و تعریف نام کاربری و رمز عبور می‌توانید به جمع متممی‌ها بپیوندید؟

سرفصل‌ها  ثبت‌نام  تجربهٔ متممی‌ها

۶ نظر برای علم داده چیست | کاربردهای رشته دیتا ساینس

    پرطرفدارترین دیدگاه به انتخاب متممی‌ها در این بحث

    نویسنده‌ی دیدگاه : محسن لاله

     

    با سلام خدمت همه متممی های عزیز

    با توجه به اینکه چند سالی هست در این حوزه فعالیت میکنم خواستم چند نکته را اضافه کنم.

    اولا خیلی ممنون که متمم عزیز در بکارگیری عبارت "یادگیری ماشین" مانند همیشه دقت داشت چرا که بارها شاهد آن بوده ام که حتی کسانیکه خود را دانشمند داده خطاب میکردند این عبارت را "یادگیری ماشینی" گفته اند که غلط است.

    - نکته اول را میخواستم به تقسیم بندی تکنیک های مختلف داده کاوی اختصاص بدهم که تقریبا مورد قبول اکثر بزرگان این حوزه نیز میباشد.

     
    تكنیك های مختلف داده كاوی را می توان بر اساس نوع عملیاتی كه انجام می دهند به دو دسته «پیش بینی كننده» و «تشریح كننده» تقسیم كرد. تكنیك های پیش بینی كننده با ساخت مدلی برای پایگاه داده، وظیفه پیش بینی موارد ناشناخته را بر عهده دارند
    دسته اول روش­های پیش بینی کننده (Predictive) با هدف پیش بینی یک ویژگی، بر اساس مقادیر سایر متغیرهای مساله است و شامل:

    طبقه بندي (Classification)،
    رگرسيون (Regression)
    آنالیز سری­های زمانی (Time Series Analysis)
    پیش بینی (Forecasting)می باشد.

    دسته دیگر روشهای تشریح کننده (Descriptive) هستند که به منظور استخراج الگوهایی برای کشف رابطه­ ی بین داده ­ها مطرح شده اند و شامل:

    قوانين انجمني، تلازمی (Association Rules)،
    خوشه بندي(Clustering)
    خلاصه سازی (Summarization)
    الگوهاي متوالي، مکرر (Sequential (Repeated) Pattern) هستند.

    - نکته دوم که میخواهم در مورد آن صحبت کنم بحث ابزار در علم داده می باشد. کسیکه میخواهد در این حوزه فعالیت کند راهی جز تسلط بر برخی از زبان های برنامه نویسی مانند R ، پایتون و ... ندارد. البته در این زمینه پیشنهاد موکد من این است که اگر وزن تحلیل های آماری کارتان سنگینتر است حتما حتما R را انتخاب کنید.

    - یک مبحث کاملا درست و عین حال گرفتار کننده ای را میثم مدنی عزیز در صحبتش با امین آرامش در رادیو کارنکن به آن اشاره کرد که میخواستم اینجا روی آن تاکید کنم و آن اینکه در بسیاری از مواقع اصلا ما داده درست و حسابی نداریم که بخواهیم روی آنها داده کاوی یا یادگیری ماشین پیاده کنیم و این نکته بسیار مهم است.

    با تشکر

     
    تمرین‌ها و نظرات ثبت شده روی این درس صرفاً برای اعضای متمم نمایش داده می‌شود.
    .
Generic selectors
Exact matches only
Search in title
Search in content