علم داده چیست | کاربردهای رشته دیتا ساینس
بسیاری از ما شنیدهایم که علم داده (Data Science) علمِ دنیای فرداست و متخصصان علم داده به سرعت توسط کسب و کارها جذب میشوند؛ اما شاید فرصتی پیش نیامده باشد تا دربارهی قلمرو علم داده و زیرمجموعههای آن مطالعه کنیم.
با این فرض، میخواهیم در این درس به صورت بسیار مختصر به تعریف علم داده و معرفی دانشها و مهارتهای وابسته به آن بپردازیم.
آیا ما هم با دستاوردهای علم داده سر و کار داریم؟
ممکن است در نگاه اول به نظر برسد که بحث علم داده، یک بحث تخصصی برای محققان است و انسانهای عادی، با دستاوردهای آن سر و کار ندارند (یا اینکه هنوز سر و کار ندارند)، اما چنین فرضی درست نیست:
- هر بار که به جستجو در گوگل میپردازیم؛
- هر بار که یک وبسایت را باز میکنیم و تبلیغاتی متناسب با سلیقهی ما نمایش داده میشود؛
- هر بار که آمازون یا سایتهای خردهفروشی دیگر، بر اساس خریدهای قبلی و انتخابهای فعلی ما، پیشنهادهای جدیدی را مطرح میکنند (سامانه های توصیهگر)؛
در حال استفاده از دستاوردهای علم داده هستیم. ضمن اینکه در برخی کشورهای توسعهیافته، حق بیمه، مدیریت چراغهای راهنمایی و رانندگی و توزیع امکانات و فرصتهای شهری هم با تکیه بر علم داده انجام میشود.
واقعیت این است که علم داده به معنای خاص، چند دهه قدمت دارد و به معنای عام، ریشههای آن را میتوان در قرنهای گذشته هم جستجو کرد. اما قدرت گرفتن چند «روند» طی سالهای اخیر، باعث شده که علم داده بیش از پیش مورد توجه قرار بگیرد. از جملهی این روندها میتوان به موارد زیر اشاره کرد:
- افزایش حجم دادهها (در حدی که بیگ دیتا به مسئلهی بسیاری از کسب و کارها تبدیل شد)
- افزایش قدرت محاسباتی سیستمهای سختافزاری (که پیادهسازی بسیاری از پروژههای علم داده را توجیهپذیر کرد)
- افزایش حجم تولید داده در اینترنت (از اطلاعات تراکنشهای انسانها و فعالیت در شبکههای اجتماعی تا دادههای گردآوری شده توسط سنسورها، مثلاً اطلاعات موقعیت فیزیکی انسانها در لحظات مختلف)
- خلق روشهای جدیدتر برای تحلیل دادهها
در حال حاضر، بسیاری از کسب و کارها برای حل مسائل خود و بهخصوص سیاستگذاری و انجام اقدامهای پیشگیرانه، از علم داده کمک میگیرند. به این مثال توجه کنید:
فرض کنید یک کسب و کار پوشاک، باشگاهی برای مشتریان خود راهاندازی کرده است. بیشتر مشتریانِ مکرر این کسب و کار، عضو باشگاه مشتریان هستند و از مزیتهای آن بهره میبرند.
اما اعضای هیچ باشگاهی، برای همیشه در آن باشگاه باقی نمیمانند. بلکه زمانی میرسد که تصمیم میگیرند به سراغ برندهای دیگر بروند و همهی امتیازهای جمعشده و مزایا و ساز و کارهای گیمیفیکیشن را که یک کسب و کار، برای درگیر کردن و افزایش وفاداری مشتریان خود طراحی کرده، رها کنند.
فرض کنید کسب و کار مد نظر ما، بنا به تجربه به نتیجه رسیده است که وقتی یک عضو باشگاه، برای یکسال از کارت عضویت خود هیچ استفادهای نمیکند، آن مشتری را میتوان از دست رفته دانست.
به واسطهی سیستم نرمافزاری باشگاه مشتریان، تمام دادههای مربوط به مشتریان قبلی که از دست رفتهاند نیز موجود است (از سن و جنسیت گرفته تا تعداد و زمان و مبلغ تراکنشها و نوع کالاهایی که خریدهاند و تخفیفها و مزایایی که استفاده کردهاند).
سوال اینجاست که چگونه میتوان همین امروز، کسانی را که عضو باشگاه مشتریان هستند و هنوز غیر فعال نشدهاند، اما «احتمال غیرفعالشدنشان در یک سال آینده بالاست» پیدا کرد؟
اگر این افراد با دقت نسبتاً خوبی تشخیص داده شوند، میتوان به شیوههای مختلف (از تماس تلفنی و نظرسنجی تا ارائهی امتیازها و تخفیفهای ویژه)، احتمال غیرفعالشدن آنها را کاهش داد.
این یکی از نمونه سوالهایی است که متخصص علوم داده میتواند به آن پاسخ دهد.
تعریف علم داده چیست؟
میگویند علم داده گرفتارِ جنگ تعریفها است (+). به این معنا که افراد مختلف، آن را به شکلهای متفاوتی تعریف کردهاند و چون هیچکس از تعریف دیگری راضی نیست، همه مشغول نقد تعریف یکدیگر هستند.
واقعیت این است که مدعیان تخصص علم داده هم در این میان بیتقصیر نیستند. در حدی که گاهی یک نفر که صرفاً توانایی ترسیم چند نمودار در اکسل را دارد، خود را متخصص علم داده معرفی میکند و نتیجه این میشود که عدهای میگویند: «متخصص علم داده، همان کارشناس آمار است که حقوق بیشتری میخواهد.»
اگر از این اختلافنظرها و افراطها بگذریم، میتوان گفت دو تعریف زیر تقریباً در میان غالب متخصصان علم داده پذیرفته شدهاند:
تعریف علم داده توسط براشلر و همکاران (منبع)
علم داده به ترکیب منحصربهفردی از اصول و روشها، اعم از تحلیل، مهندسی، کارآفرینی و علم ارتباطات اشاره دارد که میکوشد از دادهها، ارزش اقتصادی خلق کند.
تعریف علم داده توسط کِهِلِر (منبع)
علم داده شامل مجموعهای از اصول، مسائل، الگوریتمها و فرایندهاست که برای استخراج الگوهای غیرواضح و قابلاستفاده از حجم بزرگ دادهها بهکار گرفته میشود.
این الگوها واضح نیستند؛ به این معنا که غالباً با تحلیل شهودی کارشناسان، نمیتوان آنها را یافت و درک کرد.
این الگوها کاربردی هستند؛ به این معنا که صرفاً دادههای پیش رو را توصیف نمیکنند؛ بلکه مسیری برای اقدام عملی در اختیار ما میگذارند.
آیا علم داده همان داده کاوی است؟
گاهی اوقات علم داده (Data Science) را با داده کاوی (Data Mining) و گاه با یادگیری ماشین (Machine Learning) مترادف در نظر میگیرند.
گاهی هم پیش میآید که آن را زیرمجموعهی علم آمار فرض میکنند. اما منطقیتر است که برای علم داده تعریف گستردهتری در نظر بگیریم. زیرا:
- علم داده ، بر خلاف داده کاوی، تمام فرایند مرتبط با داده، از گردآوری اولیه تا عرضهی محصول مبتنی بر دادهها را در برمیگیرد و صرفاً به تحلیل داده محدود نیست.
- علم داده بر خلاف روش غالب در آمار، معمولاً از جنبهی توصیفی و استنتاجی فاصله میگیرد و میکوشد بر اساس دادههای موجود، به پیشبینی و تجویز بپردازد.
بنابراین بهتر است علم داده را به معنای عامتر در نظر بگیریم و فرض کنیم سایر شاخهها (مثل آمار، داده کاوی و یادگیری ماشینی) دستاوردهای خود را در اختیار علم داده قرار میدهند.
علم داده با چه دانشها و مهارتهایی در ارتباط است؟
علم داده چنان گسترده است که معمولاً یک متخصص علم داده هم نمیتواند در همهی زمینههای آن متخصص شود و مدعی باشد. معمولاً یک متخصص در یکی دو مورد از رشتهها، تخصص عمیق دارد و آشناییاش با سایر حوزهها، در حد عمومی باقی میماند. در اینجا چند مورد از دانشها و مهارتهای مرتبط با علم داده را مرور میکنیم (+):
دوست عزیز. دسترسی کامل مجموعه درسهای سواد دیجیتال برای اعضای ویژهی متمم در نظر گرفته شده است.
تعداد درسها: ۷۶ عدد
دانشجویان این درس: ۶۹۷۰ نفر
تمرینهای ثبتشده: ۳۹۰۶ مورد
البته با عضویت ویژه، به مجموعه درسهای بسیار بیشتری به شرح زیر دسترسی پیدا میکنید:
البته اگر به تسلط بر تکنولوژی و سواد دیجیتال علاقه دارید، احتمالاً مطالعهی مباحث زیر برایتان در اولویت خواهد بود:
آموزش CRM | اتوماسیون بازاریابی
استراتژی محتوا | آموزش بازاریابی محتوا | دیجیتال مارکتینگ
آموزش سئو | ایمیل مارکتینگ | شبکه های اجتماعی
شبکه های اجتماعی | تولید محتوا
دوره MBA (پیگیری منظم مجموعه درسها)
اگر با فضای متمم آشنا نیستید و دوست دارید دربارهی متمم بیشتر بدانید، میتوانید نظرات دوستان متممی را دربارهی متمم بخوانید و ببینید متمم برایتان مناسب است یا نه. این افراد کسانی هستند که برای مدت طولانی با متمم همراه بوده و آن را به خوبی میشناسند:
سوالهای مصاحبه برای استخدام متخصص علوم داده
اگر واقعاً برایتان جذاب است که به عنوان یک Data Scientist فعالیت کنید، پیشنهاد میکنیم فایل PDF زیر را دانلود کرده و بخوانید:
120 Interview Questions for Data Scientists
کارل شان و همکارانش، متخصصان علوم داده هستند و کتابی هم با عنوان The Data Science Handbook نوشتهاند. آنها در این فایل، چارچوب سوالهای مصاحبه استخدام متخصص علوم داده را آوردهاند که میتواند هم برای مصاحبهکنندگان و هم مصاحبهشوندگان مفید باشد.
اگر به بازاریابی محتوا علاقهمند هستید، این کار را میتوانید از زاویهی بازاریابی محتوا هم ببینید. چون این نویسندگان در پایان این فایل PDF، کتابشان را هم معرفی کردهاند و در واقع این محتوا، برای بازاریابی یک محصول دیگر تولید و عرضه شده است.
درس بازار کار علم داده به کاربردهای علم داده میپردازد و عملاً بخش دوم این درس محسوب میشود. پس حتماً آن درس را هم بخوانید.
مطالعهی درس بیگ دیتا (کلان داده) میتواند مکمل این درس باشد.
خواندن درس تحلیل کسب و کار بر پایه دادهها هم میتواند برایتان مفید باشد. در این درس رشتهی MBAn معرفی شده که به نظر میرسد قرار است رونق رشته MBA را در اختیار خود بگیرد.
مطالعهٔ درس تحلیل شبکه های اجتماعی هم شما را با یکی از کاربردهای علم داده آشنا میکند.
کتاب همه دروغ می گویند هم یک کتاب بسیار ساده و ابتدایی دربارهی علم داده و کاربرد بیگ دیتا در علوم اجتماعی است که شاید برایتان جذاب باشد.
داستان پروژه GFT هم آموزنده و خواندنی است. پروژهای که در آن گوگل با استفاده از علم داده و تحلیل نتایج جستجوی کاربران میخواست نرخ شیوع آنفولانزا را محاسبه کند؛ اما در آن شکست خورد.
ترتیبی که متمم برای خواندن مطالب سری علم داده به شما پیشنهاد میکند:
- علم داده چیست | کاربردهای رشته دیتا ساینس
- بازار کار علم داده | چند مثال از کاربرد علم داده به زبان ساده
- فراداده یا متادیتا چیست؟ | تفاوت داده با اطلاعات
- کلان داده یا بیگ دیتا چیست؟ (+کاربردهای Big Data)
- کتاب همه دروغ می گویند | کتابی ضعیف اما خواندنی درباره بیگ دیتا
- هوش مصنوعی و استراتژی کسب و کار | مروری بر کتاب استراتژی همجوشی
- انسانها و نکته ای در کاربرد هوش مصنوعی
- پروژه GFT | چرا گوگل در پیشبینی اپیدمی و پاندمی موفق نشد؟
- پیتر تیل | کارآفرین، بنیانگذار پی پل و از صاحبنظران حوزه تکنولوژی
- شرکت پالانتیر (Palantir) | داده کاوی در مقیاس بزرگ برای پرسشهای خاص
- Clearview AI | آیا با اینکه هوش مصنوعی تصویر شما را تشخیص دهد موافقید؟
- انسان در برابر هوش مصنوعی | آیا کاسپاروف درباره خیانت IBM به علم درست میگوید؟
- هوش مصنوعی و صنعت نشر کتاب | گام جدید مایکروسافت؛ انتشارات ۸۰۸۰
- مقاله آلن تورینگ (تست تورینگ) | نقطه آغاز دوران مدرن هوش مصنوعی
- کتاب اهمیت آموزش پذیری (لزلی ولینت) | کمکی برای فهم بهتر هوش مصنوعی
- هوش یار | کتابی درباره چت جی پی تی و [کمی] هوش مصنوعی
چند مطلب پیشنهادی از متمم:
با متمم همراه شوید
آیا میدانید که فقط با ثبت ایمیل و تعریف نام کاربری و رمز عبور میتوانید به جمع متممیها بپیوندید؟
نویسندهی دیدگاه : محسن لاله
با سلام خدمت همه متممی های عزیز
با توجه به اینکه چند سالی هست در این حوزه فعالیت میکنم خواستم چند نکته را اضافه کنم.
اولا خیلی ممنون که متمم عزیز در بکارگیری عبارت "یادگیری ماشین" مانند همیشه دقت داشت چرا که بارها شاهد آن بوده ام که حتی کسانیکه خود را دانشمند داده خطاب میکردند این عبارت را "یادگیری ماشینی" گفته اند که غلط است.
- نکته اول را میخواستم به تقسیم بندی تکنیک های مختلف داده کاوی اختصاص بدهم که تقریبا مورد قبول اکثر بزرگان این حوزه نیز میباشد.
تكنیك های مختلف داده كاوی را می توان بر اساس نوع عملیاتی كه انجام می دهند به دو دسته «پیش بینی كننده» و «تشریح كننده» تقسیم كرد. تكنیك های پیش بینی كننده با ساخت مدلی برای پایگاه داده، وظیفه پیش بینی موارد ناشناخته را بر عهده دارند
دسته اول روشهای پیش بینی کننده (Predictive) با هدف پیش بینی یک ویژگی، بر اساس مقادیر سایر متغیرهای مساله است و شامل:
طبقه بندي (Classification)،
رگرسيون (Regression)
آنالیز سریهای زمانی (Time Series Analysis)
پیش بینی (Forecasting)می باشد.
دسته دیگر روشهای تشریح کننده (Descriptive) هستند که به منظور استخراج الگوهایی برای کشف رابطه ی بین داده ها مطرح شده اند و شامل:
قوانين انجمني، تلازمی (Association Rules)،
خوشه بندي(Clustering)
خلاصه سازی (Summarization)
الگوهاي متوالي، مکرر (Sequential (Repeated) Pattern) هستند.
- نکته دوم که میخواهم در مورد آن صحبت کنم بحث ابزار در علم داده می باشد. کسیکه میخواهد در این حوزه فعالیت کند راهی جز تسلط بر برخی از زبان های برنامه نویسی مانند R ، پایتون و ... ندارد. البته در این زمینه پیشنهاد موکد من این است که اگر وزن تحلیل های آماری کارتان سنگینتر است حتما حتما R را انتخاب کنید.
- یک مبحث کاملا درست و عین حال گرفتار کننده ای را میثم مدنی عزیز در صحبتش با امین آرامش در رادیو کارنکن به آن اشاره کرد که میخواستم اینجا روی آن تاکید کنم و آن اینکه در بسیاری از مواقع اصلا ما داده درست و حسابی نداریم که بخواهیم روی آنها داده کاوی یا یادگیری ماشین پیاده کنیم و این نکته بسیار مهم است.
با تشکر