چهارشنبه ۱۷ فروردین ۱۴۰۱

مفاهیم اساسی ریاضی و آمار در علم داده‌ ها

تبدیل داده‌های خام و کمی به اطلاعات سازمان‌یافته و مفید نیاز به قدرت ذهنی بسیار و درک بالایی دارد. درست است که همه نمی‌توانند مانند آریابهاتا، نخستین ریاضی‌دان و منجم دوره کلاسیک و اهل هند باشند، اما می‌توان با سخت‌کوشی، تمرکز و پشتکار به نتیجه مطلوب رسید.

اکنون نوبت آن فرا رسیده است که پشتکار و سخت‌کوشی خود را برای آموختن ریاضیات و آمار و استفاده از آنها در علم داده‌ها نشان دهید.

ریاضیات و آمار دو مورد از مهم‌ترین مفاهیم در علم داده‌ها هستند. علم داده‌ها در واقع حول این دو موضوع می‌چرخد و این مفاهیم را در کار بر روی داده‌ها از نو تعریف می‌کند. در اینجا مفاهیم مختلفی را بررسی می‌کنیم که در مجموع علم داده‌ها را شکل می‌دهند و استفاده عملی آنها را در این حوزه نشان می‌دهیم.

ریاضیات و آمار در علم داده‌ها

علم داده‌ها امروزه به یک فناوری پرطرفدار در جهان تبدیل شده است. برای یادگیری علم داده‌ها باید دانش خود را در زمینه ریاضیات و آمار تقویت کنید. پس نخست به این پرسش می‌پردازیم که ریاضیات تا چه حد در علم داده‌ها اهمیت دارد.

ریاضیات در علم داده‌ها

ریاضیات بر هر حوزه‌ای تأثیر خود را می‌گذارد. میزان استفاده از ریاضیات در رشته‌های مختلف یکسان نیست. دو جز اصلی ریاضیات که در علم داده‌ها مورد استفاده قرار می‌گیرند عبارت‌اند از جبر خطی و حساب دیفرانسیل و انتگرال.

در مورد این دو حوزه ریاضیات که به علم داده‌ها کمک می‌کنند، به‌طور خلاصه به معرفی هر یک و تأثیر و نحوه استفاده از آنها در علم داده‌ها می‌پردازیم.

جبر خطی

جبر خطی نخستین و مهم‌ترین موضوع در علم داده‌ها است. جبر خطی به‌طور گسترده در تشخیص تصاویر، تجزیه و تحلیل متن و همچنین کاهش ابعاد مؤثر است. به این دو تصویر نگاه کنید:

image of dog

image of cat

می‌توانید بگویید کدام یک تصویر گربه است و کدام یک تصویر سگ؟ البته که می‌توانید. این توانایی به این دلیل در شما هست که از بدو تولد ذهن شما برای تشخیص گربه از سگ آموزش دیده است. در نتیجه می‌توانید به استفاده از غریزه خود داده‌های مختلف را به ادراکات تبدیل کنید.

اما اگر از شما خواسته شود الگوریتمی طراحی کنید که از طریق آن بتوان گربه‌ها و سگ‌ها را از هم جدا کرد چه می‌کنید؟ به این کار «طبقه‌بندی» می‌گویند و مهم‌ترین کاربرد حوزه یادگیری ماشینی محسوب می‌شود. در واقع رایانه قادر است به کمک جبر خطی تصویر گربه را از تصویر سگ تشخیص دهد.

رایانه این تصویر را به شکل «ماتریس» ذخیره می‌کند. ماتریس‌ها مهم‌ترین بخش جبر خطی هستند. اساساً جبر خطی برای حل مسائل معادلات خطی طراحی شده است. این معادلات گاه شامل متغیرهایی با ابعاد بالاتر می‌شوند.

این متغیرهای با ابعاد بالاتر را نمی‌توان به تجسم درآورد یا دستکاری کرد. از این رو ما از قدرت ماتریس‌ها استفاده می‌کنیم تا بتوانیم داده‌هایی دارای ابعاد n را دستکاری کنیم. سه نوع ماتریس وجود دارد:

یک. بردارها (Vectors) که ماتریس‌های یک‌بعدی هستند. منظور از یک‌بعدی این است که این ماتریس‌ها n ردیف اما تنها یک ستون دارند.

دو. ماتریس‌های دوبعدی که معروف‌ترین نوع ماتریس و دارای دو بعد هستند. در این ماتریس‌ها n ردیف و n ستون وجود دارد.

dimensional matrix in data science

سه. اسکالرها که در آن تمام عضوهای قطر اصلی ماتریس با هم برابرند.

چندین مجموعه ابزار پشتیبانی برای جبر خطی وجود دارد. یکی از این مجموعه‌ها numpy نام دارد که در برنامه‌نویسی پایتون (Python programming) از آن استفاده می‌شود. در اینجا یک نمونه کد numpy را می‌آوریم که برای ساختن بردارها و ماتریس‌ها از آن استفاده می‌شود.

import numpy as np

arr = np.array([1,4,7,8])

arr

> array([1, 4, 7, 8])

arr2 = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])

arr2

>array([[ 1, 2, 3],

[ 4, 5, 6],

[ 7, 8, 9],

[10, 11, 12]])

چهار. ماتریس مهم دیگری نیز وجود دارد که به آن «ماتریس هویت» (identity matrix) می‌گویند. در این ماتریس که از صفرها و یک‌ها ساخته شده است، یک‌ها مورب و سایر مقادیر ماتریس صفر هستند.

diagonal matrix

تکنیک‌های جبر خطی در علم داده‌ها

انواع دیگری از ماتریس نیز وجود دارند که در نوع خود مهم هستند، مانند ماتریس معکوس و اعمالی مانند جابه‌جایی یک ماتریس نیز شایان یادگیری هستند. حال به برخی تکنیک‌های مهم جبر خطی می‌پردازیم که در علم داده‌ها مورد استفاده قرار می‌گیرند.

تجزیه تک‌ارزشی

تجزیه تک‌ارزشی ماتریس به شما امکان می‌دهد ماتریس‌ را با تقسیم آن به سه ماتریس مختلف دستکاری کنید. این ماتریس‌ها حاصل مقیاس‌گذاری، چرخاندن و بریدن ماتریس‌های دیگر هستند.

تجزیه‌ویژه یک ماتریس

تجزیه‌ویژه یک ماتریس به شما امکان می‌دهد ماتریس‌ها را کاهش دهید تا عملیات روی ماتریس‌ها سریع‌تر انجام شود. این کار باعث ایجاد بردارهای جدید می‌شود که در همان جهت بردارهای قبلی باشند. سپس ماتریس را به مقادیر ویژه و بردارهای ویژه تجزیه می‌کنیم.

تحلیل اجزای اصلی

برای کاهش ابعاد بالاتر، از تحلیل اجزای اصلی استفاده می‌کنیم. این عملیات به‌طور گسترده برای کاهش ابعاد ماتریس مورد استفاده قرار می‌گیرد که فرایند کاهش تعداد متغیرها یا ابعاد ماتریس بدون از دست رفتن برچسب‌های همبسته ماتریس است.

حساب دیفرانسیل و انتگرال

یکی دیگر از بخش‌های ریاضیات که در علم داده‌ها مورد نیاز است، حساب دیفرانسیل و انتگرال است. حساب دیفرانسیل و انتگرال اساساً در تکنیک‌های بهینه‌سازی مورد استفاده قرار می‌گیرد. بدون حساب دیفرانسیل و انتگرال نمی‌توانید به دانشی عمیق در مورد یادگیری ماشینی دست بیابید.

با استفاده از حساب دیفرانسیل و انتگرال می‌توان شبکه‌های عصبی مصنوعی را مدل‌سازی کرد و همچنین دقت و کارایی آنها را افزایش داد. حساب دیفرانسیل و انتگرال را می‌توان به دو دسته زیر تقسیم‌بندی کرد.

حساب دیفرانسیل

حساب دیفرانسیل سرعت تغییر کمیت‌ها را بررسی می‌کند. از مشتق بیشتر برای یافتن ماکزیمم و مینیمم توابع استفاده می‌شود. از این رو از مشتق در تکنیک‌های بهینه‌سازی استفاده می‌شود که در آنها باید مینیمم را پیدا کنیم تا بتوانیم تابع خطا را به حداقل برسانیم.

مفهوم مهم دیگری در مورد مشتق که باید بشناسید، مشتق جزئی است که برای طراحی «انتشار معکوس» (Backpropagation) در شبکه‌های عصبی به کار می‌ود. «قانون زنجیره‌ای» (Chain Rule) مفهوم مهم دیگری است که در محاسبه انتشار معکوس مورد استفاده قرار می‌گیرد.

علاوه بر به حداقل رساندن توابع خطا و انتشار معکوس، از نظریه بازی دیفرانسیل در شبکه‌های عصبی متخاصم مولد (Generative Adversarial Neural Networks) نیز استفاده می‌شود.

حساب انتگرال

حساب انتگرال مطالعه ریاضی در مورد جمع مقادیر و یافتن مساحت زیر منحنی است. انتگرال‌ها به انتگرال‌های معین و نامعین تقسیم می‌شوند.

انتگرال‌گیری بیشتر در محاسبه توابع احتمال و اختلاف متغیرهای تصادفی مورد استفاده است. استنباط بیزی (Bayesian Inference) حوزه مهم دیگری در یادگیری ماشینی است که در آن از حساب انتگرال استفاده می‌شود.

پس از درک مباحث مهم ریاضیات، حال باید نگاهی بیندازیم به مفاهیم مهم در حوزه آمار که در علم داده‌ها مورد استفاده قرار می‌گیرند.

آمار در علم داده‌ها

آمار یعنی پژوهشی که به جمع‌آوری،‌ تجزیه و تحلیل، تجسم و تفسیر داده‌ها می‌پردازد. علم داده‌ها مانند یک ماشین اسپرت قوی است که با آمار کار می‌کند. این ماشین از آمار برای تبدیل داده‌های خام به تعاریف و ایده‌هایی استفاده می‌کند که محصولات آن داده‌ها محسوب می‌شوند.

آمار با داده‌های خام سروکار دارد و به صنایع کمک می‌کند تصمیمات دقیق مبتنی بر اطلاعات موثق بگیرند. علم آمار ابزارها و امکانات مختلفی در اختیار شما قرار می‌دهد که کمک می‌کند حجم بسیار بزرگی از داده‌ها را تحلیل و از آنها نتیجه‌گیری کنید.

افزون بر این، به کمک علم آمار می‌توانید داده‌ها را خلاصه کنید و از آنها گزاره‌هایی استنتاج کنید که درک عمیقی از آن داده‌ها به شما می‌دهند. با توجه به این دو اصطلاح، می‌توان علم آمار را به دو شاخه زیر تقسیم کرد.

· آمار توصیفی

· آمار استنتاجی

آمار توصیفی

برای توصیف داده‌ها از علم آمار توصیفی یا خلاصه‌سازی به کمک آمار استفاده می‌شود. این شاخه به خلاصه کردن کمی داده‌ها می‌پردازد. این فرایند خلاصه‌سازی از طریق نمودارها و نمایش‌های عددی انجام می‌شود.

به منظور درک کامل‌تر آمار توصیفی، باید مفاهیم کلیدی زیر را بشناسید.

توزیع نرمال

در توزیع نرمال یا بهنجار تعداد بسیاری از داده‌ها را در یک نمودار نشان می‌دهند. با استفاده از توزیع نرمال، مقادیر زیادی از متغیرها در یک منحنی گاوسی (Gaussian Curve) نشان داده می‌شوند.

منحنی گاوسی ماهیتی متقارن دارد، یعنی مقادیر دورتر از حد میانگین، به‌طور مساوی در هر دو جهت در چپ و راست کاهش می‌یابند. برای انجام محاسبات در آمار استنتاجی، لازم است داده‌ها به‌صورت نرمال توزیع شده باشند.

شاخص‌ مرکزی

با استفاده از شاخص‌های مرکزی (Central tendency) می‌توانیم نقطه مرکزی داده‌ها را شناسایی کنیم. میانگین، میانه و حالت، سه بخش مهم شاخص مرکزی هستند. میانگین یعنی حد وسط همه مقادیر در داده‌های نمونه، میانه یعنی مقدار متوسط داده‌هایی که به‌صورت صعودی مرتب شده باشند و حالت، بیشترین مقدار در داده نمونه است.

خمیدگی و کشیدگی

ممکن است در نمونه‌های داده توزیع شما هیچ نوع تقارنی را نشان ندهد. مثلاً منحنی گاوسی دارای خمیدگی یا چولگی (Skewness) صفر است. وقتی داده‌های بیشتر در سمت چپ نمودار جمع شوند، شاهد شیب مثبت نمودار هستیم و وقتی داده‌ها در سمت راست جمع شوند، شیب منفی داریم.

کشیدگی (Kurtosis) دنباله یا «دم» نمودار را اندازه‌گیری می‌کند. از دنباله‌دار بودن نمودار استنباط می‌شود که کشیدگی نمودار، مقادیر حداکثری در هر دو دنباله نمودار را اندازه‌گیری می‌کند.

اساساً توزیع‌هایی با کشیدگی زیاد دنباله‌هایی بزرگ‌تر از توزیع‌های نرمال دارند، در حالی که کشیدگی منفی نشان‌دهنده دنباله کوچک‌تری نسبت به توزیع‌های نرمال است.

تغییرپذیری

تغییرپذیری (Variability) نشان‌دهنده فاصله بین دو نقطه داده از میانگین مرکزی توزیع است. معیارهای مختلفی برای تغییرپذیری وجود دارد، مانند دامنه، واریانس،‌ انحراف استاندارد و دامنه بین چارکی (inter-quartile ranges).

آمار استنباطی

آمار استنباطی (Inferential Statistics) روش استنباط یا نتیجه‌گیری از داده‌هاست. از طریق آمار استنباطی با انجام آزمایش و نتیجه‌گیری از نمونه‌های کوچک‌تر می‌توانیم در مورد نمونه‌های آماری بزرگ‌تر نتیجه‌گیری کنیم.

برای نمونه در جریان نظرسنجی انتخاباتی اگر بخواهید بدانیم چند نفر از یک حزب سیاسی خاص حمایت می‌کنند، چطور این کار را انجام می‌دهید؟ آیا می‌توانید نظر تک‌تک افراد را بپرسید؟

این رویکرد قطعاً درست نیست، زیرا مثلاً در هند بیش از یک میلیارد نفر زندگی می‌کنند و پرسیدن نظر تک‌تک آنها کاری بیش از حد دشوار است. در نتیجه نمونه‌ آماری کوچک‌تری انتخاب و براساس آن نمونه استنباط می‌کنیم و مشاهدات خود را به جمعیت بزرگ‌تر نسبت می‌دهیم.

تکنیک‌های مختلفی در حوزه آمار استنباطی وجود دارد که در علم داده‌ها می‌توان از آنها استفاده کرد. در ادامه برخی از این تکنیک‌ها را مرور می‌کنیم.

قضیه حد مرکزی

در یک قضیه حد مرکزی (Central Limit Theorem) میانگین نمونه آماری کوچک‌تر با میانگین نمونه آماری بزرگ‌تر یکسان است. از این رو انحراف معیار (standard deviation) برابر با انحراف معیار جامعه بزرگ‌تر است.

آزمون فرضی آماری

آزمون فرضی (Hypothesis Testing) معیار سنجش یک فرضیه است. با استفاده از آزمون فرضی می‌توان نتایج حاصل از یک نمونه آماری کوچک‌تر را به یک گروه بسیار بزرگ‌تر تعمیم داد. دو فرض وجود دارد که لازم است آنها را در تقابل با یکدیگر آزمایش کنیم: یکی فرض صفر (Null Hypothesis) و دیگری فرض جایگزین (Alternate Hypothesis).

فرض صفر نشان‌دهنده سناریوی ایده‌آل است، در حالی که فرض جایگزین اغلب برعکس آن است و با استفاده از فرض صفر سعی می‌کنیم اشتباه بودن آن را اثبات کنیم.

تحلیل واریانس

به کمک تحلیل واریانس یا Analysis of variance که به آن ANOVA نیز می‌گویند، فرضیه‌های خود را برای گروه‌های جداگانه مورد آزمایش قرار می‌دهیم. این روش شکل بهبودیافته از یک تکنیک استنتاجی است که به آن آزمون تی گفته می‌شود. تست ANOVA با حداقل میزان خطا آزمون را انجام می‌دهد.

یکی از معیارهای اندازه‌گیری تحلیل واریانس یا ANOVA را «نسبت اف» (f-ratio) می‌نامند. نسبت اف در واقع نسبت میانگین مربع داخلی یک گروه و میانگین مربع بین گروه‌هاست.

تحلیل کیفی داده‌ها

تحلیل کیفی داده‌ها دو تکنیک مهم دارد، یکی همبستگی (correlation) و دیگری رگرسیون (regression). همبستگی معیار یافتن روابط بین متغیرهای تصادفی و داده‌های دومتغیره است. رگرسیون نیز شکل دیگری از تحلیل کیفی داده‌هاست.

در رگرسیون روابط بین متغیرها را تخمین می‌زنیم. رگرسیون دو نوع ساده و چندمتغیره دارد. همچنین اگر تابع ماهیتی غیرخطی داشته باشد، رگرسیون نیز غیرخطی خواهد بود.

چکیده

در این مقاله در مورد نقش‌های مختلف ریاضیات و علم آمار در دانش داده‌ها و یادگیری ماشینی صحبت کردیم. نحوه استفاده گسترده از جبر خطی را در کارهای پیچیده محاسباتی و پردازشی نیز نشان دادیم. همچنین حساب دیفرانسیل و انتگرال و کاربرد آن در کاهش تابع خطا در مدل‌های آماری مورد بحث قرار گرفت. به علاوه در مورد دانش آمار گفتیم که چگونه علم داده‌ها بر آمار تکیه دارد و چگونه دو حوزه آمار توصیفی و استنتاجی هسته اصلی علم داده‌ها را شکل می‌دهند.

در نهایت به این نتیجه می‌رسیم که برای تسلط بر علم داده‌ها، دانستن ریاضیات و آمار ضروری است. درک صحیح مفاهیم حوزه ریاضیات و آمار در علم داده‌ها بسیار مهم است. به کمک آنها می‌توانید پروژه‌های مدیریت داده‌ها را به‌خوبی به سرانجام برسانید.

منبع: data-flair.training

{{item.title}}

{{item.title}}

{{item.title}}

{{item.title}}

{{item.title}}

مفاهیم اساسی ریاضی و آمار در علم داده‌ ها

ریاضیات و آمار در علم داده‌ها

ریاضیات در علم داده‌ها

جبر خطی

تکنیک‌های جبر خطی در علم داده‌ها

حساب دیفرانسیل و انتگرال

حساب انتگرال

آمار در علم داده‌ها

آمار توصیفی

توزیع نرمال

شاخص‌ مرکزی

خمیدگی و کشیدگی

تغییرپذیری

آمار استنباطی

قضیه حد مرکزی

آزمون فرضی آماری

تحلیل واریانس

تحلیل کیفی داده‌ها

چکیده

مترجم: بهناز دهکردی