فصل یک: مبانی پردازش زبان طبیعی |
- مقدمه و تاریخچه NLP:
- نگاهی به تکامل NLP از دوران اولیه تا مدلهای پیشرفته امروزی کاربردهای عملی در صنعت (مانند موتورهای جستجو، چتباتها و تحلیل احساسات)
- اصول صرف، نحو، معناشناسی و واژگانشناسی
- اهمیت آگاهی از ساختار زبان برای مدلسازی
- آشنایی با محیطهای برنامهنویسی پایتون
- معرفی کتابخانههای NLTK و SpaCy به عنوان ابزارهای اولیه پردازش متون
- نصب محیطهای توسعه، اجرای اسکریپتهای اولیه و تحلیل متون ساده
|
فصل دو : پیشپردازش و پاکسازی دادههای متنی |
- توکنسازی و نشانهگذاری:
- تقسیمبندی متن به جمله و کلمه
- استفاده از توکنایزرهای پیشرفته در SpaCy و NLTK
- پاکسازی دادههای متنی:
- حذف نویز، علائم نگارشی و توقفکلمات
- استانداردسازی (lowercasing) و حذف کلمات زائد
- روشهای استمینگ و لماتیزاسیون:
- معرفی الگوریتمهای Porter، Lancaster
- کاربرد WordNet Lemmatizer برای کاهش کلمات به ریشه
- استخراج ویژگیهای متنی:
- مدلهای Bag-of-Words، TF-IDF و n-grams
- بررسی محدودیتها و مزایای هر روش
- پیادهسازی کامل یک پیشپردازش روی مجموعه داده متنی واقعی
|
فصل سوم: الگوریتمهای کلاسیک یادگیری ماشین در NLP |
- آشنایی با Naive Bayes، SVM و Logistic Regression
- کاربرد این الگوریتمها در طبقهبندی متون و تشخیص دستهبندی
- روشهای خوشهبندی:
- معرفی K-Means و خوشهبندی سلسلهمراتبی برای گروهبندی اسناد
- دقت، Recall، F1-Score و confusion matrix
- چگونگی تفسیر نتایج بهدست آمده از مدلهای کلاسیک
- پیادهسازی یک مدل طبقهبندیکننده متنی با استفاده از Scikit-learn
|
فصل چهارم: مبانی یادگیری عمیق در NLP |
- آشنایی با MLP، فرآیند Backpropagation و مفاهیم گرادیان نزولی
- تفاوتهای یادگیری عمیق با الگوریتمهای کلاسیک
- کاربرد شبکههای عصبی در NLP:
- استفاده از شبکههای عصبی در طبقهبندی متون و تحلیل احساسات معرفی فریمورکهای Keras و TensorFlow
- ساخت یک مدل ساده طبقهبندی متنی با استفاده از Keras/TensorFlow
(این موارد در حد Review و فرض بر این است که دانشپذیر حتما دوره ی deeplearning را گذرانده) |
فصل پنجم نمایش برداری کلمات (Word Embeddings) |
- ضرورت و مفهوم Embeddings
- بررسی محدودیتهای مدلهای سطح واژه و نیاز به نمایش برداری
- مفهوم توزیعنمایی و مدلهای کلامی توزیعی
- الگوریتمهای Word2Vec:
- معرفی مدلهای CBOW و Skip-gram
- تحلیل مزایا و معایب هر روش
- الگوریتمهای GloVe و FastText:
- مقایسه و بررسی کاربردهای تخصصی
- تفسیر نتایج مدلهای آموزشدیده
- آموزش و استخراج بردارهای کلمه با استفاده از کتابخانه Gensim
|
فصل ششم: مدلهای توالی و شبکههای بازگشتی (RNN-LSTM- GRU) |
- معماری RNN و چالشهای آن
- اصول عملکرد و محدودیتهای RNN (مانند ناپدید شدن گرادیان)
- مدلهای LSTM و GRU
- تحلیل ساختار و کاربردهای متفاوت
- بررسی کاربردهای عملی در ترجمه ماشینی و تولید متن
- پیادهسازی یک مدل LSTM برای پیشبینی توالی متنی
- ارزیابی عملکرد مدل و بهبود آن با تنظیم هایپرپارامترها
|
فصل هفتم: معماریهای مبتنی بر Attention و Transformer |
- محدودیتهای مدلهای توالی:
- بررسی نیاز به مدلهایی با قابلیت پردازش موازی
- معرفی مکانیزم Attention و کاربرد آن در مدلهای نوین
- معماری Transformer:
- ساختار Encoder-Decoder و مفهوم Multi-Head Attention
- مقایسه عملکرد Transformer با RNN و LSTM
- استفاده از کتابخانههای Hugging Face برای پیادهسازی نمونههای Transformer
- بررسی و تفسیر خروجیهای مدل
|
فصل هشتم: مدلهای پیشآموزش دیده و انتقال یادگیری |
- تکنیکهای انتقال یادگیری:
- اهمیت استفاده از مدلهای پیشآموزش دیده در کاربردهای خاص
- مفاهیم Fine-tuning و Adaptation برای بهبود عملکرد
- بررسی مدلهای BERT، GPT، RoBERTa و T5
- مقایسه معماریها و کاربردهای تخصصی آنها
- Fine-tuning مدل BERT برای یک وظیفه طبقهبندی متنی
- ارزیابی و بهبود نتایج با استفاده از دادههای واقعی
- مستندات Hugging Face و راهنماهای عملی انتقال یادگیری
|
فصل نهم: کاربردهای پیشرفته NLP در صنایع مختلف |
- چتباتها و سیستمهای گفتگو محور
- طراحی معماری چتباتهای هوشمند با استفاده از الگوریتمهای NLP
- بررسی نمونههای موفق در بازار و چالشهای فنی
- تحلیل احساسات و سیستمهای توصیهگر
- استفاده از مدلهای چندلایه برای استخراج احساسات و عواطف
- کاربردهای تخصصی در بازاریابی، رسانههای اجتماعی و تحلیل رفتار مشتری
- استخراج موجودیتهای نامدار (NER) و تحلیل وابستگی:
- پیادهسازی تکنیکهای NER با استفاده از مدلهای پیشرفته
- بررسی نحوه استخراج و تفسیر روابط بین موجودیتها
- ساخت یک چتبات یا سیستم توصیهگر با استفاده از فریمورکهایی مانند Rasa یا Dialogflow
- ارزیابی و بهینهسازی عملکرد سیستم در سناریوهای واقعی
|
فصل دهم: چالشهای اخلاقی، پژوهشی و آیندهنگری در NLP |
- بررسی تعصبهای موجود در دادههای متنی و چالشهای مربوط به حریم خصوصی
- مباحث مرتبط با مسئولیتپذیری در استفاده از مدلهای زبانی عظیم چالشهای پژوهشی
- نواقص فعلی مدلهای NLP و نیاز به بهبود در حوزههای زبانهای کممنابع
- مباحثی از قبیل Generalization، Interpretability و Explainability
- پیشبینی روندهای آتی، ظهور مدلهای چندزبانه و چالشهای مقیاسپذیری
- بحث در مورد تاثیر فناوریهای نوین مانند GPT-3 و کاربردهای احتمالی آن
|