75 اصطلاح کلیدی که همه دانشمندان داده یادگیری عمیق باید بدانند

علم داده واژه نامه متنوعی دارد. این برگه 75 اصطلاح رایج و مهمی را که دانشمندان داده تقریباً هر روز استفاده می کنند، فهرست می کند.

بنابراین، آگاهی از آنها بسیار مهم است.

  • A:
    • دقت (Accuracy): اندازه گیری پیش بینی های صحیح تقسیم بر کل پیش بینی ها.
    • ناحیه زیر منحنی(Area Under Curve) : متریک نشان دهنده سطح زیر منحنی مشخصه عملیاتی گیرنده (ROC) است که برای ارزیابی مدل های طبقه بندی استفاده می شود.
    • ARIMA : میانگین متحرک یکپارچه اتورگرسیو، یک روش پیش‌بینی سری زمانی.
  • B:
    • بایاس(Bias) : تفاوت بین مقدار واقعی و مقدار پیش بینی شده در یک مدل آماری.
    • قضیه بیز (Bayes Theorem): فرمول احتمال که احتمال وقوع یک رویداد را بر اساس دانش قبلی محاسبه می کند.
    • توزیع دو جمله ای(Binomial Distribution) : توزیع احتمال که تعداد موفقیت ها را در تعداد ثابتی از آزمایش های مستقل برنولی مدل می کند.
  • C:
    • خوشه بندی(Clustering) : گروه بندی نقاط داده بر اساس شباهت ها.
    • ماتریس سردرگمی(Confusion Matrix) : جدولی که برای ارزیابی عملکرد یک مدل طبقه بندی استفاده می شود.
    • اعتبار سنجی متقابل(Cross-validation) : تکنیکی برای ارزیابی عملکرد مدل با تقسیم داده ها به زیر مجموعه ها برای آموزش و آزمایش.
  • D:
    • درختان تصمیم(Decision Trees) : مدل درخت مانندی که برای کارهای طبقه بندی و رگرسیون استفاده می شود.
    • کاهش ابعاد(Dimensionality Reduction) : فرآیند کاهش تعداد ویژگی‌های یک مجموعه داده با حفظ اطلاعات مهم.
    • مدل های متمایز(Discriminative Models) : مدل هایی که مرز بین کلاس های مختلف را یاد می گیرند.
  • E:
    • یادگیری گروهی(Ensemble Learning) : تکنیکی که چندین مدل را برای بهبود عملکرد پیش‌بینی ترکیب می‌کند.
    • EDA (تجزیه و تحلیل داده های اکتشافی Exploratory Data Analysis) : فرآیند تجزیه و تحلیل و تجسم داده ها برای درک الگوها و ویژگی های آن.
    • آنتروپی(Entropy) : اندازه گیری عدم قطعیت یا تصادفی بودن اطلاعات.
  • F:
    • مهندسی ویژگی(Feature Engineering) : فرآیند ایجاد ویژگی های جدید از داده های موجود برای بهبود عملکرد مدل.
    • امتیاز F(F-score) : متریکی که دقت و یادآوری را برای طبقه بندی باینری متعادل می کند.
    • استخراج ویژگی(Feature Extractio) : فرآیند استخراج خودکار ویژگی های معنی دار از داده ها.
  • G:
    • Gradient Descent : الگوریتم بهینه‌سازی که برای به حداقل رساندن یک تابع با تنظیم پارامترها به صورت مکرر استفاده می‌شود.
    • توزیع گاوسی(Gaussian Distribution) : توزیع نرمال با تابع چگالی احتمال زنگوله ای شکل.
    • تقویت گرادیان (Gradient Boosting): روش یادگیری گروهی که چندین یادگیرنده ضعیف را به طور متوالی می سازد.
  • H:
    • فرضیه(Hypothesis) : گزاره یا فرض قابل آزمون در استنتاج آماری.
    • خوشه بندی سلسله مراتبی(Hierarchical Clustering) : روش خوشه بندی که داده ها را در یک ساختار درخت مانند سازماندهی می کند.
    • ناهمسانی(Heteroscedasticity) : واریانس نابرابر خطاها در مدل رگرسیونی.
  • I:
    • به دست آوردن اطلاعات(Information Gain) : اندازه گیری مورد استفاده در درخت تصمیم برای تعیین اهمیت یک ویژگی.
    • متغیر مستقل(Independent Variable) : متغیری که در یک آزمایش برای مشاهده تأثیر آن بر متغیر وابسته دستکاری می شود.
    • عدم تعادل(Imbalance) : وضعیتی که در آن توزیع کلاس ها در یک مجموعه داده برابر نیست.
  • J:
    • Jupyter : محیط محاسباتی تعاملی مورد استفاده برای تجزیه و تحلیل داده ها و یادگیری ماشین.
    • احتمال مشترک(Joint Probability) : احتمال وقوع دو یا چند رویداد با هم.
    • شاخص جاکارد(Jaccard Index) : اندازه گیری شباهت بین دو مجموعه.
  • K:
    • تخمین چگالی هسته(Kernel Density Estimation) : روشی ناپارامتریک برای تخمین تابع چگالی احتمال یک متغیر تصادفی پیوسته.
    • آزمون KS (تست کولموگروف-اسمیرنوف) : آزمون ناپارامتریک برای مقایسه دو توزیع احتمال.
    • KMeans Clustering : تقسیم بندی داده ها به K خوشه بر اساس شباهت.
  • L:
    • احتمال(Likelihood) : احتمال مشاهده داده ها با یک مدل خاص.
    • رگرسیون خطی(Linear Regression) : روشی آماری برای مدلسازی رابطه بین متغیرهای وابسته و مستقل.
    • منظم‌سازی L1/L2 : تکنیک‌هایی برای جلوگیری از تطبیق بیش از حد با افزودن شرایط جریمه به تابع ضرر مدل.
  • M:
    • برآورد حداکثر احتمال(Maximum Likelihood Estimation) : روشی برای تخمین پارامترهای یک مدل آماری.
    • چند خطی بودن (Multicollinearity): وضعیتی که در آن دو یا چند متغیر مستقل در یک مدل رگرسیون همبستگی بالایی دارند.
    • اطلاعات متقابل(Mutual Information) : اندازه گیری میزان اطلاعات به اشتراک گذاشته شده بین دو متغیر.
  • N:
    • ساده بیس(Naive Bayes) : طبقه بندی کننده احتمالی بر اساس قضیه بیز با فرض استقلال ویژگی.
    • نرمال سازی(Normalization) : مقیاس داده ها با میانگین 0 و انحراف استاندارد 1.
    • فرضیه صفر(Null Hypothesis) : فرضیه عدم تفاوت یا تأثیر معنی داری در آزمون های آماری.
  • O:
    • برازش بیش از حد(Overfitting) : زمانی که یک مدل در داده های آموزشی عملکرد خوبی دارد اما در داده های جدید و دیده نشده ضعیف عمل می کند.
    • نقاط پرت (Outliers): نقاط داده ای که به طور قابل توجهی با سایر نقاط داده در یک مجموعه داده متفاوت است.
    • رمزگذاری تک داغ(One-hot encoding) : فرآیند تبدیل متغیرهای طبقه بندی شده به بردارهای باینری.
  • P:
    • PCA (تحلیل اجزای اصلی) : تکنیک کاهش ابعاد برای تبدیل داده ها به اجزای متعامد.
    • دقت(Precision) : نسبت پیش‌بینی‌های مثبت واقعی در بین تمام پیش‌بینی‌های مثبت در یک مدل طبقه‌بندی.
    • p-value : احتمال مشاهده نتیجه ای حداقل به اندازه نتیجه به دست آمده در صورت درست بودن فرضیه صفر.
  • Q:
    • QQ-plot (Quantile-Quantile Plot) : ابزاری گرافیکی برای مقایسه توزیع دو مجموعه داده.
    • تجزیه QR : فاکتورسازی یک ماتریس به یک ماتریس متعامد و یک ماتریس مثلثی بالایی.
  • ر:
    • جنگل تصادفی(Random Forest) : روش یادگیری مجموعه ای با استفاده از درخت های تصمیم گیری متعدد برای پیش بینی.
    • Recall : نسبت پیش بینی های مثبت واقعی در بین تمام نمونه های مثبت واقعی در یک مدل طبقه بندی.
    • منحنی ROC (منحنی مشخصه عملیاتی گیرنده Receiver Operating Characteristic Curve) : نموداری که عملکرد یک طبقه‌بندی کننده باینری را در آستانه‌های مختلف نشان می‌دهد.
  • S:
    • SVM (ماشین بردار پشتیبانی) : الگوریتم یادگیری ماشینی تحت نظارت که برای طبقه بندی و رگرسیون استفاده می شود.
    • استاندارد سازی(Standardisation) : مقیاس داده ها به گونه ای که میانگین 0 و انحراف معیار 1 باشد.
    • نمونه برداری(Sampling) : فرآیند انتخاب زیر مجموعه ای از نقاط داده از یک مجموعه داده بزرگتر.
  • T:
    • t-SNE (t-Distributed Stochastic Neighbor Embedding) : تکنیک کاهش ابعاد برای تجسم داده های با ابعاد بالا در ابعاد پایین تر.
    • توزیع t : توزیع احتمالی که در آزمون فرضیه ها زمانی که حجم نمونه کوچک است استفاده می شود.
    • خطای نوع I/II : خطای نوع I یک مثبت کاذب است و خطای نوع II یک منفی کاذب در آزمون فرضیه است.
  • U:
    • عدم تناسب(Underfitting) : زمانی که یک مدل برای ثبت الگوهای اساسی در داده ها بسیار ساده است.
    • UMAP (تقریب و طرح ریزی منیفولد یکنواخت) : تکنیک کاهش ابعاد برای تجسم داده های با ابعاد بالا.
    • توزیع یکنواخت(Uniform Distribution) : توزیع احتمال که در آن همه نتایج به یک اندازه محتمل هستند.
  • V:
    • واریانس(Variance) : اندازه گیری گسترش نقاط داده در اطراف میانگین.
    • منحنی اعتبار سنجی(Validation Curve) : نموداری که نشان می دهد چگونه عملکرد مدل با مقادیر مختلف هایپرپارامتر تغییر می کند.
    • ناپدید شدن گرادیان(Vanishing Gradient) : مشکل در شبکه های عصبی عمیق زمانی که شیب ها در طول آموزش بسیار کوچک می شوند.
  • W:
    • جاسازی کلمه(Word embedding) : نمایش کلمات به عنوان بردارهای متراکم در پردازش زبان طبیعی.
    • ابر کلمه(Word cloud) : تجسم داده های متنی که در آن فراوانی کلمه از طریق اندازه کلمه نشان داده می شود.
    • وزن ها(Weights) : پارامترهایی که توسط یک مدل یادگیری ماشینی در طول آموزش یاد می گیرند.
  • X:
    • XGBoost : Extreme Gradient Boosting، یک کتابخانه محبوب افزایش گرادیان.
    • XLNet : پیش‌آموزش خود رگرسیون تعمیم یافته ترانسفورماتورها، یک مدل زبان.
  • Y:
    • YOLO (شما فقط یک بار نگاه می کنید) : سیستم تشخیص شی در زمان واقعی.
    • Yellowbrick : کتابخانه پایتون برای تجسم یادگیری ماشین و ابزارهای تشخیصی.
  • ز:
    • Z-score : مقدار استاندارد شده که نشان دهنده تعداد انحرافات استاندارد یک نقطه داده از میانگین است.
    • آزمون Z : آزمون آماری که برای مقایسه میانگین نمونه با میانگین جامعه شناخته شده استفاده می شود.
    • یادگیری صفر Zero-shot learning : روش یادگیری ماشینی که در آن یک مدل می‌تواند کلاس‌های جدید را بدون دیدن مثال‌های واضح در طول آموزش تشخیص دهد.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا
به بالای صفحه بردن