علم داده واژه نامه متنوعی دارد. این برگه 75 اصطلاح رایج و مهمی را که دانشمندان داده تقریباً هر روز استفاده می کنند، فهرست می کند.
بنابراین، آگاهی از آنها بسیار مهم است.
- A:
- دقت (Accuracy): اندازه گیری پیش بینی های صحیح تقسیم بر کل پیش بینی ها.
- ناحیه زیر منحنی(Area Under Curve) : متریک نشان دهنده سطح زیر منحنی مشخصه عملیاتی گیرنده (ROC) است که برای ارزیابی مدل های طبقه بندی استفاده می شود.
- ARIMA : میانگین متحرک یکپارچه اتورگرسیو، یک روش پیشبینی سری زمانی.
- B:
- بایاس(Bias) : تفاوت بین مقدار واقعی و مقدار پیش بینی شده در یک مدل آماری.
- قضیه بیز (Bayes Theorem): فرمول احتمال که احتمال وقوع یک رویداد را بر اساس دانش قبلی محاسبه می کند.
- توزیع دو جمله ای(Binomial Distribution) : توزیع احتمال که تعداد موفقیت ها را در تعداد ثابتی از آزمایش های مستقل برنولی مدل می کند.
- C:
- خوشه بندی(Clustering) : گروه بندی نقاط داده بر اساس شباهت ها.
- ماتریس سردرگمی(Confusion Matrix) : جدولی که برای ارزیابی عملکرد یک مدل طبقه بندی استفاده می شود.
- اعتبار سنجی متقابل(Cross-validation) : تکنیکی برای ارزیابی عملکرد مدل با تقسیم داده ها به زیر مجموعه ها برای آموزش و آزمایش.
- D:
- درختان تصمیم(Decision Trees) : مدل درخت مانندی که برای کارهای طبقه بندی و رگرسیون استفاده می شود.
- کاهش ابعاد(Dimensionality Reduction) : فرآیند کاهش تعداد ویژگیهای یک مجموعه داده با حفظ اطلاعات مهم.
- مدل های متمایز(Discriminative Models) : مدل هایی که مرز بین کلاس های مختلف را یاد می گیرند.
- E:
- یادگیری گروهی(Ensemble Learning) : تکنیکی که چندین مدل را برای بهبود عملکرد پیشبینی ترکیب میکند.
- EDA (تجزیه و تحلیل داده های اکتشافی Exploratory Data Analysis) : فرآیند تجزیه و تحلیل و تجسم داده ها برای درک الگوها و ویژگی های آن.
- آنتروپی(Entropy) : اندازه گیری عدم قطعیت یا تصادفی بودن اطلاعات.
- F:
- مهندسی ویژگی(Feature Engineering) : فرآیند ایجاد ویژگی های جدید از داده های موجود برای بهبود عملکرد مدل.
- امتیاز F(F-score) : متریکی که دقت و یادآوری را برای طبقه بندی باینری متعادل می کند.
- استخراج ویژگی(Feature Extractio) : فرآیند استخراج خودکار ویژگی های معنی دار از داده ها.
- G:
- Gradient Descent : الگوریتم بهینهسازی که برای به حداقل رساندن یک تابع با تنظیم پارامترها به صورت مکرر استفاده میشود.
- توزیع گاوسی(Gaussian Distribution) : توزیع نرمال با تابع چگالی احتمال زنگوله ای شکل.
- تقویت گرادیان (Gradient Boosting): روش یادگیری گروهی که چندین یادگیرنده ضعیف را به طور متوالی می سازد.
- H:
- فرضیه(Hypothesis) : گزاره یا فرض قابل آزمون در استنتاج آماری.
- خوشه بندی سلسله مراتبی(Hierarchical Clustering) : روش خوشه بندی که داده ها را در یک ساختار درخت مانند سازماندهی می کند.
- ناهمسانی(Heteroscedasticity) : واریانس نابرابر خطاها در مدل رگرسیونی.
- I:
- به دست آوردن اطلاعات(Information Gain) : اندازه گیری مورد استفاده در درخت تصمیم برای تعیین اهمیت یک ویژگی.
- متغیر مستقل(Independent Variable) : متغیری که در یک آزمایش برای مشاهده تأثیر آن بر متغیر وابسته دستکاری می شود.
- عدم تعادل(Imbalance) : وضعیتی که در آن توزیع کلاس ها در یک مجموعه داده برابر نیست.
- J:
- Jupyter : محیط محاسباتی تعاملی مورد استفاده برای تجزیه و تحلیل داده ها و یادگیری ماشین.
- احتمال مشترک(Joint Probability) : احتمال وقوع دو یا چند رویداد با هم.
- شاخص جاکارد(Jaccard Index) : اندازه گیری شباهت بین دو مجموعه.
- K:
- تخمین چگالی هسته(Kernel Density Estimation) : روشی ناپارامتریک برای تخمین تابع چگالی احتمال یک متغیر تصادفی پیوسته.
- آزمون KS (تست کولموگروف-اسمیرنوف) : آزمون ناپارامتریک برای مقایسه دو توزیع احتمال.
- KMeans Clustering : تقسیم بندی داده ها به K خوشه بر اساس شباهت.
- L:
- احتمال(Likelihood) : احتمال مشاهده داده ها با یک مدل خاص.
- رگرسیون خطی(Linear Regression) : روشی آماری برای مدلسازی رابطه بین متغیرهای وابسته و مستقل.
- منظمسازی L1/L2 : تکنیکهایی برای جلوگیری از تطبیق بیش از حد با افزودن شرایط جریمه به تابع ضرر مدل.
- M:
- برآورد حداکثر احتمال(Maximum Likelihood Estimation) : روشی برای تخمین پارامترهای یک مدل آماری.
- چند خطی بودن (Multicollinearity): وضعیتی که در آن دو یا چند متغیر مستقل در یک مدل رگرسیون همبستگی بالایی دارند.
- اطلاعات متقابل(Mutual Information) : اندازه گیری میزان اطلاعات به اشتراک گذاشته شده بین دو متغیر.
- N:
- ساده بیس(Naive Bayes) : طبقه بندی کننده احتمالی بر اساس قضیه بیز با فرض استقلال ویژگی.
- نرمال سازی(Normalization) : مقیاس داده ها با میانگین 0 و انحراف استاندارد 1.
- فرضیه صفر(Null Hypothesis) : فرضیه عدم تفاوت یا تأثیر معنی داری در آزمون های آماری.
- O:
- برازش بیش از حد(Overfitting) : زمانی که یک مدل در داده های آموزشی عملکرد خوبی دارد اما در داده های جدید و دیده نشده ضعیف عمل می کند.
- نقاط پرت (Outliers): نقاط داده ای که به طور قابل توجهی با سایر نقاط داده در یک مجموعه داده متفاوت است.
- رمزگذاری تک داغ(One-hot encoding) : فرآیند تبدیل متغیرهای طبقه بندی شده به بردارهای باینری.
- P:
- PCA (تحلیل اجزای اصلی) : تکنیک کاهش ابعاد برای تبدیل داده ها به اجزای متعامد.
- دقت(Precision) : نسبت پیشبینیهای مثبت واقعی در بین تمام پیشبینیهای مثبت در یک مدل طبقهبندی.
- p-value : احتمال مشاهده نتیجه ای حداقل به اندازه نتیجه به دست آمده در صورت درست بودن فرضیه صفر.
- Q:
- QQ-plot (Quantile-Quantile Plot) : ابزاری گرافیکی برای مقایسه توزیع دو مجموعه داده.
- تجزیه QR : فاکتورسازی یک ماتریس به یک ماتریس متعامد و یک ماتریس مثلثی بالایی.
- ر:
- جنگل تصادفی(Random Forest) : روش یادگیری مجموعه ای با استفاده از درخت های تصمیم گیری متعدد برای پیش بینی.
- Recall : نسبت پیش بینی های مثبت واقعی در بین تمام نمونه های مثبت واقعی در یک مدل طبقه بندی.
- منحنی ROC (منحنی مشخصه عملیاتی گیرنده Receiver Operating Characteristic Curve) : نموداری که عملکرد یک طبقهبندی کننده باینری را در آستانههای مختلف نشان میدهد.
- S:
- SVM (ماشین بردار پشتیبانی) : الگوریتم یادگیری ماشینی تحت نظارت که برای طبقه بندی و رگرسیون استفاده می شود.
- استاندارد سازی(Standardisation) : مقیاس داده ها به گونه ای که میانگین 0 و انحراف معیار 1 باشد.
- نمونه برداری(Sampling) : فرآیند انتخاب زیر مجموعه ای از نقاط داده از یک مجموعه داده بزرگتر.
- T:
- t-SNE (t-Distributed Stochastic Neighbor Embedding) : تکنیک کاهش ابعاد برای تجسم داده های با ابعاد بالا در ابعاد پایین تر.
- توزیع t : توزیع احتمالی که در آزمون فرضیه ها زمانی که حجم نمونه کوچک است استفاده می شود.
- خطای نوع I/II : خطای نوع I یک مثبت کاذب است و خطای نوع II یک منفی کاذب در آزمون فرضیه است.
- U:
- عدم تناسب(Underfitting) : زمانی که یک مدل برای ثبت الگوهای اساسی در داده ها بسیار ساده است.
- UMAP (تقریب و طرح ریزی منیفولد یکنواخت) : تکنیک کاهش ابعاد برای تجسم داده های با ابعاد بالا.
- توزیع یکنواخت(Uniform Distribution) : توزیع احتمال که در آن همه نتایج به یک اندازه محتمل هستند.
- V:
- واریانس(Variance) : اندازه گیری گسترش نقاط داده در اطراف میانگین.
- منحنی اعتبار سنجی(Validation Curve) : نموداری که نشان می دهد چگونه عملکرد مدل با مقادیر مختلف هایپرپارامتر تغییر می کند.
- ناپدید شدن گرادیان(Vanishing Gradient) : مشکل در شبکه های عصبی عمیق زمانی که شیب ها در طول آموزش بسیار کوچک می شوند.
- W:
- جاسازی کلمه(Word embedding) : نمایش کلمات به عنوان بردارهای متراکم در پردازش زبان طبیعی.
- ابر کلمه(Word cloud) : تجسم داده های متنی که در آن فراوانی کلمه از طریق اندازه کلمه نشان داده می شود.
- وزن ها(Weights) : پارامترهایی که توسط یک مدل یادگیری ماشینی در طول آموزش یاد می گیرند.
- X:
- XGBoost : Extreme Gradient Boosting، یک کتابخانه محبوب افزایش گرادیان.
- XLNet : پیشآموزش خود رگرسیون تعمیم یافته ترانسفورماتورها، یک مدل زبان.
- Y:
- YOLO (شما فقط یک بار نگاه می کنید) : سیستم تشخیص شی در زمان واقعی.
- Yellowbrick : کتابخانه پایتون برای تجسم یادگیری ماشین و ابزارهای تشخیصی.
- ز:
- Z-score : مقدار استاندارد شده که نشان دهنده تعداد انحرافات استاندارد یک نقطه داده از میانگین است.
- آزمون Z : آزمون آماری که برای مقایسه میانگین نمونه با میانگین جامعه شناخته شده استفاده می شود.
- یادگیری صفر Zero-shot learning : روش یادگیری ماشینی که در آن یک مدل میتواند کلاسهای جدید را بدون دیدن مثالهای واضح در طول آموزش تشخیص دهد.