學習是指通過學習或經驗獲得知識或技能。在此基礎上,我們可以將機器學習(ML)定義爲-;
它可以被定義爲計算機科學領域,更具體地說是人工智慧的一種應用,它爲計算機系統提供了用數據學習和從經驗中改進的能力,而無需經過明確的編程。
基本上,機器學習的主要焦點是允許計算機在沒有人爲干預的情況下自動學習。現在的問題是,如何開始和完成這種學習?它可以從觀察數據開始。數據也可以是一些例子、說明或一些直接的經驗。然後,在這個輸入的基礎上,機器通過在數據中尋找一些模式來做出更好的決策。
Types of Machine Learning (ML)
機器學習算法有助於計算機系統的學習,而無需顯式編程。這些算法分爲有監督算法和無監督算法。現在讓我們看看一些算法&負;
Supervised machine learning algorithms
這是最常用的機器學習算法。它之所以被稱爲有監督的,是因爲從訓練數據集中學習算法的過程可以看作是教師監督學習過程。在這種ML算法中,可能的結果是已知的,訓練數據也被標記爲正確的答案。它可以理解爲:負;
假設我們有輸入變量x和輸出變量y,我們應用一種算法從輸入到輸出學習映射函數,例如−
Y = f(x)
現在,主要目標是很好地逼近映射函數,當我們有新的輸入數據(x)時,我們可以預測該數據的輸出變量(Y)。
主要的監督性學習問題可以分爲以下兩類:負的問題;
分類−當我們有分類輸出,如「black」、「teaching」、「non-teaching」等時,問題稱爲分類問題。
當我們有「距離」、「千克」等實際值輸出時,一個問題稱爲回歸問題。
決策樹、隨機森林、knn、logistic回歸是有監督機器學習算法的例子。
Unsupervised machine learning algorithms
顧名思義,這些類型的機器學習算法沒有任何主管提供任何指導。這就是爲什麼無監督機器學習算法與一些人所說的真正的人工智慧密切相關。它可以理解爲:負;
假設我們有輸入變量x,那麼就沒有相應的輸出變量,就像有監督的學習算法一樣。
簡單地說,我們可以說,在無監督的學習中,沒有正確的答案,沒有老師的指導。算法有助於發現數據中有趣的模式。
無監督學習問題可分爲以下兩類:負問題;
聚類問題中,我們需要發現數據中固有的分組。例如,根據客戶的購買行爲對其進行分組。
關聯問題被稱爲關聯問題,因爲此類問題需要發現描述大部分數據的規則。例如,查找同時購買x和y的客戶。
K-均值聚類算法、Apriori關聯算法是無監督機器學習算法的例子。
Reinforcement machine learning algorithms
這類機器學習算法使用得很少。這些算法訓練系統做出特定的決策。基本上,機器暴露在一種環境中,在這種環境中,它使用試錯法不斷地訓練自己。這些算法從過去的經驗中學習,並試圖獲取儘可能好的知識來做出準確的決策。馬爾可夫決策過程是強化機器學習算法的一個例子。
Most Common Machine Learning Algorithms
在本節中,我們將學習最常見的機器學習算法。算法描述如下−
Linear Regression
它是統計學和機器學習中最著名的算法之一。
基本概念-主要是線性回歸是一個線性模型,假設輸入變量x和輸出變量y之間存在線性關係。換句話說,我們可以說y可以由輸入變量x的線性組合來計算,變量之間的關係可以通過擬合一條最佳直線來建立。
Types of Linear Regression
線性回歸有以下兩種類型&負;
簡單線性回歸−如果線性回歸算法只有一個自變量,則稱爲簡單線性回歸。
多元線性回歸−如果線性回歸算法有多個自變量,則稱爲多元線性回歸。
線性回歸主要用於基於連續變量的實際值估計。例如,根據實際價值,一天內商店的總銷售額可以通過線性回歸進行估計。
Logistic Regression
它是一種分類算法,也稱爲logit回歸。
logistic回歸主要是一種分類算法,用於根據給定的一組自變量估計0或1、真或假、是或否等離散值。基本上,它預測了機率,因此它的輸出在0到1之間。
Decision Tree
決策樹是一種有監督的學習算法,主要用於分類問題。
基本上它是一個基於自變量的遞歸劃分的分類器。決策樹的節點構成了有根樹。根樹是一個有向樹,它有一個叫做「根」的節點。根節點沒有任何傳入邊,所有其他節點都有一個傳入邊。這些節點稱爲葉節點或決策節點。例如,考慮下面的決策樹,看看一個人是否合適。
Support Vector Machine (SVM)
它用於分類和回歸問題。但主要用於分類問題。支持向量機的主要概念是將每一個數據項作爲一個點在n維空間中繪製,每個特徵的值都是特定坐標的值。這裡有n個功能。下面是一個簡單的圖形表示,以了解支持向量機的概念−
在上圖中,我們有兩個特徵,因此我們首先需要在二維空間中繪製這兩個變量,其中每個點有兩個坐標,稱爲支持向量。該行將數據分成兩個不同的分類組。這一行就是分類器。
Naïve Bayes
它也是一種分類技術。這種分類技術背後的邏輯是使用Bayes定理來構建分類器。假設預測值是獨立的。簡單地說,它假設類中某個特性的存在與任何其他特性的存在無關。下面是Bayes定理的方程式−
$$P\left ( \frac{A}{B} \right ) = \frac{P\left ( \frac{B}{A} \right )P\left ( A \right )}{P\left ( B \right )}$$
樸素的Bayes模型易於構建,特別適用於大型數據集。
K-Nearest Neighbors (KNN)
它用於問題的分類和回歸。它被廣泛應用於解決分類問題。該算法的主要思想是利用k個鄰域的多數投票來存儲所有可用的案例並對新案例進行分類。然後將實例分配給類,該類是其K近鄰中最常見的,由距離函數度量。距離函數可以是歐幾里德距離、Minkowski距離和Hamming距離。請考慮使用KNN−
在計算上,KNN比用於分類問題的其他算法昂貴。
變量的規範化需要更大範圍的變量可以偏倚它。
在KNN中,我們需要對噪聲去除等預處理階段進行研究。
K-Means Clustering
顧名思義,它是用來解決聚類問題的。它基本上是一種無監督學習。K-Means聚類算法的主要邏輯是通過多個聚類對數據集進行分類。按照以下步驟,使用K-均值-負形成簇;
K-means爲每個稱爲質心的簇拾取K個點。
現在每個數據點形成一個具有最近質心的簇,即k個簇。
現在,它將根據現有的簇成員來查找每個簇的質心。
我們需要重複這些步驟,直到收斂。
Random Forest
它是一種有監督的分類算法。隨機森林算法的優點是既可以用於分類問題,也可以用於回歸問題。基本上它是決策樹的集合(即森林),也可以說是決策樹的集合。隨機森林的基本概念是每棵樹都有一個分類,森林從中選擇最好的分類。以下是隨機森林算法的優點−
隨機森林分類器可用於分類和回歸任務。
它們可以處理丟失的值。
即使森林裡有更多的樹,它也不會太適合這個模型。