你有沒有被要求在一個巨大的資料庫上開發一個機器學習模型?通常,客戶會向您提供資料庫,並要求您做出某些預測,例如誰將是潛在的買家;如果能夠及早發現欺詐案件等。要回答這些問題,您的任務是開發一種機器學習算法,爲客戶的查詢提供答案。從頭開始開發機器學習算法不是一件容易的事情,當市場上有幾個現成的機器學習庫時,爲什麼要這樣做呢。
現在,您更願意使用這些庫,應用這些庫中經過良好測試的算法,並查看其性能。如果性能不在可接受的範圍內,您可以嘗試微調當前算法或嘗試完全不同的算法。
同樣,您可以在同一個數據集上嘗試多個算法,然後選擇滿足客戶要求的最佳算法。這就是水來救你的地方。它是一個開源的機器學習框架,有幾個被廣泛接受的ML算法的完整測試實現。你只需要從它龐大的存儲庫中提取算法並將其應用到你的數據集。它包含了最廣泛使用的統計和ML算法。
這裡提到的一些包括梯度增強機(GBM)、廣義線性模型(GLM)、深度學習等。不僅如此,它還支持AutoML功能,該功能將對數據集上不同算法的性能進行排序,從而減少您尋找性能最佳模型的工作。全世界18000多個組織都在使用H2O,爲了便於開發,H2O與R和Python有很好的接口。它是一個內存平台,提供卓越的性能。
在本教程中,您將首先學習使用Python和R選項在機器上安裝H2O。我們將了解如何在命令行中使用它,以便您了解它的工作行。如果您是一個Python愛好者,您可以使用Jupyter或您選擇的任何其他IDE來開發H2O應用程式。如果您喜歡R,可以使用RStudio進行開發。
在本教程中,我們將考慮一個例子來了解如何使用H2O,我們還將學習如何更改程序代碼中的算法,並將其性能與前面的算法進行比較。H2O還提供了一個基於web的工具來測試數據集上的不同算法。這叫做流。
本教程將向您介紹流的使用。同時,我們將討論AutoML的使用,它將識別數據集上性能最佳的算法。你不想學水嗎?繼續讀下去!