k-fold交叉驗證
學習使用K-Fold交叉驗證方法提高算法性能效率。
你在k-fold交叉驗證中學到了什麼?
關於這個免費證書課程
機器學習是一個迷人的過程,被認為是未來的一個基本概念。但是要理解機器學習真正的工作原理是,你必須理解數據是如何輸入到算法中的,從而讓算法在數據上進行訓練,然後進行測試。總的來說,這似乎是一個簡單的過程,但隻是以任何方式輸入數據到算法中,並期望它以良好的效率工作並不總是有效的。交叉驗證是一個非常重要的概念,它能夠將一個不錯的算法提升到非常好的性能。既然你知道這一點很重要,我們在Great Learning推出了這門關於k倍交叉驗證的課程,以幫助你完全理解beplay2018官网它。本文討論了大量的理論和實踐課程,以幫助您以非常易於理解的方式理解所有這些內容。
課程大綱
在本模塊中,您將了解什麼是機器學習,為什麼需要它,監督學習,它的應用,無監督學習,以及它的應用。
為什麼要學習NLP?
被雇傭
頂級招聘公司
通過這門課程,你會得到
免費終身訪問
隨時隨地學習
完成證書
在你的職業關係網中脫穎而出
1.0小時
自定節奏的視頻講座
常見問題
什麼是k-fold交叉驗證?
它是數據科學家使用的最流行的數據分區策略之一,用於有效地使用數據集創建廣義模型。這有助於他們得到更準確的結果。
如何在K -fold交叉驗證中選擇K ?
將整個數據集分成K個折疊,其中K的值不應該過高或過低。通常,根據可用數據集範圍在5到10之間進行選擇。
k-fold和交叉驗證的區別是什麼?
許多其他交叉驗證技術涉及基於某些指定規則劃分數據集。但是k-fold交叉驗證涉及到將數據集分成k個大小大致相等的折疊。這些折疊被測試和訓練k次,每次數據點的不同折疊被用於驗證。
為什麼我們要使用k-fold交叉驗證?
在許多機器學習技術中都有一些指定的規則來對數據集進行分組。在k-fold交叉驗證的情況下,我們用一些k值劃分數據集,所有這些k-fold的大小大致相似。它確保原始數據集中的每個觀察結果都出現在訓練集和測試集中。
完成K-Fold Cross驗證免費課程後,我能獲得證書嗎?
是的,在完成所有模塊並通過評估後,您將獲得K-Fold Cross Validation的結業證書。評估測試你的學科知識和技能。
成功的故事
卓越學習beplay2018官网學院的課程對你的職業生涯有幫助嗎?我們的學習者告訴我們該怎麼做。還有1000多個
有關職業道路
K-Fold交叉驗證
交叉驗證是一種測量機器學習模型技能的統計方法。你可以在應用機器學習中更好地看到它的應用,在那裏它比較和選擇預測建模問題的模型,並且更容易理解和實現。k-fold交叉驗證是一種評估機器學習模型技能的交叉驗證方法。k-fold交叉驗證是一個過程,通過它你可以估計機器學習模型在新數據上的性能。您不需要擔心選擇k的值,因為有確定的方法可以確定k的值並相應地劃分數據。
您可以在scikit-learn中找到許多常用的交叉驗證變體,例如曾經分層和重複的交叉驗證。交叉驗證被認為是重采樣過程。它用於在有限的數據集上評估機器學習模型。您將確定稱為k的單個參數的值,它指的是給定數據集可以被分成的折疊數。這個過程被稱為k-fold交叉驗證。您還可以有一個指定的k值,它可以代替參考模型的k。例如,如果k的值是5,它就變成了5倍交叉驗證。交叉驗證主要用於在不可見的數據上使用,以估計機器學習模型的技能。k-fold交叉驗證算法用於通過對某些數字進行測試來確定其總體性能。它主要用於預測,在模型訓練期間不使用。
k-fold交叉驗證是一種流行的方法,因為它易於理解和實現。與其他方法相比,它還提供了對模型技能較少的偏見或不太樂觀的估計。實現k-fold交叉驗證的一般步驟是:
隨機打亂數據集。
將數據集分成k個折疊。
對於每一個獨特的折疊:
考慮折疊或組作為測試數據集。
將剩餘的折疊視為訓練數據集。
在訓練數據集上擬合模型,並在測試數據集上評估模型。
檢索評估分數並丟棄模型。
用一個模型評價分數的樣本來總結模型的技能。
當您遵循k-fold交叉驗證的程序時,您將知道數據集中的每個觀察值都被分配給一個單獨的折疊,並在程序期間保持在該折疊中。由此得出,每個數據集都有機會在測試數據集中使用一次,並用於訓練模型k-1次。借助模型技能得分的平均值,實現了k-fold交叉驗證運行的總結。這被認為是一個很好的實踐,涉及到一個衡量的方差的技能分數。例如,標準誤差或標準偏差。
在k-fold交叉驗證中最關鍵的任務是找出k的值,因為整個方法取決於k的配置。當我們使用k值來劃分數據集時,明智地選擇這個值對我們來說變得至關重要。如果你選擇一個較差的k值,可能會導致對模型技能的誤解。為了避免這種情況,數據科學家在選擇k值時必須特別小心。如果你喜歡一些隨機的差值,它可能會給你對模型技能的錯誤印象,比如高方差得分或高偏差。因此,為了消除所有這些可能性,有一些確定k值的規則。求k值的三種常見策略包括:
代表性:k值的選擇是這樣的:每個測試/訓練數據集都足夠大,可以在統計上代表更廣泛的數據集。
k=10: k的這個值10通常在許多實驗中被發現,它給出了一個數據集的低偏差適度方差估計。
k=n:這裏,k的值設置為n,其中n是為每個數據集提供在測試數據集中被利用的機會的數據集的大小。這種技術被稱為省略交叉驗證。
如果你想知道k-fold交叉驗證方法的性能,請查看k-fold交叉驗證的示例。關於k-fold交叉驗證的文章、博客或課程中介紹了很多例子。您可以訪問這些頁麵並熟悉算法的工作原理。如果你想深入學習,報名參加Great Learning提供的免費k-fold交叉驗證課程。beplay2018官网成功完成所有課程模塊並獲得免費的k-fold交叉驗證證書。今天注冊,在數據科學領域建立您的職業生涯。