瀏覽通過域

100 + 2023年數據科學的麵試問題

表的內容

數據科學科技的世界,是一個相對較新的概念,它可以成為專業人士尋求職業和壓倒性的麵試建議申請工作在這一領域。另外,需要獲得一個巨大的範圍的技能出發前準備數據科學的采訪。

麵試官尋求實用知識數據科學基礎知識及其工業應用與良好的工具和過程的知識。在這裏我們將為您提供一個新生的重要數據科學的麵試問題列表以及經驗的候選人在麵試一個可能麵臨。如果你希望成為一個數據科學家就可以數據科學家的課程,請參考下麵的麵試問題和麵試。向前移動任何之前,看一看

數據科學為新生的麵試問題

1之間的區別是什麼錯誤和II型錯誤呢?同時,解釋測試的力量嗎?

當我們執行假設檢驗我們考慮兩種類型的錯誤,錯誤和II型錯誤,有時我們不應該拒絕零假設或選擇不拒絕零假設時,我們應該。

I型錯誤承諾當我們拒絕零假設當零假設是正確的。另一方麵,第二類是當我們不拒絕零假設和零假設實際上是錯誤的。

第一類錯誤的概率是用α和II型錯誤的概率是用β

對於一個給定的樣本n,減少α將會增加β反之亦然。這兩個αβ減少,n增加。

表下麵解釋了情況在第一類誤差和II型錯誤:

決定 零假設是正確 零假設是錯誤的
拒絕零假設 第一類誤差 正確的決定
不能拒絕零假設 正確的決定 II型錯誤

兩個正確的決定:不拒絕零假設時,零假設是正確和拒絕零假設時的零假設是錯誤的。

相反,兩個錯誤的決策也有可能:拒絕零假設時,零假設是正確(錯誤),而不是拒絕零假設當零假設為假(II型錯誤)。

錯誤是假陽性,而II型錯誤是一個假陰性。

的力量測試:測試的權力拒絕零假設的概率定義為當零假設是錯誤的。因為β是II型錯誤的概率,的力量被定義為1 -β測試。在先進的統計,我們比較各種類型的測試基於它們的大小和力量,在表示拒絕時的實際比例大小也是零,表示拒絕當零的實際比例是錯誤的。

2。你怎麼理解過度學習和Under-fitting嗎?

過度擬合時觀察到有一個小的數據量和大量的變量,如果模型我們與最終完成造型的噪音,我們稱之為“過度擬合”,如果我們不造型的所有信息,我們稱之為“underfitting”。最常見的underfitting觀察到當一個線性模型擬合非線性數據。

希望最好的測試數據管理的模型來捕獲/模型的所有信息但是放下一切噪音。過度擬合可以避免使用交叉驗證技術(如K折疊)和regularisation技術(如套索回歸)。

3你什麼時候使用分類技術在回歸技術嗎?

分類問題時主要使用的輸出是分類變量(離散)而回歸技術時使用的輸出變量是連續變量。

在回歸算法,我們試圖估計映射函數(f)從輸入變量(x)數值(連續)輸出變量(y)。

例如,線性回歸,支持向量機(支持向量機)和回歸樹。

在分類算法中,我們試圖估計映射函數(f)從輸入變量(x)的離散或分類輸出變量(y)。

例如,邏輯回歸樸素貝葉斯決策樹& K最近的鄰居。

這兩個分類,以及回歸技術,監督機器學習算法

4所示。數據清理的重要性是什麼?

答。顧名思義,刪除或更新的數據清理是一個過程的信息不正確,不完整的,重複的,無關緊要的,或格式不正確。是非常重要的提高數據的質量,因此精度和生產率的流程和組織作為一個整體。

現實世界的數據往往是在格式捕獲的衛生問題。有有時錯誤由於各種原因使數據不一致,有時隻有一些數據的特性。因此數據清理完成從原始數據篩選可用的數據,否則許多係統消耗的數據會產生錯誤的結果。

5數據清理的重要步驟是?

不同類型的數據需要不同類型的清洗,數據清洗是最重要的步驟:

  1. 數據質量
  2. 刪除重複數據(也無關緊要的數據)
  3. 結構錯誤
  4. 離群值
  5. 治療缺失的數據

數據清洗是一個重要的步驟在分析數據之前,它有助於提高模型的準確性。這可以幫助組織做出明智的決定。

數據科學家通常花80%的時間來清理數據。

6事例是如何不同於k - means聚類?

答。再鄰居是一個分類算法,它的一個子集監督式學習。k - means聚類算法,它的一個子集無監督學習

基於事例和分類或回歸機器學習算法在k - means聚類機器學習算法

事例是最近的鄰居的數量用於分類或預測的連續變量/回歸測試樣本,而k - means算法的群集的數量正試圖從數據中學習。

7假定值是什麼?

答。假定值可以幫助你決定你的結果的優勢,當你執行一個假設檢驗。這是一個在0和1之間。受審的說法叫做零假設。假定值較低,例如≤0.05,意味著我們可以拒絕零假設。假定值高,即≥0.05,意味著我們可以接受零假設。一個精確的假定值0.05表明,假設可以有較多的選擇。

假定值的概率事件的措施是建議的零假設。這實際上意味著事件少比事件的概率被零假設提出。

8。數據科學是如何不同於大數據和數據分析?

答。數據科學利用算法和工具畫出有意義的和商業上有用的見解從原始數據。它涉及任務數據建模、數據清理、分析、預處理等。
大數據是巨大的結構化、半結構化和非結構化數據在其原始形式生成的通過各種渠道。
最後,數據分析提供運營見解複雜的業務場景。它還有助於預測即將到來的機會和威脅的組織利用。

從本質上講,大數據是處理大量數據的過程。它包括標準實踐數據管理和高速處理維護數據的一致性。數據分析與獲得有意義的見解從數據通過數學或數學過程。數據科學的藝術使智能係統,這樣他們學習根據過去的經驗數據,然後做出決定。

數據科學的麵試問題
數據科學是如何不同於大數據和數據分析?

統計數據科學的麵試問題

9。使用統計數據的科學是什麼?

答。統計數據的科學提供了工具和方法來識別模式和結構數據提供一個更深的了解。在數據采集是一個偉大的角色,探索、分析和驗證。它非常強大數據科學的作用

數據科學是派生形成的重疊統計概率和計算機科學。每當需要做估計,統計數據。許多算法在數據科學是建立在統計公式和過程。因此統計數據科學的一個重要組成部分。

還讀:實際可行的方法來實現數據科學營銷

10。之間的區別是什麼監督學習和無監督學習嗎?

答。監督機器學習培訓需要貼上標簽數據而非監督機器學習不需要標簽數據。它可以在未標記的訓練數據。

精心設計,監督學習需要與目標模型的訓練價值而非監督學習沒有已知的結果,它有一個基於狀態的學習本身或自適應機製。監督學習需要計算成本高而無監督學習培訓成本低。監督學習發現應用程序在分類和回歸任務而非監督學習發現應用程序在聚類和關聯規則挖掘。

11。線性回歸是什麼?

答。線性回歸設方程方程是一個最基本的形式是Y = mX + Cm是直線的斜率和C是標準錯誤。使用它當響應變量是連續的在自然界中例如身高、體重,和的小時數。它可以是一個簡單的線性回歸,如果它涉及連續因變量與自變量和多元線性回歸,如果有多個獨立的變量。

線性回歸是一個標準的統計實踐計算最適合線繪製時通過數據點。選擇最適合的行以這樣一種方式,這樣每個數據點的距離是最小的,降低了係統的總體誤差。線性回歸假設數據是線性相關的各種特性的目標。它通常用於預測分析計算估計在可預見的未來。

12。邏輯回歸是什麼?

答。邏輯回歸預測分析技術,我們正在做預測時使用一個變量是二分(二進製)。例如,是/否或真/假等等。這種方法的形式的方程Y = eX + e - X。用於分類的基礎任務。它發現概率數據點屬於一個特定的類分類。

13。解釋正態分布

答。正態分布也被稱為高斯分布。它是一種概率分布,這樣大部分的價值所在附近的意思。它具有以下特點:

  • 平均值,中位數和模式的分布一致
  • 分布有一個鍾形曲線
  • 曲線下的麵積是1
  • 一半的值是右邊的中心,而另一半左邊的中心

14。提到線性模型的一些缺陷

答。線性模型的一些缺點:

  • 關於線性假設的錯誤
  • 沒有可用的二進製結果或計數結果
  • 它不能解決某些過度擬合問題
  • 它還假設不存在多重共線性的數據。

15。你會選擇哪一個文本分析,R或Python ?

答。Python對文本分析將是一個更好的選擇,因為這有熊貓圖書館方便易用的數據結構和高性能的數據分析工具。然而,根據數據的複雜性可以使用哪種適合最好的之一。

16。哪些步驟遵循決策樹時嗎?

答。做一個決策樹所涉及的步驟是:

  1. 確定樹的根的一步
  2. 計算熵的類的步驟
  3. 計算每個屬性熵分割後
  4. 為每個分割計算信息增益
  5. 執行分
  6. 執行進一步的分裂步驟
  7. 完成決策樹
數據科學的麵試問題
所涉及的步驟做一個決策樹

17所示。相關性和協方差的統計數據是什麼?

答。相關性是指衡量兩個變量之間的關係。如果兩個變量都是直接成比例,那麼它的正相關。如果變量間接彼此成正比,它被稱為負相關。協方差是多少的衡量兩個隨機變量不同。

18歲。樸素貝葉斯“幼稚”是什麼?

答。一個樸素貝葉斯分類器假設的存在(或缺乏)的一個特定類的特性無關的存在(或缺乏)任何其他功能,類變量。基本上,這是“幼稚”因為它使假設可能或不可能被證明是正確的。

19所示。如何為k - means選擇k ?

答。這兩種方法來計算最優值k的k - means:

  1. 彎頭的方法
  2. 輪廓得分方法

輪廓的分數是最普遍而確定的最優值k。

20.本地數據結構在Python中你能說出什麼?這些,這是可變的,哪些是不可改變的嗎?

答。本機python數據結構是:

元組是不可變的。其他人是可變的。

21。數據科學家使用什麼庫在Python中繪製數據?

答。庫用於數據繪圖:

除了這些,還有很多開源工具,但上述是最常見的做法。

22。如何在Python中內存管理?

答。內存管理在Python中包括一個私人堆包含所有Python對象和數據結構。這個私人的管理確保堆內部的Python內存管理器。

23。回憶是什麼?

答。記得給真陽性的比率對真陽性和假陰性的總和。它也被稱為真陽性。

24。lambda函數是什麼?

答。lambda函數是一個匿名函數。lambda函數可以任意數量的參數,但是隻能有一個表達式。

25。強化學習是什麼?

答。強化學習是一種無監督學習技術在機器學習。這是一個基於狀態的學習技術。狀態變化的模型已經預定義的規則使係統從一個狀態轉移到另一個,而訓練階段。

26歲。熵和信息增益的決策樹算法?

答。熵是用來檢查一個樣本的同質性。如果熵的值是“0”,那麼樣品是完全同質的。另一方麵,如果熵值“1”,樣品也同樣劃分。熵控製決策樹決定如何分割數據。它實際上會影響如何決策樹吸引其邊界。

信息增益取決於數據集分割後的熵減少的屬性。構建決策樹總是尋找回報最高的信息增益的屬性。

27。交叉驗證是什麼?

答。驢是一個模型驗證技術統計分析的結果將如何推斷出一個獨立的數據集。它主要用於預測目標和需要估計性能預測模型的準確性。
這裏的目標是定義一個先於測試模型在培訓階段和極限過度擬合和underfitting問題。驗證和訓練集是來自相同的分布,以避免把事情弄得更糟。

還讀:為什麼數據需求的科學工作是嗎

28。什麼是偏見方差權衡?

答。您的模型中引入的誤差,因為過於簡單的算法稱為偏見。另一方麵,方差是介紹給你的模型誤差,因為機器學習算法的複雜性。在這種情況下,模型還學習噪聲和測試數據集上表現不佳。

偏見方差權衡偏差和方差之間的最優平衡在一個機器學習模型。如果你想減少偏見,方差會增加,反之亦然。

總誤差=偏差+方差的平方+不可約的錯誤。偏見方差權衡就是發現的過程特性的準確數字,模型創建錯誤保持最低,但也采取有效護理,這樣不overfit或underfit模型。

29。在抽樣ention偏差發生的類型?

答。采樣期間出現的三種類型的偏見:
一個自我選擇的偏見。
b。覆蓋下的偏見
c。生存偏差

自我選擇是當參與者的分析選擇自己。總量差額時很少從一段選擇的樣本的人口。生存偏差發生在調查的觀測記錄最後一組隨機的那些參加調查的開始。

30.混淆矩陣是什麼?

答。一個混淆矩陣是一個由四個輸出2 x2表提供的二元分類器。

二元分類器預測數據實例的所有測試數據集或正麵或負麵。這產生四的結果

  1. 真陽性(TP)——正確積極的預測
  2. 假陽性(FP)——不正確積極的預測
  3. 真正的- (TN) -正確-預測
  4. 假陰性(FN) -錯誤的負麵預測

它有助於在計算各種措施包括錯誤率(FP + FN) / (P + N),特異性(TN / N)、精度(TP + TN) / (P + N)、敏感性(TP / P)和精密(TP / (TP + FP))。

一個混淆矩陣本質上是用來評估性能的機器學習模型的真值實驗是已知和目標類有超過兩個類別的數據。它有助於在可視化和評價結果的統計過程。

31日。解釋選擇偏見

答。選擇性偏差時的研究沒有一個隨機選擇的參與者。這是一個扭曲造成的統計分析的方法收集樣本。選擇性偏差也稱為選擇的效果。當專業人員未能考慮選擇性偏差,他們的結論可能是不準確的。

一些不同類型的選擇偏差:

  • 抽樣偏差——一個係統誤差,結果由於隨機樣本
  • 數據——發生在特定的數據子集選擇或拒絕壞數據來支持結論
  • 摩擦——指的是偏見導致由於測試不運行完成。

32。爆炸的梯度是什麼?

答。爆炸梯度問題場景大誤差梯度積累導致非常大的更新權值的神經網絡模型訓練階段。在一個極端的例子,權重的值可以溢出,導致NaN值。因此,模型變得不穩定,無法從訓練數據。

33。解釋了大數定律

答。“大數定律”指出,如果一個獨立實驗是重複很多次,個人的平均結果接近期望值。它還指出,樣本方差和標準偏差也趨同的期望值。

34。A / B測試的重要性是什麼

答。A / B測試的目標是選擇最好的變體之間的兩個假設,這種測試的用例可以是一個網頁或應用程序響應能力,著陸頁設計,橫幅測試,營銷活動的性能等。
第一步是確認一個轉換的目標,然後統計分析用於理解給定轉換選擇性能更好的目標。

35。解釋特征向量和特征值

答。特征向量描述一個線性變換的方向移動,通過壓縮,翻轉或伸展。他們是用來理解線性變換和一般相關或協方差矩陣計算。
轉換的特征值是力量的方向特征向量。

一個特征向量的方向保持不變,當一個線性變換應用於它。

36。為什麼重采樣做了什麼?

答。重新取樣做是為了:

  • 估計樣本統計量的準確性和可訪問的數據的子集
  • 替代數據點標簽在執行測試的意義
  • 驗證模型通過使用隨機子集

37歲。係統抽樣和整群抽樣是什麼

答。係統抽樣是一種概率抽樣方法。樣本選擇成員從一個更大的人口隨機起點,但一個固定的周期間隔。這個區間稱為采樣間隔。計算采樣間隔除以人口規模所需的樣本量。

整群抽樣包括樣本人口劃分成獨立的團體,稱為集群。然後,一個簡單的隨機樣本選擇集群的人口。分析是進行采樣的數據集群。

38。Autoencoders是什麼?

答。一個autoencoder是一種人工神經網絡。它是用來學習有效的數據編碼以一種無監督的方式。它是用於學習(編碼)表示一組數據,主要用於降維,通過訓練網絡忽略信號“噪音”。Autoencoder也試圖產生一個代表盡可能接近原來的減少編碼的輸入。

39歲。建立一個隨機森林模型的步驟是什麼?

一個隨機森林本質上是一個建立的決策樹。建立一個隨機森林模型的步驟包括:

步驟1:選擇“k”特征的“m”功能,隨機。這裏k < < m

步驟2:計算節點D使用最佳分裂點——沿著“k”特性

步驟3:將節點分為女兒節點使用最佳splitStep 4:重複步驟2和3,直到葉子節點完成

顧不上建立一個隨機森林通過重複步驟1 - 4 ' n ' *創建“n”數量的樹木。

40。如何避免過度擬合的模型?

過度擬合基本上是指一組模型隻對少量的數據。它往往忽視大局。三個重要的方法來避免過度擬合:

  • 保持模型簡單,就使用較少的變量和刪除主要訓練數據中的噪聲
  • 使用交叉驗證技術。例如:k折交叉驗證
  • 使用regularisation技術——如套索,懲罰模型參數,更有可能導致過度擬合。

41歲。區分單變量、雙變量和多變量分析。

單變量數據,顧名思義,隻包含一個變量。單變量分析描述了數據和發現存在的模式。

二元數據包含兩個不同的變量。雙變量分析處理的原因,這兩個變量之間的關係和分析。

多元數據包含三個或三個以上變量。多變量分析類似於二元的,然而,在一個多變量分析,存在多個因變量。

42。隨機森林不同決策樹怎麼樣?

答。決策樹是一個單一的結構。隨機森林是決策樹的集合。

43。降維是什麼?它的好處是什麼?

降維的過程被定義為有廣闊的維度的數據集轉換成數據和較小的尺寸,為了簡明地表達類似的信息。

這種方法主要是有利於壓縮數據,減少存儲空間。它也有助於減少計算時間由於更少的維度。最後,它有助於消除冗餘特征——例如,存儲一個值在兩個不同的單位(米和英寸)是可以避免的。

簡而言之,降維的過程中考慮減少隨機變量的數量,通過獲得一組主要變量。它可以分為特征選擇和特征提取。

44歲。對於給定的點,你將如何在Python中計算歐氏距離?plot1 =(1、3);plot2 = (2、5)

答。

導入數學#例子點在二維空間中……x = (1、3) y =(2、5)距離=數學。√總和[(a - b) * * 2, b在zip (x, y)]))打印(“從x到y歐氏距離:距離)

45歲。提到特征選擇方法選擇正確的變量。

特征選擇方法大致可分為兩種類型:

篩選方法:這些方法包括:

包裝方法:這些方法涉及

  • 提出選擇:一個功能測試和獲得一個不錯的選擇
  • 綜述了逆向選擇:所有功能,看看效果更好
  • 消除遞歸特性:每個不同的特性是遞歸地看著和相應配對在一起。

其他人則消除,向後回歸消除,餘弦相似性聚類任務的特征選擇,Correlation-based取消等。

機器學習的數據科學的麵試問題

46歲。不同類型的聚類算法是什麼?

答。Kmeans集群、資訊(K近鄰),分層次聚類,模糊聚類的一些常見的例子聚類算法

47歲。如何保持一個部署模型?

答。部署模型需要重新訓練一段時間後,以提高模型的性能。部署以來,一個追蹤應該保持的預測模型和真值。後來這種模型可以用來進行再培訓的新數據。同時,根本原因分析應該為錯誤的預測。

48。下麵哪個機器學習算法可用於輸入缺失值的分類和連續變量?k - means聚類線性回歸的事例(再鄰居)決策樹

答。然而,Kmeans

49。ROC曲線是什麼?解釋ROC曲線是如何工作的?

答。AUC -ROC曲線是一個性能度量的分類問題在不同的閾值設置。中華民國是一個概率曲線和AUC代表學位或測量的可分性。它告訴多少模型能夠區分類。AUC越高,更好的模型在預測0 1 0和1。

50。你如何找到RMSE和MSE線性回歸模型?

答。均方誤差的平方的總和為所有數據點(實際預報值值)。它給估計總平方求和的錯誤。均方根的平方根的平方之和的錯誤。

51。你能舉出一些例子假陰性持有比假陽性更重要嗎?

答。在預測的情況下,當我們在做疾病預測基於症狀的疾病,如癌症。

52歲。異常值怎麼能治療嗎?

答。離群值治療可以通過替換值和均值,模式,或一頂帽子。另一種方法是刪除所有行與異常值如果他們組成數據的一小部分。數據轉換還可以做的離群值。

53歲。你怎麼能使用混淆矩陣計算的準確性?

答。準確性分數可以由公式計算:(TP + TN) / (TP + TN + FP + FN), TP = True積極,TN = True底片,FP =假陽性,FN =假陰性。

54。之間的區別是什麼“長”和“寬”格式數據?

答。寬格式是我們為每一行數據點與多個列各種屬性的值。每個數據點的長格式就是我們有盡可能多的行屬性的數量和每一行包含一個特定屬性的值對於一個給定的數據點。

55。詳細介紹支持向量機的機器學習算法。

答。支持向量機是一種ML算法用於分類和回歸。對於分類來說,發現穆蒂維超平麵來區分類。即線性SVM使用內核,多項式和rbf。有一些參數需要通過SVM為了指定在超平麵的計算需要考慮的幾點因素。

56。各種分析項目所涉及的步驟是什麼?

答。一個文本分析項目所涉及的步驟是:

  1. 數據收集
  2. 數據清理
  3. 數據預處理
  4. 建立培訓測試和驗證集
  5. 模型創建
  6. Hyperparameter調優
  7. 模型部署

57。解釋星型模式。

答。星型模式是一個數據倉庫的概念,所有模式連接到一個中心模式。

58歲。一個算法必須定期更新如何?

答。這完全取決於準確度和精密度要求的交貨和我們必須訓練多少新數據。在1000萬行模型訓練與相同體積的重要新數據或接近相同的體積。培訓100萬名新數據點每隔一周,或兩周不會增加多少價值的增加模型的效率。

59。協同過濾是什麼?

答。協同過濾是一種技術,可以過濾掉物品,用戶可能喜歡的基礎上由類似的用戶反應。它通過搜索一大群人,找到一組較小的用戶提供味道類似於一個特定的用戶。

60。你將如何定義集群的數量在一個聚類算法?

答。通過確定輪廓的分數和肘部的方法,我們在算法確定集群的數量。

61年。集成學習是什麼?定義類型。

答。整體學習是夜總會的多個弱學習者(ml分類器),然後使用聚合結果的預測。可以看出即使分類器單獨表現不佳,他們的結果是聚合時,他們做得更好。整體學習的一個例子是隨機森林分類器。

62年。支持向量機的支持向量是什麼?

答。支持向量數據點是離超平麵和影響超平麵的位置和姿態。使用這些支持向量,我們最大限度地實現分類器的邊緣。刪除的支持向量將改變超平麵的位置。這些都是幫助我們構建SVM的點。

63年。在決策樹修剪是什麼?

答。修剪是一個過程,減少了決策樹的大小。樹木修剪的原因是由基本算法可以容易過度擬合為他們變得極其龐大而複雜。

64年。各種分類算法是什麼?

答。不同類型的分類算法包括邏輯回歸、支持向量機、樸素貝葉斯決策樹,隨機森林。

65年。推薦係統是什麼?

Ans。推薦引擎是一個係統的基礎上,分析用戶的曆史數據和行為相似的用戶,建議產品,服務,信息給用戶。建議可以采取user-user關係,產品關係,產品用戶關係等建議。

數據分析的麵試問題

66年。在Python中列出的庫用於數據分析和科學計算。

答。庫NumPy Scipy,熊貓,sklearn,Matplotlib最普遍。深學習Pytorch Tensorflow是偉大的工具來學習。

67年。國家之間的差異預期值和平均值。

答。數學期望,也稱為期望值,是可能的值的總和或集成於一個隨機變量。平均值是所有數據點的平均值。

答。NumPy和SciPypython庫支持數組和數學函數。他們非常方便的工具,數據的科學。

69年。下麵的Python代碼的輸出是什麼?

def乘數():返回(λx:我* x範圍(4)]印刷[m (2) m的乘數())

答。錯誤

70年。列表理解你是什麼意思?

答。列表理解是一種優雅的方式來定義和創建一個在Python列表。這些列表往往集的品質,但不是在所有的情況下。理解是一個完整的列表代替lambda函數以及函數映射()、過濾器(),並減少()。

71年。__init__在Python中是什麼?

答。“__init__”是一個保留在python類方法。在麵向對象的概念被稱為構造函數。當一個對象被創建時調用此方法從類和它允許類初始化的屬性類。

72年。之間的區別是什麼append()和擴展()方法?

答。append()是用於添加條目列表。擴展()使用一個迭代器遍曆其參數,增加了在參數列表中每個元素和延伸。

73年。下麵的輸出是什麼?x =(“ab”、“cd”]打印(len(列表(地圖(列表,x))))

答。2

74年。寫一個Python程序計算總在一個文本文件的行數。

答。

與開放數= 0 (filename.txt, rb) f: f的線:計數+ = 1打印計數

75年。你將如何讀一個隨機線在一個文件?

答。

導入隨機def random_line(幀):行=開放(幀).read () .splitlines()返回random.choice(行)打印(random_line(用法))

76年。你將如何有效地表示數據和5維度?

答。它可以表示為一個NumPy數組的維度(n * n * n * n * 5)

77年。當你退出Python,所有內存回收嗎?

答。對象在循環引用並不總是免費當python退出。因此當我們退出python所有內存並不一定得到收回。

78年。你如何創建一個空數組NumPy ?

答。

“進口numpy np np。空((2,2))”

79年。治療類別變量作為連續變量會導致一個更好的預測模型?

答。沒有實質性的證據,但在某些情況下,它可能會有所幫助。這完全是一個蠻力的方法。也隻能當變量問題本質上是順序的。

80年。如何通過什麼方法和可視化數據可以有效地使用?

答。數據可視化是大大有幫助而創建的報告。有相當多的報告工具如表、Qlikview等利用情節,圖表等為代表的總體想法和結果分析。可視化數據也使用探索性數據分析所以它給我們數據的概述。

81年。你是給定一個數據集組成的變量缺失值30%以上。你將如何處理這些問題?

答。如果30%從單個列數據丟失之後,一般來說,我們刪除列。如果要刪除列太重要了,我們可以推定值。汙名,可以使用幾種方法,每個方法的歸責,我們需要評估模型。我們應該堅持一個模型,該模型為我們提供了最好的結果,對好一看不見的數據。

82年。偏態分布和均勻分布是什麼?

答。偏態分布是大多數數據點的分布向右或向左的中心。均勻分布是一個概率分布,所有的結果都是可能的。

83年。可以看到不同類別的數量列在熊貓嗎?

答。value_counts將顯示不同類別的計數。

84年。默認的缺失值標記的熊貓,和如何檢測DataFrame所有缺失的值?

答。南是熊貓失蹤的標誌值。所有行和缺失值可以檢測到is_null熊貓()函數。

85年。根本原因分析是什麼?

答。根本原因分析是追溯的過程中發生的事件和因素導致。通常當一個軟件故障。在數據科學、根源分析幫助企業理解某些結果背後的語義。

86年。什麼是Box-Cox轉換?

答。一盒考克斯轉換變量正常化的一種方式。正常是一個重要的假設對於許多統計技術;如果你的數據不正常,應用Box-Cox意味著你能夠運行更大數量的測試。

87年。如果不是找到最好的分割,我們隨機選擇幾個分裂和選擇最好的。會工作嗎?

Ans,決策樹是基於一個貪婪的方法。它為每個分支選擇最好的選擇。如果我們隨機從平均分裂選擇最好的分裂,這將給我們一個本地最好的解決方案,而不是最好的解決方案生產低和次優的結果。

88年。下麵的代碼的結果是什麼?

def快(項目=[]):項目。追加(1)返回物品快速打印()打印很快()

答。[1]

89年。你會如何產生一個列表與獨特的元素從一個列表中重複的元素?

答。

l = [1, 1、2、2] l =(設置(l)) l列表

90年。你將如何創建一係列dict的熊貓嗎?

答。

熊貓作為pd #導入創建一個字典詞典={“狗”:“貓”:10日20}#創建一係列係列= pd.Series(字典)打印(係列)

91年。你將如何創建一個空DataFrame熊貓?

答。

column_names = (“a”、“b”、“c”) df = pd。DataFrame(列= column_names)

92年。如何獲得B係列不是出現在係列的物品嗎?

答。我們可以通過使用series.isin()在熊貓。

93年。如何獲得頻率計數一係列獨特的項目?

答。pandas.Series。value_counts給物品在一係列的頻率。

94年。如何numpy數組轉換為dataframe給定形狀的?

答。如果矩陣numpy數組問題:df = pd.DataFrame將矩陣轉化為一個dataframe(矩陣)。

95年。數據聚合是什麼?

答。數據聚合過程中,聚合函數用於groupby後獲得必要的結果。常見的聚合函數和,數、avg、最大值、最小值。

96年。熊貓指數是什麼?

答。索引是一個獨特的行數在熊貓dataframe屈指可數。

97年。描述數據操作在熊貓嗎?

答。常見的數據操作熊貓是數據清洗、數據預處理、數據轉換、數據標準化、數據正常化、數據聚合。

98年。定義GroupBy熊貓嗎?

答。groupby熊貓是一種特殊的函數用於行分組給特定列的信息類別用於分組數據。

99年。如何轉換成一係列列的索引dataframe ?

答。df = df.reset_index()將熊貓dataframe指數轉換成一列。

先進的數據科學的麵試問題

One hundred.如何隻保留2最頻繁的值是和取代一切成為‘其他’嗎?

答。

“s = pd.Series (np.random。randint(1、5[12]))打印(s.value_counts ()) s [~ s.isin (ser.value_counts () .index[2])) = '其他' s”

101年。如何將每個元素的第一個字符在一係列大寫嗎?

答。pd.Series ([x.title (x) s])

102年。如何獲得最低,第25百分位值,75,和數字係列的馬克斯?

答。

“隨機性= np.random.RandomState (100) s = pd.Series(隨機性。現年55歲的正常(100 5))np。百分位(ser q = [0、25、50、75、100])”

103年。散點圖矩陣代表什麼類型的數據?

答。散點圖矩陣是最常用的多維數據可視化。它是用於想象二元變量的組合之間的關係。

104年。雙曲線樹是什麼?

答。雙曲線樹或hypertree是信息可視化和靈感來自雙曲幾何圖形繪製方法。

105年。科學可視化是什麼?它是如何不同於其他可視化技術?

答。科學可視化表示數據圖形的從數據獲得的洞察力。它也被稱為視覺數據分析。這有助於理解係統研究方法以前不可能的。

106年。可視化的缺點是什麼?

答。一些可視化的缺點是:它給估計不準確,另一組的觀眾可能以不同的方式解釋它,設計不當會引起混亂。

107年。之間的區別是什麼樹圖和熱地圖嗎?

答。熱是一個地圖類型的可視化工具相比之下,不同類別的幫助下顏色和大小。它可以用來比較兩個不同的措施。樹圖的圖表類型,說明了分層數據或part-to-whole關係。

108年。解集和聚合數據是什麼?

答。聚合主要是組合多個行數據在一個地方從低水平向更高水平發展。崩潰,另一方麵,我是相反的過程。e打破聚合數據到一個較低的水平。

109年。有哪些常見的數據質量問題在處理大數據?

答。一些主要的質量問題在處理大數據是重複的數據,不完整的數據,數據格式不一致的,不正確的數據,數據的數量(大數據),沒有適當的存儲機製,等等。

110年。聚類是什麼?

答。聚類方法將數據點劃分為若幹組。分裂的方式進行所有的數據點在同一組更相似比其他組的數據點。一些類型的聚類層次聚類,K意味著集群Density-based集群,模糊聚類等。

111年。數據挖掘在R包是什麼?

答,一些受歡迎的數據挖掘包在R Dplyr——數據操作,Ggplot2——數據可視化,purrr -數據角力,datapasta Hmisc——數據分析——數據導入等。

112年。用於抽樣技術是什麼?利用抽樣

有圖紙樣本數據的各種方法。

兩個主要抽樣技術

  1. 概率抽樣
  2. Non-probability抽樣

概率抽樣

概率抽樣是指每個人的人口可能被包含在示例。概率抽樣方法包括-

  • 簡單隨機抽樣

在簡單隨機抽樣,每個個體的人口有同等的機會被選中或包括在內。

  • 係統抽樣

係統抽樣非常類似於隨機抽樣。所不同的隻是,而不是隨機生成的數字,係統抽樣的每個個體的人口分配一個號碼並定期選擇。

  • 分層抽樣

在分層抽樣,人口分為亞類。它允許您得出更精確的結果,確保每個子總體中樣本中表示。

  • 整群抽樣

整群抽樣還涉及將人口劃分為易,但每個分組人口應該有類似的整個樣本的特征。而不是從每個分組人口抽樣個體,你隨機選擇整個族群。

Non-probability抽樣

在non-probability抽樣,選擇個人使用的非隨機的方式,而不是每一個個體都有可能被包含在示例。

  • 便利抽樣

便利抽樣方法,數據收集從一個方便。

  • 自願響應抽樣
  • 自願響應抽樣類似於便利抽樣,但這裏的研究選擇個人,然後聯係他們,人或個人誌願者本身。
  • 立意抽樣

立意抽樣也稱為判斷抽樣的研究人員用他們的專業知識來選擇一個樣本的目的是有用的或相關的研究。

  • 滾雪球抽樣

采用滾雪球抽樣的人口是很難獲得的。它可以用來招募個體通過其他個體。

抽樣的優點

  • 低成本優勢
  • 簡單分析了有限的資源
  • 更少的時間比其他技術
  • 範圍被認為是相當高的
  • 抽樣數據被認為是高
  • 組織方便

113年。不平衡數據是什麼?

不平衡數據簡單的詞語指的是不同類型的數據集有一個觀測到目標類的不均勻分布。也就是說,一個類標簽的觀察高於其他相對。

114年。定義升力、KPI、健壯性、模型擬合和能源部

電梯用於理解給定目標的性能模型預測性能,相比隨機挑選目標模型。

KPI尺子或關鍵性能指標是用來測量性能的一個組織或一個員工根據組織目標。

魯棒性是一個屬性時,識別算法的有效性測試一個新的獨立的數據集。

模型擬合是一個衡量一個機器學習的模型推廣到類似的數據,它是訓練有素的。

實驗設計(DOE)是一組數學方法通過設計流程優化和質量(QbD)。

115年。定義混淆變量

一個混雜變量是一個實驗的外部影響。在簡單的詞語,這些變量變化依賴和獨立變量的影響。一個變量混淆變量應滿足以下條件:

  • 變量應該有相關的獨立變量。
  • 非正式變量應該與因變量有關。

例如,如果您正在研究是否缺乏鍛煉會影響體重增加,那麼缺乏鍛煉是一個獨立的變量和體重增加是一個因變量。一個“變量可以是任何其他因素會影響體重增加。消耗的食物量、天氣條件等可以混雜變量。

116年。為什麼時間序列問題不同於其他回歸問題?

時間序列推斷而回歸插值。時間序列是指一個組織鏈的數據。時間序列預測序列中接下來會發生什麼。時間序列可以協助其他係列可以一起發生。

可以應用於時間序列回歸問題以及non-ordered序列稱為特性。投影時,新值的功能介紹和回歸計算結果為目標變量。

117所示。什麼是測試集和驗證集的區別?

測試集:測試集是一組示例隻用於評估一個完全指定的分類器的性能。簡而言之,它是用來適應參數。它是用來測試數據作為輸入傳遞給你的模型。

驗證設置:驗證組是一組例子用來調整分類器的參數。簡而言之,它是用來優化參數。驗證集是用於驗證輸出是由您的模型。

內核的技巧

內核技巧是一個方法,一個線性分類器是用來解決非線性問題。換句話說,它是一個方法,將非線性對象一個高維空間,讓它更容易分類數據的線性除以一個平麵。

讓我們更好的了解它,

讓我們定義一個內核函數K xi和xj僅僅是點積。

K (x,xj)= x。xj= xTxj

如果每個數據點映射到高維空間中通過一些轉換

Φ:x - >Φ(x)

點積就變成:

K (x,xj)=ΦxTΦxj

箱線圖、柱狀圖

盒型圖和直方圖類型的圖表表示數值數據的圖形化。這是一個更簡單的方法來可視化數據。這讓它更容易比較特征之間的數據類別。

在大城市找到數據科學課程在印度

欽奈|班加羅爾|海德拉巴|浦那|孟買|德裏NCR
《阿凡達》的照片
beplay2018官网很好的學習團隊
beplay2018官网很好的學習的博客涵蓋了最新發展和創新技術,可用於構建有益的事業。你會發現職業指導,技術教程和行業新聞使自己更新技術和業務的快速變化的世界。

留下你的評論

你的電子郵件地址將不會被發表。必填字段標記*

裂紋的夢想工作免費的在印度最信任的教育證書課程平台

滾動到頂部
Baidu
map