原文鏈接： https://mp.weixin.qq.com/s/fguoDXktD4RbivRtV6P3yQ#rd

（圖片付費下載于視覺中國）

作者 | Jose Garcia

譯者 | 張睿毅

校對 | 張一豪、林亦霖

編輯 | 于騰凱

來源 | 數(shù)據(jù)派THU（ID：DatapiTHU）

【導(dǎo)讀】本文中，作者給出了假設(shè)檢驗的解讀與Python實現(xiàn)的詳細(xì)的假設(shè)檢驗中的主要操作。

也許所有機器學(xué)習(xí)的初學(xué)者，或者中級水平的學(xué)生，或者統(tǒng)計專業(yè)的學(xué)生，都聽說過這個術(shù)語，假設(shè)檢驗。我將簡要介紹一下這個當(dāng)我學(xué)習(xí)時給我?guī)砹寺闊┑闹黝}。我把所有這些概念放在一起，并使用python進(jìn)行示例。

在我尋求更廣泛的事情之前要考慮一些問題?—— 什么是假設(shè)檢驗？我們?yōu)槭裁从盟渴裁词羌僭O(shè)的基本條件？什么是假設(shè)檢驗的重要參數(shù)？

讓我們一個個地開始吧：

1、?什么是假設(shè)檢驗？

假設(shè)檢驗是一種統(tǒng)計方法，用于使用實驗數(shù)據(jù)進(jìn)行統(tǒng)計決策。假設(shè)檢驗基本上是我們對人口參數(shù)做出的假設(shè)。

例如：你說班里的學(xué)生平均年齡是40歲，或者一個男生要比女生高。

我們假設(shè)所有這些例子都需要一些統(tǒng)計方法來證明這些。無論我們假設(shè)什么是真的，我們都需要一些數(shù)學(xué)結(jié)論。

2、我們?yōu)槭裁匆盟?

假設(shè)檢驗是統(tǒng)計學(xué)中必不可少的過程。假設(shè)檢驗評估關(guān)于總體的兩個相互排斥的陳述，以確定樣本數(shù)據(jù)最佳支持哪個陳述。當(dāng)我們說一個發(fā)現(xiàn)具有統(tǒng)計學(xué)意義時，這要歸功于一個假設(shè)檢驗。

3、什么是假設(shè)的基本條件？

?不同均值和方差下的正態(tài)分布

假設(shè)的基礎(chǔ)是規(guī)范化和標(biāo)準(zhǔn)規(guī)范化

https://en.wikipedia.org/wiki/Normalization_(statistics)；https://stats.stackexchange.com/questions/10289/whats——the——difference——between——normalization——and——standardization

我們所有的假設(shè)都圍繞這兩個術(shù)語的基礎(chǔ)。讓我們看看這些。

標(biāo)準(zhǔn)化的正態(tài)曲線圖像和數(shù)據(jù)分布及每個部分的百分比

你一定想知道這兩個圖像之間有什么區(qū)別，有人可能會說我找不到，而其他人看到的圖像會比較平坦，而不是陡峭的。好吧伙計這不是我想要表達(dá)的，首先你可以看到有不同的正態(tài)曲線所有那些正態(tài)曲線可以有不同的均值和方差，如第二張圖像，如果你注意到圖形是合理分布的，總是均值= 0和方差= 1。當(dāng)我們使用標(biāo)準(zhǔn)化的正態(tài)數(shù)據(jù)時，z—score的概念就出現(xiàn)了。

正態(tài)分布

如果變量的分布具有正態(tài)曲線的形狀——一個特殊的鐘形曲線，則該變量被稱為正態(tài)分布或具有正態(tài)分布。正態(tài)分布圖稱為正態(tài)曲線，它具有以下所有屬性：1.均值，中位數(shù)和眾數(shù)是相等。

正態(tài)分布方程

標(biāo)準(zhǔn)化正態(tài)分布

標(biāo)準(zhǔn)正態(tài)分布是平均值為0，標(biāo)準(zhǔn)差為1的正態(tài)分布

4、哪些是假設(shè)檢驗的重要參數(shù)？

零假設(shè)：

在推論統(tǒng)計中，零假設(shè)是一種普遍的說法或默認(rèn)的觀點，即兩個測量現(xiàn)象之間沒有關(guān)系，或者分組間沒有關(guān)聯(lián)

換句話說，它是一個基本假設(shè)，或基于領(lǐng)域或問題知識。

示例：公司的生產(chǎn)力=50個單位/天等

?備擇假設(shè)：

另一種假設(shè)是假設(shè)檢驗中使用的假設(shè)與零假設(shè)相反。通常認(rèn)為觀察是真實效果的結(jié)果（疊加了一定量的偶然的變化）

零假設(shè)與備擇假設(shè)

示例：公司生產(chǎn)≠50單位/每天等。

重要程度： 指我們接受或拒絕無效假設(shè)的重要程度。接受或拒絕假設(shè)不可能100％準(zhǔn)確，因此我們選擇通常為5％的重要程度。

這通常用alpha（數(shù)學(xué)符號）表示，通常為0.05或5％，這意味著您的輸出應(yīng)該有95％的信心在每個樣本中給出類似的結(jié)果。

I型錯誤： 當(dāng)我們拒絕零假設(shè)時，盡管該假設(shè)是正確的。類型I錯誤由alpha表示。在假設(shè)檢驗中，顯示關(guān)鍵區(qū)域的正常曲線稱為α區(qū)域。

II型錯誤： 當(dāng)我們接受零假設(shè)但它是錯誤的。II型錯誤用beta表示。在假設(shè)檢驗中，顯示接受區(qū)域的正常曲線稱為β區(qū)域。

單尾測試： 統(tǒng)計假設(shè)的測試，其中拒絕區(qū)域僅在采樣分布的一側(cè)，稱為單尾測試。

例如：一所大學(xué)有≥4000名學(xué)生或數(shù)據(jù)科學(xué)≤80％采用的組織。

雙尾測試： 雙尾測試是一種統(tǒng)計測試，其中分布的關(guān)鍵區(qū)域是雙側(cè)的，并測試樣本是否大于或小于某個值范圍。如果被測試的樣本屬于任一關(guān)鍵區(qū)域，則接受替代假設(shè)而不是零假設(shè)。

例如：一所大學(xué)！= 4000名學(xué)生或數(shù)據(jù)科學(xué)！= 80％的組織采用。

。

單尾和雙尾圖像

P值： P值或計算概率是當(dāng)研究問題的零假設(shè)（H 0）為真時，找到觀察到的或更極端的結(jié)果的概率?—— “極端”程度的定義取決于假設(shè)如何被檢測。

如果您的P值小于選定的顯著性水平，那么就拒絕原假設(shè)，即接受樣本提供合理的證據(jù)來支持備選假設(shè)。它并不意味著“有意義”或“重要”的差異;這是在考慮結(jié)果的真實相關(guān)性時決定的。

例如：你有一枚硬幣而你不知道這是否公平或棘手所以讓我們決定零和備擇假設(shè)

H0： 硬幣是一個公平的硬幣。

H1： 硬幣是一個狡猾的硬幣。并且alpha = 5％或0.05

現(xiàn)在讓我們擲硬幣并計算p值（概率值）。

第一次投擲硬幣，結(jié)果是尾部P值= 50％（頭部和尾部的概率相等）

第二次拋硬幣，結(jié)果是尾巴，現(xiàn)在p值= 50/2 = 25％

同樣地，我們連續(xù)6次投擲并得到P值= 1.5％的結(jié)果，但是我們將顯著性水平設(shè)置為95％表示我們允許的5％錯誤率，在這里我們看到我們超出了那個水平，即我們的零假設(shè)不成立，所以我們需要拒絕并提出這個硬幣實際上是一個狡猾的硬幣。

自由度：?? 現(xiàn)在想象你對期望值沒有興趣，你對數(shù)據(jù)分析感興趣。您有一個包含10個值的數(shù)據(jù)集。如果你沒有估算任何東西，每個值都可以取任何數(shù)字，對吧？每個值都可以完全自由變化。但是假設(shè)您想使用單樣本t檢驗來測試10個值的樣本的總體平均值。你現(xiàn)在有一個約束——平均值的估計。究竟是什么約束？通過定義均值，必須保持以下關(guān)系：數(shù)據(jù)中所有值的總和必須等于n x mean，其中n是數(shù)據(jù)集中的值的數(shù)量。

因此，如果數(shù)據(jù)集有10個值，則10個值的總和必須等于平均值x 10.如果10個值的平均值為3.5（您可以選擇任何數(shù)字），則此約束要求10個值的總和必須等于10 x 3.5 = 35。

使用該約束，數(shù)據(jù)集中的第一個值可以自由變化。無論它是什么價值，所有10個數(shù)字的總和仍然可以具有35的值。第二個值也可以自由變化，因為無論你選擇什么值，它仍然允許所有值的總和的可能性是35歲。

現(xiàn)在讓我們看一些廣泛使用的假設(shè)檢驗類型：

T校驗（學(xué)生T校驗）
Z校驗
ANOVA校驗
卡方檢驗

T—檢驗： t檢驗是一種推論統(tǒng)計量，用于確定在某些特征中可能與兩組的均值之間是否存在顯著差異。它主要用于數(shù)據(jù)集，如通過翻轉(zhuǎn)硬幣100次記錄為結(jié)果的數(shù)據(jù)集，將遵循正態(tài)分布并且可能具有未知的方差。

鏈接：?

https://www.investopedia.com/terms/v/variance.asp

T檢驗用作假設(shè)檢驗工具

鏈接：?

https://www.investopedia.com/terms/h/hypothesistesting.asp

其允許測試適用于群體的假設(shè)。

T檢驗有兩種類型：

單樣本t檢驗
雙樣本t檢驗

單樣本t檢驗： 單樣本t檢驗確定樣本均值是否與已知或假設(shè)的總體均值具有統(tǒng)計學(xué)差異。單樣本t檢驗是參數(shù)檢驗。

例如：你有10個年齡，你正在檢查平均年齡是否為30歲。?（使用python查看下面的代碼）

                
                  from scipy.stats import ttest_1sampimport 	
numpy as npages = np.genfromtxt	
(“ages.csv”)print(ages)ages_mean = np.mean(ages)	
print(ages_mean)tset, pval = ttest_1samp(ages, 30)	
print(“p-values”,pval)if pval < 0.05:    # alpha value is 0.05 or 5%   print	
(" we are rejecting null hypothesis")else: 	
 print("we are accepting null hypothesis”)

上面代碼的結(jié)果如下：

單樣本t測試結(jié)果

雙樣本t檢驗： 獨立樣本t檢驗或雙樣本t檢驗比較兩個獨立組的平均值，以確定是否有統(tǒng)計證據(jù)表明相關(guān)的人口均值存在顯著差異。獨立樣本t檢驗是參數(shù)檢驗。該測試也稱為：獨立t檢驗。

示例：在week1和week2之間是否存在任何關(guān)聯(lián)（代碼在下面的python中給出）

                
                  from scipy.stats import ttest_indimport numpy as npweek1 = np.genfromtxt	
("week1.csv",  delimiter=",")	
week2 = np.genfromtxt	
("week2.csv",  delimiter=",")print(week1)	
print("week2 data :-\n")print(week2)	
week1_mean = np.mean(week1	
)week2_mean = np.mean(week2)print	
("week1 mean value:",week1_mean)print	
("week2 mean value:",week2_mean)	
week1_std = np.std(week1)week2_std = 	
np.std(week2)print("week1 std value:",week1_std)	
print("week2 std value:",week2_std)	
ttest,pval = ttest_ind(week1,week2)print	
("p-value",pval)if pval <0.05:  print	
("we reject null hypothesis")else:  print("we accept null hypothesis”）

雙樣本t校驗結(jié)果

配對樣本t檢驗：配對樣本t檢驗也稱為依賴樣本t檢驗。這是一個單變量測試，測試2個相關(guān)變量之間的顯著差異。這方面的一個例子是，如果您在某些治療，病癥或時間點之前和之后收集個人的血壓。

H0：表示兩個樣本之間的差異為0。

H1：兩個樣本之間的平均差異不是0。

執(zhí)行下面的代碼可以得到同樣的結(jié)果。

                
                  import pandas as pd	
from scipy import stats	
df = pd.read_csv("blood_pressure.csv")	
df[['bp_before','bp_after']].describe()	
ttest,pval = stats.ttest_rel(df['bp_before'], df['bp_after'])	
print(pval)	
if pval<0.05:	
    print("reject null hypothesis")	
else:	
    print("accept null hypothesis")

什么時候可以運行Z校驗。

在統(tǒng)計學(xué)中使用幾種不同類型的校驗（即f檢驗，卡方檢驗，t檢驗）

鏈接：

https://www.statisticshowto.datasciencecentral.com/ probability——and——statistics/hypothesis——testing/f——test/

https://www.statisticshowto.datasciencecentral.com/probability——and——statistics/chi——square/

https://www.statisticshowto. datasciencecentral.com/probability——and——statistics/t——test/?

在下列情況下，您將使用Z測試：

您的樣本量大于30，否則，請使用t檢驗。

鏈接：?

https://www.statisticshowto.datasciencecentral.com/probability——and——statistics/find——sample——size/

數(shù)據(jù)點應(yīng)彼此獨立，換句話說，一個數(shù)據(jù)點不相關(guān)或不影響另一個數(shù)據(jù)點。

鏈接：?

https://www.statisticshowto.datasciencecentral.com/probability——and——statistics/dependent——events——independent/

您的數(shù)據(jù)應(yīng)該是正常分布的。但是，對于大樣本量（超過30個），這并不總是重要的。
您的數(shù)據(jù)應(yīng)從人口中隨機選擇，每個項目都有相同的選擇機會。
如果可能的話，樣本量應(yīng)該相等。

再舉一個例子，我們使用z-test進(jìn)行血壓測量，如156個單樣本Z檢驗。

                
                  import pandas as pd	
from scipy import statsfrom statsmodels.stats	
 import weightstats as stestsztest ,pval = stests.ztest(df['bp_before'], x2=None, value=156)	
print(float(pval))if pval<0.05:	
    print("reject null hypothesis")	
else:   	
 print("accept null hypothesis")

雙樣本Z檢驗： 在兩個樣本z檢驗中，類似于t檢驗，我們檢查兩個獨立的數(shù)據(jù)組并確定兩個組的樣本均值是否相等。

H0：兩組的平均值為0

H1：兩組的平均值不為0

例：我們檢查血液之后和血液數(shù)據(jù)之前的血液數(shù)據(jù)。（下面是python代碼）

                
                  ztest ,pval1 = stests.ztest(df['bp_before'],	
x2=df['bp_after'],	
value=0,alternative='two-sided')print(float(pval1))if pval<0.05:	
    print("reject null hypothesis")else:    print("accept null hypothesis")

ANOVA（F-檢驗）： t檢驗在處理兩組時效果很好，但有時我們想要同時比較兩組以上。例如，如果我們想根據(jù)種族等某些分類變量來測試選民年齡是否不同，我們必須比較每個級別的平均值或?qū)ψ兞窟M(jìn)行分組。我們可以為每對組進(jìn)行單獨的t檢驗，但是當(dāng)你進(jìn)行多次檢測時，你會增加誤報的可能性。方差分析或ANOVA，是一種統(tǒng)計推斷測試，可讓您同時比較多個組。

鏈接：

https://en.wikipedia.org/ wiki/Analysis_of_variance

F =組間變異性/組間變異性

F校驗或ANOVA實例圖

與z和t分布不同，F(xiàn)分布沒有任何負(fù)值，因為由于每個偏差的平方，組內(nèi)變異和組內(nèi)變異總是正的。

單向F檢驗（ANOVA）：根據(jù)它們的平均相似度和f分?jǐn)?shù)來判斷兩個或更多個組是否相似。

示例：有3種不同的植物類別及其重量，需要檢查所有3組是否相似（下面是python代碼）

                
                  df_anova = pd.read_csv('PlantGrowth.csv')	
df_anova = df_anova[['weight','group']]grps = pd.unique(df_anova.group.values)	
d_data = {grp:df_anova['weight'][df_anova.group == grp] for grp in grps}	
 F, p = stats.f_oneway(d_data['ctrl'], d_data['trt1'], d_data['trt2'])	
print("p-value for significance is: ", p)	
if p<0.05: 	
   print("reject null hypothesis")	
else:  	
  print("accept null hypothesis")

雙向F檢驗：?雙向F檢驗是單向檢驗的擴展。當(dāng)我們有2個自變量和2個以上的組時使用它。雙向F檢驗并不能說明哪個變量占主導(dǎo)地位。如果我們需要檢查個體意義，則需要進(jìn)行事后測試。

鏈接：

https://stattrek.com/Help/Glossary.aspx? Target=Categorical%20variable

現(xiàn)在讓我們來看看平均作物產(chǎn)量（不是任何小組的平均作物產(chǎn)量），以及每個因子的平均作物產(chǎn)量，以及組合在一起的因子。

                
                  import statsmodels.api as sm	
from statsmodels.formula.api import olsdf_anova2 =	
 pd.read_csv	
("https://raw.githubusercontent.com/Opensourcefordatascience/Data-sets/master/crop_yield.csv")	
model = ols('Yield ~ C(Fert)*C(Water)'	
, df_anova2).fit()print(f"Overall model F	
({model.df_model: .0f},{model.df_resid: .0f}) = {model.fvalue: .3f}, p = {model.f_pvalue: .4f}")	
res = sm.stats.anova_lm(model, typ= 2)res

卡方檢驗：? 當(dāng)您從單個總體中獲得兩個分類變量時，將應(yīng)用此測試。它用于確定兩個變量之間是否存在顯著關(guān)聯(lián)。

鏈接：

https://stattrek.com/Help/ Glossary.aspx?Target=Categorical%20variable

例如，在選舉調(diào)查中，選民可能按性別（男性或女性）和投票偏好（民主黨，共和黨或獨立團體）進(jìn)行分類。我們可以使用卡方檢驗來確定獨立性，以確定性別是否與投票偏好相關(guān)。

以下為python代碼

                
                  df_chi = pd.read_csv('chi-test.csv')	
contingency_table=pd.crosstab(df_chi["Gender"],df_chi["Shopping?"])	
print('contingency_table :-\n',contingency_table)	
#Observed ValuesObserved_Values = contingency_table.values print	
("Observed Values :	
\n",Observed_Values)b=stats.chi2_contingency(contingency_table)	
Expected_Values = b[3]print	
("Expected Values :-\n",Expected_Values)	
no_of_rows=len(contingency_table.iloc[0:2,0])	
no_of_columns=len(contingency_table.iloc[0,0:2])ddof=(no_of_rows-1)*(no_of_columns-1)print	
("Degree of Freedom:-",ddof	
)alpha = 0.05from scipy.stats import chi2chi_square=sum([(o-e)	
**2./e for o,e in zip(Observed_Values,Expected_Values)])	
chi_square_statistic=chi_square[0]+chi_square[1]print	
("chi-square statistic:-",chi_square_statistic)	
critical_value=chi2.ppf(q=1-alpha,df=ddof)print	
('critical_value:',critical_value)	
#p-valuep_value=1-chi2.cdf(x=chi_square_statistic,df=ddof)	
print('p-value:',p_value)print('Significance level: ',alpha)	
print('Degree of Freedom: ',ddof)	
print('chi-square statistic:',chi_square_statistic)	
print('critical_value:',critical_value)print('p-value:',p_value)	
if chi_square_statistic>=critical_value:    print	
("Reject H0,There is a relationship 	
between 2 categorical variables")	
else:    print("Retain H0,There is no relationship	
 between 2 categorical variables")  	
  if p_value<=alpha:    print	
("Reject H0,There is a relationship 	
between 2 categorical variables")else:    print	
("Retain H0,There is no relationship between 2 categorical variables")

譯者介紹：張睿毅，北京郵電大學(xué)大二物聯(lián)網(wǎng)在讀。我是一個愛自由的人。在郵電大學(xué)讀第一年書我就四處跑去蹭課，折騰整一年驚覺，與其在當(dāng)下焦慮，不如在前輩中沉淀。于是在大二以來，堅持讀書，不敢稍歇。資本主義國家的科學(xué)觀不斷刷新我的認(rèn)知框架，同時因為出國考試很早出分，也更早地感受到自己才是那個一直被束縛著的人。太多真英雄在社會上各自閃耀著光芒。這才開始，立志終身向遇到的每一個人學(xué)習(xí)。做一個純粹的計算機科學(xué)里面的小學(xué)生。喜歡算法，數(shù)據(jù)挖掘，圖像識別，自然語言處理，神經(jīng)網(wǎng)絡(luò)，人工智能等方向。

原文鏈接：

https://towardsdatascience.com/hypothesis-testing-in-machine-learning-using-python-a0dc89e169ce

(本文為AI科技大本營轉(zhuǎn)載文章，轉(zhuǎn)載* 請聯(lián)系作者 )

◆

精彩推薦

◆

倒計時！由易觀攜手CSDN聯(lián)合主辦的第三屆易觀算法大賽還剩 7 天，冠軍團隊將獲得3萬元！

本次比賽主要預(yù)測訪問平臺的相關(guān)事件的PV,UV流量（包括Web端，移動端等），大賽將會提供相應(yīng)事件的流量數(shù)據(jù)，以及對應(yīng)時間段內(nèi)的所有事件明細(xì)表和用戶屬性表等數(shù)據(jù)，進(jìn)行模型訓(xùn)練，并用訓(xùn)練好的模型預(yù)測規(guī)定日期范圍內(nèi)的事件流量。

推薦閱讀

知乎算法團隊負(fù)責(zé)人孫付偉： Graph?Embedding在知乎的應(yīng)用實踐

必看，61篇NeurIPS深度強化學(xué)習(xí)論文解讀都這里了

打破深度學(xué)習(xí)局限，強化學(xué)習(xí)、深度森林或是企業(yè)AI決策技術(shù)的“良藥”

激光雷達(dá)，馬斯克看不上，卻又無可替代？

卷積神經(jīng)網(wǎng)絡(luò)中十大拍案叫絕的操作

Docker是啥？容器變革的火花？

5大必知的圖算法，附Python代碼實現(xiàn)

阿里云彈性計算負(fù)責(zé)人蔣林泉：億級場景驅(qū)動的技術(shù)自研之路

40 歲身體死亡，11 年后成“硅谷霍金”，他用一塊屏幕改變 100 萬人！

AI大神如何用區(qū)塊鏈解決模型訓(xùn)練痛點, AI+區(qū)塊鏈的正確玩法原來是這樣…… | 人物志

你點的每個“在看”，我都認(rèn)真當(dāng)成了喜歡

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯(lián)系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

假設(shè)檢驗怎么做？這次把方法+Python代碼一并教給你

知乎算法團隊負(fù)責(zé)人孫付偉： Graph?Embedding在知乎的應(yīng)用實踐

必看，61篇NeurIPS深度強化學(xué)習(xí)論文解讀都這里了

打破深度學(xué)習(xí)局限，強化學(xué)習(xí)、深度森林或是企業(yè)AI決策技術(shù)的“良藥”

激光雷達(dá)，馬斯克看不上，卻又無可替代？

卷積神經(jīng)網(wǎng)絡(luò)中十大拍案叫絕的操作

Docker是啥？容器變革的火花？

5大必知的圖算法，附Python代碼實現(xiàn)

阿里云彈性計算負(fù)責(zé)人蔣林泉：億級場景驅(qū)動的技術(shù)自研之路

40 歲身體死亡，11 年后成“硅谷霍金”，他用一塊屏幕改變 100 萬人！

AI大神如何用區(qū)塊鏈解決模型訓(xùn)練痛點, AI+區(qū)塊鏈的正確玩法原來是這樣…… | 人物志