遇到一些朋友說信號處理真難,學(xué)是很辛苦的學(xué)了,就是不知道怎么用。學(xué)而不能致用,如此辛苦的學(xué)習(xí)就有點(diǎn)費(fèi)時(shí)費(fèi)力了。當(dāng)然本文也并非想說學(xué)必致用,有的東西學(xué)了還真不見得能用上。只不過學(xué)過的,想用的要會(huì)用則達(dá)到學(xué)的目的了。此言:學(xué)以致用,學(xué)能致用!謹(jǐn)與諸君共勉!
很多時(shí)候,為什么學(xué)而不能致用呢?沒有用的需求,當(dāng)然就不說了。往往不會(huì)用,是因?yàn)椴恢涝趺慈ビ?,而不知道怎么用,個(gè)人覺得很重要的原因是因?yàn)楹芏嗷A(chǔ)的概念沒有理解到位,對于工程技術(shù)人員而言,對于基礎(chǔ)概念的理解把握,往往決定了解決問題的方向、思路、深度。以信號處理來說,里面就有大量的基礎(chǔ)概念需要真正去理解。本文就來聊聊如何去描述度量信號的幾個(gè)概念。
均值
信號處理中一個(gè)最為簡單的概念就是均值(Mean),和你想的一樣,加起來除以樣本數(shù)量:
在學(xué)習(xí)DSP時(shí),要習(xí)慣各種數(shù)學(xué)表示的方案,比如這里 就是表示求和,表示從開始求和。為了讓都能看懂,這個(gè)公式換一個(gè)表達(dá)形式:
所以就是更為簡潔的描述求和的數(shù)學(xué)語言。
對于這個(gè)公式在延申一下,這里是離散信號,如果是離散概率序列,對于確定的其概率為,則這樣的離散概率分布序列,其均值則為:
其實(shí),對于前一公式也可以用概率均值去理解,看成N個(gè)樣本集合,則每一個(gè)樣值其概率就是!
那么研究均值有啥意義呢?其實(shí)一般對于原始樣本直接計(jì)算均值可能意義不是特別大,但是基于均值衍生的其他統(tǒng)計(jì)量則非常有價(jià)值,比如接下來要說的標(biāo)準(zhǔn)偏差,簡稱為標(biāo)準(zhǔn)差。
平均偏差
在談標(biāo)準(zhǔn)差之前,先談?wù)勂骄睢:螢槠骄?,?yán)格講應(yīng)該稱為平均絕對偏差(Average Absolute Deviation),在談平均絕對偏差前,先談?wù)劷^對偏差,絕對偏差,從字面意義上理解,很容易可以想到其計(jì)算這樣是這樣得來,由某樣本與均值的差的絕對值:
那么平均絕對偏差,所差的就是一個(gè)平均了:
來試著理解一下這個(gè)公式,是任一樣本與該樣本集均值的差的絕對值,表示的是該樣本與均值的偏離程度,每個(gè)樣本與均值的偏離程度之和再求平均,則就是字面意思了,所有樣本與平均值的偏離程度,故稱為平均偏差。
平均偏差可以反應(yīng)樣本點(diǎn)與均值的平均偏離程度。
標(biāo)準(zhǔn)偏差
標(biāo)準(zhǔn)偏差(Standard Deviation)與平均偏差(Average Deviation)類似,也是基于平均值的統(tǒng)計(jì)量。所不同的是,標(biāo)準(zhǔn)差是利用樣本與均值絕對偏差的平方和求取的。
標(biāo)準(zhǔn)差反應(yīng)信號相對平均值的波動(dòng)程度。標(biāo)準(zhǔn)差數(shù)值越小,反應(yīng)信號數(shù)值分布更靠近平均值,反之越大則表示信號相對平均值更分散
標(biāo)準(zhǔn)偏差根據(jù)樣本是研究樣本的總體,還是只是收集的部分樣本而分為兩種情況:
- 總體標(biāo)準(zhǔn)偏差樣本標(biāo)準(zhǔn)偏差
總體標(biāo)準(zhǔn)偏差
如果僅將數(shù)據(jù)視為總體,則可以將其各點(diǎn)絕對偏差之和除以數(shù)據(jù)點(diǎn)總數(shù)N,而后開平方:
樣本標(biāo)準(zhǔn)偏差
如果待研究的數(shù)據(jù)看成待研究系統(tǒng)數(shù)據(jù)的部分,則可以將其各點(diǎn)絕對偏差之和除以數(shù)據(jù)點(diǎn)總數(shù)N-1,而后開平方:
看到這個(gè)公式,有的盆友或許會(huì)問,為啥除的是N-1?而不是N!所以這個(gè)就是對這個(gè)概念需要理解的一個(gè)點(diǎn):
這里計(jì)算的是樣本的標(biāo)準(zhǔn)偏差,總體標(biāo)準(zhǔn)偏差公式是基于正態(tài)分布推導(dǎo)而來,所以總體標(biāo)準(zhǔn)差公式是除以N,而在應(yīng)用中,不是數(shù)學(xué)統(tǒng)計(jì)的意義,只能以有限的樣本序列去近似描述總體的特征,除以N-1是一種無偏估計(jì),所謂無偏估計(jì),是指無偏性,無偏性的實(shí)際意義是指沒有系統(tǒng)性的偏差。在多次重復(fù)下,它們的平均數(shù)接近所估計(jì)的參數(shù)真值。
我們計(jì)算這個(gè)參數(shù),就是想利用這個(gè)參數(shù)去反應(yīng)樣本序列集的客觀特征,所計(jì)算的樣本序列往往可能只是截取的數(shù)據(jù)段,并非所有的數(shù)據(jù)樣本。在信號處理中,我們拿到的數(shù)據(jù)一般而言都是系統(tǒng)的部分樣本,所以實(shí)際使用中應(yīng)該使用樣本標(biāo)準(zhǔn)差進(jìn)行計(jì)算。
對于標(biāo)準(zhǔn)偏差的理解,還有一層需要理解透,它的量綱仍然是原樣本的量綱,比如研究的是電壓信號,單位為伏,則計(jì)算而得的標(biāo)準(zhǔn)偏差依然是伏。
有趣的栗子
在國外網(wǎng)站上看到一組有趣的圖片,可以更好的幫助理解:
https://www.mathsisfun.com/data/standard-deviation.html
假設(shè)有這樣幾種可愛的狗狗:其身高分別為:600mm, 470mm, 170mm, 430mm, 300mm.
則其均值為:
所以上圖中用綠色線標(biāo)識(shí)下身高均值:
從而每個(gè)狗相對均值的偏差如下圖:
從而,其標(biāo)準(zhǔn)差則為:
然后再標(biāo)識(shí)一下每個(gè)狗的身高
上圖可看出第2、4、5個(gè)狗的身高與均值的偏差在一個(gè)標(biāo)準(zhǔn)差內(nèi),而第1、3只狗身高與均值超出了一個(gè)標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)差概念也經(jīng)常用來衡量產(chǎn)品的生成品質(zhì),比如你常聽到的說法,這個(gè)零件的加工偏差是否在一個(gè)標(biāo)準(zhǔn)差內(nèi),這里的標(biāo)準(zhǔn)差就是標(biāo)準(zhǔn)偏差的意思。
上面的公式如果不開平方,這就是常說的方差了,類似有兩種概念:
- 樣本方差:
- 總體方差:
再來個(gè)栗子
前面說標(biāo)準(zhǔn)差,常用來衡量數(shù)據(jù)的分布情況:
標(biāo)準(zhǔn)差反應(yīng)信號相對平均值的波動(dòng)程度。標(biāo)準(zhǔn)差數(shù)值越小,反應(yīng)信號數(shù)值分布更靠近平均值,反之越大則表示信號相對平均值更分散
為啥這樣說,看看下面這個(gè)栗子就好理解了:
假設(shè)有這樣三組數(shù)據(jù),假定這三組數(shù)據(jù)來自三個(gè)同類型傳感器的采樣值,對相同的外界多次采樣(這里為了說明問題,請不用考慮數(shù)據(jù)本身的合理性),我們來計(jì)算一下其均值、平均偏差、樣本標(biāo)準(zhǔn)差。
1 | 3 | 5 | 7 | 9 | 11 | 13 | 15 | 17 | 19 |
---|---|---|---|---|---|---|---|---|---|
2 | 4 | 5 | 7 | 8 | 9 | 13 | 15 | 13 | 24 |
3 | 5 | 5 | 7 | 7 | 8 | 10 | 12 | 13 | 30 |
三組數(shù)據(jù)連同其均值繪制成曲線:
第1組:
第2組:
第3組:
從曲線圖我們可以很直觀的看出第1個(gè)傳感器表現(xiàn)更好,那么如何用一個(gè)特征值來區(qū)分呢?如用平均絕對偏差顯然并不能很好的描述,三組數(shù)據(jù)均值相同,無法區(qū)分三個(gè)傳感器的表現(xiàn),因?yàn)橛?jì)算出平均絕對偏差相同。如用樣本標(biāo)準(zhǔn)差進(jìn)行度量,則可以得出:
其物理含義,表示第1組數(shù)據(jù)分布程度相對更為靠近平均值。
總結(jié)一下
均值、平均偏差、標(biāo)準(zhǔn)偏差、方差是信號處理幾個(gè)基礎(chǔ)概念,尤其標(biāo)準(zhǔn)差、方差在很多復(fù)雜的濾波算法、估計(jì)算法中是重要的理論基礎(chǔ)概念。所以準(zhǔn)確的理解這些概念,也是能理解更為復(fù)雜的算法的基礎(chǔ)。所謂基礎(chǔ)不牢、地動(dòng)山搖!