信源和信息熵

蜂鸟直升机 2024-07-09 21:44 1次浏览 0 条评论 taohigo.com

簡單過一下信源和信息熵的一些概念理解。

信源的特性和分類

  • 信源是消息的來源,可以是人,生物,機器或是其他事物

離散信源和連續信源

離散信源(Discrete Source)和連續信源(Continuous Source)是信息論中兩種常見的信源模型,它們用於描述信息源產生的數據類型和性質。

  1. 離散信源(Discrete Source):
  2. 離散信源產生的數據是離散的,即數據的取值是有限的、可數的,通常是整數或離散的符號。
  3. 離散信源通常用於描述離散事件的信息產生過程,比如投擲硬幣、骰子的結果、文字文檔中的字符等。
  4. 一個典型的例子是二進制信源,它產生的數據僅包含兩個可能的符號,通常表示為0和1。
  5. 連續信源(Continuous Source):
  6. 連續信源產生的數據是連續的,即數據的取值可以在一定范圍內取任意實數值。
  7. 連續信源通常用於描述連續事件或模擬現實世界中的連續過程,比如聲音信號、圖像、傳感器測量數據等。
  8. 連續信源的數據可以表示為連續的函數,通常需要使用概率密度函數(Probability Density Function,PDF)來描述數據的分佈。

在信息論中,我們經常關註離散信源的熵(Entropy)和連續信源的不確定性度量,如連續信源的概率密度函數、互信息、條件熵等。這些概念和度量方法有助於我們理解和處理不同類型的信源數據,以及在信息傳輸和壓縮中的應用。需要註意的是,處理連續信源的問題通常涉及到連續概率分佈和積分,因此在數學上和計算上會更復雜,而離散信源通常更容易處理和建模。選擇適當的信源模型取決於問題的性質和具體應用領域。

舉例當涉及到離散信源和連續信源時,以下是兩個具體的例子來幫助理解它們:

離散信源的例子:

假設有一個硬幣投擲的情境。硬幣的結果隻能是正面(Heads)或反面(Tails),這兩個結果是離散的,且是有限可數的。這可以看作是一個離散信源。在這種情況下:

  • 離散信源的符號集合為 {Heads, Tails}。
  • 離散信源的概率分佈可以表示為 P(Heads) = p 和 P(Tails) = 1 – p,其中 p 是正面的概率。
  • 該信源的信息熵可以用來衡量硬幣投擲結果的不確定性。

連續信源的例子:考慮一個聲音錄音的情景。聲音信號是連續的,即聲音的振幅值可以在任何時間點上取任何實數值。這是一個連續信源。在這種情況下:

  • 連續信源的符號集合是實數集合 R。
  • 連續信源的概率分佈通常需要使用概率密度函數(Probability Density Function,PDF)來描述聲音信號的振幅分佈。
  • 連續信源的熵可以用來衡量聲音信號的不確定性,但通常需要對概率密度函數進行積分。

總之,離散信源產生的數據是分散的、可數的,而連續信源產生的數據是連續的、不可數的。這兩種信源類型在信息論和信號處理中都有廣泛的應用,但處理方法和度量方式在某些方面會有所不同。離散信源通常涉及概率質量函數和離散熵,而連續信源則涉及概率密度函數和連續熵。

離散信源和連續信源的數學模型

單符號信源和多符號序列信源

前面提到的離散信源和連續信源都是隻輸出一個消息符號,稱為單符號信源,可用一位離散隨機變量或連續隨機變量來描述。如果輸出是一系列符號,則稱為多符號序列信源。

隨機序列信源和波形信源

  • 如果信源輸出的消息室時間或空間上離散的一系列隨機變量,即隨機序列,這樣的信源是隨機序列信源。
  • 如果信源的輸出是時間或空間的連續函數而且其取值也是連續的、隨機的,這種信源的輸出要用隨機過程來描述,可稱為波形信源。

下面是我問chatgpt給出的答案,註意,它給出的答案中,隨機序列信源的解釋是跟上面的解釋相同,但關於波形信源的解釋,它認為是帶有一定周期和規律的。

但我們要知道,信源的基本特征是隨機不確定性,所以這裡chatGPT關於波形信源給出的定義有誤,雖然部分波形信源給出的信息有一定的規律,但本質上還是隨機的。

隨機矢量的聯合概率分佈

無記憶的連續信源

離散信源的信息度量

信息量的定義

所以,在沒有幹擾的情況下,信息量定義為:

個人覺得:這裡說到幹擾會影響上面的定義,是使得收到消息之後關於該消息發生的不確定度為0,也就是該消息在收到之後就確定不會發生,也就是該消息的自信息量為0瞭。下面我們就來介紹一下,自信息量是什麼

自信息量

註意,這裡的f意思就是一個函數,它的參數是ai發生的先驗概率

  1. 它要單調遞減
  2. p=1時f=0
  3. p=0時f=∞
  4. f具有可加性

理解起來很簡單,如果一個事件它的先驗概率是1,它就是必然發生的,那麼這件事情我們就已經知道瞭,它這件事情就算發生瞭,也不能給我們帶來任何信息,就比如你已經提前知道瞭明天的課表,這個時候你的同學來告訴你明天上什麼課,ok,他白費口舌,你獲取不到任何信息,他的自信息量(也就是不確定度f)就是0。相反,假如你已經知道一件事情必然不會發生,比如明天太陽肯定不會爆炸,結果明天太陽的確爆炸瞭!!!當場知道真相的你必然是大腦中信息量爆炸,太陽爆炸這件事情的信息量就是無窮的,這裡或許用不確定度來解釋有些執拗,但可以解釋成太陽爆炸這件事情所含有的信息量。那麼問題來瞭,我們需要求出一個具體的值,就需要一個具體的函數表達式:

信息量的單位

就像前面的太陽爆炸這個事件,我們其實並不能說這件事情的不確定度很高(因為太陽爆炸什麼的也太扯瞭吧….)

自信息量的性質

聯合信息量與條件信息量