什么是循環神經網絡（RNN）？如何使用它們？（一）

發布時間：2020-10-26 13:39 原文鏈接：什么是循環神經網絡（RNN）？如何使用它們？（一）

　　什么是循環神經網絡（RNN），如何使用它們？本文所討論的就是關于循環神經網絡的基礎內容，RNN 是變得日益流行的深度學習模型。本文不打算深入講解其晦澀的數學原理，而是旨在讓讀者獲得關于RNN 的抽象理解。

　　一般的循環神經網絡信息

　　循環神經網絡出現于20世紀 80年代，最近由于網絡設計的推進和圖形處理單元上計算能力的提升，循環神經網絡變得越來越流行。這種網絡尤其是對序列數據非常有用，因為每個神經元或者單元能用它的內部存儲來保存之前輸入的相關信息。在語言的案例中，“I had washed my house”這句話的意思與“I had my house washed”大不相同。這就能讓網絡獲取對該表達更深的理解。

　　注意到這點很重要，因為當閱讀一個句子甚至是一個人時，你就是要從它之前的單詞中提出每個詞的語境。

什么是循環神經網絡（RNN）如何使用它們？

一個卷起的循環神經網絡

　　一個循環神經網絡里有很多個環，這些環能允許帶著信息通過神經元，同時在輸入中讀取它們。

什么是循環神經網絡（RNN）如何使用它們？

　　一個展開的循環神經網絡

　　在這些圖表中， xt是某些輸入，A 是這個循環神經網絡的一部分，而 ht 是輸出。基本上，你能輸入句子中的詞或者甚至是像 xt 這樣的字符串中的字符，然后通過該循環神經網絡它會得出一個 ht。

　　目標是用 ht 作為輸出，并將它與你的測試數據（通常是原始數據的一個小子集）比較。然后你會得出你的誤差率。比較完之后，有了誤差率，你就能使用一種叫隨時間反向傳播（BPTT）的技術。BPTT 返回檢查這個網絡，并基于誤差率調整權重。這樣也調整了這個網絡，并讓它學習去做得更好。

　　理論上說，循環神經網絡能從句子開頭處理語境，它允許對一個句子末尾的詞進行更精確的預測。在實踐中，對于 vanilla RNN 來說，這并不是真正需要的。這就是為什么 RNN 在出現之后淡出研究圈一段時間直到使用神經網絡中的長短期記憶（LSTM）單元取得了一些不錯的結果后又重新火起來的主要原因。加上 LATM 后的網絡就像是加了一個記憶單元，能記住輸入的最初內容的語境。

什么是循環神經網絡（RNN）如何使用它們？

　　這些少量記憶單元能讓 RNN 更加精確，而且是這種模型流行的最新原因。這些記憶單元允許跨輸入以便記住上下文語境。這些單元中，LSTM 與門控循環單元（GRU）是當下使用比較廣泛的兩個，后者的計算效率更高，因為它們占用的計算機內存比較少。

更多與什么是循環神經網絡（RNN）？如何使用它們？（一）相關的新聞