:::

文章專欄

首頁\
文章專欄

主題：人工智慧在人類語文表達的應用

2021/11/10

人工智慧理論的發展，其實單從字面上的意義來看，便是要發展一套可具備人類思考智慧的人工機器，若是以這個思維基礎進行討論，就必須要了解人類表現思考智慧的行為會有那些具體的表現，而這部分的最顯而易見的可能的例子，就是各種科幻電影當中對於人工智慧的各種想像，從早期的浪漫電影「神通情人夢(Electric Dreams)」、「變人(Bicentennial Man)」，到近期探討人工智慧對整體人類世界影響的電影「機械公敵(I, Robot)」、「A.I.人工智慧(A.I. Artificial Intelligence)」，在在都可以看到兩個非常重要的關鍵，分別是「理解人類語文」與「以人類語文溝通」，這兩個關鍵可以說是人工智慧與真實人類溝通的重要橋樑，從這兩個關鍵，則衍生出三個重要的人工智慧技術，分別如下：

語音辨識(Speech recognition)：輸入
自然語言處理(Natural Language Processing，縮寫：NLP)：理解
語音合成(Speech synthesis)：輸出

1. 語音辨識

人類的溝通方式最常見的方式有以下三種：語音、文字、肢體動作，其中語音算是人類生活當中最直覺且有效的一種溝通方式(但各種生理或心理疾病所造成語言障礙者除外)，運用著人們與生俱來的生理特性「嘴說耳聽」的方式，達成人和人之間溝通的目的，也是最廣為人們所能接受的一種方式，若人工智慧技術也想像人一般的進行溝通，那麼採用最多人們所能接受的語音進行溝通，也是讓人心裡感受較好的溝通方式，因此正確讓計算機能夠正確的辨識出人類語音內容，並且轉換成為計算機可以用來運算與儲存的資料(通常是「文字」或是「文字向量」)，變成是語音辨識的重要操作過程，也就是「語音轉文字(Speech To Text, 縮寫：STT)」，透過STT的技術，我們希望能夠讓計算機可以正確將人們連串且前後文相關的語音訊息辨識出來，會有以下門檻過程，分別如下：

人們使用何種「語系」進行語音內容的產出，所以「判斷語系」成了語音辨識技術的第一道門檻。
人們以語音溝通的過程時，會有不同「口音」的問題，不同的口音對於人們的溝通，本身就已經造成問題，因此系統是否能適應各種不同的口音，成了第二道門檻。
語音溝通時常會有語句字音組合的關係，如：同音字、破音字、相似音、疊字等等，不同的語句字音的組合判斷，成了第三道門檻。

2. 自然語言處理

語音辨識技術，就一般而言，僅是讓計算機逐字正確「翻譯」語音的文字內容，但人們的溝通不單只是把文字翻譯出來即可，人和人的溝通還存在著一個至關重要的關鍵，也就是必須透過這些文句的內容，去理解整篇文句的「大意」、「邏輯」、「情緒」等，透過「理解」文句的「內涵」，進而才能進行有效的溝通，否則就只是一隻「應聲蟲」罷了，而自然語言處理技術是最能體現前述的人工智慧理解「人類語文表達」的重要技術，也是最具有挑戰性的技術，在這個部分的技術，其實包含著四個重要的流程，分別如下：

為了讓計算機可以理解人類語文溝通的內涵，就必須讓計算機像人一樣進行「學習」，套用在人工智慧來講就是「機器學習」理論，人們從小到大透過大量的「人與人的溝通」，大腦記憶累積了大量對語文文句的詞彙資料，與這透過這些詞彙連結而成的文法規則；因此，若計算機若需要進行機器學習，就得要先蒐集建立豐富的詞彙素材(或稱資料集)，而這部分將會需要透過「大數據(Big Data)」的概念取得必要的機器學習的訓練素材，而取得這龐大資料的技術，基本上還是會透過網路各種網頁、論壇、社群資源進行資料的蒐集，最常見的做法便是採用類似「網路爬蟲」進行資料集的建立。
在蒐集到具有一定規模數量的詞彙資料後，就必須採用一些「關鍵詞彙」的「斷字」或「斷詞」策略，將詞彙資料進行初步的「前處理」，須將一些各種標點符號語助詞進行篩選，並且進行這些詞彙資料的向量化，常見的方式就是進行「Word to Vector」的處理，以利後續的機器學習進行各類向量資料的運算。
在建立起完整(或豐富)的詞彙向量庫之後，便必須採用適當的機器學習的訓練對策，以目前最常討論或研究的方式就是透過「深度學習(Deep Learning)」進行後續的「類神經網路」的訓練，而這部分其實就是類似人類大腦的神經元的運作過程，透過反覆的練習或測驗訓練，強化大腦神經元對於各類訊息的敏感程度，而深度學習的目的便也是透過這樣的過程進行這些詞彙向量關聯特徵的建立，而這部分將會決定系統在經過訓練後的整體辨識(或理解)效能，這部分也是整個人工智慧最主要關鍵的技術。

3. 語音合成

語音合成技術，其目的主要是為了建立計算機與人們之間「自然對話」的能力，人們習慣於「嘴說耳聽」的溝通技巧，為了提高機器與人溝通的「親切感」，語音合成技術在語音輸出的擬真度有著很高的要求，對於不同情境需求，必須要能做到貼近於人們情緒反應的語音內涵(也就是有正確的情緒抑揚頓挫)，目前語音合成技術在計算機實現的方式一般都是採用「文本轉語音(Text to Speech，縮寫TTS)」的方式進行，透過自然語音處理對語音訊息有了正確的理解後，產生正確對應的文本(Text)，再透過TTS的方式進行語音輸出。

人工智慧在人類語文表達的技術應用其實也是廣泛的，就一般而言，我們可以利用這樣的技術進行以下3種應用，以下酌量列出：

法遵領域，透過人工智慧進行各種法律(規)條文、法院判決(例)文、機關行號的內規、各類契約規範等，進行人工智慧的文本分類比對，提高機關團體或是個人在法律相關規範下，能確保自身在法律基礎上的權利，與確立自身應遵守法律的義務範疇。
智慧客服，透過人工智慧對於各種社群討論文章、留言或是來自各種客服媒體的客戶留言、客訴等內容進行分析，準確掌握客戶或客群的評價動向，進行精準的推薦系統的運作，讓客戶或客群能夠有更好更加迅速的服務，並且降低經營業者的人力投資的時間成本。
智慧居家照護，透過人工智慧對於人們在居家生活當中各種情境，以最自然貼近人們溝通的語音互動方式，進行各類居家環境或照護的服務，並且針對人們的言談話語的內容中「理解」人們當下的情緒狀況與服務需求，精準投放必要的服務訊息，提高「關懷」與「互動」的效能。

CAVEDU教育團隊講師
曾俊霖

回上頁回首頁