閒聊系統彙整 - Lion Ethan的產品技術研究

[對話式AI-9] 2020 Chatbot Framework Comparison 聊天機器人框架對比

這是經過數個月的調查與更新，所做的2020年聊天機器人框架對比。本表整理了10個知名的Chatbot框架，幾乎涵蓋時下Chatbot所有的Feature；經過一輪基本的驗證後，針對模糊之處再深入使用，藉此得到詳盡的對比。10月做了一次修正與更新，為了將資料整合到部落格的AI專欄上，也克服網誌呈現表格的問題，在此分享給各位業界先進與同好。

Type	Feature	Description	Google	Microsoft	Xiao-i Robot	小i機器人	IBM	DYDU	SAP	Flow XO	Meya	Gupshup	Hubspot
			Dialogflow	AzureBot	iBot Enterprise / Pro	iBot International / Express	Watson	DYDU	Recast.ai	Flow XO	Meya	Gupshup	Hubspot
Operation & appearance	Code-free backend	透過後端介面拖拉流程圖就能建立chatbot，不須寫程式	√	×	√	√	√	√	√	√	×	√	√
Structure & logic	Knowledge-independent assistant	knowledge(skills)的編輯與assistant的創建彼此獨立	×	√	×	×	√	√	√	×	×	×	×
	Bots collaboration	可以定義一系列彼此knowledge不相關的bot，然後通過組合bot來構建一個assistant的整體輸出	×	×	×	√	×	√	√	√	√	√	√
	FAQ-based intent	支援FAQ格式的intent與答案，而每個intent的答案是固定的	√	√	√	√	×	×	×	×	×	×	×
Multi-language	Multi-language	支援多語言對話	√	√	√	√	√	√	√	×	√	×	×
	Auto-language detection	系統自動偵測語言，使用者不需自行選擇	√	√	×	√	×	√	√	×	√	×	×
Pre-build content	Knowledge	預置常用的一般或行業知識，允許客戶快速構建chatbot	√	√	√	√	√	√	√	√	√	√	√
Knowledge edit	Intent -- intent conflict resolution	利用AI技術偵測人工填寫intent/user samples時產生的錯誤和衝突	×	×	√	×	√	×	√	×	×	×	×
	Intent -- utterance	對某個intent編輯不同的問法(擴展問)	√	√	√	√	√	√	√	×	×	×	√
	Entity -- my entity	可自行定義entity(例如通過同義詞)	√	√	√	√	√	√	√	×	×	×	×
		系統可自動推薦同義詞	√		×	×	√	√	×	×	×	×	×
	Multi-turn Dialog	若問句資訊不足，系統可以反問使用者(多輪對話)	√	√	√(ibot ui)	√ (scene)	√（5）	√	√	√	√	√	√
						× (workflow)	√（50）
	Dialog -- slots	系統可自動擷取與填充槽位	√	√	√	√	√	√	√	√	√	√	√
	Dialog -- disambiguation	當使用者的問句匹配到dialog中2個以上的intent節點時，assistant會請使用者決定正確的intent	×		√	×	√	×	×	×	×	×	×
	Dialog -- 意圖推薦	當使用者的問題超出服務範圍，或無法識別意圖時，系統可以推薦相關的意圖給使用者	×	√	√	√	×	√	×	×	×	×	×
	Dialog -- multi slots filling	對intent缺失的多個資訊，進行一次性的提問，讓使用者可以一次補充所有資訊，而非逐條詢問與回覆	√		√	×	√	×	×	×	×	×	×
	Dialog -- multi reply	對同一intent有多種回答，讓系統可以隨機選擇，產生更自然的對話效果	√		√	√	√	×	√	√	×	√	√
	Dialog -- Digression	允許用戶在dialog中，進行話題(node)的切換，例如從某個流程節點跳轉到另一節點，並允許跳回等。	×	√	√	×	√	√	√	√	√	√	×
	Dialog -- interruptions	可讓使用者在對話中暫時討論不同的主題，然後再返回原來的主題	×	√	√	×	×	√	×	√ (quit keyword)	×	×	×
	Knowledge map	顯示不同knowledge之間的關係和聯繫	×		√	√	×	√	×	×	×	×	×
	Answer - variable	提供特定參數，讓系統獲取相關資訊，如使用者名稱、IP、URL等內容，也可以直接用variable的形式添加在答案中。	√		√	×	×	√	√	√	√	×	√
	Sentiment	允許系統對正反及不同程度的情感狀態，做出對應的回應	×		×	×	×	√	√	×	×	×	×
	Import/export	支援knowledge匯出及匯入	√	√	√	√	√	√	×	×	×	×	×
Dashboard	Analytics dashboard	提供報表讓客戶進行數據分析	√	√	√	√	√ (7 D)	√	√	√ (2 WK)	√ (30 D)	√	√
							√ (30/90 D)			√ (3 M)	√ (increase)
Testing	Tester	提供測次問句的各種工具	√	√	√	√	√	√	√	√	√	√	√
	Batch test	支援問句的批次測試	×		√	√	×	×	×	×	×	×	×
Improve	Deep learning model	支援深度類神經網路模型	√	√	√	√	√	×	√	×	×	×	×
	Active learning	從日誌中收集待確認的對話，經客戶確認後學習到知識中	√	√	√	√	√	√	√	×	×	×	×
	Intent recommendation	根據已有的對話數據推薦意圖，從而實現更快地訓練	×		√	√	√	√	×	×	×	×	×
Integration	Custom plug-in	可以客製化整合其他API	√	√	√	×	√	√	√	√	√	√	×
	Preview link	可提供預覽chatbot的連結	√	√	√	×	√	√	√	√	×	×	×
	Service desk integrations	支援無縫轉人工服務	√	√	√	×	√	×	√	√	√	√	√
Versioning		允許對assistant的編輯結果，進行版本控管	√		√	×	√	×	√	×	×	×	×
Authorization	Access control	可以允許添加訪問人員和管理相應的權限	×	√	√	√	×	√	×	×	×	×	√
Search skill		支援透過搜索非結構化數據來擴展assistant的knowledge	√	√	√	×	√	×	×	×	×	×	×
Data	Log data across instances	將正式環境中的insights整合到開發環境中	×	√	√	×	√	√	×	×	×	×	×
	Data isolation		×		×	√	√	×	×	×	×	×	×
Service	SLA 99.9%	服務等級協議達到99.9%的可用時間	×	√	×	×	√	×	×	×	×	×	×
	Mail subscription	支援透過郵件訂閱comments等資料	×		×	×	×	√	×	×	×	×	×
	Survey	可設立問卷調查模板（對內部或外部調查）	×	×	√	×	×	√	×	×	×	×	×
對話預處理		通過預設的對話匹配規則，可快速自訂簡單的場景	×		√	×	×	√	×	×	×	×	×
Matching strictness		可調整匹配的閾值	×		√	×	×	×	√	×	×	×	×
定時任務		支援知識和詞的定時同步	×		√	×	×	√	×	×	×	×	×
前後綴處理		可自動忽略位於句首或句末的特定詞語或短句	×		√	×		×	×	×	×	×	×
停用詞		可自動忽略句中任意位置的特定詞語	×		√	×	×	×	×	×	×	×	×
Table QA		可動態載入結構化數據，並通過自然語言交互，轉換成SQL語句，對資料庫進行查詢	×		√	×	×	×	×	×	×	×	×
質檢		自動分析交互日誌，將可能的錯誤應答的對話，提供給維運人員審核	×		√	×		×	×	×	×	×	×
地區維度		根據使用者所在地區給出不同答覆	×		√	×	×	√	×	×	×	×	×
知識編輯鎖		一位編輯人員操作某個知識時，系統將鎖定該知識群組，使其他人員無法編輯，藉此防止衝突的產生	×		√	×	×	×	×	×	×	×	×

[對話式AI-2] Chatbot的閱讀能力–自然語言理解篇

一個基本的文字型聊天機器人框架（Chatbot Framework），包含「自然語言理解、對話管理、自然語言生成」三大模組。有些機器人能夠使用語音與使用者交互，還需包含「自動語音辨識、語音合成」模組，例如知名的Siri、Google Assistant。本期AI專欄將為大家詳細介紹聊天機器人的核心「自然語言理解」模組。

自然語言理解是什麼？

自然語言理解（Natural Language Understanding）是為了把自然語言轉換（映射）成機器可讀的語意表示（Semantic Representation），是自然語言處理（Natural Language Processing）中最困難的技術；若要讓機器理解自然語言，必須分析「語音、音韻、詞法、句法、語意和語用」，可以簡單理解如下：

語音（Phonetics）：人類如何發出語音
音韻（Phonology）：如何拼出自然語言的讀音
詞法（Morphology）：如何構成自然語言的單詞
句法（Syntax）：如何構成自然語言的句子
語意（Semantics）：如何理解自然語言的句子
語用（Pragmatics）：如何使用自然語言的句子

對機器來說，自然語言理解可能碰到以下問題：

語音辨識所產生的錯誤，是否能在自然語言理解中容錯？
中文並沒有像是英文的空格去分隔單詞，如何正確分詞？
如何兼容同一個語意的上百種自然語言表示？例如：「我愛你、我喜歡你、我中意你、你是我的菜」等。
同一句話可能會因情境（上下文）不同，而有不同的語意，如何正確判斷？
對話中的代詞或省略所代表的內容？
還沒學到的詞彙該如何處理？例如：「是在哈囉、新冠肺炎」。

自然語言理解在聊天機器人的功用

自然語言理解在聊天機器人發揮的功能，主要可分為以下七點：

使用者意圖偵測（ User Intent Detection ）：針對使用者對話的意圖進行分類，得以確定使用者想要或計劃做什麼，可分為顯性（直接知道分類，例如：「今天天氣好嗎？」）和隱性意圖（間接推敲出分類，例如：「今天適合出門嗎？」），以上兩個問句，使用者意圖都是「查天氣」。
命名實體識別（Named Entity Recognition）：用來擷取使用者對話中具有特定意義的實體，例如：「查詢日期、地點」等專有名詞，以填充特定意圖的槽位（Slot filling），例如：「2020年2月25日台北的天氣？」，日期的槽位值是「2020年2月25日」，地點的槽位值是「台北」；而上述的使用者意圖「查天氣」正是需要這兩個槽位值補充說明。
指代消解（Coreference Resolution）：判斷在對話中代詞所代表的實體或事件，例如威諾格拉德模式（Winograd Schema）的示例。
省略恢復：判斷使用者在對話中所省略的內容。
情感分析（Sentiment analysis）：識別使用者對話中的主觀資訊，例如正面或負面，或尋找更複雜的狀態，例如開心、生氣、哀傷等；可以讓機器與人交互時更有溫度。
意圖確認：當意圖識別的置信度（Confidence）不足時，請使用者再次進行確認。
拒絕識別：當識別的意圖超出服務範圍、涉及敏感內容或置信度過低時，系統可拒絕回覆。

不同類型的聊天機器人（請參考聊天機器人的類型與對比），其自然語言理解著重的技術有所不同，如下：

一、問答系統（Question Answering system）：

著重於識別問題中的資訊詞，例如問題詞（Who What Where When Why How）、焦點詞、主題詞、中心動詞等，與自然語言理解略有不同，比較偏向自然語言處理的範疇；以模板比對、基於統計、基於深度學習的語意分析，基於深度學習的端對端生成（此方法目前處於研究階段），以上四種方法為主流。主要評估指標為召回率（Recall）、精確率（Precision）、F-Score。

二、任務導向對話系統（Task-Oriented Dialogue system）

著重於將自然語言，轉換成機器可讀的語意表示，例如分為使用者意圖（User Intent）及槽位值（Slot Value）。具體工作有中文分詞、詞性標註、命名實體識別、指代消解、句法分析等。以基於規則、基於統計、基於深度學習的意圖識別與槽位填充，以上三種方法為主流；主要評估指標為意圖分類準確率（Accuracy）、槽位填充的F-Score。

三、閒聊系統（Chit-Chat Dialogue system）

著重於個性化，以及情感分析（使用自然語言處理來識別對話中的主觀資訊，例如正面或負面等）。以對話庫檢索、基於深度學習的端對端生成，以上兩種方法為主流。主要評估指標為詞重疊率和向量距離。

自然語言理解的實作方法

如上所述，自然語言理解可視為分類和序列標註問題，通常分為基於規則、基於統計、基於深度學習三種方法：

採用基於規則的方法，優點在於容易調整修正，而且不需仰賴訓練資料，缺點是當場景變多時，規則數量也大幅增加，將變得難以維護。
採用基於統計的方法，優點在於系統強健性高（Robustness），而且容易維護。缺點是訓練出來的模型較難解釋和修正。常用支持向量機（ Support Vector Machine, SVM）或自適應增強（Adaptive Boosting, ）進行意圖分類，隱藏式馬可夫模型（Hidden Markov Model, HMM）或條件隨機域（Conditional Random Field, CRF）進行分詞、實體識別。
採用基於深度學習的方法，優點在於其效果最佳，系統強健性高，而且容易維護，缺點是需要大量的訓練資料，模型的空間與時間複雜度高，而且幾乎無法解釋與修正，如同黑盒子一般。常用Attention-based RNN及LSTM等模型，進行意圖偵測與槽位填充等任務。

自然語言理解相關技術的其他用途

自然語言理解涉及的自然語言處理技術，除了用於聊天機器人，也可用於其他用途：

垃圾郵件偵測（Spam Detection）：分析大量的資料歸納出特徵，協助使用者過濾垃圾郵件，例如Gmail中的垃圾郵件匣。
搜尋引擎建議（Search Engine Suggestions）：透過預測使用者輸入的字詞，主動推薦搜尋的內容，例如在Google搜尋輸入些許字詞，所出現的推薦搜尋清單。
機器翻譯（Machine Translation）：將某種自然語言翻譯成另一種自然語言，例如Google翻譯的英翻中功能。
自動摘要（Automatic Summarization）：分析一篇或多篇文章，自動產生一段大意，常應用在新聞短訊中。

參考文獻

Support-vector networks
https://link.springer.com/article/10.1007/BF00994018
A Short Introduction to Boosting
https://cseweb.ucsd.edu/~yfreund/papers/IntroToBoosting.pdf
Hidden Markov model
https://en.wikipedia.org/wiki/Hidden_Markov_model
Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data
https://dl.acm.org/doi/10.5555/645530.655813
Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling
https://arxiv.org/abs/1609.01454
Long Short-term Memory
https://www.researchgate.net/publication/13853244_Long_Short-term_Memory

[對話式AI-4] Chatbot的挑戰與發展趨勢

雖然電腦視覺（Computer Vision）透過深度學習（Deep Learning）技術取得了重大進展，但在自然語言處理（Natural Language Processing）領域，深度學習的導入仍然處於發展初期。

以聊天機器人（Chatbot）來說，自從圖靈測試在2014年被聊天機器人Eugene通過後，加拿大學者改進測試的缺失提出了威諾格拉德架構挑戰賽（Winograd Schema Challenge），也是目前最具權威的AI競賽。

該競賽的第一輪是代詞消歧問題（Pronoun disambiguation problems）。舉例來說，當人類分析句子時，會用經驗來理解指代的對象：

市議會拒絕示威者，因為他們害怕暴力。
市議會拒絕示威者，因為他們提倡暴力。

而這個選擇題只有兩個答案，代詞”他們”是指”市議會”還是”示威者”，AI應該要指出在第一句說的是市議會，第二句說的是示威者，從問題上可以發現，系統無法透過這段話的上下文進行理解得到答案，這在傳統實作上必須透過知識圖譜（Knowledge Graph）進行推理，或使用深度類神經網路模型，要通過比賽拿到獎金25,000美金，準確率（Accuracy）必須達到90%以上，但目前最好的成績只有58%，遠比人類低得多。

除了上述根本影響Chatbot問答品質的問題，還有幾個難題仍未被突破：

通用的模型架構（Universal Model Architecture）：為了整合語音辨識、詞法分析、句法分析、語意分析、深度學習，答案搜尋，對話管理、自然語言生成和語音合成等模組，確保其相容性，當前Chatbot架構與模型相當複雜，管理較為困難，如何研發通用的架構與模型，是未來所有同業的發展目標。
情感計算（ Affective Computing ）：從分析文本的情感（Sentiment Analysis）到辨識人類情緒的情感計算，例如開心、生氣、哀傷等；可以讓Chatbot與人交互時更有溫度，是目前產學界熱門研究方向。
開放領域（Open Domain）：現在的Chatbot只能做好特定領域的工作，如何建構開放領域的知識，甚至不需要人工建構知識，讓機器自學習，也是產學界正在努力的方向。
端對端（ End to end ）：不經過傳統的模組串聯，利用深度學習（ Deep Learning ）建立端對端的簡潔模型；達到輸入原始資料後，可直接得到想要的輸出結果，但與此同時還要支援多輪對話管理、上下文情境及知識圖譜推理，避免安全回答，甚至是保持Chatbot個性的一致性，正確的進行指代消解，這些挑戰都是產學界近期的目標。
基於生成的模型（Generative Model）：目前自然語言生成技術，可分為基於檢索、基於範本及基於生成兩種方法，三者都可以導入深度學習技術，目前以基於檢索及基於範本為業界主流；雖然深度學習Seq2seq模型非常適合產生文字，但此基於生成方法尚處早期的發展階段，空間和時間複雜度高，實際應用效果不佳。

[對話式AI-7] 預訓練語言模型比較（ELMO、BERT、GPT-2）

預訓練（Pre-train）語言模型可用於自然語言理解（Natural Language Understanding）的命名實體識別（Named Entity Recognition）、問答（Extraction-based Question Answering）、情感分析（Sentiment analysis）、文件分類（Document Classification）、自然語言推理（Natural Language Inference）等任務。

以及自然語言生成（Natural Language Generation）的機器翻譯（Machine translation）、自動摘要（Automatic summarization）、閱讀理解（Reading Comprehension）、資料到文本生成（Data-to-Text Generation）等任務。

本文透過列舉時下主流預訓練語言模型的特點，介紹最具代表性的ELMO、BERT及GPT-2模型；用最簡短的文字敘述，讓大家能夠輕易比較出差異。

ELMO（Embeddings from Language Model）

RNN-based Language Models
透過一堆句子訓練，不需要標註
預測下一個Token
從RNN的hidden layer取得Contextulize word embedding
從正反向embedding接起來就是上下文的embedding
最後把每一層的embedding都加起來，再由後續任務學習到加權參數
94M個參數

Source: https://arxiv.org/abs/1802.05365

BERT（Bidirectional Encoder Representations from Transformers）

屬於Transformer的Encoder
只需要訓練Transformer的Encoder（輸入輸出一對一）
透過一堆句子訓練，不需要標註
給一個詞序列，每一個詞都會吐embedding
中文更適合用字為單位，因為用one-hot encoding詞太多了；常用中文字約4800個，中文詞則比這個高數倍
Masked LM: 輸入詞序列中隨機15%的詞被換成特殊的Token [Mask]，並做預測
預測下一個句子: 引入[SEP]代表兩個句子的交界，及[CLS]代表輸出分類結果的位置
上述兩種方法都是把抽出來[Mask]或[CLS]的Vector丟到Linear Multi-class Classifier去預測詞
以上兩種方法要同時使用
340M個參數

Source: https://arxiv.org/abs/1810.04805

GPT-2（Generative Pre-Training）

屬於Transformer的Decoder
預測下一個Token
40GB的文本訓練出來的
可以做到Zero-shot Learning，不需訓練資料，做到Reading Comprehension（F-score=55接近Dr.QA）、Summarization（跟隨機差不多）、Translation（跟隨機差不多）
1542M個參數

Source: https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[對話式AI-1] Chatbot的類型與對比（問答、對話與閒聊系統）

由於常常跟客戶和外部工程師雞同鴨講，最後發現大家對聊天機器人的定義都不一樣；你知道Chatbot可以分成三類嗎？對話式AI專欄的第一篇，就來介紹一下「各類Chatbot的用途」，並針對「開發方法」、「特點」、「關鍵評價指標」及「應用場景」等進行深入對比，讓你一次搞懂Chatbot，不再一知半解。

類別	問答系統	任務導向對話系統	閒聊系統
英文	Question Answering system	Task-Oriented Dialogue system	Chit-Chat Dialogue system
功能	回答使用者問題	代替使用者完成任務	陪伴使用者閒聊
領域	特定領域	特定領域	開放領域
方法	基於Web檢索、基於知識庫、基於社群	模組化（基於規則、資料驅動）、端對端（資料驅動）	基於檢索、基於生成
特點	單輪對話，著重問句分析（識別資訊詞）	多輪對話，著重對話管理	多輪對話，著重個性化及情感分析
關鍵指標	召回率（Recall）、精確率（Precision）、F-Measure	任務完成率、對話耗時、對話輪數、機器模擬使用者評分	詞重疊率、詞向量距離、機器模擬使用者評分
應用場景	FAQ、教育	助理、訂票	閒聊、陪伴
知名案例	IBM Watson	Siri、Google Assistant	微軟小冰、SimSimi
實作方法	基於知識庫的問答系統	模組化的任務導向對話系統	應用搜尋引擎檢索，或訓練Seq2seq模型生成