知識圖譜作(do)爲(for)推動互聯網和(and)人(people)工智能發展的(of)核心驅動力,已成爲(for)當前人(people)工智能研究的(of)最前沿。在(exist)剛剛結束的(of) CCKS 2019“知識圖譜問答”大(big)賽中,百度智珠團隊以(by) F1 Score 0.73545的(of)好成績奪冠,再次确立了(Got it)百度在(exist)知識圖譜領域的(of)領先優勢。
CCKS 全國(country)知識圖譜與語義計算大(big)會是(yes)中國(country)中文信息學會語言與知識計算專業委員會主辦的(of)專注于(At)知識圖譜與語義計算領域的(of)高水平學術盛會。目前 CCKS 每年的(of)參會人(people)數在(exist)中國(country)知識圖譜與語義計算領域是(yes)全國(country)最多的(of),參賽的(of)單位都是(yes)國(country)内相關領域的(of)頂尖學術機構(如清華、北大(big)、中科院等)和(and)領軍企業(包括百度、阿裏、華爲(for)、小米等)。
在(exist)知識圖譜問答項目中,高手如雲,包括華爲(for)、網易、大(big)連理工大(big)學、蘇州大(big)學等全球知名企業和(and)高校研究院所隊伍的(of)參與。百度智珠團隊憑借多年在(exist)知識圖譜領域的(of)積累,深入分析圖譜問答系統的(of)難點,秉持技術創新,最終以(by)基于(At)答案語義排序的(of)方案斬獲第一(one)名。
▲圖1 百度智珠團隊榮獲 CCKS 2019 知識圖譜問答第一(one)名
百度智珠團隊,緻力于(At)将百度多年積累的(of)知識圖譜構建及應用(use)能力賦能企業,協助企業打造面向行業的(of)知識圖譜及知識應用(use)。百度智珠将多模态知識理解、知識圖譜構建、多模态智能搜索等多種能力整合爲(for)統一(one)的(of)企業知識管理智能平台,爲(for)企業組織、應用(use)、管理自有知識和(and)第三方知識融合,形成統一(one)、智能、易用(use)的(of)知識管理系統,提供強有力的(of)技術支撐。
本次知識圖譜問答評測任務全稱是(yes)基于(At)中文知識圖譜的(of)自然語言問答,簡稱 CKBQA (Chinese Knowledge Base Question Answering)。即輸入一(one)句中文問題,問答系統從給定知識庫中選擇若幹實體或屬性值作(do)爲(for)該問題的(of)答案。
知識圖譜問答是(yes)自然語言處理領域當前最熱門的(of)研究方向之一(one),是(yes)互聯網知識獲取的(of)新入口,也是(yes)搜索引擎和(and)對話系統等行業的(of)關鍵技術,吸引了(Got it)工業界和(and)學術界大(big)量的(of)關注。
本次評測任務在(exist)去年的(of)開放領域問答的(of)基礎上(superior),增加了(Got it)适量規模的(of)金融專業領域的(of)問題,這(this)就要(want)求問答系統不(No)僅要(want)具備處理開放領域的(of)淺層問題的(of)能力,還必須具備處理領域知識的(of)深層問題的(of)能力。
本次評測主要(want)有兩大(big)挑戰:
首先,本次評測是(yes)在(exist)開放領域的(of)問答,問題覆蓋面廣,綜合難度更高。從問題的(of)分類看,問題集涉及的(of)領域是(yes)多樣的(of),包括金融、文學、電影、遊戲、生(born)活甚至常識等多種領域;從知識庫的(of)量級來(Come)看,測評的(of)知識庫包含千萬級别實體、億級别的(of)邊、百萬級别的(of)實體類型,大(big)大(big)增加了(Got it)知識語義理解難度;從問題的(of)難度角度看,本次評測既包括簡單問題,也包括複雜問題,而且需要(want)多個(indivual)三元組回答的(of)問題占了(Got it)50%以(by)上(superior)的(of)比例。
其次,本次評測增加了(Got it)金融領域的(of)問題,因此對深層的(of)領域知識理解提了(Got it)更高要(want)求。與開放領域圖譜相比,專業領域知識的(of)廣度更窄、實體粒度更細;同時(hour)推理的(of)鏈路更長、應用(use)的(of)複雜性更大(big)。
針對以(by)上(superior)挑戰,百度智珠團隊提出(out)端到(arrive)端的(of)核心實體鏈接與子圖編碼的(of)語義匹配算法系統來(Come)解決。第一(one)步,基于(At)子串匹配和(and)命名實體識别等方法識别問題中的(of)指稱;第二步,對指稱召回的(of)實體進行打分,選擇出(out)問題的(of)核心實體,即實體鏈接;第三步,定義多種子圖召回模闆,召回核心實體大(big)量的(of)子圖;第四步,對每個(indivual)子圖抽取字面匹配度、淺層語義匹配、深度語義匹配度等特征,排序得到(arrive)答案。
▲圖2 系統框架流程:指稱識别 → 實體鏈接 → 模闆匹配 → 路徑排序
百度智珠團隊在(exist)實現這(this)一(one)過程中,引入了(Got it)兩個(indivual)創新方法,分别是(yes):端到(arrive)端的(of)核心實體鏈接與子圖編碼的(of)語義匹配算法。
▲圖3 模塊細節:實體鏈接和(and)路徑排序
實體鏈接組件把問題中提及的(of)實體鏈接到(arrive)了(Got it)知識庫,并識别問題的(of)核心實體。爲(for)了(Got it)提高鏈接的(of)精度,鏈接組件綜合考慮了(Got it)實體的(of)子圖與問題的(of)匹配度、實體的(of)流行度、指稱正确度等多種特征,最後利用(use) LambdaRank 算法對實體進行排序,得到(arrive)得分最高的(of)實體。
子圖排序組件目标是(yes)從多種角度計算問題與各個(indivual)子圖的(of)匹配度,最後綜合多個(indivual)匹配度的(of)得分,得到(arrive)出(out)得分最高的(of)答案子圖。
針對千萬級的(of)圖譜,百度智珠團隊采用(use)了(Got it)自主研發的(of)策略來(Come)進行子圖生(born)成時(hour)的(of)剪枝,綜合考慮了(Got it)召回率、精确率和(and)時(hour)間代價等因素,從而提高子圖排序的(of)效率和(and)效果。
針對開放領域的(of)子圖匹配,采用(use)字面匹配函數計算符号化的(of)語義相似,應用(use) word2vec 框架計算淺層的(of)語義匹配,最後應用(use) BERT 算法做深度語義對齊。
除此之外,方案還針對具體的(of)特征類型的(of)問題進行一(one)系列的(of)意圖判斷,進一(one)步提升模型在(exist)真實的(of)問答場景中的(of)效果和(and)精度,更好地(land)控制返回的(of)答案類型,更符合真實的(of)問答産品的(of)需要(want)。
中文知識圖問答任務,是(yes)衡量機器理解人(people)類語言綜合水平和(and)知識的(of)重要(want)方式。CKBQA 知識圖譜評測取得的(of)成績,将有力推動問答技術和(and)産品的(of)發展。
同時(hour),圖譜問答技術将落地(land)到(arrive)下一(one)代搜索引擎和(and)對話系統等行業中,爲(for)數億的(of)用(use)戶提供更精準的(of)問答服務。
本次大(big)會爲(for)知識圖譜在(exist)專業領域的(of)技術突破帶來(Come)更開放的(of)思維空間和(and)更廣闊的(of)研究視野。未來(Come),百度智珠團隊也将繼續秉持開放學習、協同創新的(of)理念,積極把握相關學術、産業交流機會,與 AI 各界展開更廣泛、更深入的(of)探讨與合作(do),加快 AI 技術落地(land),努力爲(for)行業帶來(Come)更高效的(of)智能化解決方案。
上(superior)一(one)篇:智能手機複古是(yes)不(No)是(yes)重新定義
下一(one)篇:盲盒可能是(yes)下一(one)個(indivual)孵化IP的(of)新渠道