首頁服務作(do)品資訊我(I)們(them) 聯系

百度智珠奪冠：在(exist)知識圖譜領域百度持續領先

發布于(At)：2019-09-06 15:57

知識圖譜作(do)爲(for)推動互聯網和(and)人(people)工智能發展的(of)核心驅動力，已成爲(for)當前人(people)工智能研究的(of)最前沿。在(exist)剛剛結束的(of) CCKS 2019“知識圖譜問答”大(big)賽中，百度智珠團隊以(by) F1 Score 0.73545的(of)好成績奪冠，再次确立了(Got it)百度在(exist)知識圖譜領域的(of)領先優勢。

CCKS 全國(country)知識圖譜與語義計算大(big)會是(yes)中國(country)中文信息學會語言與知識計算專業委員會主辦的(of)專注于(At)知識圖譜與語義計算領域的(of)高水平學術盛會。目前 CCKS 每年的(of)參會人(people)數在(exist)中國(country)知識圖譜與語義計算領域是(yes)全國(country)最多的(of)，參賽的(of)單位都是(yes)國(country)内相關領域的(of)頂尖學術機構（如清華、北大(big)、中科院等）和(and)領軍企業（包括百度、阿裏、華爲(for)、小米等）。

在(exist)知識圖譜問答項目中，高手如雲，包括華爲(for)、網易、大(big)連理工大(big)學、蘇州大(big)學等全球知名企業和(and)高校研究院所隊伍的(of)參與。百度智珠團隊憑借多年在(exist)知識圖譜領域的(of)積累，深入分析圖譜問答系統的(of)難點，秉持技術創新，最終以(by)基于(At)答案語義排序的(of)方案斬獲第一(one)名。

▲圖1 百度智珠團隊榮獲 CCKS 2019 知識圖譜問答第一(one)名

百度智珠團隊，緻力于(At)将百度多年積累的(of)知識圖譜構建及應用(use)能力賦能企業，協助企業打造面向行業的(of)知識圖譜及知識應用(use)。百度智珠将多模态知識理解、知識圖譜構建、多模态智能搜索等多種能力整合爲(for)統一(one)的(of)企業知識管理智能平台，爲(for)企業組織、應用(use)、管理自有知識和(and)第三方知識融合，形成統一(one)、智能、易用(use)的(of)知識管理系統，提供強有力的(of)技術支撐。

本次知識圖譜問答評測任務全稱是(yes)基于(At)中文知識圖譜的(of)自然語言問答，簡稱 CKBQA （Chinese Knowledge Base Question Answering）。即輸入一(one)句中文問題，問答系統從給定知識庫中選擇若幹實體或屬性值作(do)爲(for)該問題的(of)答案。

知識圖譜問答是(yes)自然語言處理領域當前最熱門的(of)研究方向之一(one)，是(yes)互聯網知識獲取的(of)新入口，也是(yes)搜索引擎和(and)對話系統等行業的(of)關鍵技術，吸引了(Got it)工業界和(and)學術界大(big)量的(of)關注。

本次評測任務在(exist)去年的(of)開放領域問答的(of)基礎上(superior)，增加了(Got it)适量規模的(of)金融專業領域的(of)問題，這(this)就要(want)求問答系統不(No)僅要(want)具備處理開放領域的(of)淺層問題的(of)能力，還必須具備處理領域知識的(of)深層問題的(of)能力。

本次評測主要(want)有兩大(big)挑戰：

首先，本次評測是(yes)在(exist)開放領域的(of)問答，問題覆蓋面廣，綜合難度更高。從問題的(of)分類看，問題集涉及的(of)領域是(yes)多樣的(of)，包括金融、文學、電影、遊戲、生(born)活甚至常識等多種領域；從知識庫的(of)量級來(Come)看，測評的(of)知識庫包含千萬級别實體、億級别的(of)邊、百萬級别的(of)實體類型，大(big)大(big)增加了(Got it)知識語義理解難度；從問題的(of)難度角度看，本次評測既包括簡單問題，也包括複雜問題，而且需要(want)多個(indivual)三元組回答的(of)問題占了(Got it)50%以(by)上(superior)的(of)比例。

其次，本次評測增加了(Got it)金融領域的(of)問題，因此對深層的(of)領域知識理解提了(Got it)更高要(want)求。與開放領域圖譜相比，專業領域知識的(of)廣度更窄、實體粒度更細；同時(hour)推理的(of)鏈路更長、應用(use)的(of)複雜性更大(big)。

針對以(by)上(superior)挑戰，百度智珠團隊提出(out)端到(arrive)端的(of)核心實體鏈接與子圖編碼的(of)語義匹配算法系統來(Come)解決。第一(one)步，基于(At)子串匹配和(and)命名實體識别等方法識别問題中的(of)指稱；第二步，對指稱召回的(of)實體進行打分，選擇出(out)問題的(of)核心實體，即實體鏈接；第三步，定義多種子圖召回模闆，召回核心實體大(big)量的(of)子圖；第四步，對每個(indivual)子圖抽取字面匹配度、淺層語義匹配、深度語義匹配度等特征，排序得到(arrive)答案。

▲圖2 系統框架流程：指稱識别 → 實體鏈接 → 模闆匹配 → 路徑排序

百度智珠團隊在(exist)實現這(this)一(one)過程中，引入了(Got it)兩個(indivual)創新方法，分别是(yes)：端到(arrive)端的(of)核心實體鏈接與子圖編碼的(of)語義匹配算法。

▲圖3 模塊細節：實體鏈接和(and)路徑排序

實體鏈接組件把問題中提及的(of)實體鏈接到(arrive)了(Got it)知識庫，并識别問題的(of)核心實體。爲(for)了(Got it)提高鏈接的(of)精度，鏈接組件綜合考慮了(Got it)實體的(of)子圖與問題的(of)匹配度、實體的(of)流行度、指稱正确度等多種特征，最後利用(use) LambdaRank 算法對實體進行排序，得到(arrive)得分最高的(of)實體。

子圖排序組件目标是(yes)從多種角度計算問題與各個(indivual)子圖的(of)匹配度，最後綜合多個(indivual)匹配度的(of)得分，得到(arrive)出(out)得分最高的(of)答案子圖。

針對千萬級的(of)圖譜，百度智珠團隊采用(use)了(Got it)自主研發的(of)策略來(Come)進行子圖生(born)成時(hour)的(of)剪枝，綜合考慮了(Got it)召回率、精确率和(and)時(hour)間代價等因素，從而提高子圖排序的(of)效率和(and)效果。

針對開放領域的(of)子圖匹配，采用(use)字面匹配函數計算符号化的(of)語義相似，應用(use) word2vec 框架計算淺層的(of)語義匹配，最後應用(use) BERT 算法做深度語義對齊。

除此之外，方案還針對具體的(of)特征類型的(of)問題進行一(one)系列的(of)意圖判斷，進一(one)步提升模型在(exist)真實的(of)問答場景中的(of)效果和(and)精度，更好地(land)控制返回的(of)答案類型，更符合真實的(of)問答産品的(of)需要(want)。

中文知識圖問答任務，是(yes)衡量機器理解人(people)類語言綜合水平和(and)知識的(of)重要(want)方式。CKBQA 知識圖譜評測取得的(of)成績，将有力推動問答技術和(and)産品的(of)發展。

同時(hour)，圖譜問答技術将落地(land)到(arrive)下一(one)代搜索引擎和(and)對話系統等行業中，爲(for)數億的(of)用(use)戶提供更精準的(of)問答服務。

本次大(big)會爲(for)知識圖譜在(exist)專業領域的(of)技術突破帶來(Come)更開放的(of)思維空間和(and)更廣闊的(of)研究視野。未來(Come)，百度智珠團隊也将繼續秉持開放學習、協同創新的(of)理念，積極把握相關學術、産業交流機會，與 AI 各界展開更廣泛、更深入的(of)探讨與合作(do)，加快 AI 技術落地(land)，努力爲(for)行業帶來(Come)更高效的(of)智能化解決方案。

上(superior)一(one)篇：智能手機複古是(yes)不(No)是(yes)重新定義

下一(one)篇：盲盒可能是(yes)下一(one)個(indivual)孵化IP的(of)新渠道

相關内容觀察行業視覺，用(use)專業的(of)角度，講出(out)你們(them)的(of)心聲。

Back

I NEED TO BUILD WEBSITE

我(I)需要(want)建站

*請認真填寫需求信息，我(I)們(them)會在(exist)24小時(hour)内與您取得聯系。

微信
- 微信添加王經理
- 微信添加祁經理
QQ
112770005
售後服務
021-52190710
電話
13501961184
返回頂部
TOP
分享