湯幟:知識服務(wù)技術(shù)報告 ——2014中國數字圖書(shū)館可持續發(fā)展研討會(huì )主題報告
背景:2014年5月21日,由高等教育文獻保障系統(CALIS)管理中心、江蘇省高校圖書(shū)情報工作委員會(huì )和方正IT旗下的北京方正阿帕比技術(shù)有限公司(以下簡(jiǎn)稱(chēng)“方正阿帕比”)聯(lián)合主辦的“2014中國數字圖書(shū)館可持續發(fā)展研討會(huì )”在南京隆重召開(kāi)。數字出版技術(shù)國家重點(diǎn)實(shí)驗室主任、北京大學(xué)計算機研究所研究員、北京方正阿帕比技術(shù)有限公司CTO湯幟做主題報告。
以下為詳細內容:
湯幟:尊敬的各位來(lái)賓,大家好!我們今天會(huì )議的主題是探索與知識的距離。
說(shuō)到知識服務(wù)服務(wù)、管理這些詞,其實(shí)很久以前就出現了,在上世紀90年代就有人寫(xiě)書(shū)寫(xiě)論文寫(xiě)這些問(wèn)題,但是真正的知識服務(wù)技術(shù)是最近幾年的事情,為什么這么講呢?因為IT技術(shù)的發(fā)展非常的快,使我們現在有條件能夠把這些大量的傳統的信息數據轉換成知識。這個(gè)圖我們可以看到這是一個(gè)國際上著(zhù)名的IT咨詢(xún)公司總結的一個(gè)圖,它是把現在已經(jīng)影響當今社會(huì )最大的四項顛覆性的技術(shù)描述在這里,其中包括移動(dòng)計算,我們很清楚的,每個(gè)人手里都拿著(zhù)手機。還有社會(huì )計算,就是通過(guò)社會(huì )化網(wǎng)絡(luò ),人機的協(xié)同來(lái)計算。還有一個(gè)就是云計算,再有一個(gè)就是大數據,大數據的事情和我們的知識服務(wù)關(guān)系就更加密切了,曾經(jīng)OPPO的CEO說(shuō)過(guò),我們現在在互聯(lián)網(wǎng)產(chǎn)生的數據就相當于人類(lèi)進(jìn)入信息以來(lái)到2013年產(chǎn)生的數據,我們怎么樣不被數據給淹沒(méi)了?就需要把這個(gè)數據有機的組織起來(lái)。其實(shí)知識服務(wù)技術(shù)有很多,還是在繼續的研究和探索過(guò)程當中,我們可以從今年發(fā)布的2015年度863指南就可以看到,其中2.2基于大數據的人類(lèi)智能關(guān)鍵技術(shù)與系統。CCF大數據專(zhuān)家委員會(huì )發(fā)布的《2014大數據發(fā)展趨勢預測》當中可以看到,大數據分析與可視化,其中的熱點(diǎn)技術(shù)同樣和我們的知識技術(shù)非常密切。這里有深度學(xué)習技術(shù),自然語(yǔ)言處理,云計算等等。
我們怎么來(lái)看待這些東西呢?首先可以從知識的處理流程來(lái)看,知識處理的路程,一個(gè)是知識的采集,知識的聚合,知識的挖掘,知識的存儲,知識的利用,知識的評價(jià)。知識的采集是知識服務(wù)的一個(gè)源頭,數據首先要有來(lái)源,這個(gè)是從出版的領(lǐng)域,圖書(shū)館里都可以采集很當多數據,包括互聯(lián)網(wǎng)的數據。知識利用的出口——知識的評價(jià),對產(chǎn)生的知識數據更進(jìn)一步。通過(guò)讀者也好,通過(guò)各種各樣的評價(jià),利用社會(huì )計算的方式提高知識的質(zhì)量,或者產(chǎn)生新的知識,進(jìn)入到下一個(gè)知識采集的循環(huán)里面去。
其中最難的一件事是什么呢?我們在大量的數據里面,從顯性的知識和隱性的知識資源中提煉,涉及計算機的技術(shù)也有不少,包括自然語(yǔ)言處理技術(shù),數據挖掘的技術(shù),知識重組技術(shù)和語(yǔ)義網(wǎng)技術(shù)。在2000年之后,語(yǔ)義網(wǎng)技術(shù)已經(jīng)發(fā)展起來(lái),技術(shù)的應用已經(jīng)逐漸的走向成熟。
語(yǔ)義網(wǎng)技術(shù)是知識服務(wù)的技術(shù)的核心,這個(gè)很早就有了,從下面看包括了數據UII等等。有了這個(gè)數據描述框架還不夠,語(yǔ)義網(wǎng)的技術(shù)目的是要能夠讓計算機自動(dòng)的去計算,能夠識別,在這個(gè)基礎上發(fā)展出來(lái)的OWL語(yǔ)言。它相關(guān)的還有IDF數據的存儲,以及IDF數據的查詢(xún)語(yǔ)言,這里組成了語(yǔ)義數據的存儲。
語(yǔ)義網(wǎng)為網(wǎng)絡(luò )本題語(yǔ)言,把它本題的各種實(shí)體建立起一些關(guān)聯(lián)關(guān)系,后面的計算機就可以自動(dòng)化的處理,比如捕捉OWL的地址,里面包括了這個(gè)實(shí)體相關(guān)事件,居住地,地點(diǎn),國家等等,還有相關(guān)聯(lián)的關(guān)系,層次的關(guān)系等等,這些信息都可以通過(guò)一個(gè)OWL的方式進(jìn)行整體描述。這樣后續的服務(wù)可以提供更好的支持。這些數據都是用三聯(lián)組的方式描述的,數據和數據之間有很多的關(guān)聯(lián)關(guān)系,組成了一個(gè)網(wǎng)狀的圖,這樣的一個(gè)數據用傳統的關(guān)系數據庫去描述就很困難,因為關(guān)系數據庫只能描述二維表格的數據,而這個(gè)用一些新的技術(shù)手段進(jìn)行描述,利用數據庫提供更好的查詢(xún)、檢索和快速的找到相關(guān)的檢索數據。這是一個(gè)語(yǔ)義網(wǎng)里面很重要的一個(gè)方面。
數據的查詢(xún),我們傳統的數據庫有SPARQL可以提供一個(gè)自然語(yǔ)言方式的查詢(xún),比如要查詢(xún)某某人大學(xué)校友的職業(yè)是什么,好幾個(gè)層次下來(lái)以后,傳統的檢索是很難去檢索這樣的事情,但是通過(guò)SPARQL語(yǔ)言,就很容易的把這樣一個(gè)自然的事情快速的檢索出來(lái),這是語(yǔ)義網(wǎng)帶來(lái)的一個(gè)好處。
語(yǔ)義網(wǎng)的發(fā)展最近幾年已經(jīng)得到了比較多的應用,這個(gè)圖我們看到的例子就是谷歌,它其實(shí)利用了繼續學(xué)習的方法,從網(wǎng)頁(yè)當中發(fā)現了實(shí)體與實(shí)體之間的關(guān)系。
谷歌發(fā)布了一個(gè)知識圖譜,搜索一個(gè)字條以后,除了傳統的谷歌條以外,在它的右邊也可以顯示出相關(guān)具體的信息,比如說(shuō)檢索居里夫人,在右邊的圖上直接可以看到居里夫人的出生年月,獲得的諾貝爾獎,這些信息很精確地就出來(lái)了。在有下放還有相關(guān)科學(xué)家的圖片和連接,這是把不同的視頻關(guān)系可以直接的展示出來(lái)。
在國外的百度搜索里面也有一些類(lèi)似的技術(shù),比如在百度上搜一個(gè)不掉毛的狗,還直接給了一個(gè)直接查詢(xún)結果,這是實(shí)體的介紹。通過(guò)搜狗的智立方可以查到姚明的身高,這是語(yǔ)義網(wǎng)技術(shù)的推理,直接得到一個(gè)數據。從這個(gè)結果里面我們可以看到,直接搜索也可以出來(lái)這個(gè)結果,互聯(lián)網(wǎng)的智能是不是已經(jīng)非常發(fā)達了呢?其實(shí)答案是否定的。我們現在看到姚明的身高出來(lái)了,查我的身高到網(wǎng)上肯定查不到,輸入湯幟的身高出來(lái)的結果沒(méi)有一個(gè)我的身高數字。換一個(gè)詞,我們查湯幟的職稱(chēng),這個(gè)在互聯(lián)網(wǎng)上是有的,在北大的網(wǎng)頁(yè)上可以找到我的職稱(chēng),但是敲進(jìn)去還是一樣,這個(gè)網(wǎng)頁(yè)沒(méi)有那個(gè)職稱(chēng)信息,這是為什么呢?其實(shí)語(yǔ)義網(wǎng)技術(shù)可以把姚明的身高直接跳出來(lái),但是光有這個(gè)技術(shù)本身還不夠,需要有大量的實(shí)體數據才能夠把這些通過(guò)語(yǔ)義的推理找到,從這點(diǎn)上講,谷歌也好,搜狗也好,這些以往搜索的技術(shù)目前還是處于少量的熱門(mén)的一些詞可以找出來(lái),或者說(shuō)現在達到了技術(shù)展示的目的,達到一些娛樂(lè )大眾的目的,但是還不能達到真正的知識服務(wù)的目的。其實(shí)最難的是什么?最難的就是我們在大量的數據里面,特別是非提供化的數據里面怎么樣能夠便捷的很快速的找出它的實(shí)體,以及實(shí)體與實(shí)體之間的關(guān)系,這是很難的事情。
阿帕比知識服務(wù)也是做了很多的研究和實(shí)踐。從技術(shù)上講,主要是我們做了這幾方面的事情,我們利用了語(yǔ)義網(wǎng)的技術(shù)創(chuàng )建了阿帕比服務(wù),對于我們很多的數據進(jìn)行了實(shí)際的提取,建立一個(gè)RBF數據,在這個(gè)基礎上面,我們還利用數據挖掘的技術(shù),把這些數據和阿帕比資源進(jìn)行了連接。實(shí)體數據建立起來(lái)以后還需要展示的技術(shù)提供給娛樂(lè )服務(wù),包括檢索服務(wù)等等,這些是我們現在做的一些工作。這個(gè)圖就可以給大家看看阿帕比的知識服務(wù)技術(shù),可以看到技術(shù)流程。從左上角的半結構化的文化和非結構化的文本,還有工具書(shū)。半結構化文本的數據比較好做一些。非結構化的數據就比較多,我們大量的從出版社出版的圖書(shū)都是非結構化的,這些數據其實(shí)是最難的數據。第三塊是工具書(shū),里面有很多的字典辭典,這些數據的抽取相對比較容易一些,這是處理的數據對象。我們還建立了阿帕比的知識架構,我們提供了一些相關(guān)的實(shí)體與實(shí)體關(guān)系之間的計算,建立了整個(gè)數據。這是知識服務(wù)技術(shù)相關(guān)的圖。
基于這些技術(shù),我們已經(jīng)建立了大型的中英文數據的知識結構,這里面包含了2384個(gè)類(lèi),支持了的謂詞有8305個(gè),我們已經(jīng)建立了千萬(wàn)個(gè)數據,已經(jīng)可以提供阿帕比相關(guān)的一些知識和服務(wù)。我們可能有人會(huì )問(wèn),剛才講的谷歌,百度,從這些技術(shù)非常強的公司知識提取方面也遇到了很多的困難,阿帕比到底怎么做呢?從技術(shù)上講,我們在一個(gè)非結構化的數據里面找出實(shí)體,然后建立實(shí)體與實(shí)體之間的關(guān)聯(lián)關(guān)系,它的技術(shù)水平是大同小異,從學(xué)術(shù)界我們經(jīng)??吹接腥税l(fā)表了一個(gè)新的論文,提出了一個(gè)新的算法,最后一個(gè)數據的比較,效果提高了1%,甚至提高了百分之零點(diǎn)幾,這是我們經(jīng)??吹降囊粋€(gè)結果。但是從另外一個(gè)角度來(lái)講,實(shí)際的提取效果高1%,對人工的加工來(lái)說(shuō)沒(méi)有任何影響,加工量仍然是一樣的。所以我們必須尋找一些更好的方法,能夠快速的去建立這些實(shí)體關(guān)系,我們阿帕比有一個(gè)很大的優(yōu)勢,就是我們有很多的資源,出版社很多已經(jīng)加工好的數據,特別是工具書(shū)里面,我們有很多的百科全書(shū)和辭典數據,這些數據都是已經(jīng)條目化了,每個(gè)詞條和它的解釋都是有密切的關(guān)聯(lián)關(guān)系。運用這些工具書(shū)的信息,我們可以建立更好的快速的從這里面找到一些實(shí)體與實(shí)體的分析關(guān)系,可以達到更好的效果。這是我們做了實(shí)體關(guān)系計算的比較優(yōu)勢的技術(shù)。
有了IBF數據以后,我們可以提供更好的展示,從這個(gè)圖可以看到,如果檢索到一個(gè)秦始皇這個(gè)詞就馬上有一些秦始皇精確的解釋?zhuān)錾暝?,民族等等這些信息。我們也可以提供一些其他的詞,民族不是漢族的都有哪些人等等,屬性和類(lèi)別的關(guān)聯(lián)關(guān)系可以直接的給出來(lái)。還列出一些同齡的人,都可以通過(guò)這個(gè)知識服務(wù)的方式去提供。
目前阿帕比的知識服務(wù)技術(shù)已經(jīng)用了相關(guān)的產(chǎn)品里面去,我們通過(guò)學(xué)知搜索就可以看到,這里面已經(jīng)采用了知識關(guān)聯(lián)和句群抽取,SVM分類(lèi)等。
剛才主要講了一些語(yǔ)義網(wǎng)的技術(shù)和應用,光有語(yǔ)義網(wǎng)是不夠的。這里的云計算都為知識提供措施,通過(guò)云計算可以隨時(shí)隨地的去享受知識的服務(wù),通過(guò)社會(huì )計算,我們除了剛才講實(shí)體提取的困難,也可以通過(guò)大量的社會(huì )計算的方式,使它的實(shí)體提取關(guān)聯(lián)做得更加的精準。通過(guò)云計算,我們?yōu)橹R服務(wù)更加的高效和數據不斷的增長(cháng),創(chuàng )造一個(gè)更好的環(huán)境。
這些知識服務(wù)提供了更多的應用方式,比如說(shuō)通過(guò)知識服務(wù)圖譜,知識導航,個(gè)性化知識對接的方式給讀者提供服務(wù)。也可以通過(guò)語(yǔ)義搜索,提供結構化的查詢(xún)和關(guān)系的查詢(xún)。在知識服務(wù)的時(shí)候,我們可以提供更多的檢索,比如輸入一個(gè)數學(xué)公式,有一個(gè)數學(xué)公式出來(lái),輸入一個(gè)化學(xué)公式式可以檢索出化學(xué)公式來(lái),輸入一些圖片可以搜出相關(guān)的圖片來(lái)。我們和其他的同類(lèi)算法做過(guò)一個(gè)比較,在整個(gè)的檢索效率上還是起到了作用。
公式檢索還會(huì )想到一個(gè)問(wèn)題,輸入一個(gè)公式很困難,我們也實(shí)現了一個(gè)通過(guò)鼠標鍵盤(pán)輸入一個(gè)公式的界面,這樣任何人都可以輸入公式了。此外,我們還可以做一個(gè)更加方便的公式輸入方法,在閱讀過(guò)程當中看到一個(gè)數學(xué)公式,拉入這個(gè)框,直接就可以檢索出公式來(lái)了。
最后想對阿帕比知識服務(wù)技術(shù)做一個(gè)簡(jiǎn)單的小結。通過(guò)我們的知識技術(shù)服務(wù)可以增強我們內容的透明度,使用語(yǔ)義挖掘書(shū)本中藏得更深的內容。通過(guò)知識服務(wù),我們還可以基于內容相關(guān)技術(shù),把用戶(hù)檢索的知識點(diǎn)進(jìn)行相關(guān)知識的提示,通過(guò)一些圖的方式,列表的方式,可以獲得更多的結果,能擴大一些知識面。我們通過(guò)知識結構,可以提供知識點(diǎn)的一些精確的屬性,而且我們還可以提供與自然語(yǔ)言為基礎的語(yǔ)義檢索。通過(guò)知識服務(wù),我們還可以通過(guò)知識的結構構建出更多未知的知識,通過(guò)課題的屬性,通過(guò)相關(guān)的一些類(lèi)別??偟哪康木褪亲屪x者能夠更方便的,更加快捷的獲取更加多的知識,這些知識服務(wù)技術(shù)已經(jīng)在剛才講的學(xué)知搜索里面應用了。也會(huì )應用到我們相關(guān)的技術(shù)服務(wù)。知識技術(shù)服務(wù)還是在不斷的發(fā)展當中,阿帕比也愿意把這些知識服務(wù)技術(shù)不斷的開(kāi)發(fā),研究一些新的提高完善的技術(shù),為廣大讀者提供更好的服務(wù)。

湯幟:尊敬的各位來(lái)賓,大家好!我們今天會(huì )議的主題是探索與知識的距離。
說(shuō)到知識服務(wù)服務(wù)、管理這些詞,其實(shí)很久以前就出現了,在上世紀90年代就有人寫(xiě)書(shū)寫(xiě)論文寫(xiě)這些問(wèn)題,但是真正的知識服務(wù)技術(shù)是最近幾年的事情,為什么這么講呢?因為IT技術(shù)的發(fā)展非常的快,使我們現在有條件能夠把這些大量的傳統的信息數據轉換成知識。這個(gè)圖我們可以看到這是一個(gè)國際上著(zhù)名的IT咨詢(xún)公司總結的一個(gè)圖,它是把現在已經(jīng)影響當今社會(huì )最大的四項顛覆性的技術(shù)描述在這里,其中包括移動(dòng)計算,我們很清楚的,每個(gè)人手里都拿著(zhù)手機。還有社會(huì )計算,就是通過(guò)社會(huì )化網(wǎng)絡(luò ),人機的協(xié)同來(lái)計算。還有一個(gè)就是云計算,再有一個(gè)就是大數據,大數據的事情和我們的知識服務(wù)關(guān)系就更加密切了,曾經(jīng)OPPO的CEO說(shuō)過(guò),我們現在在互聯(lián)網(wǎng)產(chǎn)生的數據就相當于人類(lèi)進(jìn)入信息以來(lái)到2013年產(chǎn)生的數據,我們怎么樣不被數據給淹沒(méi)了?就需要把這個(gè)數據有機的組織起來(lái)。其實(shí)知識服務(wù)技術(shù)有很多,還是在繼續的研究和探索過(guò)程當中,我們可以從今年發(fā)布的2015年度863指南就可以看到,其中2.2基于大數據的人類(lèi)智能關(guān)鍵技術(shù)與系統。CCF大數據專(zhuān)家委員會(huì )發(fā)布的《2014大數據發(fā)展趨勢預測》當中可以看到,大數據分析與可視化,其中的熱點(diǎn)技術(shù)同樣和我們的知識技術(shù)非常密切。這里有深度學(xué)習技術(shù),自然語(yǔ)言處理,云計算等等。
我們怎么來(lái)看待這些東西呢?首先可以從知識的處理流程來(lái)看,知識處理的路程,一個(gè)是知識的采集,知識的聚合,知識的挖掘,知識的存儲,知識的利用,知識的評價(jià)。知識的采集是知識服務(wù)的一個(gè)源頭,數據首先要有來(lái)源,這個(gè)是從出版的領(lǐng)域,圖書(shū)館里都可以采集很當多數據,包括互聯(lián)網(wǎng)的數據。知識利用的出口——知識的評價(jià),對產(chǎn)生的知識數據更進(jìn)一步。通過(guò)讀者也好,通過(guò)各種各樣的評價(jià),利用社會(huì )計算的方式提高知識的質(zhì)量,或者產(chǎn)生新的知識,進(jìn)入到下一個(gè)知識采集的循環(huán)里面去。
其中最難的一件事是什么呢?我們在大量的數據里面,從顯性的知識和隱性的知識資源中提煉,涉及計算機的技術(shù)也有不少,包括自然語(yǔ)言處理技術(shù),數據挖掘的技術(shù),知識重組技術(shù)和語(yǔ)義網(wǎng)技術(shù)。在2000年之后,語(yǔ)義網(wǎng)技術(shù)已經(jīng)發(fā)展起來(lái),技術(shù)的應用已經(jīng)逐漸的走向成熟。
語(yǔ)義網(wǎng)技術(shù)是知識服務(wù)的技術(shù)的核心,這個(gè)很早就有了,從下面看包括了數據UII等等。有了這個(gè)數據描述框架還不夠,語(yǔ)義網(wǎng)的技術(shù)目的是要能夠讓計算機自動(dòng)的去計算,能夠識別,在這個(gè)基礎上發(fā)展出來(lái)的OWL語(yǔ)言。它相關(guān)的還有IDF數據的存儲,以及IDF數據的查詢(xún)語(yǔ)言,這里組成了語(yǔ)義數據的存儲。
語(yǔ)義網(wǎng)為網(wǎng)絡(luò )本題語(yǔ)言,把它本題的各種實(shí)體建立起一些關(guān)聯(lián)關(guān)系,后面的計算機就可以自動(dòng)化的處理,比如捕捉OWL的地址,里面包括了這個(gè)實(shí)體相關(guān)事件,居住地,地點(diǎn),國家等等,還有相關(guān)聯(lián)的關(guān)系,層次的關(guān)系等等,這些信息都可以通過(guò)一個(gè)OWL的方式進(jìn)行整體描述。這樣后續的服務(wù)可以提供更好的支持。這些數據都是用三聯(lián)組的方式描述的,數據和數據之間有很多的關(guān)聯(lián)關(guān)系,組成了一個(gè)網(wǎng)狀的圖,這樣的一個(gè)數據用傳統的關(guān)系數據庫去描述就很困難,因為關(guān)系數據庫只能描述二維表格的數據,而這個(gè)用一些新的技術(shù)手段進(jìn)行描述,利用數據庫提供更好的查詢(xún)、檢索和快速的找到相關(guān)的檢索數據。這是一個(gè)語(yǔ)義網(wǎng)里面很重要的一個(gè)方面。
數據的查詢(xún),我們傳統的數據庫有SPARQL可以提供一個(gè)自然語(yǔ)言方式的查詢(xún),比如要查詢(xún)某某人大學(xué)校友的職業(yè)是什么,好幾個(gè)層次下來(lái)以后,傳統的檢索是很難去檢索這樣的事情,但是通過(guò)SPARQL語(yǔ)言,就很容易的把這樣一個(gè)自然的事情快速的檢索出來(lái),這是語(yǔ)義網(wǎng)帶來(lái)的一個(gè)好處。
語(yǔ)義網(wǎng)的發(fā)展最近幾年已經(jīng)得到了比較多的應用,這個(gè)圖我們看到的例子就是谷歌,它其實(shí)利用了繼續學(xué)習的方法,從網(wǎng)頁(yè)當中發(fā)現了實(shí)體與實(shí)體之間的關(guān)系。
谷歌發(fā)布了一個(gè)知識圖譜,搜索一個(gè)字條以后,除了傳統的谷歌條以外,在它的右邊也可以顯示出相關(guān)具體的信息,比如說(shuō)檢索居里夫人,在右邊的圖上直接可以看到居里夫人的出生年月,獲得的諾貝爾獎,這些信息很精確地就出來(lái)了。在有下放還有相關(guān)科學(xué)家的圖片和連接,這是把不同的視頻關(guān)系可以直接的展示出來(lái)。
在國外的百度搜索里面也有一些類(lèi)似的技術(shù),比如在百度上搜一個(gè)不掉毛的狗,還直接給了一個(gè)直接查詢(xún)結果,這是實(shí)體的介紹。通過(guò)搜狗的智立方可以查到姚明的身高,這是語(yǔ)義網(wǎng)技術(shù)的推理,直接得到一個(gè)數據。從這個(gè)結果里面我們可以看到,直接搜索也可以出來(lái)這個(gè)結果,互聯(lián)網(wǎng)的智能是不是已經(jīng)非常發(fā)達了呢?其實(shí)答案是否定的。我們現在看到姚明的身高出來(lái)了,查我的身高到網(wǎng)上肯定查不到,輸入湯幟的身高出來(lái)的結果沒(méi)有一個(gè)我的身高數字。換一個(gè)詞,我們查湯幟的職稱(chēng),這個(gè)在互聯(lián)網(wǎng)上是有的,在北大的網(wǎng)頁(yè)上可以找到我的職稱(chēng),但是敲進(jìn)去還是一樣,這個(gè)網(wǎng)頁(yè)沒(méi)有那個(gè)職稱(chēng)信息,這是為什么呢?其實(shí)語(yǔ)義網(wǎng)技術(shù)可以把姚明的身高直接跳出來(lái),但是光有這個(gè)技術(shù)本身還不夠,需要有大量的實(shí)體數據才能夠把這些通過(guò)語(yǔ)義的推理找到,從這點(diǎn)上講,谷歌也好,搜狗也好,這些以往搜索的技術(shù)目前還是處于少量的熱門(mén)的一些詞可以找出來(lái),或者說(shuō)現在達到了技術(shù)展示的目的,達到一些娛樂(lè )大眾的目的,但是還不能達到真正的知識服務(wù)的目的。其實(shí)最難的是什么?最難的就是我們在大量的數據里面,特別是非提供化的數據里面怎么樣能夠便捷的很快速的找出它的實(shí)體,以及實(shí)體與實(shí)體之間的關(guān)系,這是很難的事情。
阿帕比知識服務(wù)也是做了很多的研究和實(shí)踐。從技術(shù)上講,主要是我們做了這幾方面的事情,我們利用了語(yǔ)義網(wǎng)的技術(shù)創(chuàng )建了阿帕比服務(wù),對于我們很多的數據進(jìn)行了實(shí)際的提取,建立一個(gè)RBF數據,在這個(gè)基礎上面,我們還利用數據挖掘的技術(shù),把這些數據和阿帕比資源進(jìn)行了連接。實(shí)體數據建立起來(lái)以后還需要展示的技術(shù)提供給娛樂(lè )服務(wù),包括檢索服務(wù)等等,這些是我們現在做的一些工作。這個(gè)圖就可以給大家看看阿帕比的知識服務(wù)技術(shù),可以看到技術(shù)流程。從左上角的半結構化的文化和非結構化的文本,還有工具書(shū)。半結構化文本的數據比較好做一些。非結構化的數據就比較多,我們大量的從出版社出版的圖書(shū)都是非結構化的,這些數據其實(shí)是最難的數據。第三塊是工具書(shū),里面有很多的字典辭典,這些數據的抽取相對比較容易一些,這是處理的數據對象。我們還建立了阿帕比的知識架構,我們提供了一些相關(guān)的實(shí)體與實(shí)體關(guān)系之間的計算,建立了整個(gè)數據。這是知識服務(wù)技術(shù)相關(guān)的圖。
基于這些技術(shù),我們已經(jīng)建立了大型的中英文數據的知識結構,這里面包含了2384個(gè)類(lèi),支持了的謂詞有8305個(gè),我們已經(jīng)建立了千萬(wàn)個(gè)數據,已經(jīng)可以提供阿帕比相關(guān)的一些知識和服務(wù)。我們可能有人會(huì )問(wèn),剛才講的谷歌,百度,從這些技術(shù)非常強的公司知識提取方面也遇到了很多的困難,阿帕比到底怎么做呢?從技術(shù)上講,我們在一個(gè)非結構化的數據里面找出實(shí)體,然后建立實(shí)體與實(shí)體之間的關(guān)聯(lián)關(guān)系,它的技術(shù)水平是大同小異,從學(xué)術(shù)界我們經(jīng)??吹接腥税l(fā)表了一個(gè)新的論文,提出了一個(gè)新的算法,最后一個(gè)數據的比較,效果提高了1%,甚至提高了百分之零點(diǎn)幾,這是我們經(jīng)??吹降囊粋€(gè)結果。但是從另外一個(gè)角度來(lái)講,實(shí)際的提取效果高1%,對人工的加工來(lái)說(shuō)沒(méi)有任何影響,加工量仍然是一樣的。所以我們必須尋找一些更好的方法,能夠快速的去建立這些實(shí)體關(guān)系,我們阿帕比有一個(gè)很大的優(yōu)勢,就是我們有很多的資源,出版社很多已經(jīng)加工好的數據,特別是工具書(shū)里面,我們有很多的百科全書(shū)和辭典數據,這些數據都是已經(jīng)條目化了,每個(gè)詞條和它的解釋都是有密切的關(guān)聯(lián)關(guān)系。運用這些工具書(shū)的信息,我們可以建立更好的快速的從這里面找到一些實(shí)體與實(shí)體的分析關(guān)系,可以達到更好的效果。這是我們做了實(shí)體關(guān)系計算的比較優(yōu)勢的技術(shù)。
有了IBF數據以后,我們可以提供更好的展示,從這個(gè)圖可以看到,如果檢索到一個(gè)秦始皇這個(gè)詞就馬上有一些秦始皇精確的解釋?zhuān)錾暝?,民族等等這些信息。我們也可以提供一些其他的詞,民族不是漢族的都有哪些人等等,屬性和類(lèi)別的關(guān)聯(lián)關(guān)系可以直接的給出來(lái)。還列出一些同齡的人,都可以通過(guò)這個(gè)知識服務(wù)的方式去提供。
目前阿帕比的知識服務(wù)技術(shù)已經(jīng)用了相關(guān)的產(chǎn)品里面去,我們通過(guò)學(xué)知搜索就可以看到,這里面已經(jīng)采用了知識關(guān)聯(lián)和句群抽取,SVM分類(lèi)等。
剛才主要講了一些語(yǔ)義網(wǎng)的技術(shù)和應用,光有語(yǔ)義網(wǎng)是不夠的。這里的云計算都為知識提供措施,通過(guò)云計算可以隨時(shí)隨地的去享受知識的服務(wù),通過(guò)社會(huì )計算,我們除了剛才講實(shí)體提取的困難,也可以通過(guò)大量的社會(huì )計算的方式,使它的實(shí)體提取關(guān)聯(lián)做得更加的精準。通過(guò)云計算,我們?yōu)橹R服務(wù)更加的高效和數據不斷的增長(cháng),創(chuàng )造一個(gè)更好的環(huán)境。
這些知識服務(wù)提供了更多的應用方式,比如說(shuō)通過(guò)知識服務(wù)圖譜,知識導航,個(gè)性化知識對接的方式給讀者提供服務(wù)。也可以通過(guò)語(yǔ)義搜索,提供結構化的查詢(xún)和關(guān)系的查詢(xún)。在知識服務(wù)的時(shí)候,我們可以提供更多的檢索,比如輸入一個(gè)數學(xué)公式,有一個(gè)數學(xué)公式出來(lái),輸入一個(gè)化學(xué)公式式可以檢索出化學(xué)公式來(lái),輸入一些圖片可以搜出相關(guān)的圖片來(lái)。我們和其他的同類(lèi)算法做過(guò)一個(gè)比較,在整個(gè)的檢索效率上還是起到了作用。
公式檢索還會(huì )想到一個(gè)問(wèn)題,輸入一個(gè)公式很困難,我們也實(shí)現了一個(gè)通過(guò)鼠標鍵盤(pán)輸入一個(gè)公式的界面,這樣任何人都可以輸入公式了。此外,我們還可以做一個(gè)更加方便的公式輸入方法,在閱讀過(guò)程當中看到一個(gè)數學(xué)公式,拉入這個(gè)框,直接就可以檢索出公式來(lái)了。
最后想對阿帕比知識服務(wù)技術(shù)做一個(gè)簡(jiǎn)單的小結。通過(guò)我們的知識技術(shù)服務(wù)可以增強我們內容的透明度,使用語(yǔ)義挖掘書(shū)本中藏得更深的內容。通過(guò)知識服務(wù),我們還可以基于內容相關(guān)技術(shù),把用戶(hù)檢索的知識點(diǎn)進(jìn)行相關(guān)知識的提示,通過(guò)一些圖的方式,列表的方式,可以獲得更多的結果,能擴大一些知識面。我們通過(guò)知識結構,可以提供知識點(diǎn)的一些精確的屬性,而且我們還可以提供與自然語(yǔ)言為基礎的語(yǔ)義檢索。通過(guò)知識服務(wù),我們還可以通過(guò)知識的結構構建出更多未知的知識,通過(guò)課題的屬性,通過(guò)相關(guān)的一些類(lèi)別??偟哪康木褪亲屪x者能夠更方便的,更加快捷的獲取更加多的知識,這些知識服務(wù)技術(shù)已經(jīng)在剛才講的學(xué)知搜索里面應用了。也會(huì )應用到我們相關(guān)的技術(shù)服務(wù)。知識技術(shù)服務(wù)還是在不斷的發(fā)展當中,阿帕比也愿意把這些知識服務(wù)技術(shù)不斷的開(kāi)發(fā),研究一些新的提高完善的技術(shù),為廣大讀者提供更好的服務(wù)。