摘 要
本文介紹了目前國內外跨媒體科技大數據知識服務與交互可視化構件的研究進展,梳理和分析了科技大數據知識服務構件的開放協同機制和跨媒體科技大數據的動態推演展示與交互可視化,最后對未來工作進行了展望。
關鍵字
科技大數據;知識服務構件;交互可視化
0 引言
科技資源呈現的數據規模大、多模態、更新快速、時效性高和價值密度較低等趨勢,對有效獲取和利用科技資源帶來嚴峻的挑戰,因此,發現跨媒體科技資源間關聯關系,實現跨模態語義關聯,并在此基礎上提供知識服務和可視化至關重要。利用科技資源間的語義關聯關系,將科技信息可視化,一方面可以利用科技實體進行搜索結果的排序優化,以提供更好的知識服務;另一方面可以用知識圖譜的形式把科技資源中的實體概念和實體概念之間的關聯關系可視化,幫助用戶更好地獲取檢索結果信息,提高科技信息的檢索性能。
知識服務構件開發技術將面向服務架構(SOA) 的思想引入構件開發技術中,SOA 是一種支持解耦、可協同性好的的應用軟件開發方式。實現 SOA 思想目前主要有三種服務構件技術,分別是開放服務網關協議(OSGI)、服務組件架構 (SCA) 和 Java 業務集成(JBI),這些服務構件技術都有相對應的服務構件模型。
OSGI 是一系列用于面向服務框架的規范定義,開放服務網關協議允許所有的用戶服務應用程序可以在同一個網絡通信機器之間進行通信。常見的 OSGI 服務構件模型有SOCM。它是一種面向 Java 系統的、可動態變化的構件模型。知識服務構件可以通過開放服務網關協議實現服務構件之間的連接通信,參與連接的構件可以組裝成一個 Bundle,再經過簡單的拆除與組裝,就可以開發需要的應用程序。
SCA 是 IBM、BEA 等軟件公司在 2005 年聯合發布的,是一種新規范,用于支持 SOA的實施。它是一個與網絡通信交互協議、服務訪問請求方式、程序開發語言都無關的服務構件模型。SCA 主要為用戶提供的接口類型是WSDL,當然也有一部分 SCA 提供的是 Java 開發語言接口。通過 SCA 可以簡單方便地封裝現在流行的技術,比如 Springboot 技術、Spring技術、Dubbo 技術、SpringCloud 技術等,使之成為符合日常需求的服務構件。
JBI 是互聯網技術服務公司 Sun 首次提出的,目的是構建一個規范的、開放的平臺來實現 Java 企業級應用的集成。在 JBI 的統一框架下,用戶可以自行集成滿足開發規范的第三方軟件公司實現的各種構件,用戶植入所有的構件可以在 JBI 容器中相互通信、相互協作。JBI架構主要由服務引擎構件與服務綁定構件這兩種重要的構件組成,服務引擎構件的主要功能是為插入的業務邏輯提供服務編排;服務綁定構件的主要功能是連接外部應用程序與 JBI 構件之間的通信。
跨媒體科技大數據的交互可視化主要有知識圖譜類可視化、發展趨勢類可視化、地域發布類可視化、事務流程類可視化、綜合信息類可視化等類別,知識圖譜類可視化主要用于展示研究主體之間的關聯關系,同時可能通過疊加條形圖或折線圖等對科技信息可視化進行升級;發展趨勢類可視化主要用于揭示論文、專利、技術主題等與時間的變化關系;地域發布類可視化主要用于展示地區的科研實力,通過配合熱力圖的使用,可以很快獲知不同地區的科技能力;事務流程類可視化主要用于科技產品的發展周期和相應的變化情況;綜合信息類可視化是現如今的發展趨勢,主要用于大數據項目的展示,通過對科技信息的重要程度進行分級,分時展示各類科技信息。隨著 ECharts插件的快速普及,基于 ECharts 技術的交互式數據可視化非常流行。基于 ECharts 技術的交互式數據可視化工具,可以方便地將科技信息轉化為科技知識,同時為用戶提供友好的界面。ECharts 工具可幫助用戶更好地實現目標,并為用戶提供良好的思路。跨媒體科技大數據的交互可視化在大多數情況下,信息以條形或餅圖、折線圖和其他度量等傳統格式進行說明。但是,有時一些交互式數據可視化的高科技工具可提供對實時數據變化、趨勢、統計顯著性檢驗的即時圖形響應。交互可視化的工具面板通常由儀表板或用戶控制面板組成,其中包含用戶關注的關鍵元素。這些儀表板通常排列有不同格式的各種信息塊,可以提供圖形和數字信息以進行分析。
1 科技大數據知識服務構件的開放協同機制
1.1 基于微服務知識服務構件的開放協同機制
通過使用微服務技術對知識服務構件進行開發是一類重要方法,該方法通過 RPC 遠程調用完成服務之間的開放協同,使知識服務構件具有良好的可擴展性和開放性,可以實現知識服務構件的分布式運行,以及實現知識服務構件開發的協同開放。目前已開發的知識服務構件包括檢索知識服務構件、實體關系識別服務構件、可視化服務構件。各個服務獨立進行開發,完成開發后獨立進行部署,服務上線后可以使用遠程過程調用(RPC)框架或通用的 HTTP協議進行通信交互。基于微服務架構以服務為單位,拆分的粒度更細,更具有分布式和去中心化的特性。基于微服務的知識服務構件的服務定義,如圖 1 所示。
圖 1 基于微服務知識服務構件的服務定義
根據業務邏輯,可以將跨媒體科技大數據知識服務與交互可視化系統分解成三個微服務構件,構件之間通過輕量的 HTTP 協議進行通信。當用戶需要訪問知識服務構件時,一般先發送 http 請求,用戶請求會先到達后臺的負載均衡器;負載均衡器會利用負載均衡算法優化請求的分配,以免造成服務器的負載不均衡現象,提高了服務的可用性。依據用戶請求的具體服務,分配到具體機器后,機器對請求進行處理,將處理結果發送給用戶,這樣就完成用戶的一次相應請求。三個服務構件相互獨立,每個構件都有自己的獨立數據庫,檢索服務主要對應 Elasticsearch 索引數據庫;實體關系識別服務主要對應 MySQL 關系型數據庫;可視化服務主要對應 Neo4j 非關系型數據。每個服務構件可以獨立開發、部署、運行,檢索服務為用戶提供跨媒體科技大數據的檢索功能;實體關系識別服務為用戶提供抽取文本中實體和關系的功能;可視化服務為用戶提供搜索結果可視化、知識圖譜等功能。
基于微服務架構對知識服務構件進行開發,使服務可以獨立部署,開發人員對服務可以進行升級或更改,使構件的持續集成持續部署(CICD)成為可能,從而使知識服務構件的開發開放協同。基于微服務的知識服務構件開發的開放協同機制,使開發人員之間的友好協作變為可能,利用各種現代技術和工具減少開發人員之間的溝通障礙,真正實現軟件從開發到最終上線的全過程自動化開發到運維的一體化。通過知識服務構件開發的開放協同機制,能夠顯著提升知識服務構件的開發效率,縮短交付周期,更加適應當今快速發展的互聯網時代。
基于微服務的知識服務構件開發的開放協同流程主要由 Gitlab 代碼倉庫、Jenkins 持續 集 成 工 具、Docker 容 器、Harbor 鏡像倉庫、Kubernetes 容器集群管理系統五部分組成。程序開發人員在個人電腦上開發系統功能,開發完成并測試通過后,自行將代碼上傳到 Gitlab 代碼倉庫。Gitlab 通過程序員定義好的 Webhook 通知方式,當程序員 push 完代碼,Jenkins 持續集成工具可以自動感知,并從 Gitlab 中實時 pull 最新版的代碼。此時的Jenkins 會對最新代碼進行編譯檢查。
編譯成功后,可以自動進行單元測試等。成功通過這一系列操作后,說明開發的代碼具備上線的條件。此時,Jenkins 持續集成工具會將代碼打包成 Docker 鏡像;打包成功鏡像后,會將Docker 鏡像 push 到 Harbor 鏡像倉庫;上傳鏡像成功后,Jenkins 會通知Kubernetes 對服務進行更新。Kubernetes 先是從鏡像倉庫中拉取鏡像,然后進行迭代更新,以確保服務在更新的過程中不會中斷。通過這些流程,保證知識服務構件的持續集成持續部署,從而實現開發開放協同。
1.2 基于對抗生成學習和語義相似度跨媒體科技大數據的檢索知識服務
跨媒體科技大數據包含文本和圖像數據。跨媒體數據具有特征異構性,實現跨媒體檢索需要處理不同模態的數據,把文本和圖像數據的特征映射到同一語義空間中,再根據語義相似度對檢索結果進行排序,以實現跨媒體科技大數據的檢索知識服務。跨媒體科技大數據的檢索算法實現流程主要包括文本特征輸入網絡、圖像特征輸入網絡、模態判別網絡和特征映射網絡(見圖 2)。
圖 2 跨媒體科技大數據的檢索知識服務總體框架
輸入一個(科技文本 - 科技圖像 - 語義)三元組,首先對跨媒體科技文本和跨媒體科技圖像進行提取特征,而后分別進入到文本特征映射網絡和圖像特征映射網絡中,將得到的語義向量作為語義分布網絡的輸入;特征映射網絡將同語義數據映射后的模態偏差和同模態數據映射前后的語義偏差最小化,使生成模型達到最優;模態判別網絡將映射后數據原始模態判定的誤差最小化,使判別模型達到最優;生成模型和判別模型通過對抗學習進行訓練,最后都達到較好效果。
2 跨媒體科技大數據的動態推演展示與交互可視化
2.1 基于循環神經網絡的動態推演展示
基于循環神經網絡的動態推演算法是利用循環神經網絡結構,將知識圖譜中的實體和關系向量作為輸入,結合上一時刻的狀態進行計算,得到當前時刻的隱藏值,經過迭代運算,輸出一個融合了知識圖譜中的實體和關系的結果向量。利用該算法動態推演知識圖譜中的關系數,為構建大規模的科技大數據知識圖譜提供基礎。
2.2 基于 ECharts 技術跨媒體科技大數據的交互可視化
基于 ECharts 技術的交互式數據可視化,主要是借助于圖形化手段,將科技數據背后的規律展示給用戶。基于 ECharts 技術的交互式數據可視化工具,可以方便地將科技信息轉化為科技知識,同時為用戶提供友好的界面。依靠強大的數據圖形表示,用戶可以實時查看、理解和分析數據趨勢。跨媒體科技大數據的交互可視化通常以數字格式,呈現邏輯分析形式。ECharts 工具可幫助用戶更好地實現目標,并為用戶提供良好的思路。跨媒體科技大數據的交互可視化在大多數情況下,信息以條形或餅圖、折線圖和其他度量等傳統格式進行說明。但是,有時一些交互式數據可視化的高科技工具,可提供對實時數據變化、趨勢、統計顯著性檢驗的即時圖形響應。跨媒體科技大數據的交互可視化的其他種類可以包括思維導圖。思維導圖由隨機鏈接在一起的各種元素組成,通常用于創造性頭腦風暴和創新。大數據的交互可視化的常見示例可以包括從地理街道地圖到網站使用趨勢、跨媒體科技動態,以及全球 Internet 活動的所有內容。交互可視化的工具面板通常由儀表板或用戶控制面板組成,其中包含用戶關注的關鍵元素。這些儀表板通常排列有不同格式的各種信息塊,可以提供圖形和數字信息以進行分析。
圖 3 基于實體和關系統計的科技大數據知識圖譜實現流程
當用戶輸入關鍵詞時,通過跨媒體檢索知識服務構件得到科技文本結果。將科技文本進行預處理后,經過實體關系抽取模型就可以對現有的科技文本數據進行實體識別和關系抽取,為科技大數據知識圖譜的構建提供最為重要的技術支持。在知識圖譜的基礎上,運用詞頻分析、共詞分析、網絡中心度、聚類分析等方法,結合數據統計與挖掘方法,通過各項統計指標反映技術的熱度、組織或個人的影響力等科技實體隱藏在知識圖譜中的知識,完成科技大數據知識圖譜的構建。利用 Neo4j 圖數據庫存儲已經獲取的實體和實體關系,然后統計科技資源申請的組織或個人與技術實體的數量進行排序,最后利用 Echarts 技術進行可視化。基于實體和關系統計的科技大數據知識圖譜的實現流程,如圖 3 所示。例如,通過分析專利或論文等科技資源 , 了解企業所屬行業的科技資源發表情況、同行業從業者的科技資源發表情況、新增同行者的科技資源發表情況、上下游合作者的科技資源發表情況、企業自身的科技資源發表情況等。通過統計搜索關鍵詞相關的科技資源發表數量,可以繪制出每年科技資源(專利、論文)的發表趨勢圖,從而方便用戶跟蹤科技資源發表熱點。
如圖 4 所示,基于實現的科技資源發表的歷年趨勢圖可以為用戶提供良好的交互作用,通過縮放按鈕實現數據縮放。當用戶想要重點關注某些年份的數據時,只需要將橫軸下方的開關向中間靠近;想要重點關注某些范圍的數據時,只需要將縱軸附近的開關向中間靠近,橫軸會自動進行相應變化。同時用戶可以將所有數據表現形式都轉換成折線圖或柱狀圖,以折線圖的形式展示歷年科技資源發表數量,方便查看專利、論文、總數的變化趨勢;以柱狀圖的形式展示歷年科技資源發表數量,方便比較每年發表的專利、論文的大小。最后用戶也可以通過右上方工具欄圖標,實現對圖形區域的縮放、原始數據瀏覽、數據更新與圖片下載等功能,為用戶提供豐富的操作功能,真正實現與用戶的交互可視化。
圖 4 科技資源發表的歷年趨勢圖
3 結束語
跨媒體科技大數據知識服務與交互可視化構件的開發受到關注,知識服務的內容和可視化形式日益多樣化。但是,跨媒體展示時由于需要將搜索內容進行語義空間映射,以及進行語義相似度計算并排序,導致展示一個條目會耗費大量的時間,而且目前已有系統界面的展示還有待調整和優化,在系統的邏輯交互和健壯性方面還需進一步加強。
(參考文獻略)
選自《中國人工智能學會通訊》
2021年第11卷第5期
科技大數據理論和技術專輯
凡本網注明“XXX(非現代青年網)提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和其真實性負責。
近日,江西省電影局充分發揮省級電影專項資金的作用,多措并舉幫助電影院復工復產,紓困解難。5月26日,江西省電影局聯合淘票票在全省開展2
2022-06-07 07:58
江蘇省發布《關于江蘇省電影行業相關助企紓困政策的服務指南》。據介紹,《指南》是為推動蘇政40條、蘇政辦22條等系列助企紓困政策在電影行
2022-06-07 07:58
浙江電影局透露,截至5月20日,給予每座25元補貼的直補政策,已覆蓋浙江5個設區市,26個縣(市、區),惠及影院210余家,累計投入紓困資金達2
2022-06-07 07:58
由95后青年導演陳劍瑩執導,姚安娜主演的《海邊升起一座懸崖》獲得第75屆戛納電影節主競賽單元短片金棕櫚獎。據了解,本屆戛納短片競賽單元
2022-05-31 22:39
5月30日,由侯祖辛執導,黃堯、劉迅領銜主演的愛情電影《遇見你之后》發布遺憾版主題海報。海報中主演黃堯、劉迅淚眼婆娑、緊緊相依,將對
2022-05-31 22:39
由麻贏心編劇并執導,雙雪濤任藝術總監,周冬雨、章宇、張宥浩領銜主演的愛情懸疑電影《鸚鵡殺》4月初官宣開機,影片拍攝順利即將殺青,片
2022-05-31 22:39
5月30日,由張琦執導,常遠、辣目洋子領銜主演的喜劇電影《絕望主夫》發布海報,正式宣布將于2022年12月31日上映。海報中四個常遠身處紅色
2022-05-31 22:39
近日,漫威新劇《驚奇女士》發布全新電視預告,由美籍巴基斯坦裔演員伊曼·韋拉尼飾演的少女超英卡瑪拉·克汗登場,大秀超能力。角色海報也
2022-05-31 22:39
為進一步擴大時代楷模社會影響,營造崇尚英雄、學習模范、爭當先進的濃厚氛圍,電影數字節目管理中心制作了《時代楷模公益廣告系列》公益放映
2022-05-30 08:14
近日,為了加強青少年愛國主義教育、豐富校園文化生活,浙江、廣西、內蒙古等地紛紛開展了公益電影進校園活動。5月18日,由浙江省委宣傳部
2022-05-30 08:14
據統計,當前電影數字節目交易平臺可供訂購影片4650余部,其中2020年以來出品的影片約380余部。2022年第20周(5月14日-5月20日)全國共有27個
2022-05-30 08:14
歐盟和英國電影院的觀影人次從2020年的2 99億人次增加到2021年的3 94億人次,增長了31 5%。但根據2022年版的《關注-世界電影市場趨勢》(FOC
2022-05-25 08:09
2022年5月9日至5月15日(第19周),全國電影票房排名上半區的十五省市依次為:廣東、江蘇、四川、浙江、湖北、山東、福建、湖南、安徽、陜西
2022-05-25 08:09
五一小長假正式過去,電影市場恢復到節前的平靜。北京上海影院持續關閉,影市持續缺少大規模新片供應,一周七天大盤僅收入1 14億,比上周少
2022-05-25 08:09
由瀟湘電影集團有限公司、沅陵縣委縣政府主辦,沅陵縣委宣傳部、湖南瀟影第二影業有限公司承辦的電影《狃花女》院線首映式在沅陵縣瀟湘萬維
2022-05-24 08:11
5月16日,由中華全國婦女聯合會家庭和兒童工作部、中國關心下一代工作委員會辦公室、北京市委宣傳部指導,中國電影博物館和中國電影家協會
2022-05-24 08:11
今年是現存最早中國故事片《勞工之愛情》誕生一百周年,5月20日,中國電影資料館將為這一存活了100年的愛情故事發行動態電影海報系列數字藏
2022-05-24 08:11
上周末,環球影業的《壞蛋聯盟》再次重登北美周末票房榜榜首,影片上周末在北美新增票房1610萬美元,較上上個周末跌幅為32 8%。這部PG級動
2022-05-16 15:02
為提高少數民族語譯制從業人員對意識形態工作重要性的認識,提高意識形態把控能力,云南省少數民族語影視譯制中心日前對西雙版納州少數民族
2022-05-16 15:02
4月28日,大型系列內蒙題材紀錄片《阿拉善人與駱駝的故事》在騰訊視頻正式播出。本片選材于內蒙古最具價值代表性的非物質文化遺產體系,共
2022-05-16 15:02
近日,《海底小縱隊》系列大電影的第二部《海底小縱隊:洞穴大冒險》宣布定檔7月9日。相較于系列首部大電影《海底小縱隊:火焰之環》,這次
2022-05-16 15:02
五四青年節前夕,《中國青年:我和我的青春》發布概念海報,首次公布影片主演團隊,張藝興、王一博、周冬雨特邀出演,俞灝明、邢菲、鄧超元
2022-05-16 15:02
近日,多地影院有序恢復營業,全國影院營業率回暖。4月18日,受疫情影響一個多月的南京電影院迎來復工。當天上午,南京萬達影城新街口杜比
2022-05-07 09:35
從《山海經》到星漢燦爛,若出其里,從《淮南子》到星垂平野闊,月涌大江流,從《莊子·逍遙游》到可上九天攬月,可下五洋捉鱉……古往今來
2022-05-07 09:35
近日,《國家電影局關于申報2022年度電影精品專項資金的通知》發布。《通知》指出,為進一步推動優秀國產電影創作,2022年國家電影局將繼續
2022-05-06 09:50