請輸入關鍵字
          高瓴人工智能學院師生論文被國際學術會議WWW 2024錄用
          來源:高瓴人工智能學院 時間:2024.02.07

          1月23日, 國際學術會議WWW 2024論文接收結果公布。高瓴人工智能學院師生有16篇論文被錄用。WWW 2024(The Web Conference)是中國計算機學會(CCF) 推薦的A類國際學術會議。本年度會議將于2024年5月在新加坡舉行。

          論文介紹

          論文題目:Generating Multi-turn Clarification for Web Information Seeking

          作者:趙梓良,竇志成

          通訊作者:竇志成

          論文概述:提出多輪澄清問題已應用于各種對話式搜索系統中,以幫助向用戶推薦人物、商品和圖像。然而,它的重要性在Web搜索中仍然沒有被強調。在本文中,我們首次嘗試將多輪澄清生成擴展到Web搜索,以澄清用戶模糊或多方面的意圖。與其他對話式搜索場景相比,Web搜索查詢更加復雜,因此應該生成澄清面板而不是現有研究中普遍應用的選擇選擇澄清面板。為此,我們首先定義了多輪Web搜索澄清的整個過程,包括澄清候選生成、最佳澄清選擇和文檔檢索。由于缺乏多輪開放域澄清數據,我們首先設計一種簡單而有效的基于規則的方法來適應上述三個組成部分。之后,我們利用大語言模型(LLM)的上下文學習和零樣本教學能力,通過提示LLM進行少量的演示和聲明來實現澄清生成和選擇,進一步提高澄清效果。為了評估我們提出的方法,我們首先應用Qulac數據集來衡量我們的方法是否可以提高檢索文檔的能力。我們使用MIMICS數據集進一步評估生成的方面項的質量。實驗結果表明,與現有的單輪Web搜索澄清方法相比,我們提出的框架更適合開放域Web搜索系統中提出多輪澄清問題以澄清用戶模糊或多方面的意圖。

          論文題目:Metacognitive Retrieval-Augmented Large Language Models

          作者:周雨佳,劉政,金佳杰,聶建云,竇志成

          通訊作者:劉政,竇志成

          論文概述:在自然語言處理領域,檢索增強型語言模型是解決幻覺問題的的關鍵技術。傳統方法主要基于單次檢索,最新的研究趨勢已經轉向利用多次檢索來處理復雜的多跳推理任務。然而,即便這些方法取得了一定進步,現有的策略仍受限于預設的推理步驟,這可能會導致在生成回應時出現不準確。本文介紹了一種創新方法——元認知檢索增強生成框架(MetaRAG)。該框架將檢索增強生成過程與認知心理學中人類元認知過程相結合。元認知使得人們能夠自我反思,并且批判性地評估自身的認知過程。通過融入這一理念,MetaRAG賦予了模型監控、評估及規劃響應策略的能力,從而加強了其內省推理能力。通過一個包含三個步驟的元認知調節流程,模型不僅能評估其答案的適當性,還能識別潛在不足的原因,并制定出改進方案。在多跳問答數據集上的實證評估表明,MetaRAG在性能上顯著超越了現有方法。

          論文題目:Cognitive Personalized Search Integrating Large Language Models with an Efficient Memory Mechanism

          作者:周雨佳,朱倩男,金佳杰,竇志成

          通訊作者:竇志成

          論文概述:傳統的搜索引擎通常向所有用戶展示相同的搜索結果,這種做法忽視了個人的搜索偏好。為了解決這一問題,研究者們開發出了個性化搜索技術,該技術能夠根據用戶的查詢日志分析出個人偏好,并據此調整搜索結果的排序。雖然基于深度學習的個性化搜索方法展現出巨大潛力,但它們高度依賴大量的訓練數據,因此面臨數據稀缺的挑戰。本文提出了一種新型的認知個性化搜索(CoPS)模型,該模型將強大的大型語言模型與人類認知的認知記憶機制相結合。CoPS利用大型語言模型來構建用戶畫像,從而提升了用戶的搜索體驗。這一認知記憶機制包括:用于迅速感知反應的感知記憶,用于處理復雜認知任務的工作記憶,以及用于儲存海量歷史互動數據的長期記憶。CoPS通過三個步驟高效處理新的查詢請求:首先識別用戶的重復查找行為,然后構建包含相關歷史信息的用戶畫像,最后根據個性化的查詢意圖對搜索結果進行排序。實驗結果顯示,CoPS模型在零樣本測試場景中表現優于基線模型。

          論文題目:Mining Exploratory Queries for Conversational Search

          作者:劉文涵,趙梓良,朱余韜,竇志成

          通訊作者:竇志成

          論文概述:在對話式搜索中,查詢澄清技術通過向用戶提問一個澄清式問題并提供可選擇的澄清候選項來更好地澄清用戶的查詢子意圖。然而,用戶除了這種澄清需求,還可能有一些探索性需求。例如一個搜索“卡地亞女士手表”的用戶可能還想通過搜索“勞力士女士手表”或者“卡地亞女士項鏈”來探索一些跟當前查詢平行的探索式查詢。這種探索性的信息需求在用戶搜索行為中很常見,但卻難以被查詢澄清技術滿足。本文聚焦于挖掘并向用戶推薦這種探索式的查詢來更好地滿足用戶在對話式搜索中的探索性信息需求。為此,我們首先設計了一個基于規則的模型來根據查詢搜索結果中的結構化信息生成探索式查詢。其次,我們提出使用弱監督數據并結合多任務學習訓練生成模型,從而對基于規則的模型進行泛化。最后,我們利用大模型的情境學習能力并結合提示工程技術來生成探索式查詢。我們基于人工標注構建了我們這個任務的評測集并進行了一系列的實驗。實驗結果證明了我們提出的模型的有效性,同時也證明了使用搜索結果中的結構化信息生成探索式查詢的可行性。

          論文題目: Spectral Heterogeneous Graph Convolutions via Positive Noncommutative Polynomials

          作者:何明國,魏哲巍,Shikun Feng, Zhengjie Huang, Weibin Li, Yu Sun, Dianhai Yu

          通訊作者:魏哲巍

          論文概述:異構圖神經網絡(HGNNs)在各種異構圖學習任務中獲得了顯著的成功。然而,大多數現有的HGNNs依賴于空域的方法來聚合信息,往往手動選擇元路徑或使用一些啟發式模塊,缺乏理論保證。此外,這些方法無法在頻譜域內學習任意有效的異構圖過濾器,這限制了它們的表達能力。為了解決這些問題,我們提出了一種通過正的非交換多項式實現的頻譜異構圖卷積。基于該圖卷積,我們提出了PSHGCN,一種新穎的異構圖卷積網絡。PSHGCN提供了一種簡單而有效的方法來學習有效的異構圖濾波器。此外,我們在圖優化框架中表明了PSHGCN的合理性。我們進行了廣泛的實驗研究,證明了 PSHGCN可以學習多樣的異構圖濾波器,并在真實數據上超越了現有方法。

          論文題目:Exploring Neural Scaling Law and Data Pruning Methods For Node Classification on Large-scale Graphs

          作者:Zhen Wang,Yaliang Li,Bolin Ding,魏哲巍

          通訊作者:魏哲巍

          論文概述:這篇論文揭示了在直推式節點分類設置下,圖神經網絡(GNNs)存在冪律縮放,其中指數大小意味著不令人滿意的樣本效率。受到現有研究中報告的具有相似聚合特征的節點性能相關性的啟發,本文提出利用直推式設置來修剪具有與測試節點不同的聚合特征的節點。大型圖上的實證結果證實了這種修剪策略的有效性,并且本文放寬了先前理論分析中的一個假設。

          論文題目:FairSync: Ensuring Amortized Group Exposure in Distributed Recommendation Retrieval

          作者:徐晨,徐君,丁一鳴,張驍,祁琦

          通訊作者:徐君

          論文概述:為了追求公平和平衡的發展,推薦系統(RS)通常優先考慮群體公平,確保特定群體在一定時期內保持最低曝光水平。例如,RS平臺通常需要確保新提供者或特定類別的物品根據它們的需求獲得足夠的曝光。現代工業RS通常采用兩階段流程:第一階段(retrieval階段)從分布在各種服務器上的數百萬個物品中檢索候選項,第二階段(rank階段)專注于從第一階段選擇的物品中呈現小而準確的選擇。現有的確保分攤群體曝光的工作通常集中在第二階段,然而,第一階段對于任務也是至關重要的。沒有高質量的候選項集,第二階段的ranker無法確保群體的所需曝光。為確保分布檢索過程中的群體曝光,我們引入了一個名為FairSync的模型,將問題轉化為受約束的分布式優化問題。具體來說,FairSync通過將問題移至對偶空間來解決問題,在這個空間中,中央節點將歷史公平數據聚合成一個向量并將其分發到所有服務器。為了在效率和準確性之間權衡,我們使用梯度下降技術周期性更新對偶向量的參數。我們的實證實驗證明,我們的方法在滿足公平要求的同時,在各種條件下甚至在極端情況下都能實現更好的檢索準確性。

          論文題目:AgentCF: Collaborative Learning with Autonomous Language Agents for Recommender Systems

          作者:張君杰,侯宇蓬,謝若冰,孫文奇,Julian McAuley,趙鑫,林樂宇,文繼榮

          通訊作者:趙鑫

          論文概述:大語言模型強大的決策能力展現了作為人類代理的潛力。然而現有工作關注于模擬人類對話,而人類非語言行為的模擬,例如推薦系統中的物品點擊,盡管可以隱式的展現用戶偏好以及增強用戶建模,尚沒有被深入探索。我們認為主要原因在于語言建模和行為建模的差異以及大語言模型對用戶-物品關系缺乏理解。為了解決這個問題,我們提出了AgentCF,通過基于智能體的協同過濾來模擬推薦系統中的用戶-物品交互行為。我們將用戶和物品都模擬為智能體,并利用協同學習的方式同時對二者進行優化。具體來說,在每個時間步,我們首先提示用戶和物品智能體進行自主交互。然后,基于智能體交互決策和真實世界交互記錄的差異,我們提示智能體協同地反思和調節錯誤的模擬偏好信息,從而學習和建模用戶和物品之間的關系。在后續交互過程中,這些智能體進一步將習得的偏好傳播給其余的智能體,隱式的建模了協同過濾。基于這個框架,我們模擬了多樣化的用戶-物品交互形式,結果表明這些智能體可以展示類人的行為。

          論文題目:Understanding Human Preferences: Towards More Personalized Video to Text Generation

          作者:吳宜函,宋睿華,陳旭,蔣昊, 曹朝,Jin Yu

          通訊作者:宋睿華,陳旭

          論文概述:視頻到文本生成模型已經取得了顯著的成功,但它們大多關注在如何理解視頻內容,忽略了如何捕捉人類個性化的偏好。對于構建一個的有吸引力的多模態聊天機器人,這是非常需要的。在本工作中,我們定義了個性化視頻評論生成的任務,并設計了一個端到端的個性化框架來解決該任務。具體而言,我們認為視頻評論生成的個性化可以體現在兩個方面,(1)對于同一段視頻,不同的用戶可能會對不同的片段進行評論;(2)對于同一段視頻,不同的人也可能會以不同的評論風格表達不同的觀點。因此我們設計了兩個模塊——視頻幀選擇模塊和個性化生成模塊。視頻幀選擇模塊負責預測用戶可能在視頻中感興趣的位置,個性化文本生成模塊根據上述預測的片段和用戶的偏好生成評論。在我們的框架中,這兩個組件以端到端方式進行優化以相互增強,同時我們設計了基于置信度感知的計劃采樣和迭代生成策略,以解決在推理階段缺乏真實片段的問題。由于缺乏個性化的視頻到文本數據集,我們收集并發布了一個新的數據集來研究這個問題,同時我們進行了大量的實驗來證明我們模型的有效性。

          論文題目:Bridging the Space Gap: Unifying Geometry Knowledge Graph Embedding with Optimal Transport

          作者:劉雨涵,曹澤麟,高星,張佶,嚴睿

          通訊作者:嚴睿

          論文概述:知識圖譜的表示是一個關鍵技術,它的目的是將知識圖譜中的元素轉化為連續空間中的向量形式,從而為結構化數據提供強大的表示能力。目前,使用雙曲空間或歐幾里得空間來表達知識圖譜已成為研究領域的常用方法。然而,知識圖譜通常包含多種幾何數據結構,例如鏈狀和層次狀結構,這些復雜的結構特性往往超出了單一空間表示法的有效范圍。為此,我們創新性地提出了一種名為UniGE的表示方法,旨在應對知識圖譜中不同幾何結構的數據表示挑戰。UniGE是首個結合雙曲空間和歐幾里得空間表示法的方法,采用了最優傳輸理論和Wasserstein重心的思想,引入了一種創新的表示對齊和融合策略。我們還提供了全面的理論分析,確立了更加穩健的誤差邊界,從而證明了我們方法的優勢。在三個主要的基準數據集上進行的實驗表明,UniGE在有效性方面表現出色,且與理論分析得出的結論相一致。

          論文題目:Unify Graph Learning with Text: Unleashing LLM Potentials for Session Search

          作者:吳宋浩,涂權,劉洪,徐家,劉忠義,張冠男,陳秀穎,嚴睿

          通訊作者:陳秀穎,嚴睿

          論文概述:面對日益復雜的信息需求,用戶往往通過一系列交互式查詢和操作來實現最終的檢索任務,這一過程被稱為會話搜索(session search)。當前策略通常考慮優化序列建模方法以實現更好的語義理解,但忽視了交互中的圖結構對理解用戶意圖的幫助。一些方法專注于捕捉結構化行為數據,但它們使用泛化的文檔表示,忽略了詞級別細粒度的語義交互。在本文中,我們提出了基于符號圖(Symbolic Graph)的會話搜索模型,旨在利用大語言模型的優勢,實現文本語義和圖結構的結合。具體來說,我們首先提出了自定義符號圖的文法,使用符號語法規則將圖結構數據轉換為文本。這使得集成會話搜索歷史、交互過程和任務描述為語言模型的輸入成為可能。鑒于自定義的符號語言理解同大語言模型預訓練任務的差距,為此我們引入了一系列自監督符號學習任務,包括鏈接預測、節點內容生成和基于文本生成方法的圖對比學習,使大語言模型能夠從粗粒度到細粒度捕捉拓撲信息。在AOL和Tiangong-ST兩個基準數據集上的實驗結果證實了我們方法的優越性。我們的范式還提供了一種新穎有效的方法論,彌合了傳統搜索方法與現代大語言模型之間的差距。

          論文題目:Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering

          作者:孫宏達,劉宇軒,吳成偉,閆海鈺,邰騁,高欣,商爍,嚴睿

          通訊作者:嚴睿

          論文概述:開放域問答(ODQA)是網絡挖掘領域的一個關鍵研究熱點。現有的 ODQA 方法遵循兩種主要范式來收集證據:1)retrieve-then-read范式從外部語料庫中檢索相關文檔; 2) generate-then-read范式采用大型語言模型 (LLM) 來生成相關文檔。盡管兩種范式都有各自的優點,但單一范式無法兼顧多方面的證據需求。為此,我們提出了一個通用框架LLMQA,將ODQA過程制定為三個基本步驟:查詢擴展、文檔選擇和答案生成,作為一種結合基于檢索和生成的證據優勢的新穎范式。現有研究已證實LLM展現其出色的角色扮演能力來完成各種類型的任務。因此,與之前利用專門的模型來完成ODQA的各個模塊不同,我們指導LLM在我們的統一框架中分別扮演生成器、重排序器和評估器的多重角色,并將它們集成起來相互協作,共同提高ODQA任務的性能。此外,我們引入了一種新的提示優化算法來改善角色扮演提示,引導LLM產生更高質量的證據和更準確的答案。 我們在三個廣泛使用的benchmarks:NQ、WebQ 和 TriviaQA上進行了實驗。結果表明,LLMQA在答案準確性和證據質量方面都可以達到最佳性能,展示了其推進 ODQA 研究和應用的潛力。

          論文題目:A Quasi-Wasserstein Loss for Learning Graph Neural Networks

          作者:程敏杰,許洪騰

          通訊作者:許洪騰

          論文概述:在圖神經網絡(GNNs)進行節點級預測任務時,大多數現有的損失函數是獨立應用各個節點的,盡管由于圖結構的存在,節點嵌入和它們的標簽并非獨立同分布。為了消除這種不一致性,我們提出了“Quasi-Wasserstein”損失(QW loss),利用圖上定義的最優傳輸,設計了一種新的GNNs的學習和預測范式。 在訓練階段,通過最小化節點標簽與它們的預測值之間的Quasi-Wasserstein距離學習基于邊上的標簽的最優傳輸。利用基于Bregman散度的正則化器,我們得到兩個求解器學習GNN和標簽傳輸。 在預測節點標簽時,我們的模型將GNN的輸出與由標簽傳輸得到的殘差量結合,得到一種新的transductive預測范式。實驗證明,所提出的QW loss有助于改善在節點級分類和回歸任務中的性能。

          論文題目:Causally Debiased Time-aware Recommendation

          作者:王磊,馬辰,吳賢,邱昭鵬,鄭冶楓,陳旭

          通訊作者:陳旭

          論文概述:時間感知的推薦算法得到了人們的大量關注,被廣泛用于動態建模用戶的喜好,但是用戶的交互受到用戶偏好的影響,在時間分布上是不均勻的,進而會導致數據和推薦模型產生偏差,模型性能下降。因此,我們提出了一種因果去偏時間感知推薦框架,從時間和物品兩個維度同時進行去偏。考慮到用戶行為的復雜性,我們用敏感性分析建模未測量混淆因子,進一步提高去偏的效果。我們在三個現實世界的數據集上進行了大量實驗,以展示我們模型的有效性。

          論文題目:On Truthful Item Acquiring Mechanisms for Reward Maximization

          作者:單良,張碩,王子賀,張捷

          通訊作者:王子賀、張捷

          論文概述:本文研究了收集者僅根據物主申報的物品質量和獨立評估師的評分來決定是否收取物品的問題。其中物主希望最大限度的提高收集者收取物品的概率,并且只有物主知道物品的實際質量。評估師公正地履行職責,但她的評估可能會受到隨機噪音的影響,因此可能無法準確反映物品的實際質量。該問題的主要挑戰在于設計一種機制能夠使物主透露出真實準確的信息,從而優化收集者的預期回報。本文針對單一物品與多物品情況設計了一系列機制,并且還通過實驗驗證了這些機制的有效性與魯棒性。本文研究的內容在會議文章錄用決策、應用商店審核流程、二手房產市場、古董收藏品市場等多個方向都有能夠應用的廣泛空間。

          論文題目:List-aware Reranking-Truncation Joint Model for Search and Retrieval-augmented Generation

          作者:徐士成、龐亮、徐君、沈華偉、程學旗

          通訊作者:龐亮

          論文概述:信息檢索(IR)的結果通常以候選文檔的排名列表的形式呈現,例如面向人類的網絡搜索和面向大型語言模型(LLM)的檢索增強范式。 列表感知檢索旨在捕獲列表級上下文特征以返回更好的列表,主要包括重排序和截斷。 重排序會對列表中的文檔進行精細地重新評分。 截斷動態確定排名列表的截止點,以實現整體相關性和避免不相關文檔的錯誤信息之間的權衡。 之前的研究將它們視為兩個獨立的任務并分離建模。 然而,分離建模并不是最佳的。 首先,兩個任務之間很難共享信息。 具體來說,重排序可以為截斷提供細粒度的相關性信息,而截斷可以為重排序提供效用需求。 其次,這通常會遇到錯誤累積問題,其中重排序階段的微小錯誤可能會在很大程度上影響截斷階段的結果。 為了解決這些問題,我們提出了一種可以同時執行這兩個任務的重排序-截斷聯合模型(GenRT)。 GenRT 利用基于編碼器-解碼器架構的生成范式來同時執行重排序和截斷兩個任務。 我們還設計了用于聯合優化的損失函數,使模型能夠平衡高效地學習這兩項任務。 在公開的learning-to-rank基準和開放域問答任務上的實驗表明,我們的方法在面向網絡搜索和檢索增強的大語言模型的重排和截斷任務上均實現了最佳性能。

          編輯:彭椿庭
          責任編輯:董涵琪
          上一條
          下一條
          国产精品国产三级国产an| 亚洲精品无码Av人在线观看国产| 久久se精品一区精品二区| 99er热精品视频| 91精品国产免费久久国语麻豆| jazzjazz国产精品| 18国产精品白浆在线观看免费| 亚洲精品无码久久久久| 黑人粗长大战亚洲女2021国产精品成人免费视频 | 亚洲国产精品一区二区第一页免| 999精品视频在线观看| 久久露脸国产精品| 国产成人久久精品| 无码国产精品一区二区免费式影视| 久久国产精品久久久| 亚洲麻豆精品国偷自产在线91| 久久精品人人做人人爱爱| 亚洲综合一区二区精品久久| 日韩精品一区二区三区四区| 一级A毛片免费观看久久精品| 精品无人区麻豆乱码1区2区新区 | 亚洲精品蜜桃久久久久久| 精品成人一区二区三区免费视频| 国产精品高清视亚洲一区二区| 一本久久a久久精品综合夜夜| 中文国产成人久久精品小说| 九九精品视频在线| 国产成人高清精品免费软件| 欧美成人aaa片一区国产精品| 国产69精品久久久久777| 99久久久国产精品免费牛牛| 嫩草影院久久国产精品| 国产亚洲精品国看不卡| 国产精品尹人在线观看| 日韩精品在线播放| 国产主播精品福利19禁vip| 无码专区国产精品视频| 在线播放精品一区二区啪视频| 四虎国产精品永久在线无码| 国产大片91精品免费观看不卡| 在线电影国产精品|