本文 rLLM: Relational Table Learning with LLMs 介紹了rLLM(relationLLM)項目,該項目旨在提供一個平臺,用于快速開發(fā)基于大型語言模型(LLMs)的關(guān)系表學(xué)習(xí)(RTL)方法。
按數(shù)據(jù)類型劃分的全球數(shù)據(jù)量趨勢和LLM令牌成本趨勢
引言
背景:大型語言模型(LLMs)如ChatGPT在理解和生成文本方面表現(xiàn)出色,利用了大規(guī)模無監(jiān)督預(yù)訓(xùn)練、指令微調(diào)和價值對齊等技術(shù)。
挑戰(zhàn):將LLMs應(yīng)用于實際大數(shù)據(jù)時成本極高。預(yù)計到2025年,LLMs的總成本將達到近5000萬億美元,這遠超美國2023年的GDP。
數(shù)據(jù)類型:盡管文本和結(jié)構(gòu)化數(shù)據(jù)的體量較小,但處理這些數(shù)據(jù)的成本最高。
關(guān)系數(shù)據(jù)庫:關(guān)系數(shù)據(jù)庫存儲了全球約73%的數(shù)據(jù),近年來關(guān)系表學(xué)習(xí)(RTL)成為一個重要研究方向。
系統(tǒng)概述
rLLM的架構(gòu)
rLLM系統(tǒng)由三個主要層次組成:數(shù)據(jù)引擎層、模塊層和模型層。
數(shù)據(jù)引擎層
- 提供數(shù)據(jù)處理和存儲功能。
模塊層
包括圖神經(jīng)網(wǎng)絡(luò)(GNN)模塊、表神經(jīng)網(wǎng)絡(luò)(TNN)模塊和LLM模塊。
GNN模塊
GraphTransform模塊:提供圖數(shù)據(jù)的預(yù)處理方法,如歸一化和自環(huán)操作,支持組合多種圖預(yù)處理方法。
GraphConv模塊:實現(xiàn)流行的圖卷積層,包括同質(zhì)和異質(zhì)圖卷積,核心功能是不同節(jié)點間的消息傳遞。
LLM模塊
Predictor模塊:利用LLMs進行數(shù)據(jù)注釋,適用于缺乏標簽的數(shù)據(jù)場景。
Enhancer模塊:利用LLMs進行數(shù)據(jù)增強,生成詳細的文本解釋以提高數(shù)據(jù)質(zhì)量。
TNN模塊
TableTransform模塊:將樣本特征映射到高維向量空間,增強樣本信息。
TableConv模塊:實現(xiàn)特征列間的多層交互學(xué)習(xí),提取潛在信息,通常使用注意力機制。
模型層
通過組合模塊層的組件,提供三種主要策略來快速開發(fā)RTL類型的模型:組合、對齊和協(xié)同訓(xùn)練。
組合:聯(lián)合使用不同部分的模塊,例如使用LLM模塊的Predictor進行初步標簽注釋,然后使用GNN模塊的GCN進行分類。
對齊:對齊不同模塊的輸入和輸出特征空間,例如使用LLM模塊的Enhancer生成嵌入,然后與GNN模塊生成的嵌入對齊。
協(xié)同訓(xùn)練:協(xié)同訓(xùn)練不同模塊,例如BRIDGE算法結(jié)合TNN和GNN進行多表聯(lián)合學(xué)習(xí)。
示例方法 - BRIDGE
BRIDGE的架構(gòu)
BRIDGE(Basic Relational table-Data Learning Framework)方法用于快速構(gòu)建RTL類型的方法。
表數(shù)據(jù)處理:使用表神經(jīng)網(wǎng)絡(luò)(TNN)對表數(shù)據(jù)進行建模和學(xué)習(xí)。
非表數(shù)據(jù)處理:利用表之間的“外鍵”關(guān)系構(gòu)建樣本之間的關(guān)聯(lián),并使用圖神經(jīng)網(wǎng)絡(luò)(GNN)進行建模。
集成:將表編碼器和圖編碼器的結(jié)果整合,進行多表數(shù)據(jù)及其相互關(guān)系的聯(lián)合建模。
方法和數(shù)據(jù)集
rLLM系統(tǒng)支持多種常見方法,包括同質(zhì)和異質(zhì)的GNN方法以及單表學(xué)習(xí)的TNN方法。
包含的方法
- 提供了多種現(xiàn)有方法的實現(xiàn),包括TabTransformer、TabNet和FT-Transformer。
數(shù)據(jù)集
提供了三個新的關(guān)系表數(shù)據(jù)集:TML1M、TLF2K和TACM12K,這些數(shù)據(jù)集經(jīng)過增強并附帶標準分類任務(wù),適合設(shè)計新的RTL方法。
TML1M:基于經(jīng)典的MovieLens 1M數(shù)據(jù)集。
TLF2K:基于HetRec 2011數(shù)據(jù)集。
TACM12K:基于ACM數(shù)據(jù)集。
評估
通過在TML1M數(shù)據(jù)集上的實驗,驗證了BRIDGE算法的有效性。實驗結(jié)果表明,BRIDGE算法能夠從多個表及其關(guān)系中提取有價值的信息,顯著提高了性能。
實驗設(shè)置
- 使用TabTransformer作為表編碼器,GCN作為圖編碼器。標準化訓(xùn)練批次、dropout率等參數(shù),進行多次實驗以獲取平均結(jié)果。
結(jié)果與分析
- 傳統(tǒng)的單表TNN方法只能從單個目標表中學(xué)習(xí),無法有效利用多個表及其關(guān)系的信息,性能較差。BRIDGE算法通過結(jié)合表編碼器和圖編碼器,有效提取多個表及其關(guān)系中的有價值信息,顯著提高了性能。
相關(guān)信息
代碼:https://github.com/rllm-project/rllm
論文:https://arxiv.org/abs/2407.20157v1