はじめに

この記事は情報検索・検索技術 Advent Calendar 2024 の 23 日目の記事です。．

Scaling Laws For Dense Retrieval に論文を読んで、これを Sparse Retrieval で試すとどうなるんだろうと思ったので実験してみた記録。いわゆるやってみたブログです。

arxiv.org

どういう論文？

モデルの性能評価するには既存の評価メトリクスに課題があるので新しいメトリクスを提案
dense retrivalモデルが精度とモデルサイズ、データサイズに冪乗則に従うことが観測された
スケーリング則により予算配分の予測ができる。
スケーリング則により異なるアノテーション手法の有効性の評価ができる

既存の評価メトリクスの課題は？

検索タスクの従来の性能指標(NDCGなど)はカットオフパラメータkに依存しているため連続的ではない
- 正のパッセージが上位kに含まれた場合のみ指標に寄与する。仮にK+1の順位にあっても寄与しない
mrr@k, ndcg@kランキングメトリクスはパッセージの順序が変化しない限り変化しないのでモデル出力の変化に敏感ではない

提案手法

モデルの全体的な検索能力を敏感に反映する連続的なメトリクスとしてconstrastive entropyを提案

$\displaystyle -log \frac{exp(s(q_i, p^+_i;\theta))}{exp(s(q_i, p^+_i;\theta) + \sum_{j} exp(s(q_i, p^-_j;\theta)}$

contrastive entropyはIRで使われるメトリクス(MAPやnDCG, Recall)と相関する

実験

実験方法

日本語と英語のデータとモデルで実験
モデルサイズ、データサイズ、アノテーション方法を変えて256のnegative passageをランダムに選択して、contrastive entropyを算出
- どういうネガティブサンプリングを行うかは検索精度に大きく影響するが、この論文ではサンプリング戦略に焦点をあてずランダムサンプリング選択

利用モデル

事前学習タスクがdense retrival modelのパフォーマンスに強く影響することが先行研究でわかっているので、この影響を小さくするため同じ構成でパラメータサイズが異なるだけの一連のモデルを選んでいる。

英語: BERTシリーズ
- BERT-TinyからBERT-Base
- BERT variantも使ったぽいが具体的になにを使ったか不明
中国語: ERNIEシリーズ
- 出力次元を768にした

利用データ

英語: MSMARCO

microsoft.github.io

中国語: T2Ranking

github.com

結果

Modelサイズの増加に合わせて精度向上した。
Modelサイズがスケーリング則にfitする
Dataサイズがスケーリング則にfitする

sparse modelでも同様なのか試してみる

実験

splade++で実施
- [From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective https://arxiv.org/abs/2205.04733] 　- naverのspladeリポジトリで公開されている実装で1GPUの設定を利用
- パラメータはすべて同じものにしてみる
データはMSMarcoのみ
ModelはBERTを利用
- prajjwal1/bert-tiny
- prajjwal1/bert-mini
- prajjwal1/bert-small
- prajjwal1/bert-medium
- google-bert/bert-base-uncased
学習したものはこちらで公開
- https://huggingface.co/ryook

結果

ランキングメトリクスは微妙(nDCGはメモっておくの忘れた
constrastive entropyは差がなし
base-uncasedはおなじパラメータではうまく学習ができていなさそう...

text: I bought an apple stock.
 
----ryook/splade-bert-tiny-monogpu----
token数: 32
{'apple': 2.515625, 'stock': 2.216796875, 'bought': 2.109375, 'i': 1.8486328125, 'buy': 1.7177734375, 'purchased': 1.4814453125, 'acquired': 1.4267578125, 'sold': 1.1201171875, 'apples': 0.99658203125, 'em': 0.99462890625, 'purchase': 0.92578125, 'an': 0.845703125, 'oak': 0.7646484375, 'chips': 0.49853515625, 'bean': 0.455078125, 'price': 0.454345703125, 'orchard': 0.38037109375, 'when': 0.37158203125, 'inherited': 0.317626953125, 'owned': 0.312744140625, '/': 0.29541015625, 'business': 0.290283203125, 'products': 0.2293701171875, 'we': 0.1800537109375, 'gum': 0.1668701171875, 'butter': 0.141845703125, 'company': 0.1307373046875, 'gr': 0.10906982421875, 'was': 0.08062744140625, 'pulled': 0.07159423828125, 'maybe': 0.0307769775390625, 'originally': 0.027923583984375}

----ryook/splade-bert-small-monogpu----
token数: 32
{'apple': 2.529296875, 'stock': 2.349609375, 'bought': 2.025390625, 'apples': 1.4853515625, 'purchase': 1.1318359375, 'buy': 1.0478515625, 'founded': 1.005859375, 'owned': 0.998046875, 'sold': 0.9423828125, 'owner': 0.80908203125, 'inherited': 0.7900390625, 'i': 0.78466796875, 'purchased': 0.626953125, 'adam': 0.607421875, 'orange': 0.55078125, 'sell': 0.50341796875, 'built': 0.48779296875, 'chip': 0.481201171875, 'acquired': 0.425537109375, 'mint': 0.40673828125, 'tree': 0.356201171875, 'company': 0.344482421875, 'pear': 0.325439453125, 'early': 0.2939453125, 'stolen': 0.265869140625, 'import': 0.208984375, 'walnut': 0.1961669921875, 'pen': 0.1767578125, 'pie': 0.13330078125, 'dairy': 0.08782958984375, 'edition': 0.07159423828125, 'wood': 0.0212554931640625}

----ryook/splade-bert-mini-monogpu----
token数: 32
{'apple': 2.806640625, 'stock': 2.44921875, 'bought': 2.1796875, 'apples': 1.8427734375, 'buy': 1.6025390625, 'owned': 1.466796875, 'purchase': 1.3837890625, 'stocks': 1.2734375, 'app': 0.748046875, 'an': 0.70849609375, 'company': 0.68701171875, 'invented': 0.6806640625, 'i': 0.64111328125, 'inherited': 0.63232421875, 'inventor': 0.62255859375, 'sold': 0.5673828125, '##stock': 0.49755859375, 'picked': 0.493408203125, 'owner': 0.45751953125, 'scott': 0.409423828125, 'purchased': 0.375732421875, 'corporation': 0.282958984375, 'pear': 0.28076171875, 'because': 0.27490234375, 'acquired': 0.26904296875, 'investment': 0.25390625, 'want': 0.1527099609375, 'harrison': 0.128173828125, 'jacobs': 0.1072998046875, 'business': 0.049530029296875, 'straw': 0.038330078125, 'inventory': 0.0164642333984375}

----ryook/splade-bert-medium-monogpu----
token数: 38
{'apple': 2.7890625, 'stock': 2.2890625, 'apples': 1.7548828125, 'purchased': 1.5087890625, 'buy': 1.447265625, 'investors': 1.4462890625, 'bought': 1.3095703125, 'nan': 1.1025390625, 'purchase': 0.97119140625, 'owned': 0.93505859375, 'company': 0.75732421875, 'stocks': 0.6025390625, 'brand': 0.58935546875, 'buying': 0.5234375, 'application': 0.51806640625, 'sold': 0.5146484375, 'an': 0.47705078125, 'sell': 0.419677734375, 'share': 0.4189453125, 'candy': 0.37646484375, 'i': 0.352783203125, 'acquired': 0.303466796875, 'price': 0.227783203125, 'pick': 0.203369140625, 'hold': 0.18896484375, 'discovered': 0.180908203125, 'owner': 0.1668701171875, 'model': 0.165283203125, 'alice': 0.1195068359375, 'jewelry': 0.10382080078125, 'picked': 0.10028076171875, 'author': 0.09759521484375, 'companies': 0.08154296875, 'loan': 0.06610107421875, 'gifts': 0.06427001953125, 'business': 0.042083740234375, 'ama': 0.023162841796875, 'finance': 0.01068115234375}

----ryook/splade-bert-base-uncased-monogpu----
10
{'big': 1.6337890625, 'biggest': 1.625, 'ad': 1.0537109375, 'height': 1.0458984375, 'general': 0.900390625, 'a': 0.88916015625, 'man': 0.86083984375, 'the': 0.62451171875, 'men': 0.50927734375, 'ca': 0.4599609375}

結論

今回の実験だとスケーリング則うんぬんの前にメトリクスがほとんど同じだったり、そもそも学習に失敗していそう
Spladeは綺麗なsparse tokenを出すのにパラメータを調整する必要があり、割と崩れやすい
Spladeを使う場合パラメータの調整が必要だけど、パラメータがモデルサイズごとに違う場合、同じ条件での比較するにはどうすればいいんだろう...

検索メモ

Scaling Laws For Sparse Retrieval と言えるのか実験してみた