Scaling Laws For Sparse Retrieval と言えるのか実験してみた
はじめに
この記事は情報検索・検索技術 Advent Calendar 2024 の 23 日目の記事です。.
Scaling Laws For Dense Retrieval に論文を読んで、これを Sparse Retrieval で試すとどうなるんだろうと思ったので実験してみた記録。いわゆるやってみたブログです。
どういう論文?
- モデルの性能評価するには既存の評価メトリクスに課題があるので新しいメトリクスを提案
- dense retrivalモデルが精度とモデルサイズ、データサイズに冪乗則に従うことが観測された
- スケーリング則により予算配分の予測ができる。
- スケーリング則により異なるアノテーション手法の有効性の評価ができる
既存の評価メトリクスの課題は?
- 検索タスクの従来の性能指標(NDCGなど)はカットオフパラメータkに依存しているため連続的ではない
- 正のパッセージが上位kに含まれた場合のみ指標に寄与する。仮にK+1の順位にあっても寄与しない
- mrr@k, ndcg@kランキングメトリクスはパッセージの順序が変化しない限り変化しないのでモデル出力の変化に敏感ではない
提案手法
- モデルの全体的な検索能力を敏感に反映する連続的なメトリクスとしてconstrastive entropyを提案
- contrastive entropyはIRで使われるメトリクス(MAPやnDCG, Recall)と相関する

実験
実験方法
- 日本語と英語のデータとモデルで実験
- モデルサイズ、データサイズ、アノテーション方法を変えて256のnegative passageをランダムに選択して、contrastive entropyを算出
- どういうネガティブサンプリングを行うかは検索精度に大きく影響するが、この論文ではサンプリング戦略に焦点をあてずランダムサンプリング選択
利用モデル
事前学習タスクがdense retrival modelのパフォーマンスに強く影響することが先行研究でわかっているので、この影響を小さくするため同じ構成でパラメータサイズが異なるだけの一連のモデルを選んでいる。
英語: BERTシリーズ
- BERT-TinyからBERT-Base
- BERT variantも使ったぽいが具体的になにを使ったか不明
中国語: ERNIEシリーズ
- 出力次元を768にした
利用データ
英語: MSMARCO
中国語: T2Ranking
結果
Modelサイズの増加に合わせて精度向上した。

Modelサイズがスケーリング則にfitする

Dataサイズがスケーリング則にfitする

sparse modelでも同様なのか試してみる
実験
splade++で実施
- [From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective https://arxiv.org/abs/2205.04733] - naverのspladeリポジトリで公開されている実装で1GPUの設定を利用
- パラメータはすべて同じものにしてみる
データはMSMarcoのみ
ModelはBERTを利用
- prajjwal1/bert-tiny
- prajjwal1/bert-mini
- prajjwal1/bert-small
- prajjwal1/bert-medium
- google-bert/bert-base-uncased
学習したものはこちらで公開
結果
ランキングメトリクスは微妙(nDCGはメモっておくの忘れた

constrastive entropyは差がなし

base-uncasedはおなじパラメータではうまく学習ができていなさそう...
text: I bought an apple stock.
----ryook/splade-bert-tiny-monogpu----
token数: 32
{'apple': 2.515625, 'stock': 2.216796875, 'bought': 2.109375, 'i': 1.8486328125, 'buy': 1.7177734375, 'purchased': 1.4814453125, 'acquired': 1.4267578125, 'sold': 1.1201171875, 'apples': 0.99658203125, 'em': 0.99462890625, 'purchase': 0.92578125, 'an': 0.845703125, 'oak': 0.7646484375, 'chips': 0.49853515625, 'bean': 0.455078125, 'price': 0.454345703125, 'orchard': 0.38037109375, 'when': 0.37158203125, 'inherited': 0.317626953125, 'owned': 0.312744140625, '/': 0.29541015625, 'business': 0.290283203125, 'products': 0.2293701171875, 'we': 0.1800537109375, 'gum': 0.1668701171875, 'butter': 0.141845703125, 'company': 0.1307373046875, 'gr': 0.10906982421875, 'was': 0.08062744140625, 'pulled': 0.07159423828125, 'maybe': 0.0307769775390625, 'originally': 0.027923583984375}
----ryook/splade-bert-small-monogpu----
token数: 32
{'apple': 2.529296875, 'stock': 2.349609375, 'bought': 2.025390625, 'apples': 1.4853515625, 'purchase': 1.1318359375, 'buy': 1.0478515625, 'founded': 1.005859375, 'owned': 0.998046875, 'sold': 0.9423828125, 'owner': 0.80908203125, 'inherited': 0.7900390625, 'i': 0.78466796875, 'purchased': 0.626953125, 'adam': 0.607421875, 'orange': 0.55078125, 'sell': 0.50341796875, 'built': 0.48779296875, 'chip': 0.481201171875, 'acquired': 0.425537109375, 'mint': 0.40673828125, 'tree': 0.356201171875, 'company': 0.344482421875, 'pear': 0.325439453125, 'early': 0.2939453125, 'stolen': 0.265869140625, 'import': 0.208984375, 'walnut': 0.1961669921875, 'pen': 0.1767578125, 'pie': 0.13330078125, 'dairy': 0.08782958984375, 'edition': 0.07159423828125, 'wood': 0.0212554931640625}
----ryook/splade-bert-mini-monogpu----
token数: 32
{'apple': 2.806640625, 'stock': 2.44921875, 'bought': 2.1796875, 'apples': 1.8427734375, 'buy': 1.6025390625, 'owned': 1.466796875, 'purchase': 1.3837890625, 'stocks': 1.2734375, 'app': 0.748046875, 'an': 0.70849609375, 'company': 0.68701171875, 'invented': 0.6806640625, 'i': 0.64111328125, 'inherited': 0.63232421875, 'inventor': 0.62255859375, 'sold': 0.5673828125, '##stock': 0.49755859375, 'picked': 0.493408203125, 'owner': 0.45751953125, 'scott': 0.409423828125, 'purchased': 0.375732421875, 'corporation': 0.282958984375, 'pear': 0.28076171875, 'because': 0.27490234375, 'acquired': 0.26904296875, 'investment': 0.25390625, 'want': 0.1527099609375, 'harrison': 0.128173828125, 'jacobs': 0.1072998046875, 'business': 0.049530029296875, 'straw': 0.038330078125, 'inventory': 0.0164642333984375}
----ryook/splade-bert-medium-monogpu----
token数: 38
{'apple': 2.7890625, 'stock': 2.2890625, 'apples': 1.7548828125, 'purchased': 1.5087890625, 'buy': 1.447265625, 'investors': 1.4462890625, 'bought': 1.3095703125, 'nan': 1.1025390625, 'purchase': 0.97119140625, 'owned': 0.93505859375, 'company': 0.75732421875, 'stocks': 0.6025390625, 'brand': 0.58935546875, 'buying': 0.5234375, 'application': 0.51806640625, 'sold': 0.5146484375, 'an': 0.47705078125, 'sell': 0.419677734375, 'share': 0.4189453125, 'candy': 0.37646484375, 'i': 0.352783203125, 'acquired': 0.303466796875, 'price': 0.227783203125, 'pick': 0.203369140625, 'hold': 0.18896484375, 'discovered': 0.180908203125, 'owner': 0.1668701171875, 'model': 0.165283203125, 'alice': 0.1195068359375, 'jewelry': 0.10382080078125, 'picked': 0.10028076171875, 'author': 0.09759521484375, 'companies': 0.08154296875, 'loan': 0.06610107421875, 'gifts': 0.06427001953125, 'business': 0.042083740234375, 'ama': 0.023162841796875, 'finance': 0.01068115234375}
----ryook/splade-bert-base-uncased-monogpu----
10
{'big': 1.6337890625, 'biggest': 1.625, 'ad': 1.0537109375, 'height': 1.0458984375, 'general': 0.900390625, 'a': 0.88916015625, 'man': 0.86083984375, 'the': 0.62451171875, 'men': 0.50927734375, 'ca': 0.4599609375}
結論
- 今回の実験だとスケーリング則うんぬんの前にメトリクスがほとんど同じだったり、そもそも学習に失敗していそう
- Spladeは綺麗なsparse tokenを出すのにパラメータを調整する必要があり、割と崩れやすい
- Spladeを使う場合パラメータの調整が必要だけど、パラメータがモデルサイズごとに違う場合、同じ条件での比較するにはどうすればいいんだろう...