Create README.md

73927b7 verified 10 months ago

4.04 kB

	---
	license: apache-2.0
	datasets:
	- code-search-net/code_search_net
	language:
	- en
	pipeline_tag: sentence-similarity
	tags:
	- code
	---

	# CodeModernBERT-Snake🐍
	コード検索と理解を強化する軽量・長シーケンス対応モデル

	## 概要

	CodeModernBERT-Snake🐍は、コード検索やコードクローン検出を手軽に行えるよう設計された軽量モデルです。
	モデルサイズが従来の約半分（76Mパラメータ）に削減されているため、学習コストが大幅に低減しました。
	また、最大シーケンス長を8192トークンに拡張し、長大なコードや複雑な関数にも対応できるようになっています。

	主な用途:
	- コード検索
	- コード理解
	- コードクローン検出

	データセット: CodeSearchNet (全言語)
	ライセンス: Apache 2.0

	---

	## 主な特徴

	- 最大シーケンス長8192トークン対応
	長大なコードや複雑な関数にも対応可能です。（従来モデルは512トークン対応）

	- モデルサイズを約半分に削減
	CodeModernBERT-Owl（152Mパラメータ）に比べて約半分（76Mパラメータ）まで軽量化。
	メモリ効率が向上し、推論速度も改善されました。


	---

	## モデルパラメータ

	\| パラメータ名 \| 設定値 \|
	\|-----------------------------------\|-------\|
	\| vocab_size \| 50004 \|
	\| hidden_size \| 512 \|
	\| num_hidden_layers \| 12 \|
	\| num_attention_heads \| 8 \|
	\| intermediate_size \| 2048 \|
	\| max_position_embeddings \| 8192 \|
	\| type_vocab_size \| 2 \|
	\| hidden_dropout_prob \| 0.1 \|
	\| attention_probs_dropout_prob \| 0.1 \|
	\| local_attention_window \| 128 \|
	\| rope_theta \| 160000\|
	\| local_attention_rope_theta \| 10000 \|

	---

	## 実験結果

	### 学習方法
	単純なMLM（マスク付き言語モデル）学習後、継続学習を実施し、以下の評価結果を得ました。
	学習用データセット: CodeSearchNet (Train)
	比較用データセット: `code_x_glue_ct_code_to_text` (Test)
	評価指標: MRR, R-Precision（プールサイズ100）

	#### MLM学習後

	\| 言語 \| MRR \| R-Precision \|
	\|------------\|-------\|-------------\|
	\| Python \| 0.4216\| 0.2960 \|
	\| Java \| 0.4211\| 0.3000 \|
	\| JavaScript \| 0.2753\| 0.1710 \|
	\| PHP \| 0.4642\| 0.3330 \|
	\| Ruby \| 0.2637\| 0.1530 \|
	\| Go \| 0.4410\| 0.2800 \|

	#### 継続学習後

	\| 言語 \| MRR \| R-Precision \|
	\|------------\|--------\|-------------\|
	\| Python \| 0.7553 \| 0.6730 \|
	\| Java \| 0.7660 \| 0.6890 \|
	\| JavaScript \| 0.5934 \| 0.4870 \|
	\| PHP \| 0.7766 \| 0.7030 \|
	\| Ruby \| 0.6056 \| 0.5020 \|
	\| Go \| 0.8323 \| 0.7550 \|

	### 考察
	継続学習後のモデルでは、すべての言語で0.2以上のMRRおよびR-Precisionの向上が確認できました。
	特にPython、Java、PHP、Goにおける精度向上が顕著であり、従来のモデルに追随するレベルに達しています。

	---

	## 注意点
	最大シーケンス長8192トークンに対応していますが、8192トークンまでの学習を特別に行ったわけではないため、
	2048トークンを超えた入力では精度が低下する可能性があります。モデルサイズを削減する過程で対応範囲を拡張しましたが、
	あくまでオプションとしての対応と捉えてください。ご了承ください。

	---

	### 最後に
	CodeModernBERT-Snake🐍は、コード検索や理解のコストを削減しながら高い精度を実現することを目指して設計されました。
	軽量で長大なコードも処理できるため、多くのユースケースで役立つモデルです。
	ぜひ活用してみてください！