Qwen2-1.5B Instruct LoRA (JAQUAD SFT)

このリポジトリは LoRA アダプタのみを含みます。推論時はベースモデル
Qwen/Qwen2-1.5B-Instruct を読み込み、本アダプタを適用してください。
日本語の指示追従・QA・要約を中心に、softjapan/jaquad-sft を用いた SFT で性能の底上げを狙っています。


🔧 すぐ使う(推論コード)

from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel

base_id = "Qwen/Qwen2-1.5B-Instruct"
adapter_id = "softjapan/qwen2-jaquad-lora"

tok = AutoTokenizer.from_pretrained(base_id, use_fast=True)
if tok.pad_token is None:
    tok.pad_token = tok.eos_token

base = AutoModelForCausalLM.from_pretrained(base_id, device_map="auto", dtype="auto")
model = PeftModel.from_pretrained(base, adapter_id)
model.eval()

prompt = """### 指示
次の文章を要約してください。

### 入力
日本の首都は東京で...

### 応答
"""
inputs = tok(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=256)
print(tok.decode(out[0], skip_special_tokens=True))

プロンプト形式は学習時に合わせて「### 指示 / ### 入力 / ### 応答」です。

(任意)ベースへ統合して 1 本化(配布用途など)

統合して配布する場合は、ベースモデルのライセンスに従ってください。

from transformers import AutoModelForCausalLM
from peft import PeftModel

base = AutoModelForCausalLM.from_pretrained(base_id, device_map="auto", dtype="auto")
model = PeftModel.from_pretrained(base, adapter_id)
merged = model.merge_and_unload()
merged.save_pretrained("./qwen2-jaquad-lora-merged")

📦 モデル詳細 / Model Details

  • Developed by: softjapan
  • Shared by: softjapan
  • Model type: Causal LM(LoRA アダプタ)
  • Languages: Japanese (ja)
  • License (adapter): Apache-2.0 ※ ベースモデル/学習データは各配布元のライセンスに従ってください。
  • Finetuned from: Qwen/Qwen2-1.5B-Instruct(Instruct 指向の Qwen2 系)

Model Sources

  • Repository (this adapter): (this Hugging Face repo)
  • Base model: Qwen/Qwen2-1.5B-Instruct
  • Dataset: softjapan/jaquad-sft
  • Demo (optional): Hugging Face Spaces(用意があれば記載)

🧰 想定ユース / Intended Uses

直接利用(Direct Use)

  • 日本語の指示追従(要約・言い換え・説明)
  • QA(事前知識・短文理解が中心)
  • テンプレに沿ったフォーマット出力

下流利用(Downstream Use)

  • 日本語ドメインの追加 SFT(さらに特化データでの継続学習)
  • RAG と組み合わせた社内QA業務支援

範囲外(Out-of-Scope)

  • 事実性が厳密に求められる領域(医療/法務/最新ニュースの断定)
  • 悪用(スパム生成、差別やハラスメントコンテンツの生成など)

⚠️ バイアス・リスク・制限

  • 事実性の限界:最新情報や専門領域では誤答の可能性があります。
  • 安全性:不適切・攻撃的な表現を出力する可能性。フィルタや人手確認を併用してください。
  • 分布外入力:学習分布から外れた入力では品質が低下します。

推奨事項

  • 高リスク用途では人手レビュー外部検証プロンプト制約RAG を併用。
  • 実運用ではログ監査レートリミットを設けてください。

🚀 はじめかた / How to Get Started

上の「すぐ使う」コードを実行してください。 Gradio デモ用の Spaces テンプレも簡単に用意できます(UI から指示・入力・出力を試験)。


🏋️ 学習詳細 / Training Details

データ / Dataset

  • softjapan/jaquad-sft(日本語 QA/指示追従用 SFT データ)

  • 学習時のプロンプト整形

    ### 指示
    {instruction}
    
    ### 入力
    {input}
    
    ### 応答
    {output}
    

前処理 / Preprocessing

  • Tokenizer: use_fast=True
  • pad_token = eos_token
  • max_length = 1024
  • padding = "max_length"

ハイパーパラメータ / Hyperparameters

  • LoRA: r=8, alpha=16, dropout=0.05, target=["q_proj","k_proj","v_proj","o_proj"], bias="none"
  • Optimizer / Scheduler: AdamW(Transformers 既定), cosine, lr=2e-4, warmup_ratio=0.03, weight_decay=0.0
  • Batching: per_device_train_batch_size=2, gradient_accumulation_steps=8
  • Precision: bf16=True(対応 GPU)
  • Memory: gradient_checkpointing=True, use_cache=False(GC との両立のため)
  • Epochs: 3(環境に応じて早期終了・ベスト保存可)

実装ノート

  • Trainer: Hugging Face Trainer
  • Collator: DataCollatorForLanguageModeling(mlm=False)(Pad を -100 にマスク)
  • Tokenizer/Model: dtype="auto", device_map="auto"

📊 評価 / Evaluation

  • 監視指標: eval_loss(必要に応じて PPL = exp(eval_loss) を試算)
  • 生成品質: 開発用プロンプトで定性チェック(QA 正答率、要約の自然さ・忠実性など)
  • ベンチマーク値は環境依存のため固定掲載は行っていません。再現スクリプト・条件に基づく再評価を推奨します。

🌱 環境影響 / Environmental Impact

概算は使用 GPU/時間/電力係数に依存します。MLCO2 Calculator 等で見積もり可能です。 (例)A10/T4 クラスで数時間〜十数時間の SFT。省電力のため学習時は勾配チェックポイントbf16 を利用。

  • Hardware Type: 単一GPU(例: T4/A10/A100)
  • Hours: 環境依存
  • Cloud/Region: 環境依存
  • Carbon Emitted: 環境依存(計算推奨)

🧪 技術仕様 / Technical Specs

アーキテクチャ / Architecture

  • Qwen2 系 Causal LM に対する LoRA(PEFT) での微調整。

インフラ / Compute

  • 単一/少数 GPU での学習を想定(QLoRA で 4bit 量子化の選択も可)。

ソフトウェア / Software

  • Transformers(例: 4.56.2)
  • PEFT(LoRA/QLoRA)
  • Datasets / Accelerate / Safetensors

📚 引用 / Citation

@software{qwen2_1_5b_instruct_lora_jaquad_sft_2025,
  title  = {Qwen2-1.5B Instruct LoRA (JAQUAD SFT)},
  author = {softjapan},
  year   = {2025},
  url    = {https://huggingface.co/softjapan/qwen2-jaquad-lora}
}

ℹ️ 追加情報 / More Information

  • Issue/PR から改善提案を歓迎します。
  • モデルの誤用・権利侵害にならない形でご利用ください。

👤 モデルカード作成者 / Authors

  • softjapan

📩 連絡先 / Contact

  • Hugging Face: Issues / Discussions

Framework versions

  • Transformers: 4.56.2(想定)
  • PEFT: 互換バージョン(LoRA 対応)
  • Datasets / Accelerate / Safetensors: 互換バージョン

Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for softjapan/qwen2-jaquad-lora

Adapter
(943)
this model

Dataset used to train softjapan/qwen2-jaquad-lora

Space using softjapan/qwen2-jaquad-lora 1