Qwen2-1.5B Instruct LoRA (JAQUAD SFT)

このリポジトリは LoRA アダプタのみを含みます。推論時はベースモデル
Qwen/Qwen2-1.5B-Instruct を読み込み、本アダプタを適用してください。
日本語の指示追従・QA・要約を中心に、softjapan/jaquad-sft を用いた SFT で性能の底上げを狙っています。

🔧 すぐ使う（推論コード）

from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel

base_id = "Qwen/Qwen2-1.5B-Instruct"
adapter_id = "softjapan/qwen2-jaquad-lora"

tok = AutoTokenizer.from_pretrained(base_id, use_fast=True)
if tok.pad_token is None:
    tok.pad_token = tok.eos_token

base = AutoModelForCausalLM.from_pretrained(base_id, device_map="auto", dtype="auto")
model = PeftModel.from_pretrained(base, adapter_id)
model.eval()

prompt = """### 指示
次の文章を要約してください。

### 入力
日本の首都は東京で...

### 応答
"""
inputs = tok(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=256)
print(tok.decode(out[0], skip_special_tokens=True))

プロンプト形式は学習時に合わせて「### 指示 / ### 入力 / ### 応答」です。

（任意）ベースへ統合して 1 本化（配布用途など）

統合して配布する場合は、ベースモデルのライセンスに従ってください。

from transformers import AutoModelForCausalLM
from peft import PeftModel

base = AutoModelForCausalLM.from_pretrained(base_id, device_map="auto", dtype="auto")
model = PeftModel.from_pretrained(base, adapter_id)
merged = model.merge_and_unload()
merged.save_pretrained("./qwen2-jaquad-lora-merged")

📦 モデル詳細 / Model Details

Developed by: softjapan
Shared by: softjapan
Model type: Causal LM（LoRA アダプタ）
Languages: Japanese (ja)
License (adapter): Apache-2.0 ※ ベースモデル／学習データは各配布元のライセンスに従ってください。
Finetuned from: Qwen/Qwen2-1.5B-Instruct（Instruct 指向の Qwen2 系）

Model Sources

Repository (this adapter): (this Hugging Face repo)
Base model: Qwen/Qwen2-1.5B-Instruct
Dataset: softjapan/jaquad-sft
Demo (optional): Hugging Face Spaces（用意があれば記載）

🧰 想定ユース / Intended Uses

直接利用（Direct Use）

日本語の指示追従（要約・言い換え・説明）
QA（事前知識・短文理解が中心）
テンプレに沿ったフォーマット出力

下流利用（Downstream Use）

日本語ドメインの追加 SFT（さらに特化データでの継続学習）
RAG と組み合わせた社内QAや業務支援

範囲外（Out-of-Scope）

事実性が厳密に求められる領域（医療/法務/最新ニュースの断定）
悪用（スパム生成、差別やハラスメントコンテンツの生成など）

⚠️ バイアス・リスク・制限

事実性の限界：最新情報や専門領域では誤答の可能性があります。
安全性：不適切・攻撃的な表現を出力する可能性。フィルタや人手確認を併用してください。
分布外入力：学習分布から外れた入力では品質が低下します。

推奨事項

高リスク用途では人手レビュー・外部検証・プロンプト制約・RAG を併用。
実運用ではログ監査とレートリミットを設けてください。

🚀 はじめかた / How to Get Started

上の「すぐ使う」コードを実行してください。 Gradio デモ用の Spaces テンプレも簡単に用意できます（UI から指示・入力・出力を試験）。

🏋️ 学習詳細 / Training Details

データ / Dataset

softjapan/jaquad-sft（日本語 QA/指示追従用 SFT データ）

学習時のプロンプト整形

### 指示
{instruction}

### 入力
{input}

### 応答
{output}

前処理 / Preprocessing

Tokenizer: use_fast=True
pad_token = eos_token
max_length = 1024
padding = "max_length"

ハイパーパラメータ / Hyperparameters

LoRA: r=8, alpha=16, dropout=0.05, target=["q_proj","k_proj","v_proj","o_proj"], bias="none"
Optimizer / Scheduler: AdamW（Transformers 既定）, cosine, lr=2e-4, warmup_ratio=0.03, weight_decay=0.0
Batching: per_device_train_batch_size=2, gradient_accumulation_steps=8
Precision: bf16=True（対応 GPU）
Memory: gradient_checkpointing=True, use_cache=False（GC との両立のため）
Epochs: 3（環境に応じて早期終了・ベスト保存可）

実装ノート

Trainer: Hugging Face Trainer
Collator: DataCollatorForLanguageModeling(mlm=False)（Pad を -100 にマスク）
Tokenizer/Model: dtype="auto", device_map="auto"

📊 評価 / Evaluation

監視指標: eval_loss（必要に応じて PPL = exp(eval_loss) を試算）
生成品質: 開発用プロンプトで定性チェック（QA 正答率、要約の自然さ・忠実性など）
ベンチマーク値は環境依存のため固定掲載は行っていません。再現スクリプト・条件に基づく再評価を推奨します。

🌱 環境影響 / Environmental Impact

概算は使用 GPU/時間/電力係数に依存します。MLCO2 Calculator 等で見積もり可能です。（例）A10/T4 クラスで数時間〜十数時間の SFT。省電力のため学習時は勾配チェックポイント・bf16 を利用。

Hardware Type: 単一GPU（例: T4/A10/A100）
Hours: 環境依存
Cloud/Region: 環境依存
Carbon Emitted: 環境依存（計算推奨）

🧪 技術仕様 / Technical Specs

アーキテクチャ / Architecture

Qwen2 系 Causal LM に対する LoRA（PEFT） での微調整。

インフラ / Compute

単一/少数 GPU での学習を想定（QLoRA で 4bit 量子化の選択も可）。

ソフトウェア / Software

Transformers（例: 4.56.2）
PEFT（LoRA/QLoRA）
Datasets / Accelerate / Safetensors

📚 引用 / Citation

@software{qwen2_1_5b_instruct_lora_jaquad_sft_2025,
  title  = {Qwen2-1.5B Instruct LoRA (JAQUAD SFT)},
  author = {softjapan},
  year   = {2025},
  url    = {https://huggingface.co/softjapan/qwen2-jaquad-lora}
}

ℹ️ 追加情報 / More Information

Issue/PR から改善提案を歓迎します。
モデルの誤用・権利侵害にならない形でご利用ください。

👤 モデルカード作成者 / Authors

softjapan

📩 連絡先 / Contact

Hugging Face: Issues / Discussions

Framework versions

Transformers: 4.56.2（想定）
PEFT: 互換バージョン（LoRA 対応）
Datasets / Accelerate / Safetensors: 互換バージョン

Downloads last month: -

Model tree for softjapan/qwen2-jaquad-lora

Base model

Qwen/Qwen2-1.5B-Instruct

Adapter

(943)

this model

softjapan
/

qwen2-jaquad-lora