Update README.md
Browse files
README.md
CHANGED
|
@@ -1,3 +1,102 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: apache-2.0
|
| 3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: apache-2.0
|
| 3 |
+
gated: false
|
| 4 |
+
language:
|
| 5 |
+
- ja
|
| 6 |
+
base_model:
|
| 7 |
+
- llm-jp/llm-jp-3-8x13b
|
| 8 |
+
---
|
| 9 |
+
# SIP-med-LLM/SIP-jmed-llm-3-8x13b-OP-32k-R0.1
|
| 10 |
+
|
| 11 |
+
このモデルは、<b>戦略的イノベーション創造プログラム(SIP)第 3 期課題「統合型ヘルスケアシステムの構築における生成 AI 活用」テーマ1「安全性・信頼性を持つオープンな医療 LLM の開発・社会実装」</b>において研究開発された、研究用途限定・商用利用不可の医療特化型 LLM です。
|
| 12 |
+
|
| 13 |
+
#### プロジェクトページ: https://sip3.ncgm.go.jp/
|
| 14 |
+
|
| 15 |
+
## モデルの概要
|
| 16 |
+
|
| 17 |
+
- **ベースモデル**: [llm-jp/llm-jp-3-8x13b](https://huggingface.co/llm-jp/llm-jp-3-8x13b)に対して、SIPプロジェクトで収集した0.3T汎用コーパスで事前学習を実施したモデル
|
| 18 |
+
- **モデルタイプ**: トランスフォーマーベースの言語モデル
|
| 19 |
+
- **言語**: 日本語・英語
|
| 20 |
+
- **ライセンス**: Apache-2.0
|
| 21 |
+
- **開発者**: SIP 第 3 期 テーマ 1 研究開発チーム
|
| 22 |
+
|
| 23 |
+
## 使用目的と制限事項
|
| 24 |
+
|
| 25 |
+
このモデルは「安全性・信頼性を持つオープンな医療 LLM の開発・社会実装」における研究開発プロトタイプとして開発されました。**現段階では研究開発目的のみでの使用を想定しており、実際の臨床現場における疾患の診断や臨床意思決定支援として直接利用することは推奨されません。**
|
| 26 |
+
|
| 27 |
+
#### 制限事項
|
| 28 |
+
|
| 29 |
+
- **本モデルは研究開発段階のプロトタイプであり、実臨床における安全性・有効性の検証は十分に行われていません。**
|
| 30 |
+
- 開発者は、本プログラムに関し、その正確性、完全性、最新性、および品質など、いかなる保証も行わず、利用者が本プログラムを利用したこと、利用できなかったことにより生じた一切の損害について責任を負いません。
|
| 31 |
+
- **医療行為(診断、治療方針の決定、健康への助言など)に直接適用することは推奨されません。あくまで医療専門家による適切な判断の補助となる情報提供ツールとしての利用可能性を探る研究段階にあります。**
|
| 32 |
+
- **公開しているモデルを活用して「具体的な製品」を開発される場合、その製品が医療機器プログラムとして薬機法の規制対象となる可能性があることにご留意ください。**
|
| 33 |
+
- プログラム医療機器の該当性に関する相談窓口:
|
| 34 |
+
- [独立行政法人医薬品医療機器総合機構(PMDA; Pharmaceuticals and Medical Devices Agency)](https://www.pmda.go.jp/review-services/f2f-pre/strategies/0011.html)
|
| 35 |
+
|
| 36 |
+
|
| 37 |
+
## 学習データ
|
| 38 |
+
|
| 39 |
+
本モデルは以下のデータセットを用いて、ベースモデルを追加事前学習することにより開発されました:
|
| 40 |
+
|
| 41 |
+
### 追加事前学習用データセット
|
| 42 |
+
|
| 43 |
+
追加事前学習用データセットとして、主に以下の内容からなる医療系コーパス(トークン数 78.3B)を用いました。
|
| 44 |
+
|
| 45 |
+
### 文書種別
|
| 46 |
+
|
| 47 |
+
- 医学生物学論文フルテキスト
|
| 48 |
+
- 医学生物学論文アブストラクト
|
| 49 |
+
- 医療系Webクロールデータ
|
| 50 |
+
- 学術研究レポート
|
| 51 |
+
- 医学教科書
|
| 52 |
+
- 薬剤添付文書
|
| 53 |
+
- 専門機関発行文書:
|
| 54 |
+
- 学会発行の診療ガイドライン
|
| 55 |
+
- 医療機関・行政機関による医療関連文書
|
| 56 |
+
- 製薬企業等による医療情報・医薬品情報
|
| 57 |
+
- ベンチマークの学習用データセット:医師国家試験過去問(2006年から2017年までの12年分)、USMLE過去問を含む
|
| 58 |
+
|
| 59 |
+
### コンテクスト長拡張を目的とした追加事前学習用データセット
|
| 60 |
+
|
| 61 |
+
上記の医療系コーパスから、目的とするコンテクスト長に合わせてサンプリングしたサブセットを用いて、コンテクスト長を 4096 から 32,768 まで段階的に拡張するための追加事前学習を実施しました。
|
| 62 |
+
|
| 63 |
+
### 指示チューニング用データセット
|
| 64 |
+
|
| 65 |
+
追加事前学習の後、以下のデータセットを用いた指示チューニングも実施されています。
|
| 66 |
+
|
| 67 |
+
- [LLM-jp-3.1シリーズ](https://llmc.nii.ac.jp/topics/llm-jp-3-1_instruct4/) で用いられた指示チューニングデータセット(instruct4)
|
| 68 |
+
- 医療系ベンチマークデータセットの学習用データセット(医師国家試験過去問題や USMLE 過去問題など)
|
| 69 |
+
- 自由回答形式の医学知識に関する質問応答 など
|
| 70 |
+
|
| 71 |
+
```python
|
| 72 |
+
import torch
|
| 73 |
+
from transformers import AutoTokenizer, AutoModelForCausalLM
|
| 74 |
+
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-13b-instruct")
|
| 75 |
+
model = AutoModelForCausalLM.from_pretrained("SIP-med-LLM/SIP-jmed-llm-3-8x13b-OP-32k-R0.1", device_map="auto", torch_dtype=torch.bfloat16)
|
| 76 |
+
chat = [
|
| 77 |
+
{"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい���"},
|
| 78 |
+
{"role": "user", "content": "心筋梗塞の主要な症状を教えて下さい。"},
|
| 79 |
+
]
|
| 80 |
+
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
|
| 81 |
+
with torch.no_grad():
|
| 82 |
+
output = model.generate(
|
| 83 |
+
tokenized_input,
|
| 84 |
+
max_new_tokens=100,
|
| 85 |
+
do_sample=True,
|
| 86 |
+
top_p=0.95,
|
| 87 |
+
temperature=0.7,
|
| 88 |
+
repetition_penalty=1.05,
|
| 89 |
+
)[0]
|
| 90 |
+
print(tokenizer.decode(output))
|
| 91 |
+
```
|
| 92 |
+
|
| 93 |
+
## 技術仕様の詳細
|
| 94 |
+
|
| 95 |
+
トークナイザーなどの詳細な技術仕様については、[llm-jp/llm-jp-3-8x13b](https://huggingface.co/llm-jp/llm-jp-3-8x13b)のページを参照してください。
|
| 96 |
+
|
| 97 |
+
## メンテナンス情報
|
| 98 |
+
|
| 99 |
+
- リリース日: 2026 年 3 月 4 日
|
| 100 |
+
- 最終更新日: 2026 年 3 月 4 日
|
| 101 |
+
- バージョン: 1.0.0
|
| 102 |
+
- 問い合わせ先: [sip-med-llm-contact@nii.ac.jp](sip-med-llm-contact@nii.ac.jp) へご連絡ください。
|