Limaiの頭脳

統合LLMトレーニングシステム

0総学習イベント

Limaiとおしゃべり

通常モード

教師あり学習 (Supervised Fine-Tuning)

入力→出力ペアで直接学習

こう言われたら...

こう答える

マルコフ連鎖学習

文章から単語の繋がりを自動学習

学習させたい文章

💡 長い文章ほど自然な応答が可能に

RLHF (人間のフィードバックから学習)

応答を評価して品質を向上

1. 会話する

→

2. 👍/👎で評価

→

3. 改善を提案

→

4. 学習完了！

KTO (Kahneman-Tversky Optimization)

単一評価から効率的に学習 - ペアデータ不要

👍 良い応答として記録 → 似た応答を優先

👎 悪い応答として記録 → 似た応答を避ける

⚡ チャットで応答を評価すると自動的にKTO学習が適用されます

DPO (Direct Preference Optimization)

比較評価で好みを直接学習

チャットで「比較して」と言うと、DPO比較モードを開始できます

ニューラルネットワーク (Pure Lisp実装)

深層学習でカテゴリ分類

★ Limaiの成長 ★

Lv.1

読み込み中...

テレパシー精度: 0%

トレーニング概要

📚

SFT0ペア

🔗

Markov0単語

👍

RLHF0評価

⚡

KTO0更新

⚖️

DPO0比較

🧠

NN0語彙

🧠 ニューラルネットワーク

▼

語彙数0

学習率0.1

層構造1000000→128→5

👍 RLHF統計

▼

良い評価

要改善

改善済み

🔗 統合アーキテクチャ

入力テキスト

↓

NN分類

↓

Markov生成

↓

SFT参照

↓

RLHF/KTO/DPO調整

↓

最終応答

📊 基本統計

💬700会話数

🌍571訪問者

📖8368辞書サイズ