Advanced Parliament RL System · 高级议会强化学习系统完整文档

📖 系统概述

Advanced Parliament RL System 是一个用C语言实现的多智能体强化学习框架，模拟议会决策过程。系统包含6个具有不同策略的智能体成员，每个成员都集成了深度Q网络(DQN)、元学习、集成模型和Transformer注意力机制。

🎯 核心目标

通过多智能体协同进化，在动态环境中做出最优决策，实现系统性能的持续提升。

🏛️ 议会机制

模拟真实议会决策过程：成员提案、讨论、投票、决策执行、反馈学习、进化适应。

🧬 进化学习

结合遗传算法和强化学习，实现智能体的持续进化和适应性提升。

🏗️ 系统架构

✨ 核心特性

多智能体强化学习 — 6个具有不同策略的智能体，每个集成DQN + 元学习 + 集成模型
元学习(Meta-Learning) — 快速适应新任务，内循环和外循环优化
集成学习(Ensemble) — 5个神经网络集成，动态权重调整，不确定性估计
Transformer注意力 — 多头注意力机制，序列决策建模
优先级经验回放 — 基于TD误差的优先级采样，提高学习效率
自适应进化 — 遗传算法驱动的成员进化，环境压力动态调整
实时监控 — 性能报告、健康检查、自动检查点
交互式控制 — 支持status、evolve、add、save、load等命令

🤖 智能体架构

每个议会成员都是一个完整的强化学习智能体，包含以下核心组件：

深度Q网络 (DQN)

// 神经网络结构
输入层: STATE_DIM (20维状态)
隐藏层1: 128个神经元 (ReLU)
隐藏层2: 64个神经元 (ReLU)
输出层: ACTION_DIM (10个动作)

元学习模块

// MAML风格元学习
内循环: 快速适应新任务 (5步梯度更新)
外循环: 元网络优化 (META_LEARNING_RATE)
任务性能: 跨任务泛化能力评估

集成学习模型

// 5个神经网络集成
- 动态权重更新 (基于损失)
- 不确定性估计 (方差计算)
- 置信度阈值 (0.7)
- 模型剪枝与添加

动作空间 (10个动作)

动作	描述	奖励范围
ACTION_SUPPORT	支持提案	0.1-0.3
ACTION_OPPOSE	反对提案	-0.1-0.1
ACTION_ABSTAIN	弃权	0.0
ACTION_PROPOSE_ALTERNATIVE	提出替代方案	0.3-0.5
ACTION_REQUEST_INFO	请求信息	0.05
ACTION_FORM_COALITION	形成联盟	0.2
ACTION_DELAY_DECISION	推迟决策	-0.05
ACTION_COMPROMISE	妥协	0.15-0.25
ACTION_EXTREME_SUPPORT	极端支持	0.4
ACTION_EXTREME_OPPOSE	极端反对	-0.3

🧠 核心算法详解

1. 深度Q学习 (DQN)

Q(s,a) ← Q(s,a) + α[r + γ·maxₐ'Q(s',a') - Q(s,a)]

参数:
- α: 学习率 (0.001)
- γ: 折扣因子 (0.95)
- ε: 探索率 (1.0 → 0.01)

2. 优先级经验回放 (PER)

优先级: P(i) = |δ_i|^α + ε
采样概率: P(i) = p_i^α / Σ_k p_k^α
重要性权重: w_i = (N·P(i))^(-β)

3. 元学习 (MAML)

内循环: θ' = θ - α·∇_θ L_T(θ)
外循环: θ ← θ - β·∇_θ Σ_T L_T(θ')

4. 集成学习预测

预测: y = Σ_i w_i · f_i(x)
权重更新: w_i ∝ exp(-L_i / Σ_j L_j)
不确定性: σ² = Σ_i (f_i(x) - ȳ)²

5. 进化算法

选择: 基于适应度排序 (fitness = 0.4·perf + 0.3·exp + 0.3·adapt)
变异: 高斯噪声 N(0, σ²)
交叉: 加权平均
创新: 动态添加新成员

⚡ 快速开始

编译与运行

# 克隆仓库
git clone https://github.com/example/advanced-parliament-rl.git
cd advanced-parliament-rl

# 创建构建目录
mkdir build && cd build

# CMake配置与编译
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j4

# 运行系统
./advanced_rl_parliament

交互命令

status        - 显示详细系统状态
evolve        - 手动触发进化过程
add <name> <type> - 添加新成员
save [file]   - 保存系统状态
load [file]   - 加载系统状态
performance   - 显示性能报告
reset         - 重置系统
help          - 显示帮助
quit          - 退出系统

💡 提示：系统每50个会话自动创建检查点，每25个会话输出性能报告。

📚 API 参考

核心结构体

// 神经网络
typedef struct {
    int input_size, output_size, hidden_count;
    int hidden_sizes[NN_MAX_LAYERS];
    double weights[NN_MAX_LAYERS][NN_MAX_NODES][NN_MAX_NODES];
    double biases[NN_MAX_LAYERS][NN_MAX_NODES];
    double activations[NN_MAX_LAYERS+1][NN_MAX_NODES];
} NeuralNetwork;

// RL智能体
typedef struct {
    NeuralNetwork policy_net, target_net;
    ReplayBuffer replay_buffer;
    EnsembleModel ensemble;
    MetaLearner meta_learner;
    double epsilon, learning_rate, gamma;
    // ...
} RLAgent;

// 议会
typedef struct {
    Member members[MAX_MEMBERS];
    Decision decisions[MAX_DECISIONS];
    EvolutionState evolution_state;
    double overall_performance;
    // ...
} Parliament;

核心函数

// 系统初始化
void parliament_init(Parliament* parliament);
void rl_agent_init(RLAgent* agent, int id);

// 运行会话
void parliament_run_session(Parliament* parliament);

// 智能体决策
int rl_agent_select_action(RLAgent* agent, const double* state);
void rl_agent_update(RLAgent* agent, const double* state, int action, 
                     double reward, const double* next_state, bool done);

// 元学习
void meta_learning_adapt(MetaLearner* meta, const double* task_data, 
                         const double* task_target, int data_size);
void meta_learning_update(MetaLearner* meta, const double* meta_batch_data,
                          const double* meta_batch_target, int batch_size);

// 进化
void parliament_evolve(Parliament* parliament);
void evolution_innovate(EvolutionState* state, Parliament* parliament);

⚡ 性能测试

测试环境：Intel i7-12700H, 16GB RAM, Ubuntu 22.04

测试项	结果	说明
单会话耗时	~0.5秒	包含决策生成和成员学习
神经网络前向传播	~0.8μs	20维输入→10维输出
元学习适应	~2.3ms	5步内循环
集成模型预测	~4.1μs	5个模型集成
内存占用	~45MB	6个智能体 + 议会状态

📊 实验结果

运行100会话统计

指标	初始值	100会话后	变化
整体性能	1.50	1.563	↑ 4.2%
平均适应性	0.65	0.588	↓ 9.5%
平均探索率	1.00	0.544	↓ 45.6%
累计总奖励	0	64.03	持续增长
进化代数	0	10	10次进化
环境压力	0.1	1.3	↑ 1200%

成员性能对比

成员	策略	专长	适应性	累计奖励
Gamma-Meta	元学习适应	1.000	0.946	高
Delta-Ensemble	集成决策	1.000	0.919	高
Alpha-DQN	保守学习	0.935	0.592	中
Beta-Transformer	Transformer	1.000	0.339	中

📈 性能趋势：系统整体性能呈现上升趋势，元学习和集成学习策略表现最优。

⚖️ 许可证

MIT License

特此免费授予任何获得本软件及相关文档文件副本的人无限制使用本软件的权利，包括但不限于使用、复制、修改、合并、出版、分发、再许可和/或销售本软件副本的权利。

本软件按"原样"提供，不提供任何明示或暗示的保证。

🏛️ Advanced Parliament
RL System

🎯 核心模块

📈 运行统计

Advanced Parliament RL System 🏛️ 高级议会强化学习系统

📖 系统概述

🎯 核心目标

🏛️ 议会机制

🧬 进化学习

🏗️ 系统架构

✨ 核心特性

🤖 智能体架构

深度Q网络 (DQN)

元学习模块

集成学习模型

动作空间 (10个动作)

🧠 核心算法详解

1. 深度Q学习 (DQN)

2. 优先级经验回放 (PER)

3. 元学习 (MAML)

4. 集成学习预测

5. 进化算法

⚡ 快速开始

编译与运行

交互命令

📚 API 参考

核心结构体

核心函数

⚡ 性能测试

📊 实验结果

运行100会话统计

成员性能对比

⚖️ 许可证

🏛️ Advanced ParliamentRL System

🎯 核心模块

📈 运行统计

Advanced Parliament RL System 🏛️ 高级议会强化学习系统

📖 系统概述

🎯 核心目标

🏛️ 议会机制

🧬 进化学习

🏗️ 系统架构

✨ 核心特性

🤖 智能体架构

深度Q网络 (DQN)

元学习模块

集成学习模型

动作空间 (10个动作)

🧠 核心算法详解

1. 深度Q学习 (DQN)

2. 优先级经验回放 (PER)

3. 元学习 (MAML)

4. 集成学习预测

5. 进化算法

⚡ 快速开始

编译与运行

交互命令

📚 API 参考

核心结构体

核心函数

⚡ 性能测试

📊 实验结果

运行100会话统计

成员性能对比

⚖️ 许可证

🏛️ Advanced Parliament
RL System