本发明涉及一种基于深度Q神经网络的主动悬架强化学习控制方法,属于汽车动态控制和人工智能技术领域。本发明中强化学习控制器主体从悬架系统中获取车身加速度、悬架动挠度等状态观测量,利用策略来决定合理的主动力施加给悬架系统,悬架系统根据主动力改变当前时刻的状态,同时产生一个奖励值来评判当前主动力的好坏。设定合理的奖励函数,结合从环境中获取的动态数据,便能确定出一种最优策略来决定主动控制力的大小,使得控制系统整体在大量训练下性能更加优越。基于深度Q神经网络的强化学习控制方法使得主动悬架系统能够动态自适应调节,从而克服传统悬架控制方法难以解决的参数不确定性和多变路面干扰等因素带来的影响,在保证车辆整体的安全性前提下,尽可能提高乘客的乘坐舒适性。
本实用新型公开一种便于调节化学机械抛光装置,包括底盘,所述底盘底端的外侧壁上开设有环型槽,所述环型槽的内部滑动连接有固定环,本实用新型所达到的有益效果是:本实用新型通过设置复位机构、卡位机构、防护结构和增压机构,针对不同晶圆表面进行抛光需要调节底盘与抛光头之间的压力时,能够调节气囊的膨胀程度,调节压覆在底盘上的抛光头与底盘之间的压力,能够调节底盘的上表面与晶圆之间的而压力,避免在对不同晶圆进行抛光时影响对晶圆的表面的抛光效果,通过设置卡位机构、复位机构和防护机构,在需要对底盘进行检修或者更换时,进行拆卸的操作简单,更换结束后,进行安装的操作简单,便于对底盘进行检修和更换,使用方便。
本发明公开了一种基于深度强化学习的航空发动机压缩部件特性修正方法,首先建立航空发动机部件级数学模型,计算数学模型与实际航空发动机之间的量测误差,并基于发动机非线性部件模型的压缩部件特性定义修正系数,然后采用基于价值的深度强化学习算法DQN,通过自主学习对压缩部件特性图进行修正,并计算压缩部件特性修正系数;最后对航空发动机部件级数学模型的特性曲线进行更新,实现减小输出数据的误差;本发明解决了现有部件级模型精度不高,泛化能力不强的问题,适用于发动机发生性能退化后模型的修正,对于发动机健康管理、模型自适应修正、传感器故障诊断等有积极的促进作用。
本发明公开了一种用于闭环射流摇滚抑制控制器设计的强化学习平台,该平台包括滚转单自由度虚拟飞行系统、翼面压力感知系统、展向射流激励器控制系统,滚转单自由度虚拟飞行系统是一种带磁编码器的滚转单自由度释放机构,用以安装实验模型,并使其能够在风洞中自由滚转;翼面压力感知系统包括翼面压力孔阵列和采集芯片;展向射流激励器控制系统,包括展向射流激励器以及流量控制系统。本发明利用磁编码器、压力传感器提供高维的观测量,利用射流控制取代传统副翼增强控制效果,为飞行器摇滚控制搭建了一个基于闭环射流控制系统的强化学习平台,为强化学习在大迎角飞行控制上的应用奠定基础。
本发明公开一种基于注意力机制和强化学习的自动特征构造方法,依次包括以下步骤:步骤1:给定分类问题的数据集DTR,包含一个数值型特征集合S,设置参数最大迭代次数maxIterations,嵌入尺寸embeddingSize的取值;步骤2:将数据集和参数传入该自动特征构造方法,运行得到分类结果。该方法包含基于自注意力机制的特征生成器和基于强化学习的特征选择器,通过迭代不断探索与利用所生成的特征,在有限步骤内以全局最优的特征生成和选择方案指导测试集的特征生成,从而自动得到最优的分类结果。
本发明公开了管状EKG层进式电化学注浆软基加固试验方法及装置,该方法将真空预压、电化学注浆加固法结合起来,并利用EKG管的可导电、可注浆和耐腐蚀功能,对土体进行二次加固,同时,采用分开注浆方式进行注浆。本发明装置包括有机玻璃模型槽,EKG管为一新型导电塑料排水管,两组铜导线贯穿并对称地插入管壁中,可同时作为电渗电极、竖向排水通道及电化学注浆管,在阴阳极和中间位置各布置一根带孔PVC管;模型槽底板阴极上开有孔洞并用橡胶塞密封,EKG管中的铜线可用导线与外接电源连接,EKG管分别布置在模型槽沿长度方向的两侧。本发明可以准确监测土体的排水量、电势电流变化等,改善土体加固效果,提高软基承载力,加固效果更均匀。
本发明公开了一种基于深度强化学习的智能电热水器保温档负荷控制方法,包括以下步骤:采用LSTM网络利用过去48小时电价预测未来24小时电价;采用基于DQN的深度强化学习算法,将电力消耗和用户满意度同时作为好策略的衡量标准,并根据用户自身的需求调节二者所占比重。根据所预测的电价训练电热水器保温档负荷控制智能体学习得到使得奖励值最高的策略,使其在高电价时选择较低功率,低电价时选择较高功率,在尽可能保证用户满意度的同时节省更多电力消耗,以获得一个性能优良且适用性较高的电热水器负荷控制智能体。
本发明公开了一种机器人室内行走强化学习路径导航算法,包括以下步骤:机器人为一个运动物体,机器人前部装有直射探测器,探测器可以向正前方发射信号,运动物体通过收到的反射信号,知道正前方某个距离处有障碍物,不能继续直线前进,需要改变行进方向;运动物体决定向左或者向右转弯,并执行向左或向右动作继续前进,当遇到下一个障碍物时,重复向右或向左的转弯动作;经过强化学习,形成一个最佳的路线,后续行驶按照已经学习成功的路径进行。本发明方法合理,实用性强,主要用在室内或者没有卫星定位信号或者面积相对较小的区域,目标是实现室内导航。
本发明公开一种基于模仿学习和强化学习算法的无人机飞行控制方法:创建无人机飞行仿真环境模拟器;定义飞行的基本动作集合;根据飞行基本动作将轨迹数据进行分类;对于每个飞行动作,利用模仿学习学出从飞行基本动作到原始动作的映射网络参数;统计每个基本动作的最小连续行动数量;构建上层的强化学习网络,并将最小连续行动数量作为飞机动作不一致性的惩罚p加入;在模拟器中,获取当前的观测信息和奖励,使用pDQN算法,选取对应飞行基本动作;将飞机自身的状态信息输入到飞行基本行动对应的模仿学习神经网络中,输出模拟器的原始行动;将得到的原始行动输入到模拟器中获取下个时刻的观测和奖励;使用pDQN算法进行训练,直到上层的策略网络收敛。
本发明公开了一种基于强化学习的可靠车载边缘计算卸载方法,用于由于城市障碍物导致的路侧单元(RSUs)覆盖范围有限,或者路侧单元计算能力不足等场景中,车辆可以借助无人机(UAV)进行可靠的计算卸载。本发明所述方法将最大化系统效用和最小化功率消耗的多目标优化问题,转化为功率分配问题和计算卸载问题两个子问题,由无人机和路侧单元共同完成任务的分配和计算。该方法通过为传输功率创建机会约束,使用Chebyshev不等式转化机会约束,推导出最小传输功率,确保任务传输的可靠性。本发明通过改进的深度强化学习模型提高计算卸载效率,利用多目标优化问题的结果,调整深度强化学习模型中预测的目标Q值,实现边缘服务器的离线训练,在线更新。
本实用新型是一种可提高结构稳定性的腐蚀电化学实验用简易复合电极,包括:参比电极槽由固定塞、溶液槽、参比电极、外盐桥构成,溶液槽和外盐桥中都注满了参比电极相对应的溶液,外盐桥固定在固定塞中,参比电极插入外盐桥中;盐桥一端插入参比电极槽中,另一端引出电极槽外,将参比电极的电位输出到电解槽中;辅助电极固定在盐桥的侧面,辅助电极的大表面的角度根据工作电极测试表面的角度位置可调节的。本复合电极将两个电极功效合一,可提高实验效率,结构稳定性强,功效多样,应用广泛,可开展多种类工作电极的腐蚀电化学测试。
本发明提出的一种基于深度强化学习的低时延高可靠性资源分配方法,考虑了处于基站覆盖范围外的NR‑V2X侧链资源分配,其中车辆根据自己观测到的信息以及在训练阶段得到的Q网络调度5G网络中供V2V用户使用的URLLC切片资源。为了最大化V2V通信的能量效率,并且保证通信的可靠性以及时延要求,提出了一种使用集中式训练、分布式执行的深度强化学习架构,借助DDQN学习方法训练出满足上述要求的模型。将资源分配问题中目标和约束的建模都转化为深度强化学习中收益的设计,可以有效解决V2V用户信道分配和功率选择的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。
本发明公开一种基于强化学习的多目标复杂交通场景下自动驾驶解决方法,该方法可以使用一套强化学习自动驾驶建模方法处理所有交通场景,具有较好的通用性。强化学习综合建模基于传统强化学习框架,使用环境感知信息及结合人类知识提取的特征量作为观测空间。模型训练基于时变训练策略,提高训练速度和策略应用的泛化性。为对其形式安全性作进一步保障,还提出了基于长短时记忆(LSTM)网络的危险动作识别器与基于人类知识体的规则约束器,从环境中采样并训练危险动作识别器,使车辆具备识别危险动作与危险场景的能力,并针对特定情形设计规则约束对输出动作加以限制,可以大大提高安全性,减少碰撞次数,以保障车辆的行驶安全。
本实用新型公开了一种化学实验室酸碱废液分离装置,包括一排废主管,所述排废主管的底端部固定连接有一排废支管,所述排废支管的一侧壁固定连接有第一连管,所述第一连管远离排废支管的一端固定连接有盛放斗,所述盛放斗的内腔设置有漏网板,所述盛放斗的顶部卡接有可拆卸的料塞。本实用新型涉及化学实验器材技术领域,该化学实验室酸碱废液分离装置,通过利用化学反应和机械装置使废液分离自动化,在定期添加药品的条件下可多次使用。相比普通的废液收集装置,本发明无需在倾倒废液前测量pH,程序简单,可以大大降低因废液错误倾倒导致的风险。
本发明公开了一种基于多智能体强化学习的车联网频谱共享方法,包括建立车联网系统模型,基于马尔科夫决策过程建立强化学习中观测空间、行为空间、奖励设定的基础模型,然后将系统模型中的车辆链路视为智能体,利用强化学习SAC(Soft Actor‑critic)思想设计频谱共享方法。本发明的设计方案能够以合作的方式实现车联网中车辆与车辆(Vehicle‑to‑Vehicle,V2V)链路和车联与路旁基础设施(Vehicle‑to‑Roadside Infrastructure,V2I)链路的频谱共享,保证最大化V2I链路的信道容量和性能和V2V链路载荷的成功传输概率性能。
本发明公开了一种化学指示卡识别判读系统,其特征在于包括:图像采集单元,通过探头获取化学指示卡的信息;按键单元,用于开关设备及激活和隐藏菜单、调节设备参数;信号处理单元,通过主板芯片对探头采集的信息进行处理,为信号(图形)输出到显示屏做准备;图像处理单元,根据指示卡上提供的信息,通过算法判定当前指示卡的结果;显示单元,用于显示输出化学指示卡的实时图像、显示按键的菜单操作、显示判定结果。存储单元,根据预设的频率自动存储当前指示卡的图像和判定结果。本发明实现了对化学指示卡结果的客观、准确、实时判断,体积小、重量轻、具有一体性、可视化交互界面、操作便捷,为医院监测灭菌工作提供了便捷的工具。
本发明公开了一种基于深度强化学习的信息聚合短波选频方法。该方法为:将高动态的短波环境下的选频问题,转化为高动态短波通信环境下的信道增益、用户间的互扰和环境中的干扰三个子问题;对于高动态短波通信环境下的信道增益问题,把短波信道情况输入神经网络,对短波下一个时刻的信道增益进行预测,并将输出记为G;对于用户间的互扰和环境中的干扰问题,通过深度强化学习网络训练得到下一个时刻选择每一个信道的通信干扰情况,并将输出记为R;把训练的到的G与R输入到信息聚合深度强化学习网络,通过数据的不断训练,深度强化学习网络得到下一个时刻信道选择的最优解,指导下一个时刻选频。本发明提升了复杂环境下的短波通信能力。
本发明是一腐蚀电化学实验用的简易复合电极,包括:参比电极槽由固定塞、溶液槽、参比电极、外盐桥构成,溶液槽和外盐桥中都注满了参比电极相对应的溶液,外盐桥固定在固定塞中,参比电极插入外盐桥中;盐桥一端插入参比电极槽中,另一端引出电极槽外,将参比电极的电位输出到电解槽中;辅助电极固定在盐桥的侧面,辅助电极的大表面的角度根据工作电极测试表面的角度位置可调节的。本复合电极将两个电极功效合一,可提高实验效率,结构稳定性强,功效多样,应用广泛,可开展多种类工作电极的腐蚀电化学测试。
本发明公开了一种基于强化学习的无人驾驶汽车多车道行驶的决策方法,首先建立强化学习训练模型,利用强化学习算法收益函数对神经网络参数进行更新、修正从而建立基于强化学习‑BP神经网络算法的决策系统。无人驾驶汽车在多车道行驶过程中,传感器采集周围车辆信息,上述决策系统给出执行动作并预测车辆行驶状态,由收益函数判断车辆行驶危险度,决策多车道工况下车辆当前时刻的最优驾驶行为。本发明能提升无人驾驶汽车多车道高速行驶的效率与安全性,实现在高不确定性、动态环境下的无人驾驶汽车高效、安全的驾驶决策。
多环芳烃-镉复合污染土壤的化学强化植物修复方法,属于土壤污染治理领域。其步骤为:(A)测量土壤中镉和多环芳烃菲和芘的含量,进行柳树的插种;(B)柳树插种四个月后加入由乳酸乙酯与乙二胺四乙酸组成的化学强化剂。柳树为金丝垂柳J1011,其种植密度分别为每5、50和6mg/kg土壤中菲、芘和镉每平方米种植4~6株。本发明避免了植株矮小、生长速度慢、地上部生物量小等植物修复的缺陷;降低了植物提取修复土壤中重金属镉的环境风险;这些化学强化剂的加入在提高单独用有机配体作为螯合萃取剂修复重金属的修复效率,同时也增强了对土壤中有机污染物多环芳烃的修复效果,实现了土壤中镉和多环芳烃复合污染的同时修复。
本发明公开了一种基于强化学习的涡扇发动机直接推力智能控制方法,包括以下步骤:步骤1),选取策略和评价网络结构和参数,设计考虑关键安全参数保护的直接推力制器形式和强化学习环境的奖励形式;步骤2),基于连续型策略梯度强化学习算法,利用部件级模型搭建环境进行探索,通过探索获得的经验训练智能体策略网络和评价网络;步骤3),测试智能体在全包线范围内的控制性能表现,优化网络结构和参数。本发明解决了涡扇发动机间接推力控制动态性能差、保守性高、推力控制不精确等问题,通过本发明设计的奖励激励智能体在全包线范围内搜寻动态性能最优的直接推力控制器,并且保证发动机关键安全参数在控制过程中不超限。
本发明公开了面向处理单元部署的基于值函数的强化学习方法,对于基于值函数更新的此类强化学习方法,提供了一种将处理单元图部署在物理节点上的对应框架,充分利用强化学习能够通过多次部署尝试得到处理单元部署的更优方案的优点,得到使处理单元图部署后的响应时间更低的部署方法。本发明根据复杂事件处理在边缘计算环境下的特性,来预测响应时间。并根据复杂事件处理响应时间的特性,针对限制了处理单元图整体响应时间的处理单元进行优先部署,来降低处理单元图整体响应时间。
本发明公开了一种快速检测花生过敏原蛋白Arah2的方法,本发明将包裹在磁珠/金纳米颗粒/海藻酸盐/氧化石墨烯复合水凝胶中的大鼠嗜碱性白血病(RBL‑2H3)肥大细胞固定在玻碳电极上构建肥大细胞传感器,通过对过敏原蛋白Arah2刺激下肥大细胞的反应进行电化学分析,使用电化学阻抗谱记录和测定过敏原蛋白Ara h2的含量。所开发的细胞传感器对Arah2浓度范围在0.02到0.1ng/mL之间具有较高的检测精度,检测限为8pg/mL。本方法与市售ELISA试剂盒相比检测结果相一致,证明本发明提出的用于检测花生过敏原的方法简单易操作,灵敏度高且检测结果准确可靠,具有十分广阔的应用前景。
本发明公开了一种基于自适应强化学习的飞机维修路径优化方法,属于航空技术领域,首先考虑飞机运行中的飞行时间、起降架次、遍历天数与机场容量四项维修约束,构建四天为周期的飞机维修路径模型以保证航班连接收入与飞机维修成本差值最大化;其次,基于自适应变动因子提出改进强化学习求解算法,该算法以门特卡罗决策为基本内核,通过“探索‑利用”不断迭代的方式求解模型;最终基于航空公司真实航班计划,由小至大规模数据检验模型与算法的实际有效性能,解决了为航空企业提供具有实际应用价值的路径优化模型的技术问题,基于民航运行实际情况,考虑四种维修约束,构建改进连接网络下的飞机维修路径模型,兼顾航班连接收益与维修操作成本。
本发明公开了一种基于多智能体深度强化学习的MU‑MISO混合预编码设计方法,适用于通信中下行系统使用。该方法中基站构建多个用于计算模拟预编码矩阵的深度强化学习智能体,每个智能体包含一个动作预测网络及一个带优先级的经验池,各智能体共用一个中心化的奖励值预测网络和一个中心化的评价网络,协同探索模拟预编码策略。该方法中基站获取多个用户的信道状态信息,将用户信道信息输入所构建的智能体,输出相应的模拟预编码矩阵;进而通过迫零预编码和注水算法计算包含各用户数字预编码向量的数字预编码矩阵。其能有效解决大规模MIMO系统中混合预编码设计复杂度高且可达速率性能不佳的问题,且对信道环境具有较强的鲁棒性。
本发明公开一种基于六轴机械臂的化学实验自动化系统,包括中央控制系统,所述中央控制系统包括工作站系统控制模块和3D仿真场景控制模块;所述工作站系统控制模块,用于工作站系统各机器人运行轨迹的控制及位置参数的显示;本发明公开的化学实验自动化操作系统,将六轴机械臂与可移动装置相结合,极大提高了六轴机械臂的工作范围,工作能力也更加灵活,与3D场景仿真验证相结合,完全能够胜任化学实验操作任务。通过本发明提出的化学实验自动化操作系统,能够帮助化学实验人员完成测试性化学实验的初步筛选,节约大量时间。
本发明公开了一种基于自适应权重强化学习的六足机器人避障方法,步骤包括:由六足机器人通过测距传感器测量机器人与附近各个障碍物的距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;根据上述训练好的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at。该避障方法能够在障碍物数量较多的位置环境中实现较好的避障效果,具有良好的市场应用前景。
本发明涉及一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法。该方法包括以下步骤:利用传感器进行数据采集,获得原始追踪场景数据;对原始追踪场景数据进行分类,获得不同目标追踪场景下的数据;针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略,最优策略是一个神经网路,输入为卡尔曼滤波器的预测值与传感器的测量值,输出的动作为卡尔曼滤波器的更新方法;将最优策略进行线下部署,应用到实际的追踪场景进行目标追踪。本发明适用于实际传感器网络中的目标追踪,有效提高了追踪的精度。
本发明公开一种基于强化学习的无人机传感器故障时容错控制方法,测定无人机各项物理常数,搭建无人机环境模拟器,在训练时随机设置传感器故障干扰无人机控制并使用DDPG算法训练无人机控制策略模型,逐步增加无人机故障种类并将稳定表现的策略收集到容错控制策略候选池中,在仿真环境随机故障测试后,得到最优的容错控制策略;在推理阶段,对于训练好的策略模型,基于策略网络输出交给无人机执行。本发明在仿真环境中模拟无人机不同的传感器故障组合,在策略与环境交互时,保证固定比例的无故障样本数据的存在,使得强化学习可以同时学习到传感器故障时和非故障时的飞行策略,使得无人机传感器故障时的容错控制更加鲁棒,高效。
本发明公开了一种基于强化学习和视线法的无人艇路径跟踪方法,拟采用DDPG对可视距离进行合理的预测,让无人艇“学会”根据当前状态动态地调整可视距离。包括如下步骤:S1.搭建无人艇仿真模型,定义无人艇运动参数;S2.设计基于强化学习基本框架对可视距离进行预测,拟采用双层全连接神经网络作为DDPG四个子网络的基本结构,激活函数采用Leaky‑ReLU;S3.设计强化学习和视线法结合的PID控制框架;S4.对步骤S3中设计好的模型进行训练并保存训练参数。S5.对于同样的初始状态做对比仿真实验、实艇实验。本发明的方法使得船舶在航行过程中获得更高精度、更快速的航迹跟踪。
中冶有色为您提供最新的江苏南京有色金属分析检测技术理论与应用信息,涵盖发明专利、权利要求、说明书、技术领域、背景技术、实用新型内容及具体实施方式等有色技术内容。打造最具专业性的有色金属技术理论与应用平台!