Research Article | | Peer-Reviewed

Key Technologies for Target-Driven Autonomous UAV Inspection in Power Grids Based on Reinforcement Learning

Received: 10 September 2025     Accepted: 11 October 2025     Published: 29 October 2025
Views:       Downloads:
Abstract

To address the challenges of low automation and poor adaptability to complex environments in power grid UAV inspections, this study analyzes the architecture and operational constraints of intelligent UAV inspection systems, clarifying optimization goals in terms of efficiency, safety, and intelligence. A closed-loop autonomous flight control method is proposed, integrating high-precision target recognition, dynamic path planning, and reinforcement learning–based optimization. Furthermore, a Transformer-based global obstacle perception and risk assessment approach is designed to construct a holistic “perception–decision–control” technical framework. Field experiments demonstrate that the proposed strategy significantly enhances flight path planning efficiency, obstacle recognition accuracy, and operational safety. The results provide scalable technical support for advancing the digital transformation of power grids and promoting the development of new-type power systems.

Published in Science Discovery (Volume 13, Issue 5)
DOI 10.11648/j.sd.20251305.13
Page(s) 95-100
Creative Commons

This is an Open Access article, distributed under the terms of the Creative Commons Attribution 4.0 International License (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted use, distribution and reproduction in any medium or format, provided the original work is properly cited.

Copyright

Copyright © The Author(s), 2025. Published by Science Publishing Group

Keywords

Drone, Obstacle Perception, Intelligent Inspection, Dynamic Path Planning, Reinforcement Learning

1.引言
随着我国能源结构的调整,电力需求逐年增长,确保输电网的安全可靠至关重要。目前,随着特高压技术的日趋成熟,高压电网的密度大幅提升,传统的人工巡检已无法满足高效、安全、经济的维护需求。无人机技术以其灵活、低成本、高效率成为电力线路巡检的重要工具。然而,现有的无人机巡检系统仍然存在自动化程度低、路径规划不优、避障精度不足等挑战。本文提出了一种基于强化学习、面向目标的自主无人机巡检方案,通过融合强化学习技术,实现路径规划、实时决策和避障的优化,从而提升无人机巡检的效率和可靠性。
2.无人机巡检环境构建与建模方法
无人机巡检环境的构建与建模,包括从GIS数据中提取设备、杆塔、线路的GPS信息、杆塔类型、电压等级等相关参数。采用非参数化三维建模方法,建立线路杆塔及其相关部件的抽象三维模型。该方法可以灵活地重构三维模型,有效降低建模工作量和复杂度。在此模型基础上,对环境数据进行插值,确保满足无人机定位导航的高精度要求。
2.1.构建环境方法
无人机作为电力巡检的新型工具,必须确保其飞行在安全的空域中。飞行空域的复杂性直接影响无人机的飞行性能,因此,为了实现无人机的飞行避障,构建一个高精度、高标准的环境模型至关重要。本文简要介绍了拓扑图法、栅格法、结构空间法和可视图法四种环境构建方法,为后续的模型搭建提供基础模块。
2.1.1.拓扑图法
拓扑图法通过展示相关信息,能够将图中数据传递至实际应用中。由于其直观简洁、绘制简单,拓扑图广泛应用于量化地图中。通过比例拓扑优化方法,有效避免了目标计算的灵敏度问题,提高了计算效率,展现了拓扑优化法的优势。
Figure 1. 图1 网络拓扑。
2.1.2.二维栅格法
栅格法是一种常见的地图建模技术,通过将空间划分为均等的小格子,并为每个格子定义属性,构建起环境模型。栅格大小直接影响算法性能,较小的栅格能提供更高的环境精度,但也带来更高的存储需求和计算开销,从而影响规划速度和实时性;相反,较大的栅格减少了存储需求,但可能导致环境信息不够精确,影响路径规划的安全性。
2.1.3.MAKLINK法
MAKLINK法是一种自由空间建模方法,主要用于机器人路径规划。在该方法中,通过图论与多蚁群算法结合,研究了避障路径规划问题。利用MAKLINK法,能够通过连接每个虚线终点,形成可供机器人自由行进的路径,避开障碍物。
Figure 3. 图3 链接图法。
2.1.4.可视图法
可视图法将移动机器人视为质点,并利用膨胀处理技术处理障碍物,通过围绕障碍物的线段构建一个固定空间,再将该空间与起始点、终点连接,形成直线路径。该方法概念简单,易于实现,但灵活性较差,任何点的移动都会导致重新构建可视图,且路径规划未必是最优的。
2.2.三维环境建模
通过栅格化方法,可以对无人机的三维飞行空间进行建模。假设无人机在建模环境中作为质点,建立无人机的三维坐标系和航迹规划空间。在此基础上,规划空间的X、Y、Z轴分别被划分为m、n、h个平面,因此整个空间被划分为n × m × h个网格。
Figure 4. 图4 航迹规划空间。
利用栅格法对三维环境进行建模后,可以对地形表面进行网格划分,计算每个空间节点的位置(xi , yi , zi )。当某节点的z坐标小于地形高度Z时,该节点视为不可飞行区域,即地形威胁点。在此约束条件下,路径规划的目标是找到最短的飞行路径,以减少无人机的飞行距离。目标函数如下所示:
minL=i=1n(xi-xi-1)2+(yi-yi-1)2+(zi-zi-1)2(1)
(1)式中:
(xi , yi , zi ) ——可飞行区域点的坐标;
n ——路径点的个数;
L ——路径的总距离。
用 MATLAB 工具构造复杂山脉环境模
型如图所示
3.基于强化学习的动态路径规划
为了实现对电网设施(如电力线、绝缘子、塔杆等)的精准检测,系统采用高精度的目标检测模块,基于深度学习方法,特别是YOLOv8模型,结合上下文引导特征增强模块(DGF),提高小目标(如绝缘子和电力线缺陷)在复杂环境下的检测精度。在无人机电网巡检任务中,航线规划面临多重挑战,包括环境动态变化(如风场扰动、移动障碍物)、任务目标的切换以及飞行性能的约束。传统的路径规划方法,如A和RRT,通常适用于静态环境,但在动态环境中缺乏实时适应能力,无法应对不断变化的障碍物分布和任务需求。因此,针对这一问题,本研究提出了一种基于强化学习的动态航线优化技术,通过端到端策略学习,成功实现了航线的全局最优性与动态环境适应能力的统一。
本研究将无人机的航线规划问题建模为马尔科夫决策过程(MDP)。在此模型中,状态空间包括无人机的当前位置(x, y, z)、航向角、飞行速度、障碍物分布、风速扰动及任务目标位置,形成一个高维连续状态输入;动作空间则定义为无人机航向角与速度的调整量,均为连续可调变量,能够灵活匹配飞控系统的执行需求。为引导无人机在飞行中实现
多目标最优,奖励函数r(s,a)设计综合了飞行安全、能耗最小化、任务完成时间最短化以及航迹平滑性四个维度:
r(s,a)=-α1Ccollosion-α2Cenergy-α3Ctime-α4Csmooth(2)
(2)式中Ccollosion表示碰撞代价,Cenergy为单位时间能耗,Ctime为任务剩余时间,Csmooth为航迹平滑度代价,αi为各目标的权重系数。从而确保了在避障和能效之间取得最佳平衡。采用Deep Deterministic Policy Gradient (DDPG) 强化学习算法,构建了actor-critic双网络架构。在该架构中,Actor网络根据当前状态输出动作指令,实现策略映射;Critic网络对状态-动作对进行价值评估,并指导Actor策略的更新。为提高训练的稳定性和收敛速度,算法引入了经验回放(Replay Buffer)和软更新(soft update)策略,减少了样本相关性带来的梯度振荡问题。为了增强策略的泛化能力,基于Gazebo三维仿真平台构建了多场景配电网巡检环境,并通过domain randomization方法对障碍物位置、风场扰动及传感器噪声等进行随机扰动训练,显著降低了策略对特定场景的过拟合。
Figure 5. 图6 基于强化学习的动态航线优化技术路线。
最终,训练完成的强化学习策略网络能够直接部署到无人机飞控系统中,实时输出航线决策。此外,为保证飞行安全与局部动态避障能力,本研究将全局航线策略与基于动态窗口法(DWA)的局部避障模块进行耦合,形成了“双层控制体系”强化学习优化的全局路径规划与局部实时避障。该系统使无人机能够根据策略输出自主调整航向与速度,并实时规避动态障碍物,从而实现了在复杂配电网环境下航线的动态适配与优化执行。
4.基于障碍识别风险评估技术研究
在无人机配电网巡检作业中,树障作为常见且具有高度危险性的障碍物,其位置、形态及密度的复杂变化,给无人机的自主飞行和巡检任务带来了极大的挑战。尤其在复杂背景、光照变化和远距离观测的情况下,传统的基于LiDAR或双目视觉的感知方法受到空间范围和硬件成本的限制,难以提供高效且经济的解决方案。为此,本文提出了一种基于深度估计的树障识别与风险评估技术,全面整合了深度感知、目标检测与动态风险评估等技术,形成了一种“深度感知—目标检测—风险评估”一体化的树障感知与识别技术体系。这一创新性技术为无人机路径规划与飞行安全策略提供了关键的视觉感知支撑,并显著提升了无人机在电力巡检中的自主飞行安全性与任务执行效率。
4.1.基于单目相机的深度估计技术
传统的测距技术,如LiDAR,虽然精度高,但由于其高成本、较大重量以及功耗问题,不适合无人机平台使用。而双目视觉技术的集成要求较高,且在近距离复杂场景下的测距精度有限。为了克服这些局限,本文提出了基于单目相机的深度估计技术,通过神经网络模型直接从单帧RGB图像预测稠密深度图,为配电网巡检提供轻量化的感知解决方案。
Figure 6. 图7 深度估计技术路线。
本技术的核心算法是基于MiDaS深度估计神经网络,该网络结合了多尺度卷积特征提取与Transformer全局建模能力,能够从输入的RGB图像中提取丰富的纹理、边缘及结构语义信息,并通过多头自注意力机制捕获长距离像素依赖关系。这种全局建模方式有效弥补了传统卷积神经网络(CNN)在捕获长距离依赖关系方面的不足,特别是对复杂电力巡检场景中树木、导线等物体的深度估计和空间位置感知具有显著优势。
该方法不仅降低了对高成本激光雷达的依赖,还大大减少了无人机的重量和功耗,提高了无人机的飞行效率。此外,针对不同相机参数和飞行高度的影响,采用了尺度归一化策略,结合飞行高度和相机参数对深度图进行调整,从而提升了模型在多机型、多场景部署下的通用性和可靠性。
4.2.基于Transformer结构的树障检测
树障在配电网巡检任务中的形态多样,且细小树枝、藤蔓等目标在可见光图像中往往表现为纹理弱化或缺乏显著特征,传统基于卷积神经网络(CNN)的检测方法对这类目标的检测精度较低,特别是在复杂背景(如逆光、远距离或密集植被)条件下,检测效果更为不稳定。为了解决这一问题,本文采用了Vision Transformer (ViT) 结构,突破了传统CNN的局部感受野限制,通过引入多头自注意力机制实现对图像全局特征的建模。
Figure 7. 图8 多头注意力机制结构图。
ViT将输入图像划分为固定大小的小块(patch),并通过线性嵌入映射到高维特征空间,形成序列化的patch tokens表示。通过多头自注意力机制,使每个patch能够与其他patch进行信息交互,捕获长距离的上下文关系,有效提升了对稀疏树枝、细小枝杈及密集叶片等多形态树障的识别能力。该方法不仅弥补了传统卷积方法的不足,还在处理复杂背景下表现出较高的鲁棒性,有效降低了漏检率和定位误差。
Figure 8. 图9 基于 Transformer结构的全局目标感知树障检测技术流程图。
为了进一步提升对多尺度目标的检测能力,研究团队在Transformer Encoder输出后接入了Feature Pyramid Network (FPN),将多层级的特征图进行融合,保留高分辨率细节与全局上下文一致性,增强了模型对小目标的检测鲁棒性。通过多尺度特征融合和后续的目标检测,系统能够精准识别树障的空间位置和类别信息,为后续的路径规划与避障决策提供准确的输入。
Figure 9. 图10 Vision Transformer模型结构图。
4.3.基于深度估计与体素网格映射的树障风险评估
在电力巡检任务中,树障不仅影响飞行安全,还可能导致无人机与电力线缆、杆塔等设备的碰撞,因此,准确评估树障的风险是提高无人机飞行安全性的关键 。本文提出了基于深度估计与体素网格映射的树障风险评估技术,通过将稠密深度图转换为三维点云,并结合体素滤波方法,对环境进行空间离散化建模,从而为树障风险提供量化的评估。
Figure 10. 图11 基于深度估计障碍风险评估。
系统首先通过单目深度估计模块对无人机巡检图像进行像素级深度预测,并使用相机模型将深度信息转化为三维点云数据。为了确保三维点云与无人机实际飞行状态的匹配,系统通过位姿解算和坐标配准,将点云数据从相机坐标系转换到世界坐标系,构建出与飞行状态实时关联的三维环境地图。
然后,研究引入了体素滤波方法,将三维空间按照固定分辨率进行网格化处理,显著减少了数据量,提升了计算效率。在此基础上,系统对每个体素单元进行风险等级赋值,考虑到点云密度、强度及类别信息,生成涵盖空间位置、结构属性和语义信息的树障风险体素网格地图,为飞行控制系统提供实时的风险评估
通过与无人机动力学模型结合,系统进一步计算了未来飞行路径的风险代价,并基于体素网格的风险等级,实时评估航线的安全性。这一技术不仅能够实现树障的空间化、结构化感知,还为动态避障和路径优化提供了量化的决策依据,显著提高了无人机在复杂环境中的自主飞行安全性。
5.结论
本文提出了一种基于强化学习的电网目标驱动自主无人机巡检方案,集成了动态路径规划、高精度目标识别和实时风险评估技术,显著提高了巡检效率、安全性和智能化水平。通过实地验证,证明该方案有效优化了飞行路径规划、障碍物识别精度及任务执行安全性,为电网数字化转型提供了可推广的技术支持。该研究为智能无人机在复杂环境中的应用提供了重要参考,具有较强的可扩展性,能够为未来机器人、AI控制系统及智慧基础设施领域的研究和应用提供理论基础与技术保障,未来将进一步探索多无人机在复杂电力场景下的任务分配与协同决策,推动无人机自主巡检技术在电力行业及更多关键基础设施场景中的广泛应用。
基金项目
镇江市科技计划市重点研发计划项目(SH2023086、SH2023089)
References
[1] 高旭东, 张军朝, 张建等.无人机电力线路巡检安全距离测量新方法 [J]. 现代电子技术, 2020, 43(5): 146-149, 154.
[2] 潘翀, 沈鹏飞, 张忠, 等. 基于无人机巡检图像的绝缘子串实时定位研究[J]. 电瓷避雷器, 2020(1): 234-240.
[3] 邵瑰玮, 刘壮, 付晶, 等. 架空输电线路无人机巡检技术研究进展 [J]. 高电压技术, 2020, 46(1): 14-22.
[4] 黄郑, 王永强, 王红星, 等. 基于云雾边异构协同的无人机智慧巡检系统 [J]. 中国电力, 2020, 53(4): 161-168.
[5] 赵太飞, 李晗辰, 张港.无人机巡检电力线放电的紫外探测及定位 [J]. 光学精密工程, 2019, 27(11): 2296-2304.
[6] 郭敬东, 陈彬, 王仁书, 等.基于YOLO的无人机电力线路杆塔巡检图像实时检测 [J]. 中国电力, 2019, 52(7): 17-23.
[7] 曾懿辉, 何通, 郭圣, 等.基于差分定位的输电线路多旋翼无人机智能巡检 [J]. 中国电力, 2019, 52(7): 24-30.
[8] 何晓琴, 吕培庚, 李怀政, 等.基于无人机线路巡视的二次开发应用研究 [J]. 重庆理工大学学报(自然科学), 2018, 32(11): 169-173.
[9] 冯敏, 罗旺, 余磊, 等.适用于无人机巡检图像的输电线路螺栓检测方法 [J]. 电力科学与技术学报, 2018, 33(4): 135-140.
[10] 刘勇, 陈海滨, 刘方.基建现场巡检无人机智能感知系统的研究与应用 [J]. 电力系统保护与控制, 2018, 46(15): 155-161.
[11] 彭向阳, 陈驰, 饶章权, 等. 基于无人机多传感器数据采集的电力线路安全巡检及智能诊断[J]. 高电压技术, 2015, 41(1): 159-166.
[12] 彭继慎, 孙礼鑫, 王凯, 等. 基于模型压缩的ED-YOLO电力巡检无人机避障目标检测算法[J]. 仪器仪表学报, 2023(10): 160-169.
[13] 马瑞, 欧阳权, 吴兆香, 等. 基于深度强化学习的多无人机电力巡检任务规划[J]. 计算机与现代化, 2022(1): 98-102.
[14] 陈博帆, 潘可达, 陈静川, 等. 面向电力巡检场景的多无人机任务分配与路径规划方法[J/OL]. 南方电网技术, 1-9 [2025-01-19].
[15] Lu M, Fan X, Chen H, et al. Fapp: Fast and adaptive perception and planning for UAVs in dynamic cluttered environments[J]. IEEE Transactions on Robotics, 2025, 41: 871-886.
[16] Bircher A, Kamel M, Alexis K, et al. Receding horizon "next-best-view" planner for 3d exploration[C]//2016 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2016: 1462-1468.
[17] Dang T, Mascarich F, Khattak S, et al. Graph-based path planning for autonomous robotic exploration in subterranean environments [C]//2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2019: 3105-3112.
Cite This Article
  • APA Style

    Gao, S., Liu, Q., Sun, M., Zhang, H. (2025). Key Technologies for Target-Driven Autonomous UAV Inspection in Power Grids Based on Reinforcement Learning. Science Discovery, 13(5), 95-100. https://doi.org/10.11648/j.sd.20251305.13

    Copy | Download

    ACS Style

    Gao, S.; Liu, Q.; Sun, M.; Zhang, H. Key Technologies for Target-Driven Autonomous UAV Inspection in Power Grids Based on Reinforcement Learning. Sci. Discov. 2025, 13(5), 95-100. doi: 10.11648/j.sd.20251305.13

    Copy | Download

    AMA Style

    Gao S, Liu Q, Sun M, Zhang H. Key Technologies for Target-Driven Autonomous UAV Inspection in Power Grids Based on Reinforcement Learning. Sci Discov. 2025;13(5):95-100. doi: 10.11648/j.sd.20251305.13

    Copy | Download

  • @article{10.11648/j.sd.20251305.13,
      author = {Shunfeng Gao and Qinghua Liu and Min Sun and Haoran Zhang},
      title = {Key Technologies for Target-Driven Autonomous UAV Inspection in Power Grids Based on Reinforcement Learning
    },
      journal = {Science Discovery},
      volume = {13},
      number = {5},
      pages = {95-100},
      doi = {10.11648/j.sd.20251305.13},
      url = {https://doi.org/10.11648/j.sd.20251305.13},
      eprint = {https://article.sciencepublishinggroup.com/pdf/10.11648.j.sd.20251305.13},
      abstract = {To address the challenges of low automation and poor adaptability to complex environments in power grid UAV inspections, this study analyzes the architecture and operational constraints of intelligent UAV inspection systems, clarifying optimization goals in terms of efficiency, safety, and intelligence. A closed-loop autonomous flight control method is proposed, integrating high-precision target recognition, dynamic path planning, and reinforcement learning–based optimization. Furthermore, a Transformer-based global obstacle perception and risk assessment approach is designed to construct a holistic “perception–decision–control” technical framework. Field experiments demonstrate that the proposed strategy significantly enhances flight path planning efficiency, obstacle recognition accuracy, and operational safety. The results provide scalable technical support for advancing the digital transformation of power grids and promoting the development of new-type power systems.
    },
     year = {2025}
    }
    

    Copy | Download

  • TY  - JOUR
    T1  - Key Technologies for Target-Driven Autonomous UAV Inspection in Power Grids Based on Reinforcement Learning
    
    AU  - Shunfeng Gao
    AU  - Qinghua Liu
    AU  - Min Sun
    AU  - Haoran Zhang
    Y1  - 2025/10/29
    PY  - 2025
    N1  - https://doi.org/10.11648/j.sd.20251305.13
    DO  - 10.11648/j.sd.20251305.13
    T2  - Science Discovery
    JF  - Science Discovery
    JO  - Science Discovery
    SP  - 95
    EP  - 100
    PB  - Science Publishing Group
    SN  - 2331-0650
    UR  - https://doi.org/10.11648/j.sd.20251305.13
    AB  - To address the challenges of low automation and poor adaptability to complex environments in power grid UAV inspections, this study analyzes the architecture and operational constraints of intelligent UAV inspection systems, clarifying optimization goals in terms of efficiency, safety, and intelligence. A closed-loop autonomous flight control method is proposed, integrating high-precision target recognition, dynamic path planning, and reinforcement learning–based optimization. Furthermore, a Transformer-based global obstacle perception and risk assessment approach is designed to construct a holistic “perception–decision–control” technical framework. Field experiments demonstrate that the proposed strategy significantly enhances flight path planning efficiency, obstacle recognition accuracy, and operational safety. The results provide scalable technical support for advancing the digital transformation of power grids and promoting the development of new-type power systems.
    
    VL  - 13
    IS  - 5
    ER  - 

    Copy | Download

Author Information
  • School of Computing, Jiangsu University of Science and Technology, Zhenjiang, China

  • School of Automation, Jiangsu University of Science and Technology, Zhenjiang, China

  • School of Automation, Jiangsu University of Science and Technology, Zhenjiang, China

  • Dental Department, Zhengjiang 359 Hospital, Zhenjiang, China