双目视觉处理系统开发实例-基于米尔安路国产DR1M90开发板

发布时间:2025-2-21 14:15    发布者:swiftman
关键词: 安路 , 飞龙DR1M90 , 嵌入式 , 双目视觉 , 米尔
1. 系统架构解析

本系统基于米尔MYC-YM90X构建,基于安路飞龙DR1M90处理器,搭载安路DR1 FPGA SOC 创新型异构计算平台,充分发挥其双核Cortex-A35处理器与可编程逻辑(PL)单元的协同优势。通过AXI4-Stream总线构建的高速数据通道(峰值带宽可达12.8GB/s),实现ARM与FPGA间的纳秒级(ns)延迟交互,较传统方案提升了3倍的传输效率,极大地提升了系统整体性能。


国产化技术亮点
  • 全自主AXI互连架构,支持多主多从拓扑,确保系统灵活性与可扩展性
  • 硬核处理器与PL单元共享DDR3控制器,提高内存带宽利用率(可升级至DDR4)
  • 动态时钟域隔离技术(DCIT),确保跨时钟域的数据交互稳定性,避免时序错误
  • 国产SM4加密引擎硬件加速模块,为数据加密任务提供硬件级别的支持,提升加密处理效率


2.png

图一 系统架构框图

如图一所示,系统架构通过“低内聚,高耦合”的设计思想,通过模块化的设计方式,完成了以下工作。

1.     通过I²C对OV5640摄像头进行分辨率,输出格式等配置。

2.     双目图像数据进行三级帧缓存,FIFO——DMA——DDR。

3.     客制化低延迟ISP(开发者根据场景需求加入)

4.     VTC驱动HDMI输出显示


2. 系统程序开发
2.1 DR1固件架构设计

GUI设计界面,类Blockdesign设计方式,通过AXI总线,连接DR1的ARM核与定制化外设,包括以太网,RAM模块,PL DMA和VTC。

3.png

图二 FPGA底层架构框图


2.2 双目视觉处理流水线
2.2.1 传感器配置层

为实现高效的传感器配置,本系统采用混合式I²C配置引擎,通过PL端硬件I²C控制器实现传感器参数的动态加载。与纯软件方案相比,该硬件加速的配置速度提升了8倍,显著降低了配置延迟。

  1. // 可重配置传感器驱动IP  
  2. module ov5640_config (  
  3. input wire clk_50M,  
  4. output tri scl,  
  5. inout tri sda,  
  6. input wire [7:0] reg_addr,  
  7. input wire [15:0] reg_data,  
  8. output reg config_done  
  9. );  
  10. // 支持动态分辨率切换(1920x1080@30fps ↔ 1280x720@60fps)  
  11. parameter [15:0] RESOLUTION_TABLE[4] = '{...};
复制代码

该配置引擎支持多分辨率与高帧率动态切换,适应不同应用场景需求。


2.2.2 数据采集管道

系统构建了三级缓存体系,确保数据处理的高效性和实时性:

  • 像素级缓存:采用双时钟FIFO(写时钟74.25MHz,读时钟100MHz),实现数据的稳定缓存和传输。
  • 行缓冲:使用BRAM的乒乓结构(每行1920像素×16bit),减少数据延迟。
  • 帧缓存:通过DDR3-1066 1GB内存支持四帧循环存储,确保图像的持续流畅展示。
  1. // 位宽转换智能适配器  
  2. module data_width_converter #(  
  3. parameter IN_WIDTH = 16,  
  4. parameter OUT_WIDTH = 96  
  5. )(  
  6. input wire [IN_WIDTH-1:0] din,  
  7. output wire [OUT_WIDTH-1:0] dout,  
  8. // 时钟与使能信号  
  9. );  
  10. // 采用流水线式位宽重组技术  
  11. always_ff @(posedge clk) begin  
  12. case(state)  
  13. 0: buffer <= {din, 80'b0};  
  14. 1: buffer <= {buffer[79:0], din};  
  15. // ...6周期完成96bit组装  
  16. endcase  
  17. end
复制代码

2.2.3. 异构计算调度

系统通过AXI-DMA(Direct Memory Access)实现零拷贝数据传输,优化内存和外设间的数据交换:

  • 写通道:PL→DDR,采用突发长度128、位宽128bit的高速数据传输
  • 读通道:DDR→HDMI,配合动态带宽分配(QoS等级可调),确保不同带宽需求的动态适配

2.2.4 VTC显示引擎深度优化
  • PL DMA输出显示优化
  • 显示时序的优化对高质量图像输出至关重要。通过VTC(Video Timing Controller),本系统能够实现多模式自适应输出。
  1. axi_hdmi_tx#(  
  2. .ID(0),  
  3. .CR_CB_N(0),  
  4. .DEVICE_TYPE(17), // 17 for DR1M  
  5. .INTERFACE("16_BIT"),  
  6. .OUT_CLK_POLARITY (0)  
  7. )  
  8. axi_hdmi_tx_inst (  
  9. .hdmi_clk (pll_clk_150),  
  10. //.hdmi_clk (clk1_out),  
  11. .hdmi_out_clk (hdmi_clk ),  
  12. .hdmi_16_hsync (hdmi_hs ),  
  13. .hdmi_16_vsync (hdmi_vs ),  
  14. .hdmi_16_data_e (hdmi_de),  
  15. .hdmi_16_data (/*hdmi_data*/ ),  
  16. // .hdmi_16_data (hdmi_data ),  
  17. .hdmi_16_es_data (hdmi_data),  
  18. .hdmi_24_hsync (),  
  19. .hdmi_24_vsync (),  
  20. .hdmi_24_data_e (),  
  21. .hdmi_24_data (/*{r_data,g_data,b_data}*/),  
  22. .hdmi_36_hsync (),  
  23. .hdmi_36_vsync (),  
  24. .hdmi_36_data_e (),  
  25. .hdmi_36_data (),  
  26. .vdma_clk (pll_clk_150 ),  
  27. .vdma_end_of_frame (dma_m_axis_last ),  
  28. .vdma_valid (dma_m_axis_valid ),  
  29. .vdma_data (dma_m_axis_data ),  
  30. .vdma_ready (dma_m_axis_ready),  
  31. .s_axi_aclk (S_AXI_ACLK ),  
  32. .s_axi_aresetn (S_AXI_ARESETN ),  
  33. .s_axi_awvalid (axi_ds5_ds5_awvalid ),  
  34. .s_axi_awaddr (axi_ds5_ds5_awaddr ),  
  35. .s_axi_awprot (axi_ds5_ds5_awprot ),  
  36. .s_axi_awready (axi_ds5_ds5_awready ),  
  37. .s_axi_wvalid (axi_ds5_ds5_wvalid ),  
  38. .s_axi_wdata (axi_ds5_ds5_wdata ),  
  39. .s_axi_wstrb (axi_ds5_ds5_wstrb ),  
  40. .s_axi_wready (axi_ds5_ds5_wready ),  
  41. .s_axi_bvalid (axi_ds5_ds5_bvalid ),  
  42. .s_axi_bresp (axi_ds5_ds5_bresp ),  
  43. .s_axi_bready (axi_ds5_ds5_bready ),  
  44. .s_axi_arvalid (axi_ds5_ds5_arvalid ),  
  45. .s_axi_araddr (axi_ds5_ds5_araddr ),  
  46. .s_axi_arprot (axi_ds5_ds5_arprot ),  
  47. .s_axi_arready (axi_ds5_ds5_arready ),  
  48. .s_axi_rvalid (axi_ds5_ds5_rvalid ),  
  49. .s_axi_rresp (axi_ds5_ds5_rresp ),  
  50. .s_axi_rdata (axi_ds5_ds5_rdata ),  
  51. .s_axi_rready (axi_ds5_ds5_rready)  
  52. );
复制代码

  • 动态时序生成器
  • 通过PL-PLL动态调整像素时钟,确保显示无卡顿、无闪烁,误差控制在<10ppm内。
  1. // VTC配置代码片段(Anlogic SDK)  
  2. void config_vtc(uint32_t h_total, uint32_t v_total) {  
  3. VTCRegs->CTRL = 0x1; // 使能软复位  
  4. VTCRegs->HTOTAL = h_total - 1;  
  5. VTCRegs->VTOTAL = v_total - 1;  
  6. // 详细时序参数配置  
  7. VTCRegs->POLARITY = 0x3; // HS/VS极性配置  
  8. VTCRegs->CTRL = 0x81; // 使能模块  
  9. }
复制代码

3. 硬件连接与测试
  • 硬件连接

米尔的安路飞龙板卡采用2 X 50 PIN 连接器设计,可灵活插拔多种子卡,配合子卡套件,可扩展成多种形态,多种应用玩法。

4.png

图三 使用模组,底板,子卡和线缆搭建硬件系统(使用米尔基于安路飞龙DR1M90开发板)


  • 显示测试

实测双目显示清晰,无卡帧,闪屏。

5.png

图四 输出显示效果


  • 系统集成
  • 在FPGA硬件描述文件的基础上,进一步在Linux下实现双摄,为复杂系统调度应用铺平道路。
  • 内核加载5640驱动下通过dma搬运ddr数据,在应用层中通过v4l2框架显示到HDMI上,完整数据流如下:
  • FPGA DDR → AXI-DMA控制器 → Linux DMA引擎 → 内核dma_buf  → V4L2 vb2队列 → mmap用户空间 → 应用处理

三路DMA设备树HDMI、camera1、camera2代码片段:

  1. //hdmi  
  2. soft_adi_dma0: dma@80400000 {  
  3. compatible = "adi,axi-dmac-1.00.a";  
  4. reg = <0x0 0x80400000 0x0 0x10000>;  
  5. interrupts = ;  
  6. clocks = <&axi_dma_clk>;  
  7. #dma-cells = <1>;  
  8. status = "okay";  

  9. adi,channels {  
  10. #size-cells = <0>;  
  11. #address-cells = <1>;  

  12. dma-channel@0 {  
  13. reg = <0>;  
  14. adi,source-bus-width = <32>;  
  15. adi,source-bus-type = <0>;  
  16. adi,destination-bus-width = <64>;  
  17. adi,destination-bus-type = <1>;  
  18. };  
  19. };  
  20. };  
  21. // cam1  
  22. mipi_adi_dma0: dma@80300000 {  
  23. compatible = "adi,axi-dmac-1.00.a";  
  24. reg = <0x0 0x80300000 0x0 0x10000>;  
  25. interrupts = ;  
  26. clocks = <&axi_dma_clk>;  
  27. #dma-cells = <1>;  
  28. status = "okay";  

  29. adi,channels {  
  30. #size-cells = <0>;  
  31. #address-cells = <1>;  

  32. dma-channel@0 {  
  33. reg = <0>;  
  34. adi,source-bus-width = <128>;  
  35. adi,source-bus-type = <1>;  
  36. adi,destination-bus-width = <64>;  
  37. adi,destination-bus-type = <0>;  
  38. };  
  39. };  
  40. };  
  41. //cam2  
  42. mipi_adi_dma1: dma@80700000 {  
  43. compatible = "adi,axi-dmac-1.00.a";  
  44. reg = <0x0 0x80700000 0x0 0x10000>;  
  45. interrupts = ;  
  46. clocks = <&axi_dma_clk>;  
  47. #dma-cells = <1>;  
  48. status = "okay";  

  49. adi,channels {  
  50. #size-cells = <0>;  
  51. #address-cells = <1>;  

  52. dma-channel@0 {  
  53. reg = <0>;  
  54. adi,source-bus-width = <128>;  
  55. adi,source-bus-type = <1>;  
  56. adi,destination-bus-width = <32>;  
  57. adi,destination-bus-type = <0>;  
  58. };  
  59. };  
  60. };
复制代码

双路i2c OV5640设备树配置代码片段


  1. camera@3c {  
  2.               compatible = "ovti,ov5640";  
  3.               pinctrl-names = "default";  
  4.             //   pinctrl-0 = <&pinctrl_ov5640>;  
  5.               reg = <0x3c>;  
  6.               clocks = <&ov5640_clk>;  
  7.               clock-names = "xclk";  
  8.             //   DOVDD-supply = <&vgen4_reg>; /* 1.8v */  
  9.             //   AVDD-supply = <&vgen3_reg>;  /* 2.8v */  
  10.             //   DVDD-supply = <&vgen2_reg>;  /* 1.5v */  
  11.             powerdown-gpios = <&portc 8 GPIO_ACTIVE_HIGH>;  
  12.             reset-gpios = <&portc 7 GPIO_ACTIVE_LOW>;  
  13.               port {  
  14.                   /* Parallel bus endpoint */  
  15.                   ov5640_out_0: endpoint {  
  16.                       remote-endpoint = <&vcap_ov5640_in_0>;  
  17.                       bus-width = <8>;  
  18.                       data-shift = <2>; /* lines 9:2 are used */  
  19.                       hsync-active = <0>;  
  20.                       vsync-active = <0>;  
  21.                       pclk-sample = <1>;  
  22.                   };  
  23.               };  
  24.           };
复制代码


  • 性能测试

性能实测数据。

指标

实测值

理论峰值

图像处理延迟

18.7ms

≤20ms

DDR吞吐量

2GB/s

2.6GB/s

功耗(全负载)

3.8W

4.2W

启动时间(Linux)

18s

-



4. 场景化应用扩展

该方案可广泛应用于以下领域:

  • 智能驾驶:前视ADAS系统,包含车道识别和碰撞预警
  • 工业检测:高速AOI(自动光学检测)流水线,提升检测精度和效率
  • 医疗影像:内窥镜实时增强显示,支持多视角成像
  • 机器人导航:SLAM(同步定位与地图构建)点云加速处理,提升机器人自主导航能力

通过安路TD 2024.10开发套件,开发者能够快速移植和定制化开发,具体包括:

  • 使用GUI图形化设计约束工具,简化硬件开发过程
  • 调用预置的接口与处理器IP,加速产品开发上市时间,专注应用和算法的处理
  • 进行动态功耗分析(DPA)与仿真,确保系统的稳定性与高效性

0. One More Thing…

这里,回到我们原点,回到我们开发设计国产 FPGA SOC的初衷 ,芯片也好,模组也好,都只是开始,无论是FPGA,SOC,或者SOM,都是为了以更快,更好,平衡成本,体积,开发周期,开发难度,人员配置等等综合因素,做出的面向解决问题的选择,最终结果是降低成本和产品力的平衡。

安路飞龙系列的问世,让我们很欣喜看见国产SOC FPGA的崛起,希望和业界开发者一起开发构建国产SOC FPGA生态,所以选择将系列教程以知识库全部开源,共同无限进步!

6.png

7.png

米尔可能只是其中非常非常小的一个数据集,但会尽力撬动更大贡献。



本文地址:https://www.eechina.com/thread-882258-1-1.html     【打印本页】

本站部分文章为转载或网友发布,目的在于传递和分享信息,并不代表本网赞同其观点和对其真实性负责;文章版权归原作者及原出处所有,如涉及作品内容、版权和其它问题,我们将根据著作权人的要求,第一时间更正或删除。
您需要登录后才可以发表评论 登录 | 立即注册

厂商推荐

  • Microchip视频专区
  • 无线充电基础知识及应用培训教程3
  • 基于CEC1712实现的处理器SPI FLASH固件安全弹性方案培训教程
  • PIC18-Q71系列MCU概述
  • 为何选择集成电平转换?
  • 贸泽电子(Mouser)专区

相关视频

关于我们  -  服务条款  -  使用指南  -  站点地图  -  友情链接  -  联系我们
电子工程网 © 版权所有   京ICP备16069177号 | 京公网安备11010502021702
快速回复 返回顶部 返回列表