美文网首页
Android neon加速优化

Android neon加速优化

作者: VE视频引擎 | 来源:发表于2021-05-06 15:30 被阅读0次

neon是一种SIMD(单指令多数据)指令集,其效率相当于汇编,用于arm cpu平台的优化,在音视频、图形图像处理领域性能提升较大。arm架构的CPU从armv7a开始已经支持neon(可选项),从而实现并行计算功能。

本文记录一下在android上使用neon加速的方法。

首先不用多说先创建支持native C++的android工程

然后在gradle中添加对neon的支持:

    externalNativeBuild { 
        cmake { 
            cppFlags "-std=c++14" 
            arguments "-DANDROID_ARM_NEON=TRUE" 
        } 
    } 

还要在cmake中添加对neon的支持 "-mfpu=neon"

最后在cpp中 #include<arm_neon.h>

这样,项目就可以支持neon加速了。

为了比较性能,现在用neon和纯C方法比较一下将彩色图片转成灰度的时间

//纯C函数
void method_argb2gray_c(AndroidBitmapInfo info, void *pixels) {
    // rgb转灰度值公式
    // Gray = (R*38 + G*75 + B*15) >> 7
    cv::TickMeter tm1;
    tm1.start();
    uint32_t *pixel = NULL;
    int a = 0, r = 0, g = 0, b = 0;
    int rows=info.height;
    int cols=info.width;

    for (int y = 0; y < rows; ++y) {
        for (int x = 0; x < cols; ++x) {
            pixel = (uint32_t *) pixels + info.width * y + x;
            a = (*pixel & 0xFF000000) >> 24;
            r = (*pixel & 0x00FF0000) >> 16;
            g = (*pixel & 0x0000FF00) >> 8;
            b = (*pixel & 0x000000FF) >> 0;
            int gray = (r * 38 + g * 75 + b * 15) >> 7;

            *pixel = ((a << 24) | (gray << 16) | (gray << 8) | gray);
        }
    }
    tm1.stop();
    LOGI("method_argb2gray_c      time: %lf", tm1.getTimeMilli());
}
//neon函数
void method_argb2gray_neon(AndroidBitmapInfo info, void *pixels) {
    // Gray = (R*38 + G*75 + B*15) >> 7
    TickMeter tm3;
    tm3.start();
    unsigned short *dst = (unsigned short *) pixels;
    unsigned char *src = (unsigned char *) pixels;
    uint8x8_t r = vdup_n_u8(38);
    uint8x8_t g = vdup_n_u8(75);
    uint8x8_t b = vdup_n_u8(15);
    uint16x8_t alp = vdupq_n_u16(255 << 8);

    uint16x8_t temp;
    uint8x8_t gray;
    uint8x8x4_t argb;
    uint16x8_t hight;
    uint16x8_t low;
    uint16x8x2_t res;
    int i, size = info.height * info.width / 8;

    for (i = 0; i < size; ++i) {

        //获取r、g、b值,计算灰度值
        argb = vld4_u8(src);
        temp = vmull_u8(argb.val[1], r);
        temp = vmlal_u8(temp, argb.val[2], g);
        temp = vmlal_u8(temp, argb.val[3], b);
        gray = vshrn_n_u16 (temp, 7);
        src += 8 * 4;

        //赋值4通道argb
        hight = vorrq_u16(alp, vmovl_u8(gray));
        low = vorrq_u16(vshlq_n_u16(vmovl_u8(gray), 8), vmovl_u8(gray));
        res = vzipq_u16(low, hight);
        vst1q_u16(dst, res.val[0]);
        dst += 8;
        vst1q_u16(dst, res.val[1]);
        dst += 8;

    }
    tm3.stop();
    LOGI("method_argb2gray_neon   time: %lf", tm3.getTimeMilli());
} 

实测速度比较如下

file

相关文章

  • Android neon加速优化

    neon是一种SIMD(单指令多数据)指令集,其效率相当于汇编,用于arm cpu平台的优化,在音视频、图形图像处...

  • 收集_性能优化

    Android性能优化(一)之启动加速35%Android性能优化(二)之布局优化面面观Android性能优化(三...

  • Android使用neon加速memcpy

      欢迎大家关注一下我开源的一个音视频库,HardwareVideoCodec是一个高效的Android音视频编码...

  • 性能问题_01参考文章

    参考文章 : Android性能优化(一)之启动加速35% Android性能优化(二)之布局优化面面观 Andr...

  • GNU C内嵌汇编语言

    大部分的移动端深度学习框架都会使用到neon优化对深度算法的算子进行优化,有些使用了Neon Instructio...

  • neon优化实践

    1 平台 在win上安装vmware,在vmware上安装Ubuntu。 2 开发工具Android NDK 在N...

  • NEON优化基础

    NEON是ARM处理器的128位SIMD(单指令,多数据)架构扩展,主要是通过用一条指令,执行多个相同的数据计算来...

  • NEON加速之memcpy在ARM平台的优化

    0x01 前言 系统里面经常需要大量地搬运数据,一般调用的都是memcpy() C库来实现,因此本着“揪牛角尖”的...

  • Android性能优化(二)之布局优化面面观

    一、初识布局优化 通过《Android性能优化(一)之启动加速35%》我们获得了闪电般的App启动速度,那么在应用...

  • 什么?!NEON还要优化?

    官网介绍: NEON宏观介绍 NEON Programmer’s Guide Version: 1.0 直观认识 ...

网友评论

      本文标题:Android neon加速优化

      本文链接:https://www.haomeiwen.com/subject/evdddltx.html