Linux下的音频采集_linux 音频采集-程序员宅基地

写在前面的话：以下代码均是从自己的项目中摘出来的，类似调试打印，结构体都是自己定义的，需要修改后才能使用，需要源码的可直接到总结博客写一个自己的小型视频监控系统

开始写代码前，需要先了解一些基础的音频知识，有看到一篇很不错的基础讲解博客：https://blog.csdn.net/caoshangpa/article/details/51218597

这里我再简单把这几个重要的属性说明下：

1.采样率：声音信号是在物理学中是波，有相应的振幅，频率等，是一个连续信号，需要转化为离散信号才可被计算机处理（大学的数字信号处理有介绍这些）。采样率越高，音质越好，相应的占用空间越大。电话对讲中使用8kHZ采样率，可以满足人与人之间基本对话了。

2.采样长度（位数）：每次采样的字节数，也是越大越清晰，但占用空间相应也会增大，现在常见的都是16位。

3.通道数： 单通道无法辨别声源位置，主要影响的是人的听觉体验，通道数越多，体验越好，相对应的占用空间也会越大，就使用而言，单声道和双声道均可以满足音频的日常使用

4.帧：对PCM而言，没什么用

5.周期：对设备读取或者访问的单位

6.交错模式：音频数据的存储方式左右交替存储

7.非交错模式：先存左声道，再存右声道

8.比特率：这里写个公式好了，比特率=采样率×通道数×采样长度，就是每秒钟要发送的比特位。

说到Linux下的音频采集，应该没人不知道ALSA。只是做简单的音频采集，不做什么特别高端的音频功能，alsa肯定是不二选择。alsa调用过程也很简单，就是把上面介绍的参数统统配置给驱动，然后让驱动把pcm流推给我们就好。

ALSA接口介绍有一篇很详细的文章：https://blog.csdn.net/yuzaipiaofei/article/details/90582554

英文还可以的建议直接看手册：https://www.alsa-project.org/alsa-doc/alsa-lib/

大致流程：打开设备->配置参数->读取音频数据

1.设备初始化（打开设备+配置参数）

typedef struct
{
    snd_pcm_t *handle;
    snd_pcm_uframes_t frames;
    int buffSize;
    char* readBuffer;
    void (*deal_pcm)(void*,int);
}AudioParam;

// 输入参数先不增加，采样率，采样长度，通道数，交错模式，周期都先写死
int audio_init(AudioParam *audioParam)
{ 
    snd_pcm_hw_params_t *params;
    unsigned int sampleRate = 8000;
    snd_pcm_uframes_t frames = 1024;
    int retValue = -1;

    // 摄像头只有麦克，只实现录音功能
    retValue = snd_pcm_open(&(audioParam->handle), "default", SND_PCM_STREAM_CAPTURE, 0);
    if(retValue < 0)
    {
        DBGLOG("can not open pcm device:%s\n", snd_strerror(retValue));
        return ERROR;
    }

    snd_pcm_hw_params_alloca(&params);

    // 使用默认参数
    snd_pcm_hw_params_any(audioParam->handle, params);
    snd_pcm_hw_params_set_access(audioParam->handle, params, SND_PCM_ACCESS_RW_INTERLEAVED);    // 交错访问
    snd_pcm_hw_params_set_format(audioParam->handle, params, SND_PCM_FORMAT_S16_LE);    // 有符号16bit，小端 2bytes
    snd_pcm_hw_params_set_channels(audioParam->handle, params, 1);  // 单声道
    snd_pcm_hw_params_set_rate_near(audioParam->handle, params, &sampleRate, 0);    // 采样率8k
    snd_pcm_hw_params_set_period_size_near(audioParam->handle, params, &frames, 0);

    retValue = snd_pcm_hw_params(audioParam->handle, params);
    if(retValue < 0)
    {
        DBGLOG("set hw params error:%s\n", snd_strerror(retValue));
        return ERROR;
    }

    snd_pcm_hw_params_get_period_size(params, &(audioParam->frames), 0);
    audioParam->buffSize = audioParam->frames * 2; // 16bit = 2bytes / sample , 1 channel
    return OK;
}

打开设备使用函数snd_pcm_open，这里我们主要关心第二个函数入参，我只接了摄像头自己的带的麦，直接用default，就是摄像头自己麦的输出，但如果有多个麦克的话，则需要确认下哪个是默认麦克，因为虚拟机有alsa-lib，使用aplay -l，可以查看设备，我接了两个麦克后，会新增一个设备，如：

[~]$aplay -l
**** List of PLAYBACK Hardware Devices ****
card 0: AudioPCI [Ensoniq AudioPCI], device 0: ES1371/1 [ES1371 DAC2/ADC]
  Subdevices: 1/1
  Subdevice #0: subdevice #0
card 0: AudioPCI [Ensoniq AudioPCI], device 1: ES1371/2 [ES1371 DAC1]
  Subdevices: 1/1
  Subdevice #0: subdevice #0
card 2: Microphone [USB Microphone], device 0: USB Audio [USB Audio]
  Subdevices: 1/1
  Subdevice #0: subdevice #0

此时我们可以指定使用哪个麦克，将“default”换为“hw:0,0”或者“hw：2,0”即可指定麦克输入。只有一个的情况下直接default最为简单，此处我只是多接一个麦测试下。因为摄像头只有麦克，所以只是作为输入源使用，没有写alsa播放的代码，采样率，采样长度，通道数等也都是一次性写死的，前期方便设置的来做，感兴趣的可以把这些参数作为函数入参去测试下，正好了解下音频的属性。这里强调一下使用snd_pcm_hw_params_set_period_size_near来设置一次中断返回的数据单元（以帧为单位），每帧的数据量跟声道数，采样长度有关系。驱动会根据配置的值找一个相邻的或者就是原始值，即可能不是配置的值，故要重新snd_pcm_hw_params_get_period_size来获取驱动返回的周期，来申请接收缓冲区，这里我设置的是单声道，有符号16bit采样长度，所以申请的缓冲区大小为驱动返回的大小乘以2

2.读取音频数据

int audio_read_pcm(AudioParam *audioParam)
{
    int retValue = -1;

    if(NULL == audioParam || NULL == audioParam->handle || audioParam->frames <= 0)
    {
        DBGLOG("audio_read_pcm input error!\n");
        return ERROR;
    }

    
    audioParam->readBuffer = (char*)malloc(audioParam->buffSize);
    if(NULL == audioParam->readBuffer)
    {
        DBGLOG("audio_read_pcm malloc error!\n");
        return ERROR;
    }
    
    retValue = snd_pcm_readi(audioParam->handle, audioParam->readBuffer, audioParam->frames);
    if(-EPIPE == retValue)
    {
        DBGLOG("overrun occurred!\n");
        snd_pcm_prepare(audioParam->handle);
    }
    else if(retValue < 0)
    {
        DBGLOG("read error: %s\n", snd_strerror(retValue));
        return ERROR;
    }
    else if(retValue != (int)audioParam->frames)
    {
        DBGLOG("read %d less than frames[%d]\n", retValue, (int)audioParam->frames);
        return ERROR;
    }
    else
    {
        audioParam->deal_pcm(audioParam->readBuffer, audioParam->buffSize);
    }
    return OK;
}

void audio_close(AudioParam *audioParam)
{
    if(NULL != audioParam->handle)
    {
        snd_pcm_drain(audioParam->handle);
        snd_pcm_close(audioParam->handle);
    }

    if(NULL != audioParam->readBuffer)
    {
        free(audioParam->readBuffer);
        audioParam->readBuffer = NULL;
    }
}

读取操作就比较简单了，调用接口，收到是之前配置的周期处理单元数据就可以直接处理数据了。需要注意的一点是前面初始化时候snd_pcm_hw_params_set_access设置的是交错模式则使用snd_pcm_readi，设置的是非交错模式则使用snd_pcm_readn。返回值是-EPIPE则说明是数据管道异常，可能是正好瞬时性能不足导致之类的，可以使用snd_pcm_prepare恢复。

测试Demo：

void save_pcm(void* start, int length)
{
    char fileName[64] = {0};
    int fd = -1;

    snprintf(fileName, sizeof(fileName), "./test/pcm/test.pcm");
    printf("%s\n", fileName);
    fd = open(fileName, O_RDWR | O_CREAT | O_APPEND , 0666);
    if(fd < 0)
        printf("open:%d %s\n", errno, strerror(errno));
    write(fd, start, length);
    close(fd);
}


int get_file_size(void)
{
    struct  stat devStat;
    memset(&devStat, 0, sizeof(devStat));
    stat("./test/pcm/test.pcm", &devStat);
    return devStat.st_size;
}

void start_audio_capture(void)
{
    AudioParam audioParam;
    memset(&audioParam, 0, sizeof(audioParam));
    audioParam.deal_pcm = save_pcm;

    if(audio_init(&audioParam) < 0)
    {
        DBGLOG("audio_init error\n");
        return;
    }

    while(get_file_size() < 50*1024)
    {
        if(audio_read_pcm(&audioParam) < 0)
        {
            DBGLOG("audio_read_pcm error!\n");
            return;
        }
    }
    

    audio_close(&audioParam);
}

这里写了个小的测试demo，直接将采集的pcm存入文件，读取50k的数据，可以用Adobe audition或者cool edit等工具查看pcm是否正常。

相较于v4l2的调用，alsa的调用其实还是比较简单的，现在有了pcm可以准备下一步工作——编码。

本文链接：https://blog.csdn.net/qq_41813395/article/details/114559866

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

hdu 1229 还是A+B（水）-程序员宅基地

文章浏览阅读122次。还是A+BTime Limit: 2000/1000 MS (Java/Others)Memory Limit: 65536/32768 K (Java/Others)Total Submission(s): 24568Accepted Submission(s): 11729Problem Description读入两个小于10000的正整数A和B，计算A+B。...

http客户端Feign——日志配置_feign 日志设置-程序员宅基地

文章浏览阅读419次。HEADERS：在BASIC的基础上，额外记录了请求和响应的头信息。FULL：记录所有请求和响应的明细，包括头信息、请求体、元数据。BASIC：仅记录请求的方法，URL以及响应状态码和执行时间。NONE：不记录任何日志信息，这是默认值。配置Feign日志有两种方式；方式二：java代码实现。注解中声明则代表某服务。方式一：配置文件方式。_feign 日志设置

[转载]将容器管理的持久性 Bean 用于面向服务的体系结构-程序员宅基地

文章浏览阅读155次。将容器管理的持久性 Bean 用于面向服务的体系结构本文将介绍如何使用 IBM WebSphere Process Server 对容器管理的持久性 (CMP) Bean的连接和持久性逻辑加以控制，使其可以存储在非关系数据库..._javax.ejb.objectnotfoundexception: no such entity!

基础java练习题（递归）_java 递归例题-程序员宅基地

文章浏览阅读1.5k次。基础java练习题一、递归实现跳台阶从第一级跳到第n级，有多少种跳法一次可跳一级，也可跳两级。还能跳三级import java.math.BigDecimal;import java.util.Scanner;public class Main{ public static void main(String[]args){ Scanner reader=new Scanner(System.in); while(reader.hasNext()){ _java 递归例题

面向对象程序设计（荣誉）实验一 String_对存储在string数组内的所有以字符‘a’开始并以字符‘e’结尾的单词做加密处理。-程序员宅基地

文章浏览阅读1.5k次，点赞6次，收藏6次。目录1.串应用- 计算一个串的最长的真前后缀题目描述输入输出样例输入样例输出题解2.字符串替换(string)题目描述输入输出样例输入样例输出题解3.可重叠子串 (Ver. I)题目描述输入输出样例输入样例输出题解4.字符串操作（string）题目描述输入输出样例输入样例输出题解1.串应用- 计算一个串的最长的真前后缀题目描述给定一个串，如ABCDAB，则ABCDAB的真前缀有：{ A, AB,ABC, ABCD, ABCDA }ABCDAB的真后缀有：{ B, AB,DAB, CDAB, BCDAB_对存储在string数组内的所有以字符‘a’开始并以字符‘e’结尾的单词做加密处理。

算法设计与问题求解/西安交通大学本科课程MOOC/C_算法设计与问题求解西安交通大学-程序员宅基地

文章浏览阅读68次。西安交通大学/算法设计与问题求解/树与二叉树/MOOC_算法设计与问题求解西安交通大学

随便推点

[Vue warn]: Computed property “totalPrice“ was assigned to but it has no setter._computed property "totalprice" was assigned to but-程序员宅基地

文章浏览阅读1.6k次。问题：在Vue项目中出现如下错误提示：[Vue warn]: Computed property "totalPrice" was assigned to but it has no setter. (found in <Anonymous>)代码：<input v-model="totalPrice"/>原因：v-model命令，因Vue 的双向数据绑定原理，会自动操作 totalPrice，对其进行set 操作而 totalPrice 作为计..._computed property "totalprice" was assigned to but it has no setter.

basic1003-我要通过！13行搞定：也许是全网最奇葩解法_basic 1003 case 1-程序员宅基地

文章浏览阅读60次。十分暴力而简洁的解决方式：读取P和T的位置并自动生成唯一正确答案，将题给测点与之对比，不一样就给我爬！_basic 1003 case 1

服务器浏览war文件,详解将Web项目War包部署到Tomcat服务器基本步骤-程序员宅基地

文章浏览阅读422次。原标题：详解将Web项目War包部署到Tomcat服务器基本步骤详解将Web项目War包部署到Tomcat服务器基本步骤1 War包War包一般是在进行Web开发时，通常是一个网站Project下的所有源码的集合，里面包含前台HTML/CSS/JS的代码，也包含Java的代码。当开发人员在自己的开发机器上调试所有代码并通过后，为了交给测试人员测试和未来进行产品发布，都需要将开发人员的源码打包成Wa..._/opt/bosssoft/war/medical-web.war/web-inf/web.xml of module medical-web.war.

python组成三位无重复数字_python组合无重复三位数的实例-程序员宅基地

文章浏览阅读3k次，点赞3次，收藏13次。# -*- coding: utf-8 -*-# 简述：这里有四个数字，分别是：1、2、3、4#提问：能组成多少个互不相同且无重复数字的三位数？各是多少？def f(n):list=[]count=0for i in range(1,n+1):for j in range(1, n+1):for k in range(1, n+1):if i!=j and j!=k and i!=k:list.a..._python求从0到9任意组合成三位数数字不能重复并输出

ElementUl中的el-table怎样吧0和1改变为男和女_elementui table 性别-程序员宅基地

文章浏览阅读1k次，点赞3次，收藏2次。<el-table-column prop="studentSex" label="性别" :formatter="sex"></el-table-column>然后就在vue的methods中写方法就OK了methods: { sex(row,index){ if(row.studentSex == 1){ return '男'; }else{ return '女'; }..._elementui table 性别

java文件操作之移动文件到指定的目录_java中怎么将pro.txt移动到design_mode_code根目录下-程序员宅基地

文章浏览阅读1.1k次。java文件操作之移动文件到指定的目录_java中怎么将pro.txt移动到design_mode_code根目录下