疫情期间在校花了几个月时间,写了这个小项目,是关于音频特征提取和分析的,自己是 AI 专业研究音频的,但受限于对音频特征的理解,做研究时总感觉缺乏“底料”,所以当做是学习练手做了这个小东西。
因为是学习练手的小项目,放 github 上面后就没有太多跟进了,后来看到国内几个有名的 github 项目周报博主,想着提下 issure ,如果被收录发表的话,得到些关注获得一些 star 也是很开心的,没想到一个也没收录发表,issure 都是被忽略跳过的。
想想有些灰心,做的这个小项目本身有些偏,和前后端领域都不怎么沾边,和当前大火的 chatGPT 各种业务项目也比不了,不被收录发表也是正常的。
本来想着这个小项目能有几十个 star 就很满足的,没想到除了同学的几个 star 之外一个关注都没有,灰心丧气之时,上周竟然被国外一个 AI 新闻网站报道,带来了一些流量增加 200+star ,虽然相比 github 上一些爆火、优质的项目不值得一提,但相比之前几个 star 的情况好大多了,这是相关的文章:
https://www.marktechpost.com/2023/03/24/meet-audioflux-a-deep-learning-library-for-audio-and-music-analysis-feature-extraction/
当时还是首页报道,赶快截了图
前些天又上 github trending ,这估计纯属运气好,但持续时间并不长,又增加了一小波流量带来 100+star
这是当时的榜单,几乎都是 chatGPT 相关或其它大作的项目,我这个小项目显得有些格格不入,赶紧截图了
最后看了一些关注用户,几乎大部分都是国外的,各领域都有,一些用户质量非常高,做深度学习相关的偏多。 希望国内感兴趣的能关注支持一下,如果能参与加入进来一起做好这个开源小项目更好。
项目地址: https://github.com/libAudioFlux/audioFlux
1
sunnysab 2023-03-27 10:33:00 +08:00 via Android
star 了,祝项目越来越好!
|
3
Lirika 2023-03-27 10:35:52 +08:00
你们的英语水平真好,羡慕
|
4
xbcslzy 2023-03-27 10:40:12 +08:00
牛啊 marktechpost 是一个位于加利福尼亚州的人工智能新闻平台,拥有超过 150 万人工智能专业人士 /开发人员的社区,这是推特上的介绍。
|
5
sarvatathagata 2023-03-27 10:41:29 +08:00
@Lirika 指“提下 issure”?
|
6
xbcslzy 2023-03-27 10:43:51 +08:00 1
marktechpost 发布机器学习、深度学习相关的最新更新,追踪全球高校和企业研究机构的最新 AI 成果,楼主这个“小项目”能被 marktechpost 发布,说明一些方面非常优秀了。
|
8
Lirika 2023-03-27 10:48:43 +08:00
@sarvatathagata #5 readme ,以及文档,看着真专业,还以为是个国外的开源项目
|
9
xbcslzy 2023-03-27 10:51:47 +08:00
@829939 看了下项目关注的一些人,国外高校研究生,深度学习相关研发的人不少,这些都是 marktechpost 过来的?
|
10
fanjk 2023-03-27 10:56:49 +08:00
@829939 这个项目我好像在 reddit 网站深度学习板块首页看到过,当时就觉得不错,AI 接入音乐分析肯定是未来的趋势,国外有些比较火的和你这个库有点像,比如 chordu ,chordify 等等。加油,先介入就有机会定义标准,支持国产
|
13
yaozeyuan93 2023-03-27 11:00:25 +08:00
酷炫, 加油加油
|
14
collinmehle 2023-03-27 11:12:00 +08:00
marktechpost 这个网站挺专业的啊,第一次接触,干货满满的。
|
15
arrhenius 2023-03-27 11:12:28 +08:00
真帅,第 668 个 star 是我的,哈哈哈
|
17
829939 OP @collinmehle 是的,marktechpost 挺专业的,不少项目都有 github 开源,是学习找项目的好地方。
|
18
Yafun 2023-03-27 11:22:47 +08:00
好耶 我是第 676 个 star
|
19
829939 OP @fanjk 大佬分析的非常有道理,GPT-4 已支持插件系统,预示着又一个“苹果商店”生态即将崛起,将对各行业都会产生深远影响,这里面机会非常多.
|
20
ppxiale 2023-03-27 11:31:47 +08:00
现在看,marktechpost 网站 Deep Learning 板块首页还有
|
21
ppxiale 2023-03-27 11:51:31 +08:00 1
大致看了下项目,很好奇是哪些周报博主?对这个“小项目”有些眼拙啊
|
22
collinmehle 2023-03-27 11:59:51 +08:00
@ppxiale 我已经关注过,虽然水平一般,但眼不拙
|
24
zhengwu119 2023-03-27 12:09:19 +08:00 via iPhone
怎么样才能上 github 热榜,传授下经验☺️
|
25
829939 OP @zhengwu119 我这边真的没有什么经验,能上估计全靠运气。
|
26
ppxiale 2023-03-27 12:46:48 +08:00
@829939 我认为 ChatGPT 出来之后,文本方面的只能才算是一个突破,音频处理、视频处理目前都还是未知领域,相信在不久的将来,语音和视频方面也能够有这种产品出来 ,非常看好这个行业前途,楼主加油。
|
27
airqj 2023-03-27 12:50:28 +08:00
跟[pyAudioAnalysis]( https://github.com/tyiannak/pyAudioAnalysis)
相对有什么独到之处吗 |
28
829939 OP @ppxiale 感谢
1. 支持的功能比 pyAudioAnalysis 要多一些,支持数十种时频分析变换方法和数百种对应的时域、频域特征组合。 2. 性能高效,核心大部分 C 实现,基于不同平台 FFT 硬件加速,方便大规模数据特征提取。 3. 跨平台,支持移动端音频流实时计算,release 的时候已发布 android ,iOS 平台相关 so 库 |
29
governcoco 2023-03-27 13:35:09 +08:00
想请问一下楼主我的一些讲座文件想要做语音增强去噪音有什么办法吗?
|
30
829939 OP @airqj
1. 支持的功能比 pyAudioAnalysis 要多一些,支持数十种时频分析变换方法和数百种对应的时域、频域特征组合。 2. 性能高效,核心大部分 C 实现,基于不同平台 FFT 硬件加速,方便大规模数据特征提取。 3. 跨平台,支持移动端音频流实时计算,release 的时候已发布 android ,iOS 平台相关 so 库 |
31
829939 OP @governcoco
降噪的方法有很多,传统数字信号领域有很多方式, 1. 最简单的一种方式是高通滤波器,你讲课的语音估计低频白噪占一部分,最好再加上 weight-A 计权,有助于提升语音降噪后的质量,当然在不同场景下噪声分布情况,可选择成熟的自适应滤波器也有很多如维纳滤波、卡尔曼等等; 2. 谱减法,这种方法需要估算下噪声的功率谱情况,频域上直接操作,某些场景下效果要好很多; 3. 深度学习相关,这种方式目前发的 paper 不少,语音增强和去噪方面取得了显著的进展,用常见 CNN 或 LSTM 等其他常用网络模型训练,需要对大量数据打标或生成相关场景下不同样本增强数据 大概这么多,希望对你有帮助 |
35
yzbythesea 2023-03-27 14:34:31 +08:00
你的个人主页差点让我直接拔电源了 lol
|
36
StanWang 2023-03-27 14:38:33 +08:00
这个项目和 librosa 有什么不同?
|
37
StanWang 2023-03-27 14:39:49 +08:00
已 watch star
|
38
829939 OP @yzbythesea 哈哈 FBI Warning
|
39
602120734 2023-03-27 15:01:35 +08:00
@zhengwu119 搞一个 awesome 或 ChatGPT 其他领域相关的包装,估计这段时间上的几率大一些
|
40
829939 OP @StanWang 感谢支持。
首先,librosa 是一个非常好的音频特征库。很多做相关研究的也在用 librosa 做测试。 audioFlux 和 librosa 的区别在于: 1. audioFlux 更适合系统化和多维护特征提取与组合,可以灵活适用于各种研究和分析。 2. audioFlux 更高性能,核心部分全部使用 C 实现。使用 FFT 加速,更适合大规模数据的特征提取。( librosa 全部使用 python 实现) 3. audioFlux 支持移动端,并满足移动端音频流的实时计算。 因为我在做移动端音频 MIR 相关的业务,所以特征提取的操作必须满足跨平台和高性能。 对于模型训练,当时我用 librosa 的方法提取 CQT 相关的特征,处理 10000 个样本数据需要 3 个小时时间!!真的太慢了。 性能比较也再 README 里提到了。在服务器和移动端分别做的测试-如下图 再次感谢支持和关注,有兴趣可以加入到项目里一起做贡献。 |
42
829939 OP @airqj 好想法,目前开源项目 Emscripten 支持把 C/C++编译成 WebAssembly ,我的项目核心部分都是 C 实现的,和系统平台无关,理论上更容易用 Emscripten 编译,不知道 web audio 领域应用场景如何,有感兴趣的大佬可以指导参与一起开发!
|
43
justwkj07 2023-03-27 15:34:10 +08:00
大佬呀
|
44
airqj 2023-03-27 15:36:19 +08:00
@829939 现在不都能边缘计算就边缘计算了嘛
之前用 libaubio 做了特征提取,onnx 音频分类的模型,用起来感觉还不错 |
45
bs10081 2023-03-27 15:47:28 +08:00
已 Star 🌟
|
47
829939 OP @airqj “现在不都能边缘计算就边缘计算了嘛” ,这个理念非常好
aubio 也是音频领域比较知名的一个库,应该是 QueenMary 大学 C4DM 小组的作品,Chris Cannam 是这个领域的大神,我老师就读的这个大神的博士,他领导的 qm-dsp 是一个系统的 C 框架,可惜关注度不高, aubio 算是其一个简化版,,却打出一定名声,相应的 aubio 功能要简化很多,易用的命令行 API 确实方便很多人上手 |
52
findex 2023-03-27 17:07:56 +08:00
支持一下
|
55
gniviliving 2023-03-27 17:16:11 +08:00
@Yafun #18 我是第 800 个 star
|
57
idlewater 2023-03-27 17:26:21 +08:00
挺好的
|
58
829939 OP @gniviliving 幸运数字,非常感谢支持
|
60
whistle 2023-03-27 17:56:22 +08:00
我是做移动端的,看文档只有 Python 的,能否出个 Android 端 JNI 接口和文档?
|
61
829939 OP @whistle 项目 Release 中有 Android 端的 so 库,但 Android jni 这块我不熟,我会加入到项目后续计划里面,有兴趣意向的同学可以加入进来一起完善 Android jni 这块
|
62
hzzheyang 2023-03-27 18:15:25 +08:00 via iPhone
非常好的项目,建议可以提供下中文文档支持,对国内开发者会更友好一些,也更易于国内推广
|
63
olderwang 2023-03-27 18:31:20 +08:00
研究研究,librosa 还没看明白,急需中文文档支持下
|
68
chatWell1 2023-03-27 22:14:17 +08:00
OC 和 C 不太熟悉,iOS swift 能支持吗?
|
69
829939 OP @chatWell1 swift 语言不熟悉,有熟悉这块和 C 桥接的同事可以推荐加入进来一起完善 iOS 端 swift 的支持。
|
70
VVValent 2023-03-27 22:53:41 +08:00
虽然不太懂,但是你好棒!
|
71
butterls 2023-03-27 23:54:21 +08:00 via Android
@829939 音频到振动的特征转换有什么思路吗,最近准备做音频特征提取转成振动波形驱动马达,librosa 确实没法上嵌入式设备,正好在找 C 库。 音乐类有明显统计特征的还好一点,对于纯声音这种一直没什么好思路
|
72
qoras 2023-03-28 00:16:16 +08:00
恭喜!!
|
73
davidqw 2023-03-28 00:32:38 +08:00
不错不错,已 star
|
74
Chihaya0824 2023-03-28 07:42:39 +08:00
Star 了,readme 真好看
|
75
ixinshang 2023-03-28 09:00:02 +08:00
国内几个有名的 github 项目周报博
方便说出来一下不 或者我等下去你的主页翻一下 |
78
829939 OP |
79
829939 OP @ixinshang HellGitHub 是一个不错的项目周报,每月都会不间断分享开源项目,运营的非常好,国内流量应该不少。前端一个什么峰,也有一个不错的开源周报,应该流量也不少,前些天看论坛帖子不是说一个大佬的前端项目被他开过光后,引来了不少的关注。
两个都是非常不错的开源周报,后面我多多努力,希望能得到他们的收录发表。 |
81
dark009 2023-03-28 10:01:26 +08:00
我想做一个吉他调音器的功能,不知道这个项目是否支持?
|
82
stonepy 2023-03-28 10:10:29 +08:00
请教下大佬,要做一个类似识别语音“上、下、左、右”这种固定几个语音指令的识别,我该如何入手?
|
83
829939 OP @dark009
完全没问题,项目中 MIR 模块中有几个不同 pitch 侦测的算法,根据你的业务情况做多做下测试调参,结合上层业务情况的优化应该能出一个不错的效果。 |
84
829939 OP @stonepy
这个业务属于 ASR 领域孤立词识别,可以用 i-vector 相关技术,基于 PCA 的特征向量比对也可以尝试,还可以拿 MFCC 、mel 频谱这些特征,作为 CNN 和 RNN 网络进行训练分类,当然前面的这些特征合理归一化后也可以尝试打标签走网络分类训练,希望这些对你有所启发和帮助。 |
89
heywin 2023-03-28 10:57:32 +08:00 1
二话不说直接 star 助你一臂之力
|
93
YZZS 2023-03-28 11:14:39 +08:00
支持一下大佬
|
94
602120734 2023-03-28 11:43:37 +08:00
支持下大佬,pip 安装试了下,效果可以的,就是好像清华节点还没有最新版本的包?我安装的还是 0.1.3 版本
|
96
butterls 2023-03-28 12:58:26 +08:00 via Android
@829939 需求简单说是希望通过音频数据生成基础触感数据,然后驱动马达振动特定幅度频率
音频数据我现在是简单做了二分 1. 音乐类相对有规律,而且现有的节拍检测等方法有理论支撑,相对生成的振动效果比较好,但是对于节奏不明显的和声部分就会比较拉胯(这时候振动有点类似驱动了一个特殊的喇叭声道,但是和声分量即使设定阈值过滤一直振会很抢戏,主要还是缺少特点意义的检测,而且也不是所有音乐都很有节奏感) 2. 对于普通的声音,比如游戏场景中的随机枪声,按钮模拟,脚步等等这类的规律性不强的音频生成振动纹理,单纯用能量特征检测处理出来就很奇怪,相比音乐类,匹配出来的的振感就很差 因为对音频特征提取这部分确实了解的不深,所以想问问看大佬对这种非规律音频特征处理有没有什么思路,另外就是音频感知范围和振动区间( 50-500HZ )差异还是蛮大,直接做两种信号的范围映射后再处理是不是会更奇怪 |
97
829939 OP @butterls 1. “希望通过音频数据生成基础触感数据”,音频有很多特征数据可以驱动马达,如果要求是特定强度的频率震动跟随音乐鼓点的话,端点和当前范围内功率谱就可以, 是否类似音乐播放可视化震动这种效果?
2. “非规律音频” 有很多,如你所说枪声,脚步这些的区分,时域上典型的有包络,频域上有频谱、mfcc 等,如果短时突变信号多的话,可以用 CWT ,至于如何映射,这个具体和你的业务测试情况相关了,可以尝试常见的 mel/bark/erb 这些听觉刻度模型映射测验小效果。 |
99
beneo 2023-03-28 14:09:04 +08:00
readme 里面的图怎么画的啊
|
100
stanwanng 2023-03-28 14:14:48 +08:00
ECG(人体心电图)信号进行分类,大致有三种类型数据,NSR(正常),ARR(失长)、CHF(衰竭)这三种,这块做深度学习训练分类的话用什么特征作为输入好?不知道 ECG 信号是否同样可用你项目中 audio 的特征?
|