文本所说的这个仓库,可以有效提升的速度。而且使用了 提供的免费GPU资源,可以快速实现需求。
有个弊端,就是10分钟的视频,非得的时间完成。本文测试了的一段,大概。大大节约了时间。
仓库地址:faster-whisper-youtube。
https://github.com/lewangdev/faster-whisper-youtube
虽然名字里有 ,但所使用的的视频下载库,支持。本文我们测试的是。
本文所使用的 ,还有,在文末获取。
在仓库首页,点击 文档内 链接,直接打开的地址,并自动加载仓库对应的最新的 ipynb 文件内容。
你也可以手动访问google colab fast-whisper-youtube。
点击单元格运行按钮,如下图箭头所指位置。
免费额度已足以跑起来开源的 whisper 模型了。我们这个笔记使用的资源配置如下。
本项目使用了两个项目依赖:
· ,用于实现语音识别
· ,用于下载视频文件,提升语音文件
点击单元格按钮,直接运行:
运行结果:
主要是为了把。打开google drive,依次创建路径:
Colab Notebooks/Faster Whisper Youtube
目录创建完毕,运行单元格代码:
授权允许colab访问google drive空间。
根据支持的模型列表,我们选择 ,有参数,精准度比较高。
选择完毕,执行单元格代码。
会自动下载和加载。
第三步所执行的依赖安装中, 就是用来下载视频数据。这一节,我们选择的一段视频。我们在首页找一个短一些的热门视频,比如。
把需要设置的参数填上去。
从代码上看,执行了,并。
这样,基础的,可以执行下一步的任务了。
准备好数据之后,需要指定一些参数。比如声音的,这里选择“”。代码内自带的初始化提示词,是有助于的,我们暂不做更改。
右侧可以查看计算资源的使用情况。
这是一段,识别速度还是挺快的。
大概花了,就识别好了。输出的默认是繁体中文。可以有处理:
· ,language 部分实现简体中文;
· 识别的文件,使用;网上这类工具比较多。
到这里,就大功告成了。生成的字幕文件,以 srt 格式,存储在google drive指定的目录下。
在 colab 上,没有遇到特别的问题。
如果你本地有,或者充裕的,那么把仓库内的 ipynb 文件,也是完全可以的。
对于需要,对用户而言,这个仓库让大家又
本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕,E-mail:xinmeigg88@163.com
本文链接:http://www.ksxb.net/tnews/5032.html