上回书说道,九月中旬时,一位日语教师得我之讯。然吾犹未决意,抑或缺乏以财挹之自信。至十一月,我在府中获得职役,堪为正途之始。俸禄颇足,足以充冀学课费。工作量亦宜,故遂择师而学焉。心机深重,恒虑一步之差者,可谓鲁莽择校也。
彼时余曾抒文故事,今有五月,事端扰离甚众。直至此刻,饱览吾之老板庐山真面,彼乃奸狡剥削、欺压之蠢物。吾心不复以信任彼类,终于岁末,无金之积累。期间,持续授业于日语私师,迨至二〇二四年二、三、四月,尽心翻译游戏实况。
ガレキ牛 #
这个月在狂暴烤肉,烤出共计约一小时时长的视频。虽然成品是一小时,但工作量绝对不止一小时啊,很多地方都要重复听才能确认出是什么,有的时候实在听不出来就睡觉然后第二天就听出来了(草)
最近一个工程是raft的烤肉,这个难度跟前面烤过的完全不是一个级别了,一小时无字幕四人轴,只能说爽。没了日语字幕我才意识到差距有这么大,半小时无字幕至少比有字幕要难一倍、半小时四人轴至少要比半小时一人轴难四倍以上(所以应该多烤点单人带原字幕的比较简单吗)
工作流 #
分享一下整套烤肉流程,虽然我日语力不高,但是该有的都有,一般没有的也都有了,所以大概算是精翻吧。(至少精翻确实是我的目标)
语音转文本(N46Whisper) #
首先下载视频导入pr,直接导出mp3音频文件,打开 部署在google colab的N46Whisper,直接导入文件,调整参数。
上传文件有两种选择,从谷歌网盘导入/从本地上传。实测从本地上传巨慢,适合10mb及以下的文件。但是本地上传选完文件之后就可以依次点击下面每个单元格的运行,比较省心。从谷歌网盘导入需要先导入再操作下面的单元格。
我这边colab默认就是T4GPU,所以每次打开的时候并不需要修改。唯一要注意的是跑完一个文件之后要么关掉运行时,要么修改到cpu,不然会把12小时的T4gpu时间限制跑完。
通用参数/Required settings中,可以选择是使用largev2还是largev3,我一般两个模型都跑一遍,貌似v3在处理多人同时说话时的能力更好一些。
后面这个 “默认只导出ass,若需要srt则选择Yes。导出时浏览器会弹出允许同时下载多个文件的请求,需要同意”的选项我这边修改之后完全没有任何作用,依然是下载ass,估计是因为多人同时说话,需要多行显示所以只能导出ass吧。
其他选项/Advanced settings中,这个普通分割(Modest) 全部分割(Aggressive) 标点分割(Punctuation) 开与不开、开哪个我完全没看出来有什么区别,所以就无视了。
字幕模板格式因为我需要在pr修改,所以无视了
vad过滤没看明白有什么用,而且日语算小语种吗,好像大概不算吧
设置Beam Size
Beam Size数值越高,在识别时探索的路径越多,这在一定范围内可以帮助提高识别准确性,但是相对的VRAM使用也会更高. 同时,Beam Size在超过5-10后有可能降低精确性,详情请见https://arxiv.org/pdf/2204.05424.pdf
默认设置为 5
set_beam_size:
(输入数值)
这里有说法的,同个文件我在5、8、10、15数值对比查看后,发现对那些难以听出来的句子效果并不好,并没有显著影响,所以我一般只用8。在某些句子上有显著影响的反而是前面说"【请注意】:large-v3在某些情况下可能未必优于large-v2或更早的模型,请用户自行选择"的v3模型。
后面的自动翻译没搞明白,所以就不用了
模型跑完之后,会自动下载。
批量翻译与精翻 #
这小标题的意思不是or,是and,首先会直接复制字幕文件(太长的话会分段)丢给gpt4,让他直接进行翻译
你是一个中日双母语者,我需要你翻译我给出的句子到中文,句子会有多个将多次发送给你,句子之间或许可能有一定联系,大多数句子来自游戏内的交流。
然后使用我的日语力进行确认:修改语气词、让句子变得更通顺、修改那些日语的俚语为中文的俚语等等
作为一个频繁同时说话的四人轴,至少有40%的句子是识别不出来的,这时我会剪出某一句话再次丢到N46Whisper进行识别,尝试v2/v3模型、尝试修改Beam Size数值、搜索引擎搜索相似的句子、人耳听等等,还真就有那么几句是模型怎么都识别不出来,自己听也听不出来,然后睡一觉就听出来的…
注意到出现完全没办法直译后联系上下文的词大概率就是梗了,这个可以选择问gpt4或者google,不过如果是ガレキ牛他们自己的梗那完全没办法了,搜不到也无从下手。
以上这种大部分原因都是不知道原句说的是什么,所以如果有原日语字幕在视频上那就简单太多了。
视频中出现的“观众会集中注意力特意去看”的日文字也一律进行翻译、封面也进行本地化、标题本地化、视频简介也需要翻译。
就这样这两步反复操作一期烤肉就诞生了。
这篇周报忍住了没贴图片进去还真是了不起啊