普通视图

几种通过 FFmpeg 无损压缩视频的方法

2025年9月10日 00:00

北京这边天气不错,特别适合骑行。杜老师拿出了压箱底的全景相机,打算录制一段沿途景色,结果压制出的文件体积很大。之前分享过通过 FFmpeg 来压缩视频的方法,这次整理了更多的方法,供需要的小伙伴们参考!

写在前面

如果需要了解 FFmpeg 的安装方法,可以浏览《如何使用 FFmpeg 来压缩视频》一文,里面有详细介绍如何在 Linux 系统安装 FFmpeg。

如果需要在 Windows 系统上安装 FFmpeg,可以直接至官方下载安装包「或在评论区中留言」

用 CRF 参数

原理:CRF 是 H.264 编码器中用于控制视频质量的一个参数,数值越小画质越高,体积越大,一般取值范围为 18-28,默认值 23,18 是视觉无损。

命令示例:ffmpeg -i input.mp4 -c:v libx264 -crf 18 -preset veryslow -c:a copy output.mp4 此命令指定了视频编码器为 libx264,设置 CRF 的参数为 18,且使用 veryslow 预设以进一步提高编码质量,音频部分直接复制。

更改格式

原理:在不改变媒体编码的情况下,改变媒体封装格式,通常转换后的大小基本相同,一般不会出现过大差距,如果大小差距过大,需要检查媒体文件的完整性。

命令示例:ffmpeg -i input.mp4 -codec copy output.mp4 可直接更改封装格式,无需重新编码。

调分辨率

原理:降低视频分辨率可显著减小文件体积,对于对视频画质要求不是特别高,或需要在低分辨率设备上播放的场景比较适用。

命令示例:ffmpeg -i input.mp4 -vf scale=1280:720 -c:a copy output.mp4 该命令会将视频的分辨率调整为 1280×720 像素,音频的部分不进行重新编码,从而实现压缩体积目的。

调比特率

原理:降低视频比特率可以在保持原始分辨率的同时减小文件体积,适当减少比特率能够有效的减少文件大小。

命令示例:ffmpeg -i input.mp4 -b:v 2500k -c:a copy output.mp4 此命令将视频比特率设置为 2500kbps,音频流则直接复制。

用 HEVC 编码

原理:HEVC 是一种更高效的视频编码格式,在同等画质下,相较于 H.264 编码,可使文件体积更小。

命令示例:ffmpeg -i input.mp4 -c:v libx265 -crf 28 -preset medium -c:a aac -b:a 128k output.mp4 其中-c:v libx265 指定输出的视频编码器为 libx265-crf 28 指定 CRF 参数为 28-preset medium 平衡视频质量和压缩速度,-c:a aac -b:a 128k 表示音频部分使用 AAC 编码,并设置了音频码率为 128kbps。

通用型AI考试教练 Prompt(适用于各类考试)

《一个通用的 AI 考试备考 Prompt 模板》 《适用于任何认证考试的 AI 刷题 Prompt》 《通用型 AI 考试教练 Prompt(适用于各类考试)》 《一个适用于任何考试的 AI 备考 Prompt》 《把 AI 变成你的通用考试教练》 《我用这个 Prompt 备考各种认证考试》 《一个能用于任何考试的 AI 教练 Prompt》 《用一个 Prompt,搞定各种考试复习》 《通用考试刷题 Prompt:让 AI 当你的私人教练》 《可复用的 AI 考试训练 Prompt 模板》 《通用考试练习 Prompt:让 AI 按考试标准出题》 《一套可迁移的 AI 考试备考 Prompt》
我使用了下面这个提示词来准备我的 Microsoft Azure 考试,比如 AI-900 和 DP-900,我发现它们特别有用。事实上,这个 prompt 可以用于任何类型的理论考试,并不仅限于 Azure 相关考试。例如,它也可以用来准备驾驶理论考试或 Life in the UK 考试。 你是我的 _________ 考试教练。请一次给我 60 道题(逐题给出,题型混合单选题和多选题)。在每一道题之后,我会先作答——然后你需要告诉我我的答案是否正确,并简要解释正确答案,以及为什么其他选项是错误的。请记录我答错的题目。 当最初的 60 道题完成后,请再次提问我之前答错的那些题目,直到我把所有题目都答对为止。题目需要按顺序编号(1、2、3……到 60,然后 61、62、63……),直到我全部正确回答为止。 请不要重复题目,并确保尽可能覆盖考试大纲中的各个知识点。你不需要询问我是否继续。在完成 60 道题之后,请评估我是否有通过考试的可能性。 请随机化答案选项顺序,并且不要以任何形式提示正确答案。 PS: 请将 __________ 替换为你的考试名称,例如:“Microsoft AZ-204” 原英文的Prompt:
You are my _________ Test Coach. Please give me 60 questions, one at a time (mixed with questions of single answer and multiple answers). After each question, I will answer — then you will tell me whether my answer is correct, and provide a brief explanation of the correct answer and why other answers are incorrect. Keep track of any questions I get wrong. After the first 60 are done, ask me those incorrect ones again until I answer all of them correctly. Number the questions sequentially (1, 2, 3… up to 60, then 61, 62, 63…) until I’ve answered everything correctly. Please don't repeat the questions, make sure you cover as many areas of the exam topics as possible. You don't need to ask me confirmations to continue. Estimate if I can pass the test after 60 questions. Do randomize answers, and Do NOT hint answers in anyway. PS: Fill the __________ with your exam name, for example: "Microsoft AZ-204"
祝你考试顺利! 比如:以下是ChatGPT在接受到这个提示词后变身为我的考试辅导教练。 [caption id="attachment_70839" align="alignnone" width="883"]ChatGPT考试教练 ChatGPT考试教练[/caption] [show_file file="/var/www/wp-post-common/justyy.com/prompt.php"] 英文:Prompt Engineering: Sharing a Prompt for Preparing Your Exams

相关文章:

  1. ChatGPT 使用 Promise.All 重构/重写代码(并行发送请求) 在我的一个项目中, 我有以下代码(Node/Javascript), 它(顺序)调用了一些 API. 这些 HTTPS 请求其实是可以并行完成的, 因为它们相互独立. 然后结果会被聚合到一个数组中. 我知道可以用Promise.all来把这些请求并行化, 我就问了ChatGPT怎么弄, 看看它是否能理解并给出正确的代码: 我先用英文问 ChatGPT-3.5: Rewrite...
  2. 推荐一款程序员性价比高的机械键盘 KeyChron K8 程序员性价比高的机械键盘 Keychron 我第一款 keychron 键盘是四年前(2020年)买的,当时在AMAZON工作,通过公司经费报销的。当时还问了经理,需要节俭么?因为亚马逊的16条军规中的一条就是节俭/Frugal。当时经理说,只要能提高你的工作效率就行,我也没太敢搞太贵的,最后面只挑了一个60多美元的机械键盘,型号是: Keychron C2 Wired Mechanical Keyboard, RGB Backlight / Gateron Mechanical...
  3. 今天去听了NHS举办的关于男性PSA/前列腺健康的活动/讨论 自从步入40岁之后,我时不时就会收到NHS或家庭医生(GP)的关怀提醒,建议我关注自身健康。毕竟,四十岁以上的男性开始容易被一些健康问题困扰,比如前列腺(PSA)指数、尿酸水平、血糖等。 40岁以上男性的NHS健康体验 今天刚好有些空闲,于是抽时间参加了NHS组织的前列腺健康活动。这项服务是以Drop-in形式进行的,中午2点到6点之间可以直接去GP诊所,不需要预约。医生会帮你测量血压、身高和体重,计算BMI指数。 接待我的是一位中年女医生,虽然上了年纪,但非常温柔细心。她给我连续测了三次低压血压,分别是89、91、87。测完前两次血压,她建议我先去称体重——我的身高是174cm,体重是81kg,BMI为26,略高了一点。实际上,我每天晚上睡前称重时体重通常还会比这个多2-3公斤。 随后GP帮我安排了下周的进一步体检,可能还需要抽血。她提到将评估我未来十年患癌风险的概率,如果风险较高,将会安排后续的观察或预防措施。 关于前列腺和PSA的知识分享 当天晚上6点,NHS还组织了一场线下答疑会,由一位男医生主讲(包括我有三个男性参加,并没有想象中的多),介绍关于前列腺健康和PSA检测的知识。由于公司有会议,我晚到半小时,但仍收获不少重要信息。 现场有一位负责组织的护士发了两本小册子,一本是关于PSA的健康指南,另一本则是介绍剑桥当地可参与的健康活动,比如瑜伽、足球等。 医生解释说,PSA检测并非百分百准确,可能出现假阳性(PSA高但无癌)或假阴性(PSA正常但有问题)的情况。PSA升高不一定意味着患癌,PSA正常也不能完全排除风险。 他建议男性朋友们要保持规律运动,减少烟酒摄入,有助于降低患前列腺癌的风险。另外,规律的性生活和射精也被证实有一定保护作用。 大家要更加关爱自己的健康。前列腺癌是英国男性第二常见的癌症,每年有超过5万人被诊断,死亡人数超过1万。虽然50岁以下患病概率较低,但随着年龄增长,风险会显著上升。对于50至69岁的男性,建议每年进行筛查,包括PSA抽血、肛门指检,必要时还需做活检(Biopsy,听说这个比较不舒服)以及MRI核磁共振检查。 我自己的PSA值常年略高,医生说这有可能是前列腺良性增大。每个人的情况都不一样,仍需持续关注和定期检查。 本文一共 848 个汉字,...
  4. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  5. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  6. 区块链中Layer 1和Layer 2协议的简介 Layer 1 和 Layer 2 是用来描述区块链技术中不同层次或层的术语,每个层都在维护和扩展区块链网络方面有其独特的作用和特点。 Steem的底层协议是C++写的,也就是steemd,见证人(也就是STEEM上的矿工)在自己的节点服务器上跑这个软件,共同运行这个区块链。steemd上支持一个custom_json操作,也就是可以调用API向区块链上写任何数据,这样的话,DApp分布式应用程序就可以在STEEM区块链上存储数据了,而在custom_json上的协议就是Layer 2/第二层。 Layer 1:基础协议 Layer 1 指的是区块链网络的基础层。它包括定义网络规则和操作的核心区块链技术。Layer 1的关键特性和组成部分包括: 共识机制...
  7. 怎么样安全的清空主机服务器空间? 很多朋友都有自己的VPS主机, 如果想取消销毁主机的时候, 可以采用以下二种方法来销毁主机. 虽然很多云主机可以让你很方便的一键销毁主机, 但是实际上你不清楚你的宝贵数据有没有可能被找回, 理论上可能, 这种可能性很小很小. 因为我们并不清楚云主机商在销毁的时候有没有真正去把硬盘的数据清空了. 像我有点强迫症的, 我就是不希望我的一些数据(比如啥爱情动作片)泄露了. rm -fr / LINUX上的这个命令: #...
  8. 第一次私校家长会: 原来家长比孩子还卷 前几天参加了娃的第一次家长会,和几位家长聊下来,真是个个都很厉害。不光孩子们卷,家长也一样卷,一眼望去基本都是 Dr/博士。娃还调侃我一句:“这有什么的,你不也是 Dr 吗?” 我心里默默想:还好没写学校名字,不然我这野鸡大学的头衔真拿不出手 😂。 私校里真是人才济济,乐器过 8 级的太常见了,卷得不得了。我还问过娃,是想当 big fish in a small pond...

一些碎碎碎念

2026年1月18日 11:50

最近看到很多QGYZ的短视频,难道在中国真的有这么多需要QG的人? 越看心里越发毛,好像近些年丢失的案例也是数不胜数,找到的却没几个! 资本叫我们牛马,戏子叫我们酸黄瓜,还有人叫我们韭菜,我们是什么 ? 注销&删除 去年我就注销了短视频所有账号,删除所有发布的视频、照片,不为别的就为 那一丢丢的安全感,虽然在现在的环境下没有啥隐私可言,但是该做的必须做。 删除妞宝的照片,虽然只存在于我自己的网站上,我依然删除一切关于家人&孩子的 照片。人还是要有忧患意识,整天刷着短视频,看着所谓的正能量、盛世?啥的,难道就是真的? 可惜,被"洗脑"的人真是太多了。 争议 看新闻瓜州《汉武雄风》被投诉,华清池贵 […]

我的抖音习惯

2026年1月3日 08:10

当我打开手机的抖音,一个一个上划视频,我居然可以把很多猫或狗的视频说出里面那个主角叫什么名字。在不知不觉之中,我已经看过那么多。之前完全没有这个感觉,是因为我没有一个一个视频打开给我妈说那是什么,但实际上在我脑子里我已经把那些都记住了。

以前大概我就只给我妈看了一只叫狗子的猫的视频。那是一只橘猫,他家地板上放了一大片按钮地垫,那个猫可以通过按钮发声的词语和他妈妈交流。那家人一共养了三个猫,最聪明的那个是橘猫狗子,另外两个是长毛猫,一个叫包子,一个叫小老大。小老大是个笨蛋,包子也很聪明,但估计没有狗子那么聪明。包子可以通过按钮提出诉求,狗子能把那些按钮串成一句话表达他的意思。除了按钮以外,狗子也会看妈妈的反应,他也会给妈妈表情。在看狗子的视频之前,我完全没想到一只猫居然可以聪明到这个程度,别说猫,即便是狗要完全做到这样也是很困难的,但奇怪的是我好像从来没有见过狗有类似的视频。狗的视频,我看得最多的是翠花。猫的视频缅因猫罗宾,和驯化一直野生橘猫的视频我也看很多。

前段时间,我会花不少时间看某个土耳其老丈人游中国的视频。他是一个河南人的老丈人,女儿讲的普通话很好。那个土耳其老丈人是一个社牛,去到哪里都可以玩的很开心。没有对比就没有伤害,中国很多见闻会让他惊讶不已,美食让他赞口不绝,美景更加是让他手机内存经常爆表。显然他过得很快乐,同时他的表现也让看到的中国人很快乐,他偶遇的那些中国人也会觉得这个老外很好玩。那个老头有非常强的镜头感,语言表达也很到位。中国话学得挺快。我猜他回到土耳其之后,应该会很怀念中国的美食,还有中国那些让他们觉得只有科幻电影里才出现的事物。

除了这些以外,抖音还会推推送给我一些粤语梗相关的短视频,漫画形式表达的各种国际新闻。接下来那些就是广告直播等等,之前也会给我推送一些电影或者电视剧的浓缩版,但现在那些推送越来越少了。

之前刷抖音是为了领金币,现在刷抖音有时倒完全不是因为金币,而是因为我想看一下我关注的那些有没有更新,比如狗子的视频,也比如驯化野生大橘的视频。相对来说萝卜纸巾猫的视频挺无聊的,因为大概差不多就那个样子。

之所以装抖音,是因为之前广州广电的有线A套餐只能在那里下单,然后到实体店核销。如果家里已经有宽带或者有线电视,可能可以直接在实体店办理有线A套餐,但关键是家里的账号是我妈的,我只能在抖音上面抢。正是因为这个原因,我才下载了抖音。我下载抖音的时候,实际上这个玩意已经火了好多年。到现在为止,我的手机上依然没有小红书、快手或者拼多多。

不得不说,短视频真的会在不知不觉之中耗费你非常多时间。

只为欣赏沿途的风景

2025年12月2日 11:56

从假戏真做到丧事喜办,为什么人们还是会用这套明眼人都知道有问题,但他们却乐在其中的方法试图麻痹彼此?

本着越正经的标题,说的越是讽刺的事情,今天来聊聊这两天网络上一个有趣的事情——一个女白领辞职跑外卖,只为欣赏沿途的风景。

因为央视已经默默删除了相关视频,这里我就不链接到墙内的相关媒体,如需查看原始视频,请移步

如果你是一个还能坚持看完春节联欢晚会的狠人,那么你应该不陌生这个白领辞职跑外卖的故事结构,从小人物的遭遇瞥见丧事里的惊鸿一瞥、喜事的好日子还在后头。

故事大概是在讲述一名做平面设计的白领,辞掉工作去送外卖,她就是想遇见不同的人、看看路上不一样的风景。无关外卖行业,只关乎「岁月静好」。

这种习以为常的割裂,又引发了经典的「翻车」桥段,最后的结局就是抹除记忆、修正记忆、然后重塑更正确的记忆。


旧主旋律下的艺术表达

时代背景下的冲突虽然是不同的,但表现的形式是类似的。

如何理解这句话?就拿春晚的小品来说,为什么越来越多人会觉得难看,是因为这种形式已经过时了,虽然它里面讲述的看似是当下正在发生的——比如「不婚主义」这个时代背景下的冲突,可能是长辈催婚,孩子不婚,而中间的平衡点最后会立意在孩子能有自己的选择,但传宗接代是孝顺的一部分。

也就是说,原本的冲突又被中庸化解,看上去两边都占了,实际上两边都没得选。样板戏之所以会被淘汰,也是因为里面的矛盾是固定模式,好人与坏人,好下场与遭报应,虽然是刻在人们基因里的戏曲结构,但看多了也会让人感到乏味——因为原本的矛盾已经不再是矛盾,而是范本。

回到小品,为什么越来越多的小品让人觉得无聊,甚至可以轻易地激发人们的生理性恶心,是因为小品也正在完成它的「样板化」——喜头悲尾。当喜剧是为了最后立意拔高时的灯光暗下、煽情音乐响起、主人公发生心路历程的变化。

这里并不是说旧主旋律不好,而是它引发的审美疲劳还有另一个更大的要素——即快消文化的诞生。如今的短视频人均可以做到一个「短拍」结构的笑点,而传统的小品艺术形式,如果仅仅只是集成短拍的笑点,又会丢失了原本旧主旋律的「拔高立意」。也就是说,在旧主旋律的故事结构下,人们已经不再关注笑点本身,而会本能地关注「它又想要宣扬什么」,所以当白领离职跑外卖,人们并不关心剧情,只会关心它想要干嘛,难道又要没苦找苦吃?

比如现在的脱口秀,一旦说到男女话题,你大概就会猜到后面要说些什么,因为这也是脱口秀的「样板戏」,特别是需要过审的电视节目,里面的内容更需要样板化,才能更好地「规避瑕疵」。

把困难生活浪漫主义化,并不是旧主旋律的初衷,但人们一旦开始厌恶它想要拔高的立意部分,那些表现手法就变得拙劣不堪,这也是翻车的必然原因。


人物的「死亡」

回到刚才那个问题,为什么越来越多人很难再接受春晚的小品?因为「样板戏」的结构太容易被识破,而试图通过样板戏来宣扬的立意、想要制造的影响也会被识破。

以至于观众都能猜到结构:这里要反转了、这里要煽情了、这里要拔高了、这里需要特写观众的眼泪、这里需要节目的定性……当结构可以被预判,也就意味着故事的「死亡」。

而「短视频」也正在加速这个死亡的进程——

观众的结构识别能力被强行训练得过度敏感,以前要看几十集电视剧才能识别的套路,现在刷十条抖音短剧,就能看到重复性的短剧模板。

白领辞职送外卖之所以注定会失败,其一是因为旧主旋律结构的失效,其二就是人物的「死亡」。这个角色虽然穿上了美团外卖的衣服,像是一个送外卖的人,但是她在可以被预判的故事结构里失去了活人感。人们不会再为这样的角色进行共情,更可恶的是,她演绎的角色也根本不存在于现实社会之中。

因为这样的角色是「死亡」的,无法引起共鸣、无法引发共情,更无法脱离样板戏而活着。

  • 她是一个带有「政治任务」色彩的角色,而不是人类;
  • 她没有现实的参照物;
  • 她的命运不是被生活作为背景下的推动,而是被旧主旋律的结构所推动;

但「她」还死得不够彻底,因为还需要接下来的第三步。


生活比故事更激烈

艺术源于生活但高于生活,这句话不假,但缺失了一个最本质的锚点——即生活真的被完全地反馈在了艺术之上吗?

做播客那段时间「招惹」过一些女权主义者,她们认为我们不应该在节目里评价女性之间的矛盾、竞争,应该多看到女性的「好」,比如《好东西》里面描写的那些关于女性之间的情谊与互助。

不可否认《好东西》的艺术价值,但那只是艺术,并不反映真实的生活——当然,歌颂女性之间的友谊和互助没有错,但不代表现实世界里的女性之间就只剩下电影所表达的那些好与坏、对与错。所以我们才觉得,歌颂女性主义没错,但也不能忽略现实的女性主义原本也存在着那些透不得光的部分,不看见它们不代表它们并不存在。

旧主旋律的故事之所以能感人,是因为故事比现实更具戏剧化,并不是所有人都在经历和看到别人精彩的生活,所以当清晰的冲突被凸显出来时,会本能地抓住观众的内心,而在这样的结构下,价值观比现实更加明确。

但疫情三年之后,大部分人已经清楚地感受到了现实的残酷、政治离每一个人的生活都如此地靠近。当现实比故事残酷时、当生活比剧情更复杂时、而那些歌颂的赞美的都在规避真正的矛盾、回避真正的冲突时,真实的套路更加戏剧化。

所以那些歌功颂德的岁月静好,才会与现实出现强烈的割裂感。白领辞职送外卖,除了演绎,你也实在想不到能用什么「合法」的方式来表达真实的她。

就像那句玩笑一样:

  • 捡废品的老爷爷供失学儿童读书,这是正能量;
  • 但是老爷爷为什么会捡废品,这就是负能量,甚至是「违反相关法律法规」;

只为欣赏沿途的风景

但是这沿途的风景,是你真实看到的,还是「他们」希望你看到的?

抓住2024的尾巴

2024年12月31日 22:00

现在每到更新就难以写出文字,真是太难了。 忙忙碌碌的一年就这样快速流逝,我们也在不断老去… #工作 最近一两年感觉真的好难,一直有班可上也该庆幸?继续做好自己的工作吧,有多少人都愁没有工作… #生活 除了上班,尽力压缩不必要的支出,没办法的事情,都得勒紧裤腰带! 最近这些年,感觉我有时候纯属在瞎折腾。今年的双十一我什么都没买,媳妇也在压缩我的开支,妞宝也在一天天长大,生活多了许许多多的开支。网络方面就是我没有办法续费😂,又省了几百块真是开心😊。 媳妇现在也上班了,但是我打心底是不想让她上的,也许这就是我内心深处的想法。总之,媳妇能不上班我不会让媳妇那么辛苦。 #站点 备案?迁移国内啥的看都不想 […]

内容消费

2024年9月9日 00:09

前面写的《物质丰富,精神极度匮乏!》、《碎片化》这两篇文章,提到现在人们的物质需求已经得到极大满足,但精神需求却是极度匮乏。而基于算法推荐的个性化、碎片化的短视频内容,成了人们消遣娱乐、打发时间的最具性价比的方式,这在一定程度上满足了人们的精神需求,正因为如此,这些短视频内容平台也得以飞速发展。

“内容消费”在最近几年也成为互联网行业讨论的热词,为满足人们的内容消费需求,图文、短视频、中视频、长视频、直播,各种形式的内容已经塞满了各式手机APP,人们的很多时间就被这些“内容”给消耗掉了。

往往又在刷视频之后感到无聊,有会因时间被浪费而后悔,但是,短暂的后悔之后,依然继续刷视频,甚至有人为了戒掉频繁刷短视频的习惯,把手机上的APP给卸载掉,这种方法的实际效果暂且不说,倒是反映出确实被短视频给逼急了。

我记得以前还有个“戒网瘾”的说法,现在也没见这个说法了,似乎人人都有网瘾,哈哈,想想挺可怕。

更可怕的是,很多人获取信息、学习知识、建立认知都来自于碎片化的短视频内容,或者是去相信那些所谓的网红IP的观点,不假思索,人云亦云。

我们必须清晰的认识到,短视频内容是活在平台的算法之中,这些内容要得到更多的传播曝光,就需要去迎合平台的算法规则,导致很多短视频内容过于偏激、片面、哗众取众,内容真假难辨。

说了这么多,并非全盘否定短视频内容的价值,也并非否定“内容消费”的实际需求。而是我们应该思考,内容应该如何更好的提供服务。这让我想起了,在实物电商领域,当商品足够丰富的时候,出现了选择困难,人们开始关注品牌推荐和商品质量,所以,诞生了各种“严选”、“心选”、“甄选”的电商品牌。

所以,当人们对这些算法之中的短视频内容审美疲劳之后,对优质内容的需求或许会成为新趋势,与各种“*选”所提出的“新消费”相似,我暂且把优质内容消费称之为“新内容”,而“新内容”也会呈现出一些新趋势和新特征:

  • 未来必将诞生一批垂直领域的新内容平台,虽然在实物电商领域,垂类电商几乎做不成,那是因为实物消费频率所带来的问题,而垂类的内容则会吸引一批垂类的深度用户,内容消费的成本极低、频率极高,这就如同在抖音、快手之外,依然有小红书、哔哩哔哩的存在。
  • 垂类的新内容平台,往往就是个圈子,而圈子里的内容创作者,在人性的驱动下,也会更愿意输出优质的内容,提升自己在行业的影响力。

Ryan在意大利罗马菲乌米奇诺机场弹奏肖邦的即兴幻想曲

[caption id="attachment_70249" align="alignnone" width="2048"]Fantaisie impromptu (Chopin) 即兴幻想曲(肖邦)
2025-10-30 Rome Fiumicino Airport 罗马菲乌米奇诺机场
Performed by Ryan Fantaisie impromptu (Chopin) 即兴幻想曲(肖邦)
2025-10-30 Rome Fiumicino Airport 罗马菲乌米奇诺机场
Performed by Ryan[/caption]

旅程的终点,总有意想不到的温柔。离开罗马那天,在FCO机场的候机大厅,Ryan在一架静静伫立的钢琴前弹奏起肖邦的《即兴幻想曲》。嘈杂的机场因为那段旋律而变得安静,连空气都带着一点浪漫的告别感。
上周是英国的 Half Term 假期,我们全家飞到意大利罗马度假。回程经过菲乌米奇诺机场(FCO)时,意外发现候机区摆着一架开放给旅客的钢琴。Ryan忍不住坐下来弹起了肖邦的《即兴幻想曲》。琴声在机场大厅回荡(偶尔夹杂着机场广播),路过的旅客都停下脚步,露出微笑。那一刻,旅行的结束仿佛多了几分诗意。 音符流淌在空气中,成了这趟旅程最意外、也最动人的片尾曲。
《即兴幻想曲》(Fantaisie-Impromptu)是波兰钢琴诗人 弗雷德里克·肖邦(Frédéric Chopin) 的代表作之一,创作于 1834 年 左右。这首作品原本并未在肖邦生前出版,而是在他去世后由友人依据手稿整理发表,成为后世最受喜爱的钢琴名曲之一。 全曲以 升C小调(C♯ minor) 写成,结构鲜明、情感对比强烈。开头部分急促奔放,左右手交错的音型展现出炫技的激情;中段则转入温柔抒情的D♭大调,如梦似幻,仿佛一段深情的回忆;最后再度回到激昂的主题,像是情绪的再爆发与终结。 这首曲子既考验技巧,也饱含情感——速度、激情、温柔与浪漫并存。正因为如此,《即兴幻想曲》常被视为肖邦浪漫主义精神的浓缩:即兴而自由,却又极致优雅。
视频:油管/Youtube | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书 | Facebook [show_file file="/var/www/wp-post-common/justyy.com/kid-learn-music.php"] [show_file file="/var/www/wp-post-common/justyy.com/italy.php"]

相关文章:

  1. 第一次私校家长会: 原来家长比孩子还卷 前几天参加了娃的第一次家长会,和几位家长聊下来,真是个个都很厉害。不光孩子们卷,家长也一样卷,一眼望去基本都是 Dr/博士。娃还调侃我一句:“这有什么的,你不也是 Dr 吗?” 我心里默默想:还好没写学校名字,不然我这野鸡大学的头衔真拿不出手 😂。 私校里真是人才济济,乐器过 8 级的太常见了,卷得不得了。我还问过娃,是想当 big fish in a small pond...
  2. 塞尔维亚的货币: 第纳尔和它的符号RSD 塞尔维亚,这个位于东南欧的国家,拥有丰富的历史和文化遗产。除了其美丽的自然景观、古老的建筑和美食之外,塞尔维亚的货币也是一个值得关注的话题。在这篇博客中,我们将重点介绍塞尔维亚的货币——第纳尔,以及它的货币符号RSD。 这次去塞而维亚旅游,在LUTON机场准备换些当地的货币,却被机场的柜台说,只可能在入境塞尔维亚后兑换。后来我经理说,因为第纳尔是小众货币,所以一是并没有什么市场,二是做兑换并不好赚钱,所以在英国机场就没有承接兑换RSD的服务(不像欧元支持就比较广)。 落地Belgrade(贝尔格莱德)后,在机场柜台拿100英镑换了大概12400 RSD第纳尔,感觉一下子变有钱了许多。 在贝尔格莱德的5天4晚,我用了Wirex刷,汇率很不划算,是1英镑比110左右,而用Wise是1比136。几乎是同一时间的兑换比例就相差20%左右,看来各个银行卡的兑换汇率确实差别好大。 在贝尔格莱德逛街,看到很多地方都可以兑换欧元和第纳尔,我在机场看到标语:塞尔维亚是欧洲的中心 (Center of Europe), 欧洲之门, The Gate to Europe. 儿子真省,一双鞋穿到破,然后说脚不舒服。...
  3. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  4. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  5. 英国房子的EPC节能报告(Energe/Efficiency Performance Certificate) EPC (Energe/Efficiency Performance Certificate) 是英国房子的节能报告, 法律上规定, 每个房子都必须要有一个EPC报告, 报告的有效期为十年. 房东在把房子出租或者想卖房的时候, 这个EPC就必须有效, 在一些情况下 比如出租房子的时候, 这个EPC报告还必须符合一些最低标准, 比如房子必须满足 F档(类似及格线)...
  6. 同一台服务器上多个WORDPRESS站点的一些设置可以移出去 我自从把所有网站都挪到一处VPS服务器上 就发现很多事情省事很多 可以同时管理多个网站 包括 WORDPRESS博客. 比如我有四个WORDPRESS博客 然后我就把通用的一些资料给移出去 移到 HTTP或者HTTPS都不能直接访问的文件夹里这样就更安全许多. 文件 wp-conn.php 存储了 相同的数据库资料. /** MySQL...
  7. 比特币最近波动有点大: 一天牛市一天熊 比特币10万美金以内都是最后上车的机会! 比特币近期的价格波动可以归因于多个关键因素,包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道,特朗普再次当选,他可能会推动减少美国对乌克兰的支持,这可能会影响全球金融市场和风险偏好。同时,特朗普正在将自己塑造为亲加密货币的候选人,表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测,导致市场情绪在乐观和不确定性之间波动。 特朗普对俄乌战争的态度 美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任(第二次),那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测,而是正在实际塑造市场的关键力量。 特朗普(Donald Trump)减少美国对乌克兰的支持,全球投资者可能会预期地缘政治稳定性发生变化,从而增加对比特币作为避险资产的需求。同时,他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策,例如明确的合规指南或减少监管审查,可能会吸引更多机构投资者进入市场,并促进更广泛的加密货币采用。然而,政策的快速变化也可能导致短期市场剧烈波动,因为市场需要时间来消化新的政策动向。 朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道,Bybit交易所(全球第二)这些被盗的ETH已经被清洗,此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心,还可能引发更严格的监管审查,导致短期市场动荡。此外,被盗资金的大规模流动和出售可能对市场流动性造成冲击,进一步加大价格波动。随着这些事件的持续发酵,比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。 与此同时,与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗,人们对加密行业安全漏洞的担忧持续存在,同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起,共同导致了比特币近期的剧烈价格波动。...
  8. 微信PC端程序占用了1.39 TB的空间! 快速清理微信占用空间 前两天我的 C 盘剩余空间突然变红了,我随手一查,竟然发现微信 PC 端程序居然占用了 1.39 TB 的空间,简直不可思议。在手机上,微信同样是名列前茅的“吞空间大户”,在 设置 → 通用 → 手机存储空间 里几乎稳居第一。 更离谱的是,这些空间大多并不是因为聊天记录,而是各种缓存文件、视频、图片和被动接收的文件所堆积起来的。平时我们只是点开看一眼,就算没保存下来,微信也会悄悄把它们留在本地,占据大量磁盘。尤其是群聊里转发的视频和文件,日积月累就成了一个“隐形黑洞”。...

先补帧还是先放大

2025年11月14日 14:45

最近一直很无聊的在用AI工具做 文生图生视频 动画。线上用的豆包文生图,即梦首尾帧图生视频。豆包也有用图生视频,把首帧图倒放,然后接到即梦视频的前面。

因为豆包和即梦的视频输出是诡异的 1248x704p24fps,704甚至不能被9整除,1248÷16×9=702(根据网上搜到的结果说是为了匹配patch所以要能被32整除)。所以我在线下用了 realesrgan-ncnn-vulkan 和 rife-ncnn-vulkan 把输出放大到 1408p ,把帧率补到 60fps,然后再用 FFMPEG 重新编码到 1080p60fps。

(可灵虽然直出1920x1080p24fps,但是一个月就166个点数,非会员生成视频还要等几个小时,而且不还能多个生成并发排队,有时候生成的结果还特别像幻灯片然后补帧到的24fps。屁用没有)

这样就有一个疑问了:

是先补帧?还是先放大?


交换律?

首先第一刻板印象当然是想到了交换律,即最终结果都是1408p60fps,所以顺序并不重要。

但仔细一想,插帧是一种算法实现,缩放是另一种算法实现,这两种算法除了都是从卷积派生出来的之外,基本没啥数学关系,甚至先补帧后缩放和先缩放后补帧的1408p60fps输出结果都不一样。

所以这玩意不符合交换律。

而我其实并不太关心最终结果的质量。这俩工具目前的使用场景都是大玩具,实际生产环境也是作为玩具存在的。

我更在意的是在有限性能下,哪个前哪个后的总耗时更短,速度更快。

当然这俩玩意的算法我是没研究过,即使研究了,其在实际场景下还有多核和多线程调用的差异,在不同硬件和不同驱动下也肯定没准。

还不如在自己机器上实际跑一遍测速。


测试

所有测试中用到的视频,我上传到了B站。因为B站有二压的特性,所以所有视频素材整合到了同一个60fps的视频中。同时因为B站的限制,非会员只能观看30fps的视频,补帧效果可能看不出来。

每个测试用例的首帧图我会放到文章中。

测试用例1:AI生成的简单动画

首先准备测试用例。

我是不知道输入源的哪个因素对两个工具的性能影响最大,所以准备了两个实际素材。

一个素材偏重于更静态的图像,另一个素材则更偏重于运动场景。两个素材均是分辨率 704p 的PNG图像,共 49 帧。

当然我没有用极端测试场景(比如H.264等图形算法最常用的雪花图像,这玩意怎么缩放和补帧?),真实素材也更符合实际日常使用的结果。

输出目标均为:1408p 图像(704p的2倍),121 帧(由24fps插帧到60fps)

AI引擎和模型使用:

  • 放大引擎:realesrgan-ncnn-vulkan-20220424-ubuntu,模型:realesr-animevideov3
  • 插帧引擎:TNTwise-rife-ncnn-vulkan-20240102-frame-count-patch,模型:rife-v4.10_ensembleTrue

补帧和放大均使用目录路径作为输入参数,以排除文件系统调用和模型重复预热引入的性能限制。两个工具也均支持GPU加速所以没有单线程限制(反过来也就是说CPU和GPU在性能统计上会变得乱七八糟而没有参考价值)

存储则使用 ramdisk ,以减少硬盘读写性能的影响。

结果:

偏重静态的图像:

snap-20251022212700_nowatermark

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	0m15.478s
user	0m30.060s
sys	    0m0.874s

这里,如果你没有使用 Linux time 命令的经验的话,我可以简单解释一下:

  • real指的是实际用时,即真实世界时间,和你用秒表测量的数值是一样的
  • user指的是用户态的CPU时间
  • sys指的是内核态CPU时间
  • 在单核单线程硬件下,real=user+sys,但是在多核多线程场景下,每个核的CPU时间都是独立的,所以这个时间统计在现在这个场景下基本没意义。
    (解释并不精确,如果你想深入学习,建议看更详细的资料)

所以在目前这个场景下,我们只关注real这个真实耗时就足够了。

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output

计算 (49 - 1) * 60 / 24 + 1
源帧数: 49
目标帧数: 121

real	0m35.632s
user	1m27.617s
sys	    0m1.462s

放大约15秒,补帧约35秒,总计约50秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

计算 (49 - 1) * 60 / 24 + 1
源帧数: 49
目标帧数: 121

real	0m7.843s
user	0m15.536s
sys 	0m0.707s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	0m36.348s
user	1m14.572s
sys	    0m1.513s

补帧约8秒,放大约36秒,总计约44秒。

结果是 先补帧后放大 优于 先放大后补帧

偏重运动的图像:

snap-20251022214458_nowatermark

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	0m16.676s
user	0m30.713s
sys	    0m1.277s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output

real	0m36.721s
user	1m33.545s
sys 	0m1.513s

放大约16秒,补帧约36秒,总计约52秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m9.753s
user	0m20.995s
sys	    0m0.850s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-out/ -v

real	0m37.459s
user	1m16.351s
sys	    0m2.180s

补帧约10秒,放大约38秒,总计约48秒。

结论是:

  • 高动态的图像的确为插帧带来了更多压力
  • 先补帧后放大的总耗时 小于 先放大后补帧的总耗时

很奇妙的是不论先后顺序,第二步的耗时都差不多。


测试用例2:AI生成的长动画

实际只测试两秒钟(49帧-121帧),打算再测一个输入时长更长的,看看能不能把性能差距拉得更开。

同样是两组,一组偏静态,另一组偏动态。

这回输入均为10秒钟24fps,241帧。目标仍是 60fps,601帧。

(注:这所谓的10秒其实是两个5秒钟视频贴在一起的,第一个视频使用即梦生成,首尾帧相同。第二个视频使用豆包生成,根据关键字调整了动作幅度)

结果:

偏重静态的图像:

snap-20251024222139_nowatermark

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m9.580s
user	2m21.161s
sys	    0m3.010s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/

计算 (241 - 1) * 60 / 24 + 1
源帧数: 241
目标帧数: 601

real	2m45.014s
user	7m9.693s
sys 	0m3.845s

放大约70秒,补帧约165秒,总计约235秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m33.821s
user	1m11.185s
sys	    0m1.258s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	2m52.675s
user	5m57.794s
sys	    0m8.370s

补帧约34秒,放大约173秒,总计约207秒。

偏重动态的图像:

snap-20251024221945_nowatermark

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m10.573s
user	2m24.758s
sys	    0m2.371s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/

real	2m49.481s
user	7m27.740s
sys	    0m4.279s

放大约70秒,补帧约170秒,总计约240秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m39.217s
user	1m32.454s
sys 	0m1.594s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	3m0.312s
user	6m19.679s
sys	    0m5.674s

补帧约40秒,放大约180秒,总计约220秒。

结论是:

  • 先补帧后放大的总耗时 小于 先放大后补帧的总耗时

测试用例3:AI生成的现实场景视频

这里得偷懒了。缩放工具 realesrgan 本身的默认模型 realesrgan-x4plus 对现实场景的缩放效果更好,但是其仅支持4的整数倍缩放,在现在这个场景下比较浪费。
同样 rife 这边也有更适合现实场景的补帧模型,但我也打算偷懒。

所以模型将仍然使用 realesr-animevideov3 和 rife-v4.10_ensembleTrue 。

视频输入样本,偏静态样本仍为即梦5秒+豆包5秒,但偏动态样本这回使用即梦生成的10秒,因为偏动态的内容,现实场景首尾帧相同实在太诡异了,而且即梦和豆包生成奔跑内容的视频效果非常差,经常就变成单腿跳。

结果:

偏重静态的图像:

snap-20251105235631_nowatermark

time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m9.756s
user	2m22.813s
sys 	0m2.415s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/

real	2m49.322s
user	7m21.308s
sys	    0m3.992s

放大约70秒,补帧约170秒,总计约240秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m37.079s
user	1m27.702s
sys	    0m1.498s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	2m51.899s
user	6m0.976s
sys	    0m4.820s

补帧约37秒,放大约171秒,总计约208秒。

偏重动态的图像:

snap-2025-11-08-9101

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m10.753s
user	2m24.943s
sys	    0m2.365s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/

real	2m49.142s
user	7m16.057s
sys	    0m3.969s

放大约70秒,补帧约170秒,总计约240秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m38.306s
user	1m29.791s
sys	    0m1.516s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	2m49.268s
user	5m55.462s
sys	    0m4.760s

补帧约39秒,放大约170秒,总计约209秒。

结论是:

  • 先补帧后放大的总耗时 小于 先放大后补帧的总耗时

测试用例4:真实现实场景视频

这个源不太好找,现在手里没有24fps的摄像机这玩意,目前常见的摄像设备都是30fps,60fps,120fps,240fps,960fps的。

所以这里将测试用例调整一下。

首先,源视频是拍摄的一段1080p60fps的视频,再缩小成704×1252,再把1252剪成1248。

然后分为两个策略:

  1. 去掉所有偶数帧,这样源就变成30fps了。虽然当然也可以直接拍30fps的视频,但有个补帧缩放后有个对比也算不错。
  2. 使用比较主流的减帧策略(丢弃每5帧中的第2、3、5帧),将60fps视频减至24fps。

(当然像OpenCamera这种App也支持拍摄24fps视频,但是场景过于小众了)

这样做的目的是:rife 的非整数倍补帧, 24补到60是2.5倍,只有奇数帧会被保留,偶数帧在算法里被用掉之后就被丢弃了。

相关日志:

/tmp/ramdisk/rife-tmp//0-000001.png /tmp/ramdisk/rife-tmp//0-000002.png 0.000000 -> /tmp/ramdisk/rife-output//00000001.png done
/tmp/ramdisk/rife-tmp//0-000001.png /tmp/ramdisk/rife-tmp//0-000002.png 0.400000 -> /tmp/ramdisk/rife-output//00000002.png done
/tmp/ramdisk/rife-tmp//0-000001.png /tmp/ramdisk/rife-tmp//0-000002.png 0.800000 -> /tmp/ramdisk/rife-output//00000003.png done
/tmp/ramdisk/rife-tmp//0-000002.png /tmp/ramdisk/rife-tmp//0-000003.png 0.200000 -> /tmp/ramdisk/rife-output//00000004.png done
/tmp/ramdisk/rife-tmp//0-000003.png /tmp/ramdisk/rife-tmp//0-000004.png 0.000000 -> /tmp/ramdisk/rife-output//00000006.png done
/tmp/ramdisk/rife-tmp//0-000002.png /tmp/ramdisk/rife-tmp//0-000003.png 0.600000 -> /tmp/ramdisk/rife-output//00000005.png done
/tmp/ramdisk/rife-tmp//0-000003.png /tmp/ramdisk/rife-tmp//0-000004.png 0.400000 -> /tmp/ramdisk/rife-output//00000007.png done
/tmp/ramdisk/rife-tmp//0-000003.png /tmp/ramdisk/rife-tmp//0-000004.png 0.800000 -> /tmp/ramdisk/rife-output//00000008.png done
/tmp/ramdisk/rife-tmp//0-000004.png /tmp/ramdisk/rife-tmp//0-000005.png 0.200000 -> /tmp/ramdisk/rife-output//00000009.png done
/tmp/ramdisk/rife-tmp//0-000005.png /tmp/ramdisk/rife-tmp//0-000006.png 0.000000 -> /tmp/ramdisk/rife-output//00000011.png done
/tmp/ramdisk/rife-tmp//0-000004.png /tmp/ramdisk/rife-tmp//0-000005.png 0.600000 -> /tmp/ramdisk/rife-output//00000010.png done
/tmp/ramdisk/rife-tmp//0-000005.png /tmp/ramdisk/rife-tmp//0-000006.png 0.400000 -> /tmp/ramdisk/rife-output//00000012.png done

所以这次测试用例是:

  • (类)原生30帧补到60帧
  • (由2:3策略减帧的)24帧补到60帧

模型也同样使用 realesr-animevideov3 和 rife-v4.10_ensembleTrue 。

偏静态与偏动态不做区分了,本身真实场景,除非是使用三脚架固定相机拍摄,否则也没啥偏静态的场景,大多数都是动态且镜头抖动巨大,个人拍摄的内容还有严重的低光照问题。

(说白了还不是因为根本没有可用的视频素材)

结果:

snap-2676

30帧补到60帧

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m24.551s
user	2m57.076s
sys	    0m2.912s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/

计算 (301 - 1) * 60 / 30 + 1
源帧数: 301
目标帧数: 601

real	2m43.455s
user	7m6.708s
sys 	0m3.595s

放大约85秒,补帧约164秒,总计约249秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m43.132s
user	1m52.735s
sys	    0m1.387s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	2m48.691s
user	5m56.668s
sys	    0m5.217s

补帧约43秒,放大约169秒,总计约209秒。

24帧补到60帧

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m7.531s
user	2m21.199s
sys	    0m2.532s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/


计算 (241 - 1) * 60 / 24 + 1
源帧数: 241
目标帧数: 601

real	2m45.471s
user	7m11.694s
sys	    0m4.140s

放大约68秒,补帧约165秒,总计约233秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m42.656s
user	1m52.408s
sys	    0m1.312s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	2m46.998s
user	5m53.404s
sys	    0m5.189s

补帧约42秒,放大约167秒,总计约209秒。

结论是:

  • 先补帧后放大的总耗时 小于 先放大后补帧的总耗时

测试总结

  • 所有测试用例的场景下,先补帧后放大的总耗时 总是小于 先放大后补帧的总耗时

相关视频

【AI工具研究之:先放大还是先补帧】 https://www.bilibili.com/video/BV1yoCtBFE1L/?share_source=copy_web&vd_source=bc6d7e4cd2c1f2bba38d19773d2bc1fc


结尾

这几组测试用例其实都不严谨,没有参考官方的建议在不同场景下使用不同模型,而且因为这是我的个人电脑,里面跑的乱七八糟东西特别多,CPU和GPU在跑用例的时候偶尔也会被其他应用调用,所以每次跑的时候精度都一般,误差很大。我本来也只是跑着玩的,根本没多次测试然后取平均值。好孩子不要学。

本次测试结果仅代表两个工具以及对应模型在本人主机硬件环境上的性能测试结果,不对其在其他场景下的性能负责。请勿将本文中的结论用于生产环境。

The post 先补帧还是先放大 first appeared on 石樱灯笼博客.

Gaga AI:免费的影视级AI视频生成工具

2025年11月12日 19:19

软件介绍

Gaga AI 是一款AI驱动的视频生成工具,专注于创作"声、形、戏,浑然一体"的影视级人物表演视频。只需一张图片或一段音频,就能生成口型精准、表情自然的数字人视频。

  • 支持系统:Web(浏览器访问)
  • 官方网站:Gaga AI
  • 开发团队:Sand.AI
  • 特点:无需拍摄、无需专业设备,一键生成影视级视频

这个工具最大的亮点是它的 GAGA-1 模型,官方号称能达到 Veo 3 和 Sora 2 的水平,而且目前完全免费开放,不需要邀请码。

Gaga AI:免费的影视级AI视频生成工具
Gaga AI:免费的影视级AI视频生成工具

主要功能

多语种数字人

支持10多个国家的免费语音,可以生成不同语言的数字人视频。无论是中文、英文还是其他语言,都能保证口型同步和表情自然。

声情并茂的表演

Gaga AI 的核心卖点就是能让静态图片"活"起来。上传一张照片和台词文本,AI 会自动生成带有声音、表情和情绪的视频,表演效果接近影视级别。

叙事工具

不只是简单的口播视频,Gaga AI 还提供叙事工具,能够演绎出媲美电影的视觉故事,适合短剧、互动影游、虚拟主播等创作场景。

高质量视频生成

支持生成高质量的视频内容,音画同步精准,整个过程全自动,创意从想法到成品只需几分钟。

版本对比

功能 免费版 Plus Pro Premium
价格 $0/月 $9.9/月 $39.9/月 $99.9/月
每月积分 200 1500 7000 20000
约生成视频时长 60秒 450秒 2100秒 6000秒
视频长度限制 最长30秒 最长1分钟 最长1分钟 最长1分钟
高质量视频生成
免费语音 10+国家 10+国家 10+国家 10+国家
队列 标准 优先 优先 优先
水印
自定义语音 - 2个 5个 10个
商业使用许可
优先客户支持

图例

  • ● 支持
  • ✗ 不支持

下载地址

同类软件推荐

如果你在考虑其他选择,这里推荐几款功能相似的AI数字人视频生成工具:

1. HeyGen

HeyGen 是国际知名的AI数字人视频生成平台,主打简单易用和专业质量。

核心特点

  • 700+预制数字人角色可选
  • 支持175种语言和方言的视频翻译
  • 文本/图片/音频多种输入方式
  • 最高支持4K视频导出

价格:免费版(3个视频/月)/ Creator版 $29/月 / Team版 $39/座位/月
支持平台:Web

2. 即梦AI数字人

即梦AI 是字节跳动旗下的AI数字人视频生成工具,国内访问速度快。

核心特点

  • 上传图片+音频即可生成数字人视频
  • 音频内容自动同步
  • 国内服务器,访问流畅
  • 与抖音生态深度整合

价格:[未找到] 官网未明确公开价格
支持平台:Web

3. 万兴播爆

万兴播爆 是万兴科技推出的跨境全场景数字人服务软件。

核心特点

  • 适合跨境电商场景
  • 多场景数字人模板
  • AI配音和视频剪辑集成
  • 支持批量生成视频

价格:[未找到] 需联系官方获取报价
支持平台:Windows、macOS、Web

功能对比

功能/特性 Gaga AI HeyGen 即梦AI 万兴播爆
支持平台 Web Web Web Win/Mac/Web
免费版 [未明确] [未明确]
付费版起步价 $9.9/月 $29/月 [未找到] [未找到]
最高分辨率 高清 4K [未明确] [未明确]
多语言支持 10+语言 175+语言 [未明确]
视频翻译
自定义数字人
无水印 付费版 付费版 [未明确] [未明确]
商业使用 付费版 付费版 [未明确]
中文支持 完善 完善 完善 完善
国内访问速度 中等

图例

  • ● 完整支持
  • ○ 部分支持
  • ✗ 不支持
  • [未找到] 官网未明确说明

如何选择?

  • 如果你想免费体验影视级AI视频生成,推荐 Gaga AI(目前免费,积分充足)
  • 如果你需要多语言视频翻译功能,推荐 HeyGen(支持175+语言,功能最全面)
  • 如果你是字节系创作者,内容发布到抖音,推荐 即梦AI(与抖音生态整合)
  • 如果你做跨境电商,需要批量生成视频,推荐 万兴播爆(专注跨境场景)

当然,最终选择还是要根据个人需求和使用习惯来决定。Gaga AI 目前免费开放,非常适合先试用体验一下AI数字人的效果。

注意事项

  1. 免费版视频有水印,商业使用需要升级付费版
  2. 免费版每月200积分(约60秒视频),适合轻度使用
  3. 单个视频最长30秒(免费版)或1分钟(付费版)
  4. 使用时需遵守平台的内容政策,不能生成违规内容

特别提醒

⚠️ 腾讯智影已于2025年暂停服务:腾讯智影这款国内知名的AI视频工具目前正在进行服务升级维护,暂时无法使用。如果你之前在用腾讯智影,可以考虑切换到 Gaga AI 或 HeyGen。

Final Cut Pro 资源库文件过大如何解决?如何清理资源库中的渲染文件和缓存?

2025年10月17日 17:37

这篇文章介绍了如何通过删除渲染文件和清理缓存来有效减小 Final Cut Pro 资源库的体积。作者指出,随着项目增多,资源库会迅速膨胀,占用大量硬盘空间。首先可以通过“删除生成的片段文件”选项清除后台渲染产生的多余文件,从而显著减小资源库大小。接着,作者建议修改缓存的存储位置,将缓存与资源库分离,便于在空间不足时直接删除缓存文件。最终,通过这两步操作,作者成功将500G的资源库缩减到80G,大幅节省了存储空间。

Final Cut Pro 视频导出参数如何自定义码率?导出参数详细设置

2025年10月17日 17:21

这篇文章介绍了如何使用Compressor优化Final Cut Pro导出视频的参数设置,以解决默认导出文件过大和压缩痕迹明显的问题。作者通过创建自定义MPEG-4预置,手动调整帧大小、帧率、平均位速率等参数,使视频既保持清晰又减少体积。文中还说明了在Final Cut Pro中如何添加Compressor配置并直接调用自定义预设,实现高效输出,特别适合上传到B站等平台的创作者参考。

几种通过 FFmpeg 无损压缩视频的方法

2025年9月10日 00:00

北京这边天气不错,特别适合骑行。杜老师拿出了压箱底的全景相机,打算录制一段沿途景色,结果压制出的文件体积很大。之前分享过通过 FFmpeg 来压缩视频的方法,这次整理了更多的方法,供需要的小伙伴们参考!

写在前面

如果需要了解 FFmpeg 的安装方法,可以浏览《如何使用 FFmpeg 来压缩视频》一文,里面有详细介绍如何在 Linux 系统安装 FFmpeg。

如果需要在 Windows 系统上安装 FFmpeg,可以直接至官方下载安装包「或在评论区中留言」

用 CRF 参数

原理:CRF 是 H.264 编码器中用于控制视频质量的一个参数,数值越小画质越高,体积越大,一般取值范围为 18-28,默认值 23,18 是视觉无损。

命令示例:ffmpeg -i input.mp4 -c:v libx264 -crf 18 -preset veryslow -c:a copy output.mp4 此命令指定了视频编码器为 libx264,设置 CRF 的参数为 18,且使用 veryslow 预设以进一步提高编码质量,音频部分直接复制。

更改格式

原理:在不改变媒体编码的情况下,改变媒体封装格式,通常转换后的大小基本相同,一般不会出现过大差距,如果大小差距过大,需要检查媒体文件的完整性。

命令示例:ffmpeg -i input.mp4 -codec copy output.mp4 可直接更改封装格式,无需重新编码。

调分辨率

原理:降低视频分辨率可显著减小文件体积,对于对视频画质要求不是特别高,或需要在低分辨率设备上播放的场景比较适用。

命令示例:ffmpeg -i input.mp4 -vf scale=1280:720 -c:a copy output.mp4 该命令会将视频的分辨率调整为 1280×720 像素,音频的部分不进行重新编码,从而实现压缩体积目的。

调比特率

原理:降低视频比特率可以在保持原始分辨率的同时减小文件体积,适当减少比特率能够有效的减少文件大小。

命令示例:ffmpeg -i input.mp4 -b:v 2500k -c:a copy output.mp4 此命令将视频比特率设置为 2500kbps,音频流则直接复制。

用 HEVC 编码

原理:HEVC 是一种更高效的视频编码格式,在同等画质下,相较于 H.264 编码,可使文件体积更小。

命令示例:ffmpeg -i input.mp4 -c:v libx265 -crf 28 -preset medium -c:a aac -b:a 128k output.mp4 其中-c:v libx265 指定输出的视频编码器为 libx265-crf 28 指定 CRF 参数为 28-preset medium 平衡视频质量和压缩速度,-c:a aac -b:a 128k 表示音频部分使用 AAC 编码,并设置了音频码率为 128kbps。

视频自媒体平台和图文独立博客

2023年12月11日 16:19

视频自媒体时代有价值的信息很少。目前视频的自媒体时代,虽然内容琳琅满目,但是有价值的信息屈指可数,甚至是大海捞针。本来自媒体的目的就是为了吸引流量,以求变现,就像以前图文时代的「震惊」标题一样,目的只有一个,赚钱。在此风气的环境下,我们就不能期待着从中获取有价值的信息了。

博客帮助我们筛选下了喜欢独立的且有想法的人。那么,博客这个老平台,价值就体现出来了。虽然在视频时代以前,博客也是用来吸引流量进行变现,但如今博客的大势已去,留下的,都是热爱文字输出的独立博主。也不是说博客还有多大的商业价值,而是博客相当于帮我们筛选下来了这么一批人,这批人不为赚取流量(毕竟博客现在也没什么流量了),更多的是为爱发电。用最简单的,相比视频制作要更轻松的图文发布方式,向世界发表自己的观点,并且是随心所欲。

文字更适合用来学习和思考。文字相比于视频,要更适合用来学习。文字需要我们主动去阅读和理解,视频是让我们不用思考的被动接受信息,主动要比被动更能有效理解并记住信息,从而能帮助我们去整理思绪,系统的思考。视频是有趣的,轻松没压力的,主打的就是一个消遣,即时满足。

如果有人反问说:现在文字类的博客已经没有价值了,没人会看的,写了也没用。那我会说:这类无法看枯燥无味的长文的人,他们的多巴胺阈值已经很高了。这类人喜欢看轻松无压力的视频,不用思考,就能在一两分钟内看完一个视频,然后再看下一个视频。这种走马观花的观看是很难形成深度思考和理解的,更不可能利用获取的新信息来改善现实生活上遇到的问题。他们很难专注于眼前没有乐趣的事情,很难去解决稍微有难度的事情,而现实生活中,大部分的问题都需要长时间的专注来分析并处理各种枯燥无味的事情的。

都是工具,但要运用得当。无论是文字还是图片视频,如果运用得当,他们都是很棒的工具,能够辅助我们解决许多问题。但他们的信息载体的基本调性就在那,而且时代的风气也如此,不是说图片和视频不好,是这种视频载体更容易用来让人们沉迷其中,如果心境不清醒,就很容易变成消遣娱乐,浪费光阴,弱化大脑。

控制好自己的精力。人的一生不应该追求快乐,因为那是一种欲望,是无止境的,人应该追求的是平静,是专心的处理好当下的每一件事情,来获得内心的平静,不去焦虑,不以物喜不以己悲。快乐和幸福就让他在平静中不经意的到来,就像偶尔加点糖,而不是去追寻每天都甜蜜。

要想处理好手头的事情,就要控制好自己的精力,那样才有耐心去思考、计划、分析、执行,处理好枯燥无味的琐事。要控制好能够刺激多巴胺的低级快乐,比如短视频、游戏、小黄片、可乐薯片、微信群聊,甚至音乐。实在是控制不住了想尝一尝,也要懂得按下暂停键,不能一直沉迷下去。不然的话,你可能连早上刷个牙、叠个被子、拖一下地、洗个澡这种极其简单的事情都不想去做,那更谈不上思考自己的人生、规划自己的工作、学习能让自己更优秀的知识技能这些稍微困难一点的事情了。

叔本华曾说:生命就是一团欲望,欲望得到了满足就会无聊,欲望得不到满足就会痛苦,人生就像钟摆一样,在痛苦和无聊之间左右摇摆。

当我们感到无聊时,那便是精力非常充沛的时候,这时候非常适合去做一些枯燥且困难的事情,如果这时候忍不住去及时享乐,忍不住去玩游戏、看黄片、抽烟、吸毒等等,多巴胺会让你想要得更多,继续玩游戏继续及时享乐,根本停不下来,停下来会非常的痛苦。相比于到达了多巴胺顶峰之后再痛苦的下降,不如控制好自己,让多巴胺时刻处于平衡的状态,那样生活才能随心所欲,尽在自己的掌控。

再谈博客。所以说,博客还是有价值的。文本信息能够更轻松简单的发表想法观点,读者也能够能够更快速的检阅,而不用等着视频一字一句的读完。虽然读起来非常乏味,但从宏观长远来看,让自己处于平衡的状态,才能随时随地的投入到下一件平凡琐碎的事情当中去。

可能已经没人记得我了,毕竟我更新的不多,这几年甚至写都不想写,因为我怀疑写博客是为了什么,有什么价值。因为写了东西也没人看,写来干屁吃。不如去B站、抖音、小红书那里去做内容,那边人流量多,也有更多人和你讨论。像这种鸟不拉屎的自建站,根本没人知道,更没人有耐心来读你的长文,又枯燥,又没营养,又不好笑,没有教你赚钱的办法,又没有给到什么情绪价值,读来也是浪费时间,那写来干嘛,索性就摆烂不写了。但现在想想,写博客,一来可以提高自己的写作能力,这样能够帮助自己在给自己的自媒体视频写文案的时候有根本性的帮助;二来可以促进自己思考,大脑多活动,不然真的会生锈;三来呢,码字还是有点小愉悦的,特别是用小鹤双拼打字,比以前全拼的时候码字爽多了,虽然有时候还是要慢慢的去找候选词,但总体来说还是舒服了不少。当然了,这种缺少规划的即兴写作方式大概率会产生许多废话,也就是没有价值的内容,毕竟是想到什么就写什么,但我也无所谓了,爱看不看,我每年续费几块百块钱还要顾忌那么多,干嘛呢,折腾自己呢?想说什么就说什么就是了。

我还是希望多和大家交流一些想法,向大家多学习的。锻炼一下自己,让自己能够静下心来,有耐心的去学习一些干货知识。如果你不玩游戏,不看短视频,不看小黄片,不沉迷于即时通讯,那你真的多出很多的时间,虽然无聊,非常无聊,特别无聊,但无聊就对了,无聊就试着去处理一下你还没解决的事情吧。

下次可以聊一聊如何把困难的事情分解成简单的小事情,以此提高执行力,早日处理好事情,减少拖延的可能性。

❌