1,Whisper+GPT(DeepSeek)做音视频双语字幕;
2,GPT/DeepSeek/AI Studio+Xmind做脑图;
3,AI总结视频纲要的核心流程和技术;
4,google gemini2.0对于视频的理解和推理属于最强,对画面的识别和推理,目前对于流媒体的处理大部分原因取决于算力,而不是技术;
5,AI智能体如何创建和训练?
AI的一些学习和思考:
一,DeepSeek的推理问题;
1,DeepSeek-R1的推理模型输出时不能消除推理模块,如果不想让其推理,用V3模型。
2,DeepSeek-R1的推理部分可以通过Prompt的严谨性去减少推理的长度。例如:
(1),原始:1+1等于几?
(2),优化后:1+1等于几,仅通过数学算数的方式进行回答即可。
二,DeepSeek的输入缓存命中问题;
1,缓存命中时针对用户输入时的提示词进行缓存的,如果用户问了一个问题,然后相同的问题再向大模型问第二遍,那么系统会通过磁盘中的缓存直接输出第一次问时候的答案;
2,缓存命中对输入提示词有很强的要求,例如标点符号的不同或者空格的多少,都会影响缓存命中机制,具体如何命中需要看deepseek官方文档;
3,缓存命中后通常都是从缓存磁盘中读取然后输出,这样减少了重复计算、节省了GPU资源、输出速度很快。