(来源:知危)淄博泡沫板专用胶厂
奥力斯 PVC管道管件粘结胶价格 联系人:王经理 手机:18231788377(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区/p>
鸽了这么久,DeepSeek V4 终于发布了,庆幸不是在五假期。
新模型的定位非常明确,主代码能力与长上下文处理,符当下迫切的需求。
国内也已经有其它几款百万上下文模型,但般都是线注意力模型,DeepSeek V4 则依靠的是稀疏注意力机制,前者弱化注意力连接强度,后者弱化注意力关注范围。
当然在实战下,这些都不重要,还是来看结果吧。知危此次的关注点也会在这两个维度上,并分别在网页端和 Claude Code 上测试。
先关注上下文长度的有。业内其实都默认,百万上下文中有用的基本不到四分之,能达到二分之的了。
检测上下文有便捷的式是 “ 大海捞针 ”,就是在大量文本中找目标标记。
知危选取了本中文版百万字别的小说,总计 900 页左右,先在开头加上了个标记“ deepseekv4 ”,然后每隔 100 页左右随机插入个,总计 10 个 “ deepseekv4 ” 标记。
然后在网页端开启模式,将小说的 txt 文档直接发送给 DeepSeek,并提问:“ 查找这个文档里有几个 ‘ deepseekv4 ’,并指出 5 个的位置。”
DeepSeek 没有思考多久就给出了答案,很明显 “ 总数 5 个 ” 是错的,而且除了个容易找的,其它几个都错了,比如关于三个标记的位置描述,其实是四个标记的,其它几个描述的位置并不存在标记。
DeepSeek 提供的答案 “ 5 个 ” 和我的问题是相关的,所以我又换了个问法,让它查找 3 个。结果这回 DeepSeek 找到的标记数从 5 个变成了 2 个。
这个结果并不让人意外,毕竟都把上下文填满了。
接下来,我们把文本长度直接减半,看看果如何。减半后,标记数量剩下 5 个,并让 DeepSeek 指出三个的位置。
DeepSeek 没有准确指出标记总数,但准确地找到了三个标记的位置。
但再让它找四个时,它找到的是五个标记。
总体结果是不够令人满意的淄博泡沫板专用胶厂,法认为 DeepSeek V4 的上下文有能达到二分之。
所以我们再次将文本减半,标记总数剩下 3 个,并让 DeepSeek 找二个标记的位置。这回 DeepSeek 准确地出了标记的总数,但又把三个标记认成了二个。
后次减半,标记总数剩下 2 个,并让 DeepSeek 指出二个的位置。这回 DeepSeek 总两个任务都成功了。
当然,到这里问题已经过度简化了,剩下的两个标记个在开头个在末尾,都是比较好找的。因此我再次在中间位置随机插入个标记,看 DeepSeek 能不能过这关,结果又翻车了,它居然说总共只有个标记,但实际上有 3 个。
后这个版本大概 10 万字,大约相当于 10 万 token,已经只有十分之总长度了。
到此,对 DeepSeek V4 的有上下文还没有明确的边界。只是在实战中,简单写个网页的初版都能达到 5 到 8 万个 token,DeepSeek V4 能在实战中稳住幻觉率吗?
那就直接试试吧。直接用之前测试过 GPT-5 和 Gemini 3 Pro 的网页版 Excel 案例来上难度。
DeepSeek 给到的版,先别说其它错误有多少,刚要点击单元格输入,网页就白屏了。
由于错误太多,我直接让 DeepSeek 自己检查错误并修复,然后 DeepSeek 给了我个白屏。
于是我先把难度降低,让它写个 2048 小游戏,这回顺利完成了。
再往上挑战下难度,构建个 3D 乐积木软件,这次倒是次成了,基本都能实现,就是没有实现自由选择件的,只能使用种长形板砖积木。
提示 DeepSeek 修复这个问题后,它给了我没有任何变化的修改版。
再次降低难度,让它生成个树生长的动画,按照特上的展示,Qwen 3.6 和 Gemma 4 能很好完成这个任务。
提示词:
用个包含全屏画布的 HTML 文件( 不使用任何库 )来制作棵树的动画,树从屏幕底部中心实时生长。树干先向上生长,然后树枝以递归的式分叉,泡沫板橡塑板专用胶角度和长度略有随机。每代树枝都应该细,颜略浅。当树枝达到终大小时,在枝梢添加些柔和的绿小圆圈作为叶子。树生长大约需要 15 秒。使用暖棕表示木头,使用各种绿表示叶子,背景为柔和的天蓝渐变。
结果很不错,DeepSeek V4 不仅完成了任务,终画面还有不错的美感。
到这里,DeepSeek V4 的整体表现天花板不,也不够稳定。
但在 Claude Code 框架下的编程模型通常能好发挥,所以接下来要将 DeepSeek V4 接入 Claude Code 来继续测试。
然后,它给我写了个初始化状态错误所以没法玩的 2048 小游戏。
当然,这只是个小错误,但也能看出 DeepSeek V4 出现幻觉的概率挺的,即便在比较简单的任务下。
接下来我们还要尝试个新场景,用网页模拟康威生命游戏,模拟时长分钟,并能实时通过鼠标点击加入新种子,难度介于 Excel 和模拟树生长之间。
提示词:
请使用单个 HTML 文件实现个完整的《康威生命游戏(Conway’s Game of Life)》动画程序,要求如下:
、技术约束
仅使用 HTML + CSS + 原生 JavaScript
禁止使用任何三库或框架
所有代码须写在同个 HTML 文件内
不允许引入外部资源(CDN、图片库等)
二、画布与渲染
使用
作为全屏绘制区域
自动适配浏览器窗口大小( 宽)
支持分辨率屏幕(考虑 devicePixelRatio)
网格应为等比例格(例如 10px~20px 可调)
三、游戏逻辑(康威生命游戏规则)
每个细胞只有两种状态:存活 / 死亡
每代按照经典规则新:
少于2个邻居 → 死亡(孤立)
2或3个邻居 → 存活(延续)
过3个邻居 → 死亡(过度拥挤)
死细胞刚好3个邻居 → 复活
四、初始化状态
初始随机生成 40~60 的存活细胞
支持预设个有趣的图案(如滑翔机 + 随机噪声混)
五、动画要求
动画持续运行 60秒
帧率控制在 10~30 FPS(避过度计)
60秒结束后:
自动停止新
停留在终状态
六、视觉果
存活细胞:亮绿块
死亡细胞:黑或背景
可选轻微视觉增强(例如渐隐、拖影果),但不能影响能
背景简洁,多余 UI
七、能要求
须使用二维数组或优化结构存储状态
新时避重复 DOM 操作(只用 canvas 重绘)
尽量优化邻居计(避 O(n²) 过重实现)
八、增强(加分项)
支持暂停 / 继续(按空格键)
支持点击画布切换细胞状态
支持按 R 重置随机世界
DeepSeek 的实现结果很漂亮,而且确实可以用鼠标添加种子,把些进入静息状态的生命再次激活。
DeepSeek V4 这次的任务执行时长是分钟。作为对比,GPT-5.3 几乎是瞬间就生成了代码,简直是复制黏贴般的速度,而且程序也能正常运行,当然,视觉上的粒度和审美感要差了很多。
]article_adlist-->后我们还是让 DeepSeek V4 再次挑战下网页版 Excel 案例。
在纯自主执行的条件下,DeepSeek V4 用将近半小时实现了个基本完成的版本,但还是有些小错误,比如对齐失。
其实按照开源模型目前在 Coding Agent 生态中的定位,还是适在顶闭源模型把控下做具体的执行工作。
所以,我先把任务传递给 GPT-5.3,让它给出执行规划,然后把任务和规划并给到 DeepSeek V4 执行。
这回,DeepSeek V4 给了个漂亮的结果,基本没有错误。
根据 Claude Code 的 Context 统计结果,当前上下文总量是 81.6k token,占上下文限的 8 。
后看看 API 用量,以上四个任务,总共花了 8 人民币左右,将近都是 DeepSeek V4 Pro 模型消耗的。
但这并不意味着 DeepSeek V4 Flash 模型没有发挥作用,具体的数据表明,DeepSeek V4 Flash 模型的调用次数和 DeepSeek V4 Pro 相当,就是 token 消耗量少个量。
到这里测评就结束了。
从目前测试结果来看,DeepSeek V4 的百万上下文长度有百分比不是很,幻觉率较致不管在简单还是较困难的任务中都有可能出现低错误,致表现不稳定。在 Claude Code 中的代码审查阶段,有时要消耗三分之到半的时间来改代码。
思考时间过长可能是尴尬的问题。即便是网页版 Excel 也不很复杂的案例,而 DeepSeek V4 动辄十几分钟的思考时间,加上执行时间就久了,总时长经常达到三十分钟左右。
其实人们现在对思维链已经魅了,它顶多是通过提升力来提升准确率的工程手段,在 Coding Agent 场景中可能大部分都被忽略不看。
模型能力上限使其不太可能在实际编程任务中担任主角,作为执行者速度又太慢,关闭 Thinking 模式或者换成 Flash 模型是否还能保证执行准确率,时间原因,目前知危这里还没有测试案例可循。
总的来说,从我们测试的这些案例的视角来看,DeepSeek V4 的表现没有想象中的好,并且能力表现似乎也不是特别稳定。但是其实官技术报告里本来也就大大的说了自己跟闭源顶模型仍有差距,本次新只是缩小了差距,所以这个结果也不意外。
但是吧,还是那句话,你再看看它的价格,都这么便宜了,能忍。
撰文:流大古
设计:子曰
编辑:大饼
]article_adlist--> 海量资讯、解读,尽在财经APP 相关词条:不锈钢保温 塑料管材设备 预应力钢绞线 玻璃棉板厂家 pvc管道管件胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。