2024-12-29 13:00
回复@三体-0大史0042:我故意不说的东西,你觉得在评论区问我就会说吗?//@三体-0大史0042:另一个是qwen么?
2024-12-29 12:46
这几天很多人都表达了对 DeepSeek 3 训练成本大幅降低的惊叹。但也有人说这是“断章取义”,比如认为他们训练的只是 FP8 精度,强调他们训练用了大量高质量合成数据,并认为得到这些数据的过程所消耗的算力也应该算在训练成本里。
看了两边的观点之后我觉得好像都有道理,而我也没有资格在这个问题上做出评价。模型训练是大玩家们的游戏。我们能关注的还是模型应用。实验室的同学已经在测试 DeepSeek 3 了,具体好不好用也还是要用了才知道。
另外,今年夏天的时候,我用我自己设定的测试任务测了一下几个大模型。国内的大模型多数都不能完成我的编程任务(🔗网页链接 🔗网页链接)。只有当时的 DeepSeek 2.5 和另外一个能完成。
2024-12-29 12:55
有意识的操控确实是一种可能性。不过,提速降费之后,民意汹汹起来也还是挺闹心的。八万只绿头蝇,虽然不能咬人,但嗡嗡嗡,嗡嗡嗡,嗡嗡嗡。这时候解释是没用的。爱因斯坦懂什么相对论?调查组知道什么真相?嗡嗡嗡,嗡嗡嗡,嗡嗡嗡。
2024-12-29 12:39
熊猫那事儿也挺奇怪。现在官方结论出来了,旅美大熊猫是因为患有皮肤病,不是美国人故意虐待或者不好好养或者水平不行。这很好,但在闹得最沸沸扬扬的时候,我似乎没看到官方给出这样明确的结论——问题是这个结论在当时就应该公开吧?官方有在当时就明确指出这一点么?
随着年龄增长,我逐渐了解到的事情就是,或许不是全部,但几乎所有傻逼粉丝,背后都有人试图操控。
2024-12-29 12:46
这几天很多人都表达了对 DeepSeek 3 训练成本大幅降低的惊叹。但也有人说这是“断章取义”,比如认为他们训练的只是 FP8 精度,强调他们训练用了大量高质量合成数据,并认为得到这些数据的过程所消耗的算力也应该算在训练成本里。
看了两边的观点之后我觉得好像都有道理,而我也没有资格在这个问题上做出评价。模型训练是大玩家们的游戏。我们能关注的还是模型应用。实验室的同学已经在测试 DeepSeek 3 了,具体好不好用也还是要用了才知道。
另外,今年夏天的时候,我用我自己设定的测试任务测了一下几个大模型。国内的大模型多数都不能完成我的编程任务(🔗网页链接 🔗网页链接)。只有当时的 DeepSeek 2.5 和另外一个能完成。
2024-12-29 12:13
收入增加和收入减少的人数比值是0.80。这大大高于我在其他博主的调查里看到的数字,也高于人民银行早先公布的数字。这再次验证了汉语从句和收入正相关。
2024-12-28 23:17
大家 2024 年的收入相对 2023 年有什么变化?
有房屋出租、投资收益等也都算进去。如果一时算不清的话不算也行,只对比主业收入。 网页链接
2024-12-29 10:59
看完这个视频,犹他州的 Castle Gate 电站的一位工程师忧心忡忡地开始构想一部科幻小说,他在电脑上缓缓地敲出小说标题:《Full Spectrum Barrage Jamming》。
2024-12-28 20:28
#美媒称中国完成令人震惊的试飞#这可能是到目前为止,国外媒体对成飞六代机最客观的评论分析……#2024年被这些军事装备飒到了# 🔗YouTube全球精选的微博视频