这几天Deepseek成了全球最热门的话题,大家对其创始人梁文锋也很感兴趣。但他是一个极其低调的人,即便在幻方成为国内首个突破千亿管理规模的私募量化基金的时候,金融圈内的人对幻方的实际控制人也了解甚少。
我总结了他近年来几次公开发言,当时看这些文字的时候没有太多感触。现在他取得了如此成就,再来读一遍,发现字里行间闪烁着智慧的光芒(捂脸)
我总结了他近年来几次公开发言,当时看这些文字的时候没有太多感触。现在他取得了如此成就,再来读一遍,发现字里行间闪烁着智慧的光芒(捂脸)
- 为《西蒙斯传》做序
“每当在工作中遇到困难的时候,我会想起西蒙斯的话:“一定有办法对价格建模。”
https://baijiahao.baidu.com/s?id=1690939635451193484&wfr=spider&for=pc - 2019年 《一名程序员眼里中国量化投资的未来》
“人来做投资决策的时候,它是一种艺术,要凭感觉。程序来决策的时候,它是一种科学,它有最优解。”
https://cloud.tencent.com/developer/news/433786 - 2023年5月《疯狂的幻方:一家隐形AI巨头的大模型之路》
“信仰者会之前就在这里,之后也在这里。” “务必要疯狂地怀抱雄心,且还要疯狂地真诚”
https://baijiahao.baidu.com/s?id=1766849870053959366&wfr=spider&for=pc - 2024年7月 《揭秘DeepSeek:一个更极致的中国技术理想主义故事》
“真正的差距不是一年或两年,而是原创和模仿之差”
“我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。”
“其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。”
https://baijiahao.baidu.com/s?id=1805244984030096186&wfr=spider&for=pc
1
赞同来自: dcshallot
@jian
全世界的AI 都是基于transformer 架构才取得突破的,deepseek当然也基于此。全世界的AI都是基于transformer架构?你对AI了解多少?transformer只是machine learning (AI)其中一种架构,除它外还有CNN, RNN, GAN, GRU等等等。unsupervised learning (无人工干预强化学习) deep seek之前就有了,这也不是他们减少计算量(培训成本)的主要途径。 开源AI也不少,github这里就列有一个清单github.com/thebigbone/opensourceAI。每个AI模型都有自己的特色, 但DeepSeek引起大家关注的主要原因是减少模型培训成本。
deepseek,接过了openai 的开源路线,是对业界最大贡献。
此外还有一些独特之处。
1
jian - 淡淡的名贵
赞同来自: gaokui16816888
@anonymous00
deepseek,接过了openai 的开源路线,是对业界最大贡献。
此外还有一些独特之处。
这几天打开手机电脑都是关于deepseek的讨论。我看了几遍deepseek发表的关于他们模型的文章(V2: https//arxiv.org/pdf/2405.04434 ; R1:https//arxiv.org/abs/2501.12948)。我理解下来最主要的突破是他们基于transformer 架构对token的attention mechanism在传统multile head att...全世界的AI 都是基于transformer 架构才取得突破的,deepseek当然也基于此。
deepseek,接过了openai 的开源路线,是对业界最大贡献。
此外还有一些独特之处。
0
这几天打开手机电脑都是关于deepseek的讨论。我看了几遍deepseek发表的关于他们模型的文章(V2: https//arxiv.org/pdf/2405.04434 ; R1:https//arxiv.org/abs/2501.12948)。我理解下来最主要的突破是他们基于transformer 架构对token的attention mechanism在传统multile head attention机制下对token的key和value加了一层降维的latent space transform。如果模型够大,这种机制能极大减少计算步骤。这确实是值得庆祝的进展。但他们的突破是基于这几年machine learning/AI界来自各方贡献的进展包括不断改进的transformer架构。另外文章没有详述他们'high quality training data'的来源和data pre-processing, 这可和模型一样重要。总得来说,好样儿的, 但是被吹得有点过头了。
0
认知的不同,美国政府想打压中国,每年花几百亿美元抹黑中国,说中国人,生活在地狱的最底层。
结果中国用免签就解决了,你来中国,吃穿住行得花钱吧,我们国家还能赚钱。就像三体人对人类的看法,是高阶生物对低阶生物的碾压。
结果中国用免签就解决了,你来中国,吃穿住行得花钱吧,我们国家还能赚钱。就像三体人对人类的看法,是高阶生物对低阶生物的碾压。