最近科技圈最火的话题,非DeepSeek莫属。这个横空出世的人工智能公司,旗下大模型在多个专业测评中吊打国际巨头,连平时不怎么关注AI的邻居大妈都在问我:”听说咱们中国出了个特别厉害的AI?”面对突如其来的爆红,创始人刘琦在办公室泡着枸杞茶的间隙,抽空跟我们聊了聊这场意外的走红。
“说实话,我们团队到现在还是懵的。”刘琦推了推眼镜,身上那件穿了三年都没换的格子衬衫格外显眼。这位85后创始人的办公室堆满了专业书籍,最醒目的却是墙角那箱吃了一半的方便面。”上周三早上醒来,发现手机被未读消息卡死了,还以为服务器又崩了。”
这场爆火始于上个月的国际AI评测大赛。DeepSeek-V3在不声不响中拿下了数学推理、代码生成等五项第一,尤其在数学能力上,直接超越了GPT-4三个百分点。更让人意外的是,有网友发现这个模型对中文古诗词的理解简直像开了挂,连”昨夜西风凋碧树”这种意象都能给出媲美文学教授的解析。
“我们真没想搞什么大新闻。”刘琦苦笑着给我们续茶,”就是测试阶段顺手报了个名,连市场部都不知道这事。”他透露团队已经连续18个月保持”996″节奏,有次为了调试模型,五个工程师在机房打了三个月地铺,”现在闻到泡面味都想吐”。
面对外界”突然杀出的黑马”评价,技术总监王磊当场笑出声:”哪有什么黑马?我们实验室的椅子都被坐出包浆了。”他带我们参观研发中心时,指着墙上2019年的老照片说,当时团队挤在民房里搞研发,夏天全靠三台电风扇续命,”有次算法跑一半跳闸了,全组人蹲在楼道里哭”。
最让网友热议的,是DeepSeek令人咋舌的”性价比”。相比动辄烧钱几十亿的同行,他们公布的训练成本还不到行业平均值的1/3。”这得感谢老刘的’土味算法’。”王磊透露,团队独创的”动态稀疏训练法”灵感居然来自菜市场——”就像大妈买萝卜,专挑带泥的新鲜货,我们只训练模型最有用的参数”。
爆红后最戏剧性的场面出现在公司前台。刘琦给我们看手机照片:某国际巨头中国区总裁拎着果篮来拜访,结果被当成快递员拦在门外。”真不是摆谱,我们公司到现在连个正经前台都没有,都是轮值打扫的实习生顺手接待。”
谈到突然涌入的投资邀约,CTO张明远摆手说暂时不需要:”去年最困难的时候,老刘把婚房卖了发工资。现在账上突然多出八个零,反而不会花了。”他展示的财务报表上,研发投入占比始终保持在80%以上,市场费用那栏至今还是零。
有意思的是,团队至今保持着学生时代的习惯。每周五的”吐槽大会”雷打不动,最新一期主题是”老板的格子衬衫到底有几件”。刘琦的工位上贴着便签条,上面写着”别飘,想想去年求爷爷告奶奶找服务器的日子”。
对于网友封的”国产AI之光”称号,刘琦显得很不安:”千万别这么说,我们就是一群技术宅碰巧解决了几个问题。”他反复强调,AI竞赛是马拉松不是短跑,指着墙上”冷板凳坐穿”的毛笔字说:”这是开张时写的,现在看还得继续坐。”
临走时我们注意到,公司茶水间贴着最新通知:禁止在深夜加班时放《孤勇者》,”上次唱太嗨把物业招来了”。这种接地气的风格,或许正是DeepSeek意外走红的原因——没有铺天盖地的通稿,只有实实在在的代码;没有天花乱坠的概念,只有解决具体问题的执着。
当问到下一步计划时,刘琦的答案出人意料:”先放三天假吧,有个程序员女朋友要分手了,得去挽回。”他摸着后脑勺补充:”当然模型迭代不会停,今晚该值班的还得值班。”看着他转身走向机房的背影,突然明白这家公司为什么能成——因为他们真的把AI当成了生活,而不仅仅是生意。
原创文章,作者:admin,如若转载,请注明出处:http://www.theprompt.cn/deepseek-2/1364