• 本站招聘各个版块版主共同发展,有意可私聊站长

印度阿三搞出了自己的主权AI: Sarvam 105B

Telegram账号购买找【ITCRY】-顶级号商 https://itcry.com/

bingo

Active member
Lv0
Lv1
Lv2
10
消息得分
注册
2025-07-03
消息
1,226
反馈评分
0
官方的“底气”:国产算力 + 海量数据

Sarvam AI 官方在 2026 年 3 月 9 日的最新声明中强调:



训练来源: 使用了印度政府 IndiaAI Mission 提供的 4,096 颗 NVIDIA H100 算力集群,耗时数月。



语料规模: 声明其 105B 模型是在 12 万亿(12T) Token 上从头练出来的,其中包含了极其大量的 22 种印度本土语言数据。



架构选择: 采用 MoE(混合专家模型) 架构,总参数 105B,但每次推理仅激活约 10B 参数。



===========开源社区态度=====================

社区发现 Sarvam 105B 使用了 MLA(Multi-head Latent Attention) 机制。这正是 DeepSeek-V3 能够平衡长文本性能与推理成本的核心秘籍。开发者社区目前的共识是:Sarvam 在架构设计上确实“深度参考”了 DeepSeek。

-------- 一种技术,谁都可以用。



尽管它针对印度语做了优化,但部分开发者指出其对代码和通用英语的分词模式与 Qwen(通义千问) 的分词器重合度较高。这导致了“洗稿式训练”(Distillation)的嫌疑。

------- 这个嫌疑有问题,关键看重合比例。



Sarvam 105B 在处理印度语(如印地语、泰米尔语)时表现出了远超 Qwen 和 DeepSeek 的原生能力。这证明它确实投入了真实的国产数据进行大规模预训练或深度微调。

--------- 这个说明不是纯换皮,多少有点东西,但不能证明,纯自研。
 
后退
顶部