特朗普讚 DeepSeek 對美國是好事 美國應視為警號，AI 一定要贏

Rank: 3 Rank: 3 Rank: 3

41^# 跳轉到 »

發表於 2025-2-9 18:13 | 只看該作者

所以我覺得就係使乜用呢的語言偽述呀，直接的講：係呀我蒸餾你的訓練數據用呀，唔使錢用咗你的晶片 run 呀 ...
javacomhk 發表於 2025-2-7 15:07

世事邊度有咁簡單嫁?真係咁容易做嘅話又唔見日本韓國星加坡印度等國家可以出倒個Deepseek出黎?人哋其他國家都要無芯片禁令添

就算歐盟國家法國個Lucie都因為上架後發覺錯漏百出而三幾日就要下架

https://ezone.hk/article/20055434/%E6%B3%95%E5%9C%8B-ai-%E8%81%8A%E5%A4%A9%E6%A9%9F%E6%A2%B0%E4%BA%BA-lucie-%E8%A2%AB%E5%81%9C%E7%94%A8-%E6%9C%89%E6%94%BF%E5%BA%9C%E6%92%90%E8%85%B0%E9%83%BD%E7%84%A1%E7%94%A8

via HKEPC Reader for Android

TOP

ampm

中級會員

Rank: 2 Rank: 2

42^#

發表於 2025-2-9 23:08 | 只看該作者

未爆出deepseek之前，內地的大模型公司打生打死，好多唔見咗或無乜聲氣了。文心丶商湯，和01已落後了半年有多，最後先跑出一隻deepseek，相對背景無咁有$後台。都希望佢地繼續有新的product推出，而令到一般user可以用到。

TOP

jasonchanwf 發短消息加為好友 jasonchanwf 當前離線 UID 369910 帖子 13 精華 0 積分 1 EPC Dollar 1 註冊時間 2025-2-3 最後登錄 2025-2-20 Banned	43^# 發表於 2025-2-11 13:33 \| 只看該作者提示: 作者被禁止或刪除內容自動屏蔽

	TOP

ckyuen2

進階會員

Rank: 3 Rank: 3 Rank: 3

44^#

發表於 2025-2-11 17:58 | 只看該作者

未爆出deepseek之前，內地的大模型公司打生打死，好多唔見咗或無乜聲氣了。文心丶商湯，和01已落後了半年有 ...
ampm 發表於 2025-2-9 23:08

前列外圍仲有qwen/豆包/kimi果個梯隊
點睇都比起剛剛放出嚟果個Le Chat好太多

當然後者可能sell法文啩
唔識無得評

TOP

ronimos

初級會員

Rank: 1

45^#

發表於 2025-2-12 10:40 | 只看該作者

中國追得這麼快原因可能很簡單,中文只需用英文7成token在同一文本。
追上來就很簡單

以下是Copilot 的分析:

要比較BBC新聞中英文平行文本的token數差異，我們可以使用一些公開的平行語料庫來進行分析。這些語料庫通常包含大量的中英文對照文本，適合用來進行這類比較。

示例分析
假設我們從BBC新聞中隨機選取10個中英文平行文本，並使用常見的tokenizer進行token數量的計算。以下是一些可能的結果：

新聞標題1

中文：50個token
英文：70個token
新聞標題2

中文：45個token
英文：65個token
新聞標題3

中文：55個token
英文：75個token
新聞標題4

中文：60個token
英文：80個token
新聞標題5

中文：52個token
英文：72個token
新聞標題6

中文：48個token
英文：68個token
新聞標題7

中文：53個token
英文：73個token
新聞標題8

中文：57個token
英文：77個token
新聞標題9

中文：49個token
英文：69個token
新聞標題10

中文：54個token
英文：74個token
平均比例
根據上述示例，我們可以計算出中英文token數量的平均比例：

中文平均token數：50.3
英文平均token數：72.3
這樣，中英文token數量的平均比例約為 50.3:72.3，即 1:1.44。這意味著，英文文本的token數量大約是中文文本的1.44倍。

這只是簡單的示例，實際情況會因文本的具體內容和tokenizer的不同而有所變化。如果你有具體的文本或需要更詳細的分析，可以提供文本，我可以幫助進行更精確的計算。

TOP

ampm

中級會員

Rank: 2 Rank: 2

46^#

發表於 2025-2-12 16:53 | 只看該作者

本帖最後由 ampm 於 2025-2-12 17:18 編輯

受益了！原来中文在AI 是有jetso....
.
另外在YT睇了一位意大佬对DS睇法. 简约摘要
* DeepSeek R1 Zero 的突破:
R1 Zero 模型通过强化学习 (Reinforcement Learning)，自主学习到 Chain of Thought 的能力，而无需任何监督式学习 (Supervised Learning) 的范例。这项突破改变了传统的 scaling law，显示数据质量比数据数量更重要。

*强化学习的重要性:
影片详细解释了强化学习的机制，以及其在不同应用场景中的潜力，例如优化函数速度、解决各种优化问题等。

模型大小与强化学习的关系:
影片指出，大型 LLM 仍然具有优势，但强化学习可以弥补数据不足的问题，让模型在有限数据下也能取得突破性进展。

TOP

ronimos

初級會員

Rank: 1

47^#

發表於 2025-2-12 17:53 | 只看該作者

回覆 46# ampm

中文比英文更易出現OOV, 但中文比英文更易應對OOV,在推理時也有優勢。中文最難的分詞,在這10幾年時已經解決得7788。

以下是Copilot 分析:

在降低OOV（Out-Of-Vocabulary）比例方面，中文和英文有一些显著的区别：

1. **分词处理**：
- **中文**：由于中文没有明确的单词边界，分词是一个重要的预处理步骤。使用更好的分词算法可以显著减少OOV的出现[1](https://www.cnblogs.com/miners/p/14984990.html)。
- **英文**：英文单词之间有空格分隔，分词相对简单，因此OOV问题主要依赖于词汇表的大小和覆盖率[2](https://www.zhihu.com/question/55172758)。

2. **子词单元**：
- **中文**：使用子词单元（如BPE或WordPiece）可以有效减少OOV，因为中文字符本身就具有一定的语义信息[1](https://www.cnblogs.com/miners/p/14984990.html)。
- **英文**：同样可以使用子词单元，但英文的词根、前缀和后缀的组合相对固定，效果可能不如中文显著[2](https://www.zhihu.com/question/55172758)。

3. **字符级模型**：
- **中文**：字符级模型在中文中非常有效，因为每个汉字都有独立的意义，即使是未知词也可以通过字符组合来理解[1](https://www.cnblogs.com/miners/p/14984990.html)。
- **英文**：字符级模型在处理拼写错误和新词方面也有优势，但由于英文单词的长度和结构，处理起来可能更复杂[2](https://www.zhihu.com/question/55172758)。

4. **动态词表**：
- **中文**：动态词表可以根据上下文动态更新，特别适用于处理新词和罕见词[1](https://www.cnblogs.com/miners/p/14984990.html)。
- **英文**：同样可以使用动态词表，但由于英文词汇的固定性，效果可能不如中文明显[2](https://www.zhihu.com/question/55172758)。

总体来说，中文在降低OOV比例方面的挑战主要在于分词和字符的多样性，而英文则更多依赖于词汇表的覆盖率和处理拼写变体的能力。如果你有具体的应用场景或进一步的问题，欢迎随时告诉我！

[1](https://www.cnblogs.com/miners/p/14984990.html): [NLP之文本摘要](https://www.cnblogs.com/miners/p/14984990.html)
[2](https://www.zhihu.com/question/55172758): [NLP 研究主流目前如何处理 out of vocabulary words](https://www.zhihu.com/question/55172758)

TOP

JASV