所以我覺得就係使乜用呢的語言偽述呀,直接的講:係呀我蒸餾你的訓練數據用呀,唔使錢用咗你的晶片 run 呀 ...
javacomhk 發表於 2025-2-7 15:07

世事邊度有咁簡單嫁?真係咁容易做嘅話 又唔見日本 韓國 星加坡 印度等國家可以出倒個Deepseek出黎?人哋其他國家都要無芯片禁令添

就算歐盟國家法國個Lucie都因為上架後發覺錯漏百出而三幾日就要下架

https://ezone.hk/article/20055434/%E6%B3%95%E5%9C%8B-ai-%E8%81%8A%E5%A4%A9%E6%A9%9F%E6%A2%B0%E4%BA%BA-lucie-%E8%A2%AB%E5%81%9C%E7%94%A8-%E6%9C%89%E6%94%BF%E5%BA%9C%E6%92%90%E8%85%B0%E9%83%BD%E7%84%A1%E7%94%A8

via HKEPC Reader for Android

TOP

未爆出deepseek之前,內地的大模型公司打生打死,好多唔見咗或無乜聲氣了。文心丶商湯,和01已落後了半年有多,最後先跑出一隻deepseek,相對背景無咁有$後台。都希望佢地繼續有新的product推出,而令到一般user可以用到。

TOP

提示: 作者被禁止或刪除 內容自動屏蔽

TOP

未爆出deepseek之前,內地的大模型公司打生打死,好多唔見咗或無乜聲氣了。文心丶商湯,和01已落後了半年有 ...
ampm 發表於 2025-2-9 23:08



前列外圍仲有qwen/豆包/kimi果個梯隊
點睇都比起剛剛放出嚟果個Le Chat好太多
當然後者可能sell法文啩
唔識無得評

TOP

中國追得這麼快原因可能很簡單,中文只需用英文7成token在同一文本。
追上來就很簡單

以下是Copilot 的分析:

要比較BBC新聞中英文平行文本的token數差異,我們可以使用一些公開的平行語料庫來進行分析。這些語料庫通常包含大量的中英文對照文本,適合用來進行這類比較。

示例分析
假設我們從BBC新聞中隨機選取10個中英文平行文本,並使用常見的tokenizer進行token數量的計算。以下是一些可能的結果:

新聞標題1

中文:50個token
英文:70個token
新聞標題2

中文:45個token
英文:65個token
新聞標題3

中文:55個token
英文:75個token
新聞標題4

中文:60個token
英文:80個token
新聞標題5

中文:52個token
英文:72個token
新聞標題6

中文:48個token
英文:68個token
新聞標題7

中文:53個token
英文:73個token
新聞標題8

中文:57個token
英文:77個token
新聞標題9

中文:49個token
英文:69個token
新聞標題10

中文:54個token
英文:74個token
平均比例
根據上述示例,我們可以計算出中英文token數量的平均比例:

中文平均token數:50.3
英文平均token數:72.3
這樣,中英文token數量的平均比例約為 50.3:72.3,即 1:1.44。這意味著,英文文本的token數量大約是中文文本的1.44倍。

這只是簡單的示例,實際情況會因文本的具體內容和tokenizer的不同而有所變化。如果你有具體的文本或需要更詳細的分析,可以提供文本,我可以幫助進行更精確的計算。

TOP

本帖最後由 ampm 於 2025-2-12 17:18 編輯

受益了!原来中文在AI 是有jetso....
.
另外在YT睇了一位意大佬对DS睇法. 简约摘要
* DeepSeek R1 Zero 的突破:
R1 Zero 模型通过强化学习 (Reinforcement Learning),自主学习到 Chain of Thought 的能力,而无需任何监督式学习 (Supervised Learning) 的范例。这项突破改变了传统的 scaling law,显示数据质量比数据数量更重要。

*强化学习的重要性:
影片详细解释了强化学习的机制,以及其在不同应用场景中的潜力,例如优化函数速度、解决各种优化问题等。

模型大小与强化学习的关系:
影片指出,大型 LLM 仍然具有优势,但强化学习可以弥补数据不足的问题,让模型在有限数据下也能取得突破性进展。

TOP

回覆 46# ampm

中文比英文更易出現OOV, 但中文比英文更易應對OOV,在推理時也有優勢。中文最難的分詞,在這10幾年時已經解決得7788。

以下是Copilot 分析:

在降低OOV(Out-Of-Vocabulary)比例方面,中文和英文有一些显著的区别:

1. **分词处理**:
   - **中文**:由于中文没有明确的单词边界,分词是一个重要的预处理步骤。使用更好的分词算法可以显著减少OOV的出现[1](https://www.cnblogs.com/miners/p/14984990.html)。
   - **英文**:英文单词之间有空格分隔,分词相对简单,因此OOV问题主要依赖于词汇表的大小和覆盖率[2](https://www.zhihu.com/question/55172758)。

2. **子词单元**:
   - **中文**:使用子词单元(如BPE或WordPiece)可以有效减少OOV,因为中文字符本身就具有一定的语义信息[1](https://www.cnblogs.com/miners/p/14984990.html)。
   - **英文**:同样可以使用子词单元,但英文的词根、前缀和后缀的组合相对固定,效果可能不如中文显著[2](https://www.zhihu.com/question/55172758)。

3. **字符级模型**:
   - **中文**:字符级模型在中文中非常有效,因为每个汉字都有独立的意义,即使是未知词也可以通过字符组合来理解[1](https://www.cnblogs.com/miners/p/14984990.html)。
   - **英文**:字符级模型在处理拼写错误和新词方面也有优势,但由于英文单词的长度和结构,处理起来可能更复杂[2](https://www.zhihu.com/question/55172758)。

4. **动态词表**:
   - **中文**:动态词表可以根据上下文动态更新,特别适用于处理新词和罕见词[1](https://www.cnblogs.com/miners/p/14984990.html)。
   - **英文**:同样可以使用动态词表,但由于英文词汇的固定性,效果可能不如中文明显[2](https://www.zhihu.com/question/55172758)。

总体来说,中文在降低OOV比例方面的挑战主要在于分词和字符的多样性,而英文则更多依赖于词汇表的覆盖率和处理拼写变体的能力。如果你有具体的应用场景或进一步的问题,欢迎随时告诉我!

[1](https://www.cnblogs.com/miners/p/14984990.html): [NLP之文本摘要](https://www.cnblogs.com/miners/p/14984990.html)
[2](https://www.zhihu.com/question/55172758): [NLP 研究主流目前如何处理 out of vocabulary words](https://www.zhihu.com/question/55172758)

TOP

原本真係作弊抄 OpenAI 嘅!
javacomhk 發表於 2025-1-30 22:38


假呀!

TOP

外國可以抄返你來降低成本
外國用返外國版 deepseek 無問題
不會有咩優勢

TOP

Deepseek真係唔錯!

TOP