在没有图形界面的情况下,通过 SSH 连接到 Ubuntu 是可以的,但如果你希望通过 Windows 或 Mac 上的远程桌面访问 Ubunt...

5月 06, 2025

打开公网服务器的UDP服务 wireguard 可以用来进行组网,如上所示,我有一个带有公网 IP 的服务器 server,同时我还有两个...

4月 06, 2025
ufw

3月 26, 2025

1. 哈希表 哈希表(Hash Table)是一种基于数组的集合数据结构,它能够通过一个哈希函数将元素映射到数组的索引上,从而使得数据存储和检索...

3月 24, 2025

GPT-1 回答你的问题:GPT-1 在输入时已经包含了多个答案,那么如何计算每个答案的概率? 是的,在 GPT-1 的方法中,每个候选答案都是...

DeepSeek-R1:强化学习如何提升大模型的推理能力 1. 引言 随着OpenAI的o1-preview发布,思维链(Chain of Th...

1. 为什么需要位置编码? 1.1 一个直观的例子 假设:没有位置编码,下面这句话 “The cat sat on the mat.”(猫坐在...

在 Transformer 结构中,Attention 机制是核心,下面我们介绍各种 Attention 的变体 假设我们有一个句子: “我 ...

要讲 attention,肯定就离不开Attention is All You Need这篇文章,虽然我之前都是看的视觉任务,但是视觉任务比如 ...

Deepseek v1 1. 模型结构 Deepseek LLM 第一版本。 目前,ChatGPT、Claude、Bard 等封闭模型引领了 L...