环球速览-"在床上拔萝卜视频高清免费看"-疯狂星期四Qwen2.5开源，通义成了最Open的AI在床上拔萝卜视频高清免费看?

疯狂星期四Qwen2.5开源，通义成了最Open的AI在床上拔萝卜视频高清免费看?_ZAKER新闻

他的女朋友看到他不正常，精神恍惚，就问他发生了什么事情？

对国外开发者们来说，今天是一个特殊的 " 疯狂星期四 "！周四还没来，就有开发者在社交媒体平台上翘首以盼；已经要睡觉的日本网友，半夜爬起来测试竞技场；甚至有人直呼今天是 " 疯狂星期四 "！没错，一切都是因为，Qwen2.5 开源了，而且一口气开源了 100 多个模型！9 月 19 日云栖大会，阿里云 CTO 周靖人发布通义千问新一代开源模型 Qwen2.5 系列，包括语言模型 Qwen2.5，多模态模型 Qwen2-VL，以及专门针对编程的 Qwen2.5-Coder 和数学模型 Qwen2.5-Math。2023 年 8 月开始，Qwen 系列开始逐渐开源，不到一年内，从 1.0 逐步升级到 2.5，完成了四次重大迭代，从今年年初到现在持续霸榜，开发者们更是将这一次开源，称为 " 史诗级开源 "。甚至网友辣评：这才是真正的 "Open AI"。一口气，上架 100 多个模型！在开发者眼里，他们称 Qwen 系列为：Big Boy。因为他实在是 " 太直男了 "！把最好的模型、最全尺寸的模型、最强的专项模型全部拿出来开源。没有技巧，全是直给。海外有开发者评价说：Qwen 才是最 open 的 AI。先来看模型效果。在 MMLU-redux 等十多个基准测评中，Qwen2.5-72B" 以小博大 "，单挑 Llama3.1-405B，用不到 1/5 的参数实现了大参数模型的效果，甚至在某些性能指标上表现更优。而这对于独立开发者来说至关重要，405B 虽然香，但放眼全国恐怕没几个开发者用得起。用更小的内存达到更好的模型效果，降低成本的同时，让大规模部署和应用开发成为可能。那么问题来了，2.5 版本怎么做到大幅度的性能提升？据硅星人了解，Qwen2.5 全系列模型所有尺寸模型都在最新的大规模数据集上进行了预训练，该数据集包含多达 18T tokens。相比于 Qwen2，Qwen2.5 整体性能提升 18% 以上，拥有更多的知识、更强的编程和数学能力。Qwen2.5-72B 模型在 MMLU-rudex 基准（考察通用知识）、MBPP 基准（考察代码能力）和 MATH 基准（考察数学能力）的得分高达 86.8、88.2、83.1。Qwen2.5 模型支持高达 128K tokens 的上下文长度，可生成最多 8K tokens 内容，支持中文、英文、法文、西班牙文等 29 种以上语言。此外，Qwen2.5 模型在指令执行、生成长文本、理解结构化数据以及生成结构化输出方面取得了显著进步，总体对于各种 System prompt 更具适应性，增强了角色扮演实现和聊天机器人的条件设置功能。从测试结果来看，Qwen2.5 明显有了逻辑思考和推理能力，对语言的理解更加准确，逻辑思考过程也更清晰。在开源方面，Qwen 更是做到了能开尽开，Qwen2.5 大语言模型开源了 0.5B、1.5B、3B、7B、14B、32B、72B 七个尺寸，包含 Base 版本、Instruct（指令跟随）版本和各种量化版本。型号设定充分考虑了下游场景的不同需求，新增了 3B、14B 和 32B 的模型。其中 3B 是适配手机等端侧设备的黄金尺寸；32B 是最受开发者期待的 " 性价比之王 "，在性能和功耗之间获得最佳平衡，以更小的模型参数做到更强的效果。经测试，Qwen2.5-32B 的整体表现超越了 Qwen2-72B。更重要的是，开发者的需求 Qwen 是真听了。在 Qwen2.0 时，开发者就强烈呼吁 32B 模型以及 GGUF 模型，在新的 2.5 版本中，Qwen 就开源了 GGUF、GPTQ 和 AWQ 3 种量化模型，让开发者不用再苦等 Llama，提供更多模型选择。除了通用模型，Qwen2.5 系列也开源了更强的专项模型。其中，用于编程的 Qwen2.5-Coder 开源了 1.5B、7B 两个版本（32B 版本也在开发中了），基于 Qwen2.5 模型初始化，持续训练 5.5T Tokens，包括源代码、文本代码混合数据、合成数据等，使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。用于数学的 Qwen2.5-Math 开源了 1.5B、7B、72B 三个版本，利用Qwen2-Math-72B-Instruct 模型合成更多高质量的数学预训练数据，支持使用思维链和工具集成推理（TIR）解决中英双语的数学题。硅星人对 Math 模型进行了地狱难度的测试，我们将 Math 模型和 OpenAI 刚刚开放的 o1 进行对比，要知道相比于 GPT-4o，o1 的数学竞赛能力要明显高出很多。我们将同一道 AIME（美国数学邀请赛）难题给 Qwen2.5-Math 和 o1 同时回答，这道题在 o1 出现之前，只有 DeepMind 的专业模型能够回答正确，其他通用大模型几乎全军覆没。测试结果显示，o1 用了 15s 时间思考作答，而 Qwen2.5-Math 用了 29 秒，二者分别使用了两种不同的解法，但答案都正确。左边 o1，右边 Qwen2.5-Math在此之上，Qwen 系列也在逐渐释放多模态能力，视觉语言模型 Qwen2-VL-72B 正式开源，该模型能够识别不同分辨率和长宽比的图片，理解 20 分钟以上长视频，具备自主操作手机和机器人的视觉智能体能力。此前权威测评 LMSYS Chatbot Arena Leaderboard 发布最新一期的视觉模型性能测评结果，Qwen2-VL-72B 成为全球得分最高的开源模型。种类多得像逛集市？来总结一下：基模层面，Qwen2.5 大幅度提高了模型性能，囊括了多尺寸、多语言、多种类、多专项模型，还增加了多模态的视觉能力，不得不说，Qwen2.5 还是太全面了！将开源开放进行到底开源了这么多，真的被开发者用起来了吗？这不止是对 Qwen，更是对所有开源模型提出的灵魂拷问。在现场，周靖人也公布了一组数据：截至 2024 年 9 月中旬，Qwen 系列的下载量已经超过 4000 万，海内外开源社区中 Qwen 系列衍生模型数量已经超过 5 万个，成为了仅次于 Llama 的世界级模型群。而做到这个使用量级，不是简单地把模型丢到开源社区就可以的，这背后还需要下 " 苦功夫 "。首先就是要对开发者的真实需求 " 点对点 " 地突破，通过生态融合让开发者更简单、更直接地使用 Qwen 系列。自 Qwen1.5 发布以来，通义团队就与 HuggingFace 合作，把模型代码合并到 HuggingFace Transformers 代码库，方便开发者直接使用 Transformers 原生代码，并拓展各类开源框架、开源工具对 Qwen 系列的兼容和支持，包括 vLLM、SGLang、AutoAWQ、AutoGPTQ、Axolotl、LLaMA-Factory、llama.cpp、Ollama、LMStudio 等等。通义团队介绍，" 在 model card（准备模型文档）中，除了主流的英文文档，还会准备中文甚至其他语种的文档；优化文档质量，让开发者一眼读懂模型的亮点、效果、demo；准备代码片段，帮助开发者快速部署和使用模型。"" 发这么多种模型，是想把更多的选择留给开发者，他们会基于自己的业务场景做权衡，比如，让模型能力更强或者推理效率更高。" 周靖人讲道，" 同时我们也为企业客户提供闭源的 API 调用。开源助力的是生态的发展，闭源更好地满足企业级用户的需求，阿里云也提供更极致的性价比，要做的就是把模型使用的门槛降低。"除了开源模型的全面升级，通义千问也升级了旗舰模型 Qwen-Max。目前，通义官网和通义 APP 的后台模型均已切换为 Qwen-Max，继续免费为所有用户提供服务。用户也可通过阿里云百炼平台调用 Qwen-Max 的 API。相比 2023 年 4 月的初代通义千问大模型，Qwen-Max 的理解能力提升 46%、数学能力提升 75%、代码能力提升 102%、幻觉抵御能力提升 35%、指令遵循能力提升 105%，模型与人类偏好的对齐水平更是有了质的飞跃，提升了 700% 以上。相比于其他模型厂商对开源闭源的选择泾渭分明，如 OpenAI 坚持闭源、Llama 坚持开源，阿里云具有一定的特殊性，既在开源社区生态中投入建设，又通过云服务向企业客户提供服务。周靖人也介绍道，开源还是闭源，不应该由大模型厂商来选择，而是由市场需求而定。阿里云此前打造的完整的技术生态，能够辅助大模型在企业中更好地落地，如阿里云百炼平台提供的完整工具链，能够更好地辅助开发；魔搭社区也成为了中国最受欢迎的 AI 社区。阿里云的选择不是为了短暂的市场竞争，而是抱着开放的心态，与整个行业长期共建的过程。不停的迭代基模能力以及与合作伙伴共建生态，" 先进 " 和 " 开放 "，是周靖人给出的两个关键词。开源闭源之争已久，即便我们无法判断最终究竟会是怎样的技术路线，但可以确定的是，以开放为核心的阿里云通义，会一直留在牌桌上。