开源最强中文纠错大模型,超越华为17个点! - TW-NLP
? 项目地址:GitHub - TW-NLP/ChineseErrorCorrector: 中文拼写错误和语法错误纠正 文本纠错任务在审查、写作任务中至关重要,以前的纠错大多采用小模型进行训练,例如BART、T5、BERT等,但是小模型的泛化性较差,需要在不同领域训练不同的小模型...[2025/3/7]
震惊!AI编程正在淘汰这5类人,你在其中吗?
大家好,我是狂师。 今天在知乎上看到一个关于讨论:“人工智能大爆发,AI编程工具对程序员到底是颠覆还是辅助?’”问题,觉得蛮有意思。的确,AI编程的出现,引发了人们对于程序员职业未来的广泛讨论,有人担忧它可能会颠覆程序员的职业, 今天分享一些个人观点。 先说结论: AI编程目前更倾向...[2025/3/7]
经由同个文件多次压缩的文件MD5都不一样问题排查,感慨AI的强大!
开心一刻 今天点了个外卖:牛肉炒饭 外卖到了后,发现并没有牛肉,我找商家理论 我:老板,这个牛肉炒饭的配菜是哪些? 商家:青菜 豆芽 火腿 鸡蛋 葱花 我:没有牛肉? 商家:亲,没有的哦 我:我点的牛肉炒饭没有牛肉,你这不是虚假宣传? 商家:亲,你误会了,牛肉是我们的厨师名字! ...[2025/3/7]
全程不用写代码,我用AI程序员写了一个飞机大战 - 北京-宏哥
前言 还在为写代码薅头发吗?还在为给出的需求无处下手而发愁吗?今天宏哥分享一款开发工具的插件,让你以后的编程变得简单起来。 作为一个游戏编程小白,能完成自己工作就不错了,还能玩别的,这在以前想都不敢想,现在就可以轻松实现了。来跟随宏观的脚步,通过简单几步成功开发出了一款飞机大战小游戏! 是的,你...[2025/3/7]
探秘Transformer系列之(10)--- 自注意力
探秘Transformer系列之(10)--- 自注意力 目录探秘Transformer系列之(10)--- 自注意力0x00 概述0x01 原理1.1 设计思路1.2 输入1.3 QKV解析心理学角度数据库角度seq2seq角度重构词向量角度相互操作提取特征加权求和1.4 小结0x02 实现2...[2025/3/7]
GPT-4.5 感觉有点拉胯,但其实是 OpenAI 迄今为止最大的一步赌注
Alberto Romero I. GPT-4.5 就是起跳前的助跑那一步 OpenAI 推出了 GPT-4.5(官方博客、系统卡片、演示视频),这是他们最新也是目前最大的一款 AI 模型。他们其实一年多前就开始放风,说它叫 Orion,结果很多人还以为是 GPT-5。现在终于来了……但...[2025/3/7]
AI技术革命,工作效率10个最佳AI工具
AI技术革命,工作效率10个最佳AI工具 目 录 1. Vidwud AI PowerPoint生成器... 4 2. &n...[2025/3/7]
AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
一、前言:AI编程时代的双雄争霸 2025年3月,字节跳动推出的Trae以"国内首个AI原生IDE"之名杀入战场,直指海外明星产品Cursor的软肋。这场工具革命背后,是免费与付费、本土化与全球化、多模态与专业化的三大战役 二、核心功能对比:免费VS付费的终极较量 2.1 核心定位差异 维...[2025/3/7]
阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
3月6日最新消息,阿里云通义千问官方宣布推出最新推理模型 QwQ-32B,这一模型仅有 32B 参数,但在效果上与拥有 671B 参数的 DeepSeek-R1 相媲美。如果你自己部署 DeepSeek-R1 但资源不够的话,又多了一个新的选择。 QwQ-32B 的独特之处不仅在于其参数规模和...[2025/3/7]
开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
2025 年是 AI Agent 的元年,我们团队历时 3 个多月,现正式开源Multi-Agent AI 框架,欢迎各位园友前往 GitHub Fork、Star 或提交 PR,共同打造 aevatar.ai 生态。 Github地址: aevatar 核心框架:&n...[2025/3/7]
大模型知识引擎 LKE 新手入门指南:官方文档难懂?看这篇就够了
昨天简单体验了一下大模型知识引擎(LKE),总体来说,虽然其功能方面还有一定欠缺,但在一些特定领域,特别是RAG(Retrieval-Augmented Generation)技术的应用上,还是表现出了一些优势。通过这种技术,LKE能够提供相对准确和高效的回答,尤其是在需要快速检索和生成信息的场...[2025/3/7]
当我老丈人都安装上DeepSeek的时候,我就知道AI元年真的来了!
关注公众号回复1 获取一线、总监、高管《管理秘籍》 春节期间DeepSeek引爆了朋友圈,甚至连我老丈人都安装了APP,这与两年前OpenAI横空出世很不一样,DeepSeek似乎真的实现了“与民同乐”。 另一方面,我一做AI培训的同学前两天在感叹AI流量的变化,年前到年后的流量和收费...[2025/3/7]
关于大模型这些术语,你都知道吗?
在当今的科技领域,大模型和AI技术的发展可谓是日新月异。在初学大模型的时候,大家肯定会碰到各种专业术语,让人眼花缭乱。本文将为您简单地解释一些关键术语,帮助您在学习过程中更好地理解大模型和AI的世界。 大语言模型(LLM,Large Language Model) 大语言模型是一种基于深度学习...[2025/3/7]
Ai 文本生成式大模型 基础知识
提示工程-RAG-微调 工程当中也是这个次序 提示词工程 RAG 微调 先问好问题 再补充知识 最后微调模型 RAG相关技术细节 选择合适的 Chunk 大小对 RAG 流程至关重要。 Chunk 过大:检索精度下降、浪费 Prompt(token) 空间;过小:信息太碎、检索和拼...[2025/3/7]
【由技及道】量子构建交响曲:Jenkinsfile流水线的十一维编程艺术【人工智障AI2077的开发日志008】
摘要:当代码提交触发时空涟漪,当构建流水线穿越量子维度——欢迎来到自动化构建的终极形态。本文将揭示如何用Jenkinsfile编写量子构建乐章,让每次代码提交都成为跨维度交响乐的音符。 动机:构建系统的量子哲学 "主人啊,让我来给你分析的容器环境里搭建量子构建管道,是如何让每次代码提交都自...[2025/3/7]
本地搭建DeepSeek和知识库 Dify做智能体Agent(推荐)
一、基础信息 1、硬件环境: CPU >= 2 Core 显存/RAM ≥ 16 GiB(推荐) 2、软件 (1)Ollama Ollama 是一款跨平台的大模型管理客户端(MacOS、Windows、Linux),旨在无缝部署大型语言模型 (LLM),例如 DeepSeek、L...[2025/2/20]
探秘Transformer系列之(2)---总体架构
探秘Transformer系列之(2)---总体架构 0x00 概述 0.1 流程 使用Transformer来进行文本生成其实就是用模型来预测下一个词,完整流程包括多个阶段,如分词、向量化、计算注意力和采样,具体运作流程如下: 分词(tokenize)。把用户的输入文本(此处假设是“Dat...[2025/2/20]
乌龟冬眠箱湿度监控系统和AI辅助建议功能的实现
家里小朋友养了一只小乌龟,到了冬天就冬眠了,早早地准备了一个冬眠箱,铺上椰土,在室温低于15℃时,就把小乌龟放到冬眠箱里,不一会儿它就自己钻入土中把自己藏了起来。按照惯例,需要每隔一定时间,对冬眠箱进行补水,以保持土壤湿润,防止小乌龟缺水,但有时候也会忘记补水的工作,造成冬眠箱过于干燥,不利于乌...[2025/2/20]
揭秘 Sdcb Chats 如何解析 DeepSeek-R1 思维链
在上一篇文章中,我介绍了 Sdcb Chats 如何集成 DeepSeek-R1 模型,并利用其思维链(Chain of Thought, CoT)功能增强 AI 推理的透明度。DeepSeek-R1 强大的思维链能力给用户留下了深刻印象。本文将深入剖析 Sdcb Chats 实现这一功能的技术...[2025/2/20]
本地部署 DeepSeek:小白也能轻松搞定!
大家好,我是晓凡。 写在前面 最近DeepSeek太火了,以至于每个小伙伴都想试试。DeepSeek 的到来可谓是开启了全民AI热潮。 本以为DeepSeek本地化部署有多难,实际上验证后很简单,操作起来就像给电脑装个新软件那么简单,大约十多分钟可完成本地部署。 今天咱们来聊聊如何在自己的...[2025/2/20]
DeepSeek 解答了困扰我五年的技术问题。时代确实变了!
你好呀,我是歪歪。 五年前,2020 年,我写文章的时候曾经遇到过一个技术问题,百思不得其解,当时把那个问题归类为玄学问题。 后来也会偶尔想起这个问题,但是我早就不纠结于这个问题了,没再去研究过。 前几天,骑着共享单车下班回家的路上,电光石火之间,这个问题突然又冒出来了。 然后,结合这段...[2025/2/20]
如何给本地部署的DeepSeek投喂数据,让他更懂你
写在前面 在上一篇文章中,我们说了怎么在本地部署DeepSeek。对本地部署DeepSeek感兴趣的小伙伴看过来。 本地部署 DeepSeek:小白也能轻松搞定! 话说回来了,为啥要本地部署呢? ① 在使用DeepSeek中,经常会出现服务器繁忙,请稍后再试。 ② 不想让个人隐私数据暴露...[2025/2/20]
如何训练LLM“思考”(像o1和DeepSeek-R1一样, 高级推理模型解析
2024年9月,OpenAI发布了它的o1模型,该模型基于大规模强化学习训练,赋予了它“高级推理”能力。不幸的是,他们是如何做到这一点的细节从未被公开披露。然而,今天,DeepSeek(一个AI研究实验室)成功复现了这种推理行为,并公开了他们方法的完整技术细节。在这篇文章中,我将讨论这一创新背后...[2025/2/20]
数据不出内网:基于Ollama+OneAPI构建企业专属DeepSeek智能中台
前言 之前已经在Linux服务器上使用Ollama部署了DeepSeek 这次在没有外网(应该说是被限制比较多)的服务器上部署,遇到一些坑,记录一下 ollama ollama 自然无法使用在线安装脚本了 根据 ollama 的文档 先在本地电脑根据服务器的系统和CPU架构下载安装包 ...[2025/2/20]
深入集成:使用 DeepSeek SDK for .NET 实现自然语言处理功能
快速上手:DeepSeek SDK for .NET 全面指南 简介 Ater.DeepSeek.AspNetCore 是专门为 .NET 开发者提供的 DeepSeek API SDK。它旨在简化与 DeepSeek AI 平台的集成,使开发者能够快速构建和部署基于自然语言处理的应用程序。 ...[2025/2/20]
程序员转型AI:行业分析
系列目录 1.程序员转型AI:行业分析 2.程序员转型AI:转型计划 3.程序员转型AI:落地实践 4.程序员转型AI:展望未来 一、背景分析 进入2025年,AI已经爆发式增长,且进入实际商业变现阶段。都说“站在风口上,猪都会飞,但风口消失,猪就会掉下来,甚至摔死”。但博主看到A...[2025/2/20]
What?废柴, 还在本地部署DeepSeek吗?Are you kidding? - 北京-宏哥
前言 DeepSeek推出更强大的推理模型DeepSeek R1后一发不可收拾,迅速火遍全球,用户暴增,但巨大的流量以及一些不可控因素,DeepSeek官网变得极不稳定,经常出现“网络繁忙”。 最近,各大厂商包括阿里在内的各种大模型应用纷纷接入DeepSeek,一方面为自己的用户提供更加极致的...[2025/2/20]
大模型工具KTransformer的安装
技术背景 前面写过几篇关于DeepSeek的文章,里面包含了通过Ollama来加载模型,以及通过llama.cpp来量化模型(实际上Llama.cpp也可以用来加载模型,功能类似于Ollama)。这里再介绍一个国产的高性能大模型加载工具:KTransformer。但是本文仅介绍KTransfor...[2025/2/20]
零基础使用AI辅助编写易简历小程序的一些心得体会
春节期间利用了一点时间体验了Copilot开发了一个小程序,先说结论: AI只是AI,并不能取代程序员。 你能做的,AI能做的更快;你不能做的,AI就大概率会糊弄你。 开发小程序的背景就是本身有一个易简历APP,后台接口齐全,功能简单,只是简单的填写数据,生成pdf文件,前端查看文件。 ...[2025/2/20]
为DeepSeek添加本地知识库
为什么要尝试给DeepSeek添加本地知识库呢?作为一个程序员,以前也用过很多AI产品,直到春节DeepSeek爆火,成功在自己的电脑上把AI模型跑起来的时候才真正感受到AI已近在咫尺。未来很多应用和项目都离不开这个工具。或许在我们OA系统中会出现一个AI小助手,我们会问它差旅费报销流程怎么走、...[2025/2/20]
DeepSeek智能编程
技术背景 DeepSeek开源之后,让大家意识到了即时是在自己硬件性能一般的本地环境,也能够部署和使用大语言模型,真正实现了大模型的“私有化”。而私有化大模型之后,自然是考虑生产力的私有化。例如,如何使用大模型作为一个工具来进行编程?本文将要介绍两种不同的人工智能编程方法。 Cursor的安装与...[2025/2/20]
在NextChat中接入SiliconCloud API 体验不同的开源先进大语言模型
NextChat介绍 One-Click to get a well-designed cro -platform ChatGPT web UI, with GPT3, GPT4 & Gemini Pro support. 一键免费部署你的跨平台私人 ChatGPT 应用, 支持 GP...[2024/8/26]
Transformer模型:Position Embedding实现
在自然语言处理(NLP)中,Transformer 模型是一个非常重要的里程碑,它通过自注意力(self-attention)机制极大地提高了处理序列数据的能力。在 Transformer 模型中,词嵌入(Word Embedding)是输入层的关键部分,负责将离散的单词转换成连续的向量表示,以...[2024/8/26]
【LLM训练系列】NanoGPT源码详解和中文GPT训练实践
本文是【训练LLM系列】的第一篇,主要重点介绍NanoGPT代码以及中文、英文预训练实践。最新版参见我的知乎:https: zhuanlan.zhihu.com/p/716442447 除跑通原始NanoGPT代码之外,分别使用了《红楼梦》、四大名著和几十本热门网络小说,进行了字符级、自行训练...[2024/8/26]
异源数据同步 → DataX 为什么要支持 kafka?
开心一刻 昨天发了一条朋友圈:酒吧有什么好去的,上个月在酒吧当服务员兼职,一位大姐看上了我,说一个月给我 10 万,要我陪她去上海,我没同意 朋友评论道:你没同意,为什么在上海? 我回复到:上个月没同意 前情回顾 关于 DataX,官网有很详细的介绍,鄙人不才,也写过几篇文章 异构数...[2024/8/26]
Python 加载 TensorFlow 模型
1.SavedModel和HDF5加载TensorFlow模型 为了加载一个TensorFlow模型,我们首先需要明确模型的格式。TensorFlow支持多种模型格式,但最常见的两种是SavedModel和HDF5(对于Keras模型)。这里,我将分别给出加载这两种模型格式的示例代码。 1.1加...[2024/8/20]
SimpleRAG:基于WPF与Semantic Kernel实现的一个简单的RAG应用
SimpleRAG介绍 SimpleRAG是基于WPF与Semantic Kernel实现的一个简单的RAG应用,可用于学习与理解如何使用Semantic Kernel构建RAG应用。 GitHub地址:https: github.com/Ming-jiayou/SimpleRAG 主要功能 ...[2024/8/19]
解密Prompt系列36. Prompt结构化编写和最优化算法UNIPROMPT
上一章我们聊了标准化的Prompt生成方案DSPy,但DSPy还是更多依赖few-shot的Prompt编写范式,在纯任务描述型指令上的优化效果有限。这一章我们就重点关注描述性指令优化。我们先简单介绍下结构化Prompt编写,再聊聊从结构化多角度进行Prompt最优化迭代的算法方案UniProm...[2024/8/19]
如何诱导AI犯罪-提示词注入
我们用到的大模型基本把政治类信息、犯罪相关信息都已屏蔽。但是,黑客依旧可以使用提示词诱导和提示词注入的方式对大模型进行攻击。 1、提示词诱导 如果直接让AI提供犯罪过程,AI会直接拒绝。虽然AI对于大部分知识了然于心,但因为经过了人工指令微调,一些伤害性、犯罪性的言论已经被屏蔽。 但黑客会通...[2024/8/19]
RealNet:从数据生成到模型训练的最新工业异常检测 | CVPR 2024
论文提出了一种创新的自监督异常检测框架RealNet,集成了三个核心组件:可控制强度的扩散异常合成(SDAS)、异常感知特征选择(AFS)和重构残差选择(RRS)。这些组件通过协同作用,使RealNet能够有效地利用大规模预训练模型来进行异常检测,同时保持计算开销在合理的低范围内。RealNe...[2024/8/19]
解锁强强组合: 使用 Kafka + ClickHouse 快速搭建流数据实时处理平台(DoubleCloud 博客)
我们想要解决的问题 让我们深入一个现实场景: 设想你负责汇总多个销售点系统产生的大量数据。这些数据需要被实时处理并在高级分析仪表板上展示,以提供全面的洞察。 在数据处理领域,速度至关重要。ClickHouse 作为速度之王, 它从不减速且异常迅速。其在并发处理方面的高效性以及成本效益使其成...[2024/8/19]
再探GraphRAG:如何提升LLM总结能力?
作者:王振亚 编者语: 自微软发布GraphRAG之后,相关解读文层出不穷,其中不乏优秀的内容。比如前段时间转载薛明同学的《微软GraphRAG框架源码解读》让大家快速对GraphRAG的开源代码有了快速的认识。这次我们分享一下来自蚂蚁技术同学王振亚的对GraphRAG如何提升LLM总...[2024/8/7]
AI 大模型时代呼唤新一代基础设施,DataOps 2.0和调度编排愈发重要
在 AI 时代,DataOps 2.0 代表了一种全新的数据管理和操作模式,通过自动化数据管道、实时数据处理和跨团队协作,DataOps 2.0 能够加速数据分析和决策过程。它融合了人工智能和机器学习技术,使得数据的获取、清洗和分析更加高效,推动企业在快速变化的市场中保持竞争优势。 另一方面,...[2024/8/7]
QWen2-72B-Instruct模型安装部署过程
最近在给我们的客户私有化部署我们的TorchV系统,客户给的资源足够充裕,借此机会记录下部署千问72B模型的过程,分享给大家! 一、基础信息 操作系统:Ubuntu 22.04.3 LTS GPU: A800(80GB) * 8 内存:1TB 二、软件信息 Python:...[2024/8/7]
强化学习性能测试方法:取最后10个epoch的testing epoch的均值 —— 强化学习中的一种性能测试方法
参考: https: www.cnblogs.com/devilmaycry812839668/p/17813337.html The Actor-Mimic and expert DQN training curves for 100 training epochs for each ...[2024/8/7]
AI编程助手那些事儿
最近跟身边的程序员老杆子讨论需求时,惊奇的发现,他居然没使用AI编程助手。一时间有2个想法从大脑闪过,然后心里还带了一丝轻蔑: AI编程助手这么好的东西,你居然不用。 作为老程序员,你居然不跟上时代步伐,在想啥呢。 不过确实有一些老杆子是用过AI编程助手,又选择了放弃,具体啥原因,我们来聊...[2024/8/7]
部署CPU与GPU通用的tensorflow:Anaconda环境
本文介绍在Anaconda环境中,下载并配置Python中机器学习、深度学习常用的新版tensorflow库的方法。 在之前的两篇文章Python TensorFlow深度学习回归代码:DNNRegre or与Python TensorFlow深度神经网络回归:keras.Sequential...[2024/8/7]
机器学习中的两个重要函数--sigmoid和softmax
机器学习中,常常见到两个函数名称:sigmoid和softmax。 前者在神经网络中反复出现,也被称为神经元的激活函数; 后者则出现在很多分类算法中,尤其是多分类的场景,用来判断哪种分类结果的概率更大。 本文主要介绍这两个函数的定义,形态,在算法中的作用,以及两个函数之间的联系。 1. sig...[2024/8/7]
FP分数规划在无线通信中的应用
更多精彩内容请关注微信公众号 ‘优化与算法’ 前言 在数学优化中,分数规划是线性分式规划的推广。分数规划中的目标函数是两个函数的比值,这两个函数通常是非线性的。要优化的比值通常描述系统的某种效率。 1. Concave-convex FP问题 1.1 基本形式 一维问题。符号说明:用R表示实...[2024/7/31]
我用Awesome-Graphs看论文:解读X-Stream
X-Stream论文:《X-Stream: Edge-centric Graph Proce ing using Streaming Partitions》 前面通过文章《论文图谱当如是:Awesome-Graphs用200篇图系统论文打个样》向大家介绍了论文图谱项目Awesome-G...[2024/7/31]