机器学习策略篇:详解清除标注错误的数据(Cleaning up Incorrectly labeled data)
清除标注错误的数据
监督学习问题的数据由输入\(x\)和输出标签 \(y\) 构成,如果观察一下的数据,并发现有些输出标签 \(y\) 是错的。的数据有些标签是错的,是否值得花时间去修正这些标签呢?
看看在猫分类问题中,图片是猫,\(y=1\);不是猫,\(y=0\)。所以假设看了一些数据...[2024/6/13]
快速识别你家的猫猫狗狗,教你用ModelBox开发AI萌宠应用
本文分享自华为云社区《ModelBox-AI应用开发:动物目标检测【玩转华为云】》,作者:阳光大猫。
一、准备环境
ModelBox端云协同AI开发套件(Windows)环境准备【视频教程】
二、应用开发
1. 创建工程
在ModelBox sdk目录下使用create.bat创建...[2024/6/13]
算法金 | 一个强大的算法模型,多项式回归!!算法金 | 一个强大的算法模型,多项式回归!!
大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」
吴恩达:机器学习的六个核心算法!--> 线性回归
在许多实际场景中,简单的线性回归无法捕捉复杂的模式,这时候就该祭出我们多项式回归大法了,一种在数据分析和预测中...[2024/6/13]
贝壳找房: 为 AI 平台打造混合多云的存储加速底座
贝壳机器学习平台的计算资源,尤其是 GPU,主要依赖公有云服务,并分布在不同的地理区域。为了让存储可以灵活地跟随计算资源,存储系统需具备高度的灵活性,支持跨区域的数据访问和迁移,同时确保计算任务的连续性和高效性;此外,随着数据量的增长,元数据管理的压力也在逐渐加大。
贝壳机器学习平台团队从去年...[2024/6/12]
我所理解的机器学习我所理解的机器学习
(2017年写的博客,搬过来)
断断续续看了几个月的机器学习,我觉得是时候总结一下了。正如题目讲的那样,我只说我所理解的机器学习,我不能保证我理解的都对,很多东西可能是我的误解,但无论说错了什么,我都认。如果有人发现错误,恳请指正,不胜感激。
我不讲算法也不讲公式推导,因为,我从头到尾都...[2024/6/12]
AlexNet论文解读AlexNet论文解读
前言
作为深度学习的开山之作AlexNet,确实给后来的研究者们很大的启发,使用神经网络来做具体的任务,如分类任务、回归(预测)任务等,尽管AlexNet在今天看来已经有很多神经网络超越了它,但是它依然是重要的。AlexNet的作者Alex Krizhevsky首次在两块GTX 580 GPU上...[2024/6/12]
LangChain让LLM带上记忆
最近两年,我们见识了“百模大战”,领略到了大型语言模型(LLM)的风采,但它们也存在一个显著的缺陷:没有记忆。
在对话中,无法记住上下文的 LLM 常常会让用户感到困扰。本文探讨如何利用 LangChain,快速为 LLM 添加记忆能力,提升对话体验。
LangChain 是 LLM 应用开...[2024/6/12]
聊聊GLM-4-9B开源模型的微调loss计算
概述
Github官方地址:GLM-4
网上已经有很多关于微调的文章,介绍各种方式下的使用,这里不会赘述。我个人比较关心的是微调时的lo 计算逻辑,这点在很多的文章都不会有相关的描述,因为大多数人都是关心如何使用之类的应用层,而不是其具体的底层逻辑,当然咱也说不清太底层的计算。
可了解其它l...[2024/6/12]
LLM应用实战:当图谱问答(KBQA)集成大模型(三)
1. 背景
最近比较忙(也有点茫),本qiang~想切入多模态大模型领域,所以一直在潜心研读中...
本次的更新内容主要是响应图谱问答集成LLM项目中反馈问题的优化总结,对KBQA集成LLM不熟悉的客官可以翻翻之前的文章《LLM应用实战:当KBQA集成LLM》、《LLM应用实战:当K...[2024/6/12]
基于压电陶瓷传感器的智能枕头非侵入式生命体征监测 - mcu-ai-com基于压电陶瓷传感器的智能枕头非侵入式生命体征监测 - mcu-ai-com
一、摘要
在家中睡眠期间对人体生命体征进行实时监测对于实现及时检测和救援至关重要。然而,现有的用于监测人类生命体征的智能设备存在高复杂性、高成本、侵入性或低准确性的缺点。因此,迫切需要开发一种简化、无干扰、舒适、低成本的睡眠实时监测系统。在本研究中,基于低成本的压电陶瓷传感器开发了一种新型智能...[2024/6/12]
解密Prompt系列31. LLM Agent之从经验中不断学习的智能体
Agent智能体的工作流可以简单分成两种:一种是固定的静态工作流,一种是智能体自主决策的动态工作流。
静态流程的Agent举几个例子,例如新闻热点追踪推送Agent,每日新论文摘要总结Agent,它们的优点是可控,稳定,可复现,缺点是一种流程基本只能固定适配一种场景,就像工厂的流水线。
而动...[2024/6/11]
实时的语音降噪神经网络算法 - mcu-ai-com实时的语音降噪神经网络算法 - mcu-ai-com
概要
现代基于深度学习的模型在语音增强任务方面取得了显著的性能改进。然而,最先进模型的参数数量往往太大,无法部署在现实世界应用的设备上。为此,我们提出了微小递归U-Net(TRU-Net),这是一种轻量级的在线推理模型,与当前最先进的模型的性能相匹配。TRU-Net的量化版本的大小为362千字...[2024/6/5]
卡方分布和 Zipf 分布模拟及 Seaborn 可视化教程
卡方分布
简介
卡方分布是一种连续概率分布,常用于统计学中进行假设检验。它描述了在独立抽样中,每个样本的平方偏差之和的分布。卡方分布的形状由其自由度 (df) 参数决定,自由度越大,分布越平缓。
参数
卡方分布用两个参数来定义:
df:自由度,表示卡方分布的形状。自由度必须为正整数。
si...[2024/6/5]
算法金 | 再见,PCA 主成分分析!
?大侠幸会,在下全网同名[算法金] 0 基础转 AI 上岸,多个算法赛 Top [日更万日,让更多人享受智能乐趣]
1. 概念:数据降维的数学方法
定义
主成分分析(PCA)是一种统计方法,通过正交变换将一组可能相关的变量转换为一组线性不相关的变量,这组新的变量称为主...[2024/6/5]
算法金 | 突破最强算法模型!!学会随机森林,你也能发表高水平SCI
大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」
就在去年下半年,如果你在 Google Scholar 上以 "Random Forest" 为关键词进行检索,并按时间排序:
你会看到这种方法被广泛应用于各个领...[2024/6/3]
VALL-EX下载介绍:只需3秒录音,即可克隆你的声音
VALL-EX是一个强大和创新的多语言文本转语音模型,支持对中文、英文和日语的语音进行合成和克隆,使用者只需上传一段3-10秒的录音,就可以生成高质量的目标音频,同时保留了说话人的声音、情感和声学环境
VALL-EX的应用范围非常广泛,可以用于跨语言文本到语音、语音合成和语音到语音翻译等各...[2024/6/1]
[机器学习] 低代码机器学习工具PyCaret库使用指北[机器学习] 低代码机器学习工具PyCaret库使用指北
PyCaret是一个开源、低代码Python机器学习库,能够自动化机器学习工作流程。它是一个端到端的机器学习和模型管理工具,极大地加快了实验周期,提高了工作效率。PyCaret本质上是围绕几个机器学习库和框架(如scikit-learn、XGBoost、LightGBM、CatBoost、spa...[2024/6/1]
ChatTTS,语气韵律媲美真人的开源TTS模型,文字转语音界的新魁首,对标微软Azure-tts
前两天 2noise 团队开源了ChatTTS项目,并且释出了相关的音色模型权重,效果确实非常惊艳,让人一听难忘,即使摆在微软的商业级项目Azure-tts面前,也是毫不逊色的。
ChatTTS是专门为对话场景设计的文本转语音模型,例如大语言助手对话任务。它支持英文和中文两种语言。最大的模...[2024/5/31]
基于神经网络的呼吸音分类算法 - mcu-ai-com
简介
在过去的几十年里,许多机器学习(ML)方法被引入来分析呼吸周期的声音,包括爆裂声、咳嗽声和喘息声[1-6]。然而,几乎所有传统的ML模型都完全依赖于手工制作的功能。此外,需要高度复杂的预处理步骤来利用设计的特征[4-6]。因此,仅仅基于ML的模型可能对肺部声音中的外部/内部噪声不具有鲁棒...[2024/5/31]
机器学习策略篇:详解超过人的表现(Surpassing human- level performance)
超过人的表现
讨论过机器学习进展,会在接近或者超越人类水平的时候变得越来越慢。举例谈谈为什么会这样。
假设有一个问题,一组人类专家充分讨论辩论之后,达到0.5%的错误率,单个人类专家错误率是1%,然后训练出来的算法有0.6%的训练错误率,0.8%的开发错误率。所以在这种情况下,可避免偏差是...[2024/5/31]
LLM 大模型学习必知必会系列(八):10分钟微调专属于自己的大模型
LLM 大模型学习必知必会系列(八):10分钟微调专属于自己的大模型
1.环境安装
# 设置pip全局镜像 (加速下载)
pip config set global.index-url https: mirrors.aliyun.com/pypi imple/
# 安装ms-swift
pip ...[2024/5/31]
AI实战 | 使用元器打造浪漫仪式小管家
浪漫仪式小管家
以前我们曾经打造过学习助手和待办助手,但这一次,我们决定创造一个与众不同的智能体,而浪漫将成为我们的主题。我们选择浪漫作为主题,是因为我们感到在之前的打造过程中缺乏了一些仪式感,无法给对方带来真正的惊喜。因此,这一次我们计划慢慢调试,将它发展成一个真正能够帮助我解决这一烦恼的情人...[2024/5/29]
牛逼!50.3K Star!一个自动将屏幕截图转换为代码的开源工具
1、背景
在当今快节奏的软件开发环境中,设计师与开发者之间的协同工作显得尤为重要。然而,理解并准确实现设计稿的意图常常需要耗费大量的时间和沟通成本。为此,开源社区中出现了一个引人注目的项目——screenshot-to-code,它利用AI人工智能技术(机器学习算法和视觉分析技术),将屏幕截图自...[2024/5/29]
【昇腾开发全流程】MindSpore华为云模型训练
前言
学会如何安装配置华为云ModelArts、开发板Atlas 200I DK A2。
并打通一个Ascend910训练到Ascend310推理的全流程思路。
在本篇章,我们首先开始训练阶段!
训练阶段
A. 环境搭建
MindSpore 华为云 模型训练
Step1 创建OBS并行...[2024/5/27]
解密Prompt系列30. LLM Agent之互联网冲浪智能体
这一章我们介绍能自主浏览操作网页的WebAgent们和相关的评估数据集,包含初级任务MiniWoB++,高级任务MIND2WEB,可交互任务WEBARENA,多模态WebVoyager,多轮对话WebLINX,和复杂任务AutoWebGLM。
MiniWoB++数据集
Reinforceme...[2024/5/27]
基于深度学习的入侵检测系统综述文献概述——AI科研之路
1、研究方向的背景是什么?
(1)互联网发展迅速,网络安全态势严重
(2)现在的入侵检测准确率不够高,不能适应现在的需求
2、前人做了哪方面的工作获得了什么成果?
近代:
将网络作为入侵来源之后发展(基于异常网络的检测技术):
(1)基于数据挖掘与机器学习的入侵检测算法
(2)...[2024/5/27]
ChatGPT-4o模型功能介绍
1.概述
OpenAI 持续突破人工智能的边界,推出了其最新模型 ChatGPT-4o,作为 ChatGPT-4 的继承者,该模型有望带来显著的提升和创新功能。本文将深入解析 ChatGPT-4 与 ChatGPT-4o 之间的区别,并探讨它们的功能、性能以及潜在的应用领域。我们将全面比较这两个...[2024/5/27]
5分钟明白LangChain 的输出解析器和链
本文介绍 LangChain 的输出解析器OutputParser的使用,和基于LangChain的LCEL构建链。
1. 输出解析器OutputParser
1.1、为什么需要OutputParser
常规的使用LangChain构建LLM应用的流程是:Prompt 输入、调用LLM 、LL...[2024/5/27]
AI实战 | 手把手带你打造校园生活助手
大家好,我是努力的小雨。最近,我开始将我的经验逐渐分享到B站,希望能够帮助大家通过扣子助手真正解决一些问题。最近有粉丝提出了一个需求,为了满足大家的期待,我已经制作了视频,详细介绍了这个助手的搭建思路和教程。今天,我将再撰写一篇文章,以加深大家对这些知识的理解。
手把手教程
小雨校园生活...[2024/5/27]
diffusion model(一):DDPM技术小结 (denoising diffusion probabilistic)
发布日期:2023/05/18
主页地址:http: myhz0606.com/article/ddpm
1 从直觉上理解DDPM
在详细推到公式之前,我们先从直觉上理解一下什么是扩散
对于常规的生成模型,如GAN,VAE,它直接从噪声数据生成图像,我们不妨记噪声数据为\(z\),其生成的...[2024/5/24]
29.4K star! 仅需几行代码快速构建机器学习 Web 应用项目,无需前端技能!
大家好,我是狂师!
今天给大家推荐一款开源的Python库:Gradio!
Gradio是一个开源的Python库,用于创建机器学习和数据科学的交互式应用和演示。
项目地址:
https: github.com/gradio-app/gradio
1、项目介绍
Gradio旨在简化展...[2024/5/24]
开源项目分享:ChatGPT 控制台聊天应用
开源项目分享:ChatGPT 控制台聊天应用
分享一个我最近完成的一个小应用,一个ChatGPT 的控制台聊天应用,大家都在搞AI,我也来玩一玩,顺便分享到社区,有兴趣的小伙伴可以去我的github主页下载体验。
项目简介
ChatGPT 控制台聊天应用 基于.NET8实现,一键拥有你的私人 ...[2024/5/24]
基于神经网络的柯氏音血压计 - mcu-ai-com
具体的软硬件实现点击 http: mcu-ai.com/ MCU-AI技术网页_MCU-AI
前言
虽然血压(BP)的测量现在广泛地由自动无创血压(NIBP)监测设备进行,因为它们不需要熟练的临床医生,也不存在并发症的风险,但其准确性仍存疑。本研究开发了一种新的基于端到端深度学习的算法,该算...[2024/5/24]
Semantic Kernel入门系列:利用YAML定义prompts functions
引言
在上一章节我们熟悉了prompts functions(提示函数)的创建,我们了解了PromptTemplateConfig中各个属性的简单使用。Semantic Kernel允许我们利用多种方式去创建prompts包括native functions,prompts functions或...[2024/5/22]
OpenAI“杀疯了”,GPT–4o模型保姆级使用教程!一遍就会!
5月14日凌晨1点,OpenAI发布了名为GPT-4o 最新的大语言模型,再次引领了人工智能领域的又一创新浪潮,让整个行业都为之震动。
据OpenAI首席技术官穆里-穆拉提(Muri Murati)表示,GPT-4o是在继承GPT-4智能的基础上,对文本、视觉和音频功能进行了进一步改进,而且目...[2024/5/21]
基于深度神经网络的婴儿哭声识别算法 - mcu-ai-com
具体的软硬件实现点击 http: mcu-ai.com/ MCU-AI技术网页_MCU-AI
婴儿哭闹识别是一项具有挑战性的任务,因为很难确定能够让研究人员清楚区分不同类型哭闹的语音特征。然而,婴儿哭闹被视为一种不同的言语交流方式。利用适当的人工智能模型,利用梅尔倒谱系数(MFCC)可以区分婴...[2024/5/21]
LLM实战:当网页爬虫集成gpt3.5
1. 背景
最近本qiang~关注了一个开源项目Scrapegraph-ai,是关于网页爬虫结合LLM的项目,所以想一探究竟,毕竟当下及未来,LLM终将替代以往的方方面面。
这篇文章主要介绍下该项目,并基于此项目实现一个demo页面,页面功能是输入一个待爬取的网页地址以及想要从网页中抽取的内容...[2024/5/21]
video2blog 视频转图文AI小工具正式开源啦
前言
最近对一些小细节做了很多处理,但是其实还是有非常多的问题,没办法时间毕竟时间有限。为什么在这个时候开源,因为主要功能可以全部跑通了,分支暂时没开发的功能也可以通过其他的工具来替代。
这个工具开发初衷(想法来源),我之前有一篇文章有详细的说明,有兴趣的可以看一下https: mp.weix...[2024/5/21]
StarCoder2-Instruct: 完全透明和可自我对齐的代码生成
指令微调 是一种技术,它能让大语言模型 (LLMs) 更好地理解和遵循人类的指令。但是,在编程任务中,大多数模型的微调都是基于人类编写的指令 (这需要很高的成本) 或者是由大型专有 LLMs 生成的指令 (可能不允许使用)。 我们推出了一个叫做 StarCoder2-15B-Instruct...[2024/5/11]
一种新的基于机器学习的示波法血压估计方法,开源、低功耗、低成本的人工智能软硬件提供者 - mcu-ai-com
具体的软硬件实现点击 http: mcu-ai.com/ MCU-AI技术网页_MCU-AI人工智能
血压的测量和预测是心脏病患者和有心脏问题的人的一个重要条件,应该保持持续的控制。在这项研究中,基于从使用袖带的个体获得的振荡波形,振荡波形分为三个周期。第一个周期是从起点到收缩压(SBP),第...[2024/5/11]
LLM生态下爬虫程序的现状与未来
最近出现一批与LLM有关的新的爬虫框架,一类是为LLM提供内容抓取解析的,比如 Jina Reader 和 FireCrawl ,可以将抓取的网页解析为markdown这样的对LLM友好的内容,例如markdown,这类本质上还是传统的爬虫解决方案。还有一类是通过LLM+agent工作流方式来构...[2024/5/11]
神经网络极简入门
神经网络是深度学习的基础,正是深度学习的兴起,让停滞不前的人工智能再一次的取得飞速的发展。
其实神经网络的理论由来已久,灵感来自仿生智能计算,只是以前限于硬件的计算能力,没有突出的表现, 直至谷歌的AlphaGO的出现,才让大家再次看到神经网络相较于传统机器学习的优异表现。
本文主要介绍神经...[2024/5/8]
使用小波分析和深度学习对心电图 (ECG) 进行分类 mcu-ai低成本方案 mcu-ai低成本方案 - mcu-ai-com
具体的软硬件实现点击 http: mcu-ai.com/ MCU-AI技术网页_MCU-AI人工智能
此示例说明如何使用连续小波变换 (CWT) 和深度卷积神经网络 (CNN) 对人体心电图 (ECG) 信号进行分类。
从头开始训练深度 CNN 的计算成本很高,并且需要大量的训练数据。在很多...[2024/5/8]
LLaMA 3 源码解读-大语言模型5
本来不是很想写这一篇,因为网上的文章真的烂大街了,我写的真的很有可能没别人写得好。但是想了想,创建这个博客就是想通过对外输出知识的方式来提高自身水平,而不是说我每篇都能写得有多好多好然后吸引别人来看。那作为对整个合集内容的完善,这篇博客会解析现在最火的LLaMA3的模型架构,搞清楚现在的LLM都...[2024/5/8]
构造照亮世界——快速沃尔什变换 (FWT)
博客园
我的博客
快速沃尔什变换解决的卷积问题
快速沃尔什变换(FWT)是解决这样一类卷积问题:
\[c_i=\sum_{i=j\odot k}a_jb_k
\] 其中,\(\odot\) 是位运算的一种。举个例子,给定数列 \(a,b\),求:
\[c_i=\sum_{j\opl...[2024/5/8]
Ryght 在 Hugging Face 专家助力下赋能医疗保健和生命科学之旅
本文是 Ryght 团队的客座博文。
Ryght 是何方神圣?
Ryght 的使命是构建一个专为医疗保健和生命科学领域量身定制的企业级生成式人工智能平台。最近,公司正式公开了 Ryght 预览版 平台。
当前,生命科学公司不断地从各种不同来源 (实验室数据、电子病历、基因组学、保险索赔、...[2024/5/8]
入门Semantic Kernel:OneApi集成与HelloWorld
引言
从这一章节开始正式进入我们的 Semantic Kernel 的学习之旅了。
什么是Semantic Kernel?
Semantic Kernel是一个轻量级的开源框架,通过 Semantic Kernel 可以快速使用不同编程语言(C#/Python/Java)结合 LLMs(Op...[2024/5/8]
一个在线下载地图XYZ瓦片的网站实现
1. 什么是XYZ瓦片
XYZ瓦片是一种在线地图数据格式,常见的地图底图如Google、OpenStreetMap 等互联网的瓦片地图服务,都是XYZ瓦片,严格来说是ZXY规范的地图瓦片
ZXY规范的地图瓦片规则如下:将地图全幅显示时的图片从左上角开始,往下和往右进行切割,切割的大小默认为 2...[2024/5/6]
我第一个开源AI小产品-video2blog即将正式发布
前言
首先它是为了解决我自己的个人问题。不管能不能帮到你,或者对于看到的你是否有点利用价值,也没太大的关系,最起码你可以来看看我开发小产品的整个过程。
一段时间以来,我开始通过youtube平台来获取一些知识,或者打发早晚上下班坐地铁的时间。主要是我早晚通勤时间过长,差不多都是一个小时吧,单纯...[2024/5/6]