2025小白AI入门指南!从如何白嫖到如何使用,一文入门
近两年,AI迎来井喷式的发展,熊猫愿把这称作“第一次科技革命”。随着大模型和 AI agent 的不断成熟,常常让人不禁感叹:原来 AI 已经能做到这种程度了!
即便 AI 已经发展到如此“逆天”的程度,熊猫发现普通人的使用场景仍然局限在对话和生图这两类。进阶操作很少有人会,不会设置工作流,不会配置智能体,甚至连大模型有不同类别这件事都不清楚。![]()
本期内容会从AI大模型的介绍、获取以及使用进行介绍,2025小白AI入门指南,现在开始!
AI大模型的种类
在获取并使用大模型之前,首先要弄清市面上有哪些类型的模型,以及它们各自能做什么。
核心:语言模型
日常使用最多的是 LLM(大语言模型),也常被称为“语言模型”。比较知名的有 GPT 系列 —— 可以说推动大众进入 AI 时代的就是 GPT-3.5。在国内,比较出名的代表有千问和 DeepSeek。![]()
这类模型通常指用于处理人类语言文本的模型,主要功能包括文本对话、写作、翻译、逻辑推理和情感分析等与文本相关的任务。
语言模型可分为基座模型和指令模型。基座模型——顾名思义,是所有模型的基础,通常通过海量数据预训练,擅长对输入文本进行“续写”。举个例子,如果输入“熊猫是不是猫?”,基座模型更可能沿着文本继续生成下一个句子,例如“蜗牛是不是牛?”。它对知识有一定掌握,但不具备按人类指令执行特定任务的能力。
指令模型是在基座模型的基础上,通过人工反馈(如人类评估和指令示例)进行强化学习或微调而成。这类模型能理解并执行人类指令,支持对话式交互。因此,目前常见的 GPT、DeepSeek 和千问等产品多数属于指令模型或在其基础上进行了指令化调整。![]()
数据:向量模型
这类模型对普通用户而言用得较少,主要用于需要检索的场景,如知识库、相似度搜索等。它们通常不直接生成文字或图片,而是把文字或图片等信息编码成一串数字数组——也就是向量。这个向量相当于该信息的“身份证”或“坐标”,用于表示和比较内容的语义或特征。![]()
向量模型会把信息编码为向量,进而在一个巨大的多维坐标空间中表示这些信息。语义相近的词或内容在空间中的位置也会相近,语义相反或无关的则会相距较远。![]()
向量模型目前最常见的应用是 RAG(检索增强生成)。一些 NAS 的相册也提供检索功能,但那些实现多依赖传统数据库索引,而非向量检索。就我所知,使用向量模型进行精确检索计算的厂商中,目前只有威联通和极空间在实践这一方案。
眼睛:视觉模型
视觉模型其实并不是单纯的作图这么简单,视觉模型作为大类目,再往下细分可以分为两个大类,分别是生成和理解。![]()
很多人以为生成类模型就是直接“按提示画图”,但图像生成的过程实际上是逆向的。当前主流的生成方法依赖扩散模型 (Diffusion):训练阶段把一张清晰图片不断加噪,直到变成类似雪花屏的满屏噪点;生成阶段则从满屏噪点开始,按用户输入的条件逐步去噪,最终复原出清晰的图像。![]()
视觉理解顾名思义,是对已有图片进行分析和理解,常见场景包括图像识别、OCR、目标检测、图像分类等。实现这些功能的主流方法主要有 ViT(Vision Transformer)和 CNN。常见做法是把图像切分成若干小块(patch 或 receptive field),分别对每个小块提取信息或特征,再将这些局部特征汇总、融合以完成最终的判定或理解。
目前视觉模型种类繁多,既有近期走红的 Nano Banana Pro,也有老牌的 Midjourney、DALL·E 3,以及广泛使用的开源项目 Stable Diffusion。但总体来看,国内在视觉模型的研发和生态建设上,与国外相比仍存在一定差距。
全能:多模态模型
多模态顾名思义,是把视觉模型的“眼睛”和语言模型的“大脑”结合在一起,从而具备视觉问答、情感交互、跨模态检索等能力,也是目前大模型的发展方向。![]()
多模态的发展早期,通常采取将视觉模型和语言模型“强行拼接”的做法,通过后续训练让“大脑”学会理解“眼睛”传来的信息。随着技术演进,现在的多模态模型更多是在设计阶段就原生支持文本、音频、图片等多类数据的联合理解与处理,而不是简单地把单模态模块堆叠在一起。
多模态领域较为出名的代表包括 GPT‑4o 和 Gemini 1.5 Pro。多模态模型现在算是应用最广的模型类型之一——例如手机里的语音助手(如小爱、小布、小V)很多都基于多模态技术,实现了语音、图像与文本的联合理解与交互。
补充:全能化趋势
除了上述的模型,还有一些日常普通用户用的更少或者更为专业的模型,其中主要就是视频生成模型、音频语音模型以及专业模型等等。
视频生成模型是目前技术难度最高的模型之一,对算力要求极高。它通常在扩散模型的基础上引入 Transformer 结构,用以生成连续且逻辑自洽的帧序列,随后再把这些时间帧按顺序拼接,就能得到完整的视频。![]()
这类模型最具代表性的就是Sora与国内比较出名的可灵。
音频语音模型其实用的并不少,比较出名的案例就是“AI歌手”孙燕姿。然而,即便音频模型已经相当成熟,调音与修音仍需要人工参与,否则即使是未接触过 AI 的普通听众,也大都能察觉到明显的失真感。
专业模型其实就是针对垂直领域特殊训练的模型,通用大模型虽然通用性强,但“什么都懂一点”的特性往往只能达到“略懂”的水平。为满足专业场景的高精度需求,才催生了这类专用模型。常见类型包括代码模型和各类科学模型(如生物、气象、数学等)。
如何获取大模型
通过以上,我相信你已经大概知道了大模型的种类以及使用场景,那么如何获取我们想要的模型呢?
官方渠道
先从官方渠道说起。除去少数需要付费或有使用限额的模型(例如近期走红的 Nano Banana Pro、GPT5.1、可灵等),大多数模型在官网上都可以直接免费使用,不过通常仅支持网页版或官方 APP。对普通用户而言,这类使用方式已基本满足日常需求。![]()
如果你想通过 API 调用大模型,很多平台其实是提供了可观的免费额度的。例如阿里的通义千问可以在阿里百炼控制台领取,抖音的“豆包”可以在火山方舟引擎控制台领取。通常这类额度只发放一次,但数量往往从几百到数千万 Token 不等。用于文本类任务的话,对普通用户基本足够。![]()
这里推荐一下美团的longchat模型(非广),虽说是稀释后的模型,但longchat也有通用模型和深度思考模型两种,同时官方文档看似没有更新,但实测是支持多模态的。![]()
当然,最重要的是美团的longchat目前对于个人用户每天有500万的Toekn(申请之后),没错!是每天500万的Toekn,对于个人用户来说这个量非常大了,完全足够常规的文本和视觉分析处理,主打一个免费量大。![]()
第三方渠道—付费向
如果你有大量其他模型使用需求,例如更高质量的视觉分析、图形生成等等,那么大概率就需要付费来使用,你可以选择用官方的付费服务,但大部分情况下高质量的模型大量使用费用其实并不低,亦或者选择折扣的第三方渠道。![]()
通常来说这类第三方网站的token会是官网的3-6折,根据模型的热度和质量而定。在计费方式上会有按次和按量两种方式,一般来说生成类模型熊猫建议是按次,文本或向量这类模型建议按Toekns来计算。
关于网址的获取其实途径非常多,百度搜索大模型第三方API站点、github中直接搜索AI内容,赞助广告中、linux.do论坛佬友们的分享等等,这些都是获取的途径,废了避免广告嫌疑,熊猫就不做推荐了,可以自行搜索。![]()
第三方渠道—免费向
这时候又有小伙伴会问,那么就没有完全免费的路子嘛?那当然也有,不过免费往往也会带来一些问题,例如站点可能时不时就会跑路、不支持API并发、热门付费模型没有等等。![]()
这一类站点的获取关键词为公益站,尽可能用谷歌去搜索,当然一样的github和linux.do中也会有很多推荐,但基本上是没有热门付费模型或高质量生成类模型,比如近期大热的Nano Banana Pro。![]()
一般来说公益站会限制用户的API并发或二次分发,大部分公益站都是不开放注册的,只会在特定的时间开放注册,类似于PT站的操作,在额度方面大概率也是签到、注册、邀请等等来获取额度。![]()
大部分情况下注册一般就有20-100的额度,这里指的是美元,然后每天签到大概也有5-10左右,基本上也是完全够用了。
自给自足—逆向
最后一种则是逆向工程,熊猫这里并不推荐这种方式,关于如何使用逆向,这里没办法做过多的介绍,可以自行github搜索相关项目。
逆向之后就不受额度、注册等限制了,但往往也伴随不稳定性以及模型使用的限制,例如不能进行图像生成、语音识别等等,这就和逆向工程的项目相关了。
如何使用大模型
最后说说大模型的实际使用。正如前面提到的,普通用户最常用的功能是对话、搜索和生图。要想实现更精准的图像生成或更深度的对话,就需要引入“智能体”概念——本质上就是对模型进行预设与流程化配置。![]()
对于文本类项目,网上其实已经有非常多的提示词了,或者你可以直接让AI帮你生成相关需求的提示词,这里推荐熊猫之前介绍过的提示词优化器,支持直接使用以及自部署:Prompt Optimizer。![]()
除此之外大部分的应用或者模型官网都内置一些智能体,熟练合理的运用智能体很多时候能提高不少的工作效率。![]()
而对于图形生成,也有非常多的项目和网站会收集一些预设词,这里熊猫主推https://opennana.com/。该网站收录了一共700多种生图案例,且支持中英文双语提示词。![]()
写在最后
如今,AI的发展趋势非常之猛,作为普通人的我们并不能改变什么,前两天熊猫翻招聘软件甚至看到一些公司已经开始将熟练使用AI作为招聘要求了。
技术的发展并不会取代人,但不会新技术的人一定会被其他人取代。
以上便是本次分享的全部内容了,如果你觉得还算有趣或者对你有所帮助,不妨点赞收藏,最后也希望能得到你的关注,咱们下期见!![]()