青少年需要掌握的人工智能通识常用术语 - 词汇表

一、基础概念

术语缩写/全称 中文释义 补充说明(便于理解)
AI (Artificial Intelligence) 人工智能 模拟人类智能的计算机技术,核心是让机器具备“感知、学习、推理、决策”能力
AGI (Artificial General Intelligence) 通用人工智能 具备与人类相当的全面智能,能自主解决各类领域问题(目前仍处于理论阶段)
ASI (Artificial Superintelligence) 超级人工智能 智能水平远超人类的AI,可在所有领域超越人类能力(未来科技设想)
AIGC (Artificial Intelligence Generated Content) 人工智能生成内容 AI自动创作的内容,如文本、图像、音频、视频(例:ChatGPT写文案、Midjourney画插画)
ANN (Artificial Neural Network) 人工神经网络 模拟人脑神经元结构的算法模型,是深度学习的基础(由输入层、隐藏层、输出层组成)
EAI (Embodied AI) 具身人工智能 拥有“物理身体”(如机器人)的AI,能通过身体与现实世界交互(例:服务机器人、工业机械臂)
XAI (Explainable AI) 可解释人工智能 能清晰说明决策逻辑的AI(避免“黑箱”问题,例:医疗AI需解释为何判断患者患病)
LLM (Large Language Model) 大语言模型 基于海量文本训练的大型AI模型,擅长理解和生成人类语言(例:ChatGPT、GPT-4)
FM (Foundation Model) 基础模型 基于海量多领域数据训练的通用模型,可通过微调适配具体任务(例:LLM、通用图像模型)
ML (Machine Learning) 机器学习 AI的核心分支,让计算机从数据中自主学习规律,无需手动编写规则(例:推荐系统、垃圾邮件过滤)
DL (Deep Learning) 深度学习 机器学习的子集,基于深度神经网络(多层隐藏层)处理复杂数据(例:图像识别、语音助手)
RL (Reinforcement Learning) 强化学习 让AI通过“试错”学习的方法:AI执行动作后,根据“奖励/惩罚”调整策略(例:AlphaGo下围棋、自动驾驶训练)
FSL (Few-Shot Learning) 少样本学习 仅需少量标注数据就能完成任务的学习方法(解决数据稀缺问题,例:用10张猫的图片训练猫识别模型)
NLP (Natural Language Processing) 自然语言处理 让AI理解和处理人类语言的技术(例:机器翻译、语音转文字、聊天机器人)
NLG (Natural Language Generation) 自然语言生成 NLP的分支,让AI生成符合人类语言习惯的文本(例:AI写新闻、自动生成报告)
VLA (Vision Language Action) 视觉-语言-动作 融合“视觉感知、语言理解、动作执行”的AI技术(例:机器人根据语音指令抓取指定物品)
CV (Computer Vision) 计算机视觉 让AI“看懂”图像/视频的技术(例:人脸识别、车牌识别、自动驾驶的路况检测)
CNN (Convolutional Neural Network) 卷积神经网络 专门处理网格数据(图像、语音)的神经网络,通过“滑动窗口”提取局部特征(CV领域核心模型)
RNN (Recurrent Neural Network) 循环神经网络 处理序列数据(文本、语音)的神经网络,能记忆历史信息(例:语音识别、文本翻译)
GNN (Graph Neural Network) 图神经网络 处理“图结构数据”(如社交网络、分子结构)的模型,可学习节点间的关联关系(例:社交推荐、药物研发)
GAN (Generative Adversarial Network) 生成对抗网络 由“生成器”和“判别器”对抗训练的生成模型(例:AI生成逼真图像、人脸合成)
DM (Diffusion Model) 扩散模型 通过“逐步去噪”生成数据的模型,擅长生成高质量图像、视频(例:Stable Diffusion、Sora)
LSTM (Long Short-Term Memory) 长短期记忆网络 RNN的改进版,能解决“长序列记忆丢失”问题(例:长文本翻译、语音助手理解上下文)
AR (Augmented Reality) 增强现实 将虚拟信息叠加到现实世界的技术(例:手机AR导航、AR试妆)
VR (Virtual Reality) 虚拟现实 构建完全虚拟的3D环境,让用户沉浸式体验(例:VR游戏、VR培训模拟器)
OCR (Optical Character Recognition) 光学字符识别 从图像中识别文字的技术(例:扫描文档转文字、手机拍照识别身份证号)
BERT (Bidirectional Encoder Representations from Transformers) 基于Transformer的双向编码器表示 擅长“理解文本上下文”的模型(例:搜索引擎优化搜索结果、文本情感分析)
RLHF (Reinforcement Learning from Human Feedback) 基于人类反馈的强化学习 通过人类评价优化AI模型的方法(让LLM更符合人类价值观,例:ChatGPT的价值观对齐)
GPT (Generative Pre-trained Transformer) 生成式预训练Transformer 基于Transformer的生成式LLM,通过预训练+微调适配生成任务(例:ChatGPT、GPT-4o)
API (Application Programming Interface) 应用程序接口 不同软件间的“通信桥梁”(例:通过API调用ChatGPT,让自己的APP拥有AI对话功能)
Prompt / Prompt Engineering 提示词 / 提示词工程 向AI输入的指令(提示词);通过优化提示词让AI更精准输出的技术(例:用“写一篇300字的环保主题作文”引导AI创作)
SLM (Small Language Model) 小语言模型 参数规模较小的LLM,适合在手机、嵌入式设备等端侧部署(例:手机本地运行的AI助手)
MoE (Mixture of Experts) 混合专家模型 由“多个专家子网络+路由器”组成的模型,路由器分配任务给擅长的专家(例:GPT-4部分采用,兼顾性能与效率)
RAG (Retrieval-Augmented Generation) 检索增强生成 结合“外部知识库检索”和“AI生成”的技术(让AI引用最新/准确信息,避免幻觉,例:用RAG让AI回答2024年的新闻)
Vector Database 向量数据库 专门存储和管理“向量数据”(AI模型输出的特征向量)的数据库(支撑RAG、图像检索等功能)
Multimodal 多模态 AI模型能同时处理多种类型数据(文本、图像、音频、视频)(例:GPT-4o能看图片、听语音、写文字)
Hallucination 幻觉 AI生成看似合理但与事实不符的内容(例:AI虚构不存在的文献引用、错误的历史事件)
Fine-Tuning 微调 在预训练模型基础上,用小数据集进一步训练,让模型适配具体任务(例:用医疗数据微调LLM,使其能回答医学问题)
Data Annotation 数据标注 为AI训练数据添加标签(例:给图片标注“猫/狗”、给文本标注“正面/负面情感”),是监督学习的基础
Supervised Learning 监督学习 用“带标签数据”训练AI的方法(例:用“标注了猫/狗的图片”训练猫/狗识别模型)
Unsupervised Learning 无监督学习 用“无标签数据”训练AI,让AI自主发现规律(例:给一堆新闻,AI自动聚类为“体育”“科技”“娱乐”类)
Overfitting 过拟合 模型“死记硬背”训练数据,对新数据预测效果差(例:模型在训练图片上识别准确率99%,在新图片上仅60%)
Underfitting 欠拟合 模型未学会训练数据的规律,连基础任务都无法完成(例:用简单模型训练复杂的图像识别,准确率仅50%)

二、主流大模型

模型名称 开发方 核心特点
GPT-5/GPT-4/GPT-4o OpenAI 多模态大模型,支持文本、图像、语音交互,生成能力强,适合通用场景
Gemini Google 多模态大模型,擅长跨模态理解与生成(例:结合文本和图像创作内容)
PaLM 2 Google 轻量级多模态模型,兼顾性能与效率,适合端侧或特定领域部署
Grok4 xAI(马斯克旗下) 注重“实时信息交互”的LLM,能接入实时数据,风格更贴近人类对话
LLaMA 3 Meta(原Facebook) 开源LLM系列,支持多语言,可本地部署,适合开发者二次开发
CodeLlama Meta 开源代码大模型,擅长生成和修复代码(支持Python、C++、Java等语言)
Claude Anthropic LLM,长文本处理能力突出(可处理10万+字符的文档),注重安全性与可解释性

三、国产模型生态

模型/产品名称 开发方 核心特点
DeepSeek(深度求索) 深度求索公司 开源LLM系列,在数学、代码任务上表现优异,支持多场景微调
Kimi(月之暗面) 月之暗面科技 长文本处理能力强(支持百万字级文档理解),适合办公、科研场景
Doubao(豆包) 字节跳动 通用智能助手,支持文本生成、多模态交互,贴近日常使用场景(如学习、生活助手)
Yuanbao(腾讯元宝) 腾讯 对话式AI,整合腾讯生态资源(如结合微信、QQ场景),注重社交与办公适配
Qwen(通义千问) 阿里巴巴达摩院 多模态大模型,支持文本、图像、语音,适合电商、企业服务等场景
文心一言(ERNIE Bot) 百度 基于文心大模型体系,擅长中文处理,结合百度搜索资源,适合信息查询、创作
讯飞星火认知大模型 科大讯飞 注重教育、医疗领域落地,支持语音交互,适合学习辅助(如作文批改、口语练习)
盘古大模型 华为 聚焦工业、金融等垂直领域,支持端云协同,适合企业级复杂任务(如工业质检、金融分析)
智谱清言(GLM系列) 智谱AI 开源LLM(GLM系列),中文理解能力强,适合科研、开发者二次开发

四、技术工具

工具名称 开发方/类型 核心用途
Python 开源编程语言 AI开发的主流语言,拥有丰富的机器学习库(如NumPy、Pandas、Scikit-learn)
PyTorch Meta(开源框架) 灵活的深度学习框架,适合科研与快速迭代(开发者常用其搭建神经网络)
TensorFlow Google(开源框架) 成熟的深度学习框架,适合工业级部署(例:手机端AI模型部署)
Anaconda 开源发行版 数据科学工具集合,包含Python、常用库及环境管理工具(简化AI开发环境配置)
Keras 高层深度学习API(基于TensorFlow) 简化神经网络搭建,适合初学者(用少量代码即可构建复杂模型)
MobileNet 轻量级CNN架构 适合移动端、嵌入式设备的图像识别模型(例:手机端人脸识别、物体检测)
OpenCV 开源计算机视觉库 提供图像处理、特征提取等功能(例:图像裁剪、边缘检测、摄像头调用)
YOLO 目标检测算法 实时目标检测工具(“You Only Look Once”),可快速识别图像中的物体(例:自动驾驶路况检测、视频监控)
ResNet 残差网络架构 深度CNN架构,解决深层网络“梯度消失”问题(用于图像识别、分类任务)
Darknet 开源神经网络框架 轻量级框架,适合部署目标检测、图像分类模型(常与YOLO配合使用)
ByteTrack 多目标跟踪算法 高效跟踪视频中多个目标(例:交通监控跟踪多辆车、行人)
Hugging Face 开源模型社区 提供大量预训练模型(LLM、CV模型)和工具,方便开发者调用与分享模型
LangChain AI应用开发框架 简化复杂AI应用搭建(例:构建支持RAG的聊天机器人、多智能体协作系统)

五、应用

应用名称 开发方/类型 核心功能
ChatGPT OpenAI(对话AI) 通用文本对话、创作、信息查询(例:写作文、解答问题、生成代码)
GPT-4 OpenAI(多模态AI) 支持文本、图像输入,生成高质量内容(例:分析图片内容、写专业报告)
Midjourney Midjourney(图像生成) 文本生成高质量艺术图像(例:根据“未来城市”描述生成科幻插画)
Stable Diffusion 开源(图像生成) 文本生成图像,支持本地部署,可自定义风格(例:生成个人头像、设计图)
Copilot GitHub + OpenAI(代码辅助) 代码生成、修复、注释(集成在IDE中,辅助开发者写代码)
Tesla Autopilot 特斯拉(自动驾驶辅助) 汽车自动驾驶辅助功能(例:自动跟车、车道保持、自动泊车)
PlantNet 植物识别应用 通过拍照识别植物种类(例:户外识别花草树木,提供植物信息)
Sora OpenAI(视频生成) 文本生成高质量短视频(支持1分钟以内视频,画面逼真)
DALL·E OpenAI(图像生成) 文本生成创意图像(例:生成“会飞的猪”“海底城市”等虚构场景)
AlphaGo DeepMind(围棋AI) 首个击败人类围棋世界冠军的AI,推动强化学习技术发展
AlphaFold DeepMind(蛋白质结构预测) 预测蛋白质3D结构,加速生物医学研究(例:助力药物研发、疾病治疗)