16,820
个编辑
更改
无编辑摘要
Gartner 估计到2020年聊天机器人将处理85%的客户服务交互;它们现在已经处理了大约30%。
<br>
我肯定你听说过 [https://www.duolingo.cn/ Duolingo ] :一款流行的语言学习应用,可以通过游戏来练习一门新语言。它因其新颖的外语教学方式而广受欢迎。其概念很简单:每天五到十分钟的互动训练就足以学习一门语言。
<br>
<br>
因此他们的团队通过在自己的应用程序中构建一个本地聊天机器人来解决这个问题,帮助用户学习会话技能并实践他们所学的知识。
<br>
http://bots.duolingo.com/<br>
<br>
所以什么是聊天机器人?<br>
先决条件<br>
<br>
<br>
'''[[NLP]]'''
考虑一个包含100个单词的文档,其中单词“phone”出现了5次。<br>
“phone”的检索词频率就是(5 / 100) = 0.05。现在,假设我们有1000万份文档,其中1000份文档中出现了“电话”这个词。那么逆文档频率就是log(10,000,000 / 1,000) = 4。TF-IDF权重就是这两者的乘积:0.05 * 4 = 0.20。<br>
Tf-IDF 可以在scikit learn中调用可以在[[scikit learn]]中调用:<br>
from sklearn.feature_extraction.text import TfidfVectorizer
<br>
为了让我们的机器人为输入问题生成回复,这里将使用文档相似性的概念。因此,我们首先需要导入必要的模块。
from sklearn.feature_extraction.text import TfidfVectorizer
同时, 从scikit learn库中导入cosine 从[[scikit learn]]库中导入cosine similarity模块
from sklearn.metrics.pairwise import cosine_similarity
这将用于查找用户输入的单词与语料库中的单词之间的相似性。这是聊天机器人最简单的实现。