找回密碼
 立即注冊

QQ登錄

只需一步,快速開始

掃一掃,訪問微社區

只需一步,快速開始

Gensim官方教程翻譯——快速入門

查看: 659| 評論: 0| 發布者: Rosalind

??? ??С
簡介:Gensim官方教程翻譯——快速入門原文:http://blog.geekidentity.com/nlp/gensim/gensim_introduction_translation/本教程按照一系列的例子組織,用以突出gensim的各種功能。本教程的受眾是熟悉Python,已經安裝了ge ...

Gensim官方教程翻譯——快速入門


原文:http://blog.geekidentity.com/nlp/gensim/gensim_introduction_translation/

本教程按照一系列的例子組織,用以突出gensim的各種功能。本教程的受眾是熟悉Python,已經安裝了gensim,而且閱讀過介紹的讀者。

這些例子由以下幾部分組成:
  • 語料庫與向量空間
  • 從字符串到向量
  • 語料庫流-一次一個文檔
  • 語料庫格式
  • 與NumPy和SciPy的兼容性
  • 主題與轉換
  • 轉換接口
  • 可用的轉換
  • 相似性查詢
  • 相似性接口
  • 接下來做什么?
  • 對于英文維基百科的實驗
  • 準備語料庫
  • 潛在語義分析
  • 隱含狄利克雷分配
  • 分布式計算
  • 為什么需要分布式計算?
  • 先決條件
  • 核心概念
  • 可用的分布式算法

準備


所有的例子都可以復制到你的Python解釋器窗口。IPython的cpaste命令對于復制-粘貼代碼片段十分方便,包括無意義的前導“>>>”字符。

Gensim使用Python標準的日志類來記錄不同優先級的各種事件,想要激活日志(可選的),運行如下代碼:
>>> import logging
>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

快速示例


首先,讓我們導入gensim并創建一個小小的語料庫,其中有9個(每行代表一個)文檔和12個屬性[1]:
>>> from gensim import corpora, models, similarities
>>>
>>> corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)],
>>> [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)],
>>> [(1, 1.0), (3, 1.0), (4, 1.0), (7, 1.0)],
>>> [(0, 1.0), (4, 2.0), (7, 1.0)],
>>> [(3, 1.0), (5, 1.0), (6, 1.0)],
>>> [(9, 1.0)],
>>> [(9, 1.0), (10, 1.0)],
>>> [(9, 1.0), (10, 1.0), (11, 1.0)],
>>> [(8, 1.0), (10, 1.0), (11, 1.0)]]

在gensim中語料庫只是一個對象,我們能夠通過不斷迭代從中取出用稀疏向量代表的文檔。在這里,我們使用元組列表。如果你不熟悉向量空間模型,我們將會在下一個教程《語料庫與向量空間》填平原始字符串、語料庫、稀疏向量之間的鴻溝。

如果你熟悉向量空間模型,你可能會知道解析文檔并將其轉換為向量的方式對后續應用程序的質量有重大影響。

在這個例子中,整個語料作為一個Python List被存在內存中。但是,語料庫接口僅僅規定一個語料庫必須支持迭代取出其文檔。對于特別大的語料庫,最好將整個語料庫存在硬盤上,并且按序一次取出一篇文檔。所有的操作和轉換通過一種語料庫大小無關的方式實現,內存依賴較低。

接下來,讓我們初始化一個轉換
>>> tfidf = models.TfidfModel(corpus)

轉換就是將文檔的一種向量表示方式轉換為另一種向量表示方式(以便我們從特定的角度更好地分析數據):
>>> vec = [(0, 1), (4, 1)]
>>> print(tfidf[vec])
[(0, 0.8075244), (4, 0.5898342)]

在此,我們使用了Tf-Idf,這是一種簡單的轉換。它要求輸入的文檔用帶有詞頻的詞袋(bag-of-words)的方法表示,可以用來降低常用詞的權重(相對地提高了罕見詞的權重)。它還會把結果向量的長度調整為單位長度(指歐幾里得范數)。

轉化方法詳情,請看教程主題與轉換

為了將整個語料庫通過Tf-idf轉化并索引,以便相似度查詢,需要做如下準備:
>>> index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=12)

為了查詢我們需要的向量vec相對于其他所有文檔的相似度,需要:
>>> sims = index[tfidf[vec]]
>>> print(list(enumerate(sims)))
[(0, 0.4662244), (1, 0.19139354), (2, 0.24600551), (3, 0.82094586), (4, 0.0), (5, 0.0), (6, 0.0), (7, 0.0), (8, 0.0)]

如何解釋這些輸出呢?文檔編號為零(第1個文檔)與vec的相似度為0.466=46.6%,第二個文檔與vec的相似度為19.1%,依次類推。 因此,根據Tfidf文檔表示方法和余弦相似度方法,與我們的查詢文檔vec最相似的文檔為3號文檔,相似度達到82.1%。注意:4-8號文檔與vec沒有任何公共的屬性,因此相似度為0.0。了解詳細請看《相似度查詢》教程。

[1] 這與Deerwester等人在 Deerwester et al. (1990): Indexing by Latent Semantic Analysis, Table2使用的語料庫相同。 [2] http://blog.csdn.net/questionfish/article/details/46725475K碼農提供了很多不同領域技術,包含人工智能,android,ios ,前端,后端,大數據,云計算,區塊鏈,物聯網等大量的技術:http://kmanong.top


【免責聲明】本文僅代表作者或發布者個人觀點,不代表SEO研究協會網(www.heffgx.live)及其所屬公司官方發聲,對文章觀點有疑義請先聯系作者或發布者本人修改,若內容涉及侵權或違法信息,請先聯系發布者或作者刪除,若需我們協助請聯系平臺管理員,郵箱[email protected](本平臺不支持其他投訴反饋渠道,謝謝合作)。若需要學習以上相關知識請到巨推學院觀看視頻教程,網址www.jutuiedu.com。

雞蛋

鮮花

握手

雷人

路過
已有 0 人參與

會員評論

推薦閱讀

    2020-02-12 03:43
  • 作者:低調無語

    一級注冊消防工程師關于壓力知識點那么多怎么記好

    新冠狀病毒引起的肺炎疫情延長了假期,對于要報考一級注冊消防工程師的朋友可能沒有帶足學習書籍來應對假期。但對于還沒有復工的朋友也不能閑著,不妨來學習下吧。消防考試里面有好多關于壓力的數據,應用場景相似,

  • 2020-02-12 03:39
  • 作者:血狼SEO

    最新消息:人社部發布復工意見,多地多企業復工再延遲

    目前,確診的病例人數依然在不斷往上升,但復工潮返工潮已經來臨。大量的流入人口,讓許多大城市倍感壓力,在這個節骨眼上,到底該不該再延遲復工,成為了所有人關注的焦點。01人社部,發布了最新意見2月7日,人社部

  • 2020-02-12 03:36
  • 作者:孫雯雯

    背靠百度京東也扛不!新潮傳媒復工首日裁員500人 高管降薪且生

    近期,新冠病毒肺炎疫情對企業的沖擊由內到外逐漸顯現,輕則缺錢“喊窮”,重則破產倒閉。2月10日,新年復工第一天,新潮傳媒CEO張繼學的內部講話刷屏:裁員500人,高管降薪20%,賬上10億資金只能活7個月。盡管張繼

  • 2020-02-12 02:45
  • 作者:濰溦

    互聯網企業種草是否真實,央視披露帶貨黑幕,網友如何判斷真假?

    隨著電商的火熱,'種草'一詞也逐漸成為許多年輕人熱捧的網絡熱詞,'種草'原本的含義是指,用戶們把自己喜歡的商品推薦給大家,使得大家也能得到好用,有趣的產品。最初'種草'能

  • 2020-02-12 02:05
  • 作者:炫奇

    2萬字《公眾號運營 · 33種快速入門技巧》,白菜價搶

    每天待在家,很多運營人都不知道干點啥。其實現在這段日子,可以補充些能量,宅在家系統學習運營。2020年1月14日,我制作并上線了一份線上教程《公眾號運營快速入門 33種技巧》,足足20000字硬核干貨。首先你肯定會

  • 2020-02-12 01:52
  • 作者:goodwell18

    面對難關,中小企業可以號召員工自愿降薪嗎?

    今天是2.10號,周一,很多公司計劃復工的日子。你去公司上班了嗎?我指的不是在家辦公。從我收集和了解到的情況來看,能按時復工的企業是極少數。多數企業的狀態是:a.沒有采購到足夠的口罩無法提交復工申請;b.提了

  • 2020-02-12 01:49
  • 作者:niguoduo

    新朗逸和新寶來對比?選擇哪個好一些?

    大家好,今天是2020年2月11號,今天給大家分享全新的朗逸和寶來兩款車選誰更好?誰的性價比更高?本文章僅屬于個人觀點,歡迎大家一起探討你喜歡的車? 下面咱們就好好的去分析一下:兩款車都出自大眾最新MQB平臺,

  • 2020-02-12 01:42
  • 作者:Rosalind

    小區封閉 居民“群曬”小區出入通行證|你家的長啥樣

    為有效防止疫情擴散蔓延,哈市所有居民小區等實行封閉管理,嚴格控制居民出行,每戶家庭原則上每兩天1人外出(除疫情防控、生病就醫、正常上班等人員外)。目前,不少小區居居陸續收到了由社區及物業人員發放的“小

  • 2020-02-12 01:23
  • 作者:chaixiao2020

    一級注冊消防工程師前景如何?

    近年來考消防工程師的人數在逐年增加,我們會發現周圍很多朋友啊,同事啊都開始在考消防工程師證了,看起來消防工程師證書很熱,但它到底值不值得我們去考了?首先,我們要對自己有個定位,如果你有一份安穩的工作,

  • 2020-02-12 01:20
  • 作者:franky_chan

    各地復工,你能看到多少種獨特的開工方式?

    昨天(10日),全國多地企業迎來復工第一天。疫情之下,復工的企業和城市注定要面臨一場特殊的考驗。如何做到疫情防控和復工生產兩不誤,是擺在每一座城市、每一家企業面前的難題。那么,它們都是怎么做的?測體溫、

文章排行

TOP ARTICLES

返回頂部
幸运飞艇公式规律