內(nèi)容簡介
微軟Azure ML平臺簡化了使用機器學(xué)習(xí)的過程,以便于開發(fā)人員、業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家廣泛、便捷地應(yīng)用。
微軟Azure ML提供了一種用于執(zhí)行價值預(yù)測(回歸)、異常檢測、聚類和分類的云服務(wù),其圖形化、模塊化的方法將讓學(xué)習(xí)者快速了解機器學(xué)習(xí)模型。
《微軟Azure機器學(xué)習(xí)實戰(zhàn)手冊》的學(xué)習(xí),讀者能輕而易舉地了解如何導(dǎo)入數(shù)據(jù)、如何進(jìn)行數(shù)據(jù)預(yù)處理、如何將數(shù)據(jù)分離用于訓(xùn)練模型和驗證模型、如何選擇算法訓(xùn)練模型以及如何評估模型的效果。
整個過程無須編程,完全是通過拖拽和配置完成,與Azure機器學(xué)習(xí)相關(guān)的任務(wù)不僅都可在現(xiàn)代web瀏覽器中完成,而且?guī)缀鯖]有任何時間和基礎(chǔ)設(shè)施的啟動成本,從而能讓讀者快速掌握Azure ML用法,把多的精力放在理解數(shù)據(jù)和算法上。
·本書作者千賀大司、山本和貴及大澤文孝均為數(shù)據(jù)專家,且在日經(jīng)BP社主辦的學(xué)習(xí)交流會“從零開始了解‘機器學(xué)習(xí)’實踐講座”中擔(dān)任講師,通過實際操作針對Azure ML進(jìn)行了解說,具有豐富的實操經(jīng)驗。
·通過本書的學(xué)習(xí),讀者無需編程,完全是通過拖拽和配置完成,操作簡單,可快速掌握Azure ML用法,從而把更多的精力放在理解數(shù)據(jù)和算法上。
大概從2014年開始,在我們周圍越來越多地聽到和看到“機器學(xué)習(xí)”這個詞。微軟公司推出的通過圖形用戶界面(Graphical L5ser Interface,GUI)工具就可以輕松實現(xiàn)機器學(xué)習(xí)的Azure ML于2014年6月首次對外發(fā)布,并于2015年2月開始提供通用版本(General Availability,GA),之后我感到“機器學(xué)習(xí)”這一概念快速傳播開來。
2015年5月,在微軟日本股份有限公司舉辦的面向日本國內(nèi)技術(shù)人員的最大盛會“de:code2015”上,我們幾位介紹了Azure ML成功預(yù)測出超過100萬用戶脫離智能手機游戲(退會)這一案例。并且于同年10月,我們在日經(jīng)BP社主辦的學(xué)習(xí)交流會“從零開始了解‘機器學(xué)習(xí)’實踐講座”中擔(dān)任了講師,就AzureML如何實操進(jìn)行了現(xiàn)場解說。通過這些活動,一方面大眾對我們FIXER公司有了更多的了解,另一方面FIXER公司也獲得了來自日本知名企業(yè)的諸如“希望使用機器學(xué)習(xí)預(yù)測器械、機器故障并進(jìn)行預(yù)防”“希望使用機器學(xué)習(xí)創(chuàng)造機器人人工智能”等委托項目。
本書旨在將機器學(xué)習(xí)應(yīng)用到現(xiàn)實的商業(yè)當(dāng)中,并將其轉(zhuǎn)變?yōu)樯唐坊蚍⻊?wù),而不是單純地將機器學(xué)習(xí)捧為流行語。換言之,我們出版本書的目的并不是追求學(xué)術(shù)價值,而是為了讓大家能夠使用、活用機器學(xué)習(xí),不落后于時代變革的潮流,甚至能夠引領(lǐng)時代潮流。希望通過本書,工程師以及商業(yè)人士能夠發(fā)明出使用機器學(xué)習(xí)的新型服務(wù),或者從數(shù)據(jù)中發(fā)現(xiàn)以前被忽略的新視角。
以前,一提到機器學(xué)習(xí),就會想到是那些被稱為“數(shù)據(jù)科學(xué)家”的專業(yè)人士使用的專業(yè)工具,但是如今情況會有所不同。奮戰(zhàn)在商界的企業(yè)家們可以對數(shù)據(jù)進(jìn)行直接分析,讓使用數(shù)據(jù)的服務(wù)以及搭載人工智能的服務(wù)開始成為可能。可以說,企業(yè)家和數(shù)據(jù)科學(xué)家之間在認(rèn)知以及理解上的障礙已經(jīng)消除。初級的系統(tǒng)工程師和開發(fā)商很難涉足的數(shù)據(jù)分析、推薦引擎以及人工智能的開發(fā)和使用難度也會大幅下降。
“統(tǒng)計”一詞自公元前誕生于埃及以來已經(jīng)發(fā)展了3000多年,機器學(xué)習(xí)的理論基礎(chǔ)自出現(xiàn)至今已經(jīng)過了40多年,但在商業(yè)中的實際應(yīng)用可以說依然非常受限。我們幾位常年從事股票數(shù)據(jù)的分析,通過各種方式對市場動向及個別股票產(chǎn)品進(jìn)行預(yù)測,但是僅僅依據(jù)從金融工程學(xué)以及統(tǒng)計學(xué)中導(dǎo)出的現(xiàn)有理論,很難獲得高水平成果。
簡單一提的是,過去在未來市場預(yù)測方面能夠取得較高水平成果的方式,是把幾十臺服務(wù)器聯(lián)接起來,使用計算機進(jìn)行大量的運算,分析離散數(shù)據(jù)而不是分析函數(shù)數(shù)據(jù)。而現(xiàn)在,隨著摩爾定律的不斷發(fā)展,計算機的處Nt陛能以及計算資源也在不斷擴大。自從進(jìn)入了云端時代,即使是個人也可以在短時間內(nèi)以較低成本同時使用幾十臺甚至幾百臺服務(wù)器。
與此同時,現(xiàn)在可以以較低的成本儲存大量數(shù)據(jù)。比如,當(dāng)今世界很多人都使用智能手機,谷歌、蘋果公司的以及手機App開發(fā)人員每時每刻都能收到來自世界各地的幾億部智能手機中的大量數(shù)據(jù)。除此之外,每隔幾分鐘或者幾小時,就能收到來自幾百萬輛、幾千萬輛汽車以及家電產(chǎn)品的注冊信息。如果是在10年之前,收集、存儲如此巨大的數(shù)據(jù)是不可能的。10年前,1TB容量的企業(yè)版高速存儲器價格超過1億日元,但是現(xiàn)在,不到1萬日元的硬盤(Hard Disk Drive,HDD)的容量就已經(jīng)超過了1TB。2016年4月,Azure的存儲服務(wù)價格標(biāo)準(zhǔn)為:使用99.9%的服務(wù)級別協(xié)議(SLA)用三塊硬盤備份的設(shè)備,1GB平均每月228日元。
作者簡介
千賀大司(Hiroshi Senga)
FIXER公司總經(jīng)理
微軟Azure解決方案架構(gòu)師、信息處理技術(shù)人員
1999年畢業(yè)于名古屋大學(xué)法學(xué)部。曾在佳能IT部門作為金融高級軟件工程師致力于國內(nèi)外銀行及年金系統(tǒng)的開發(fā)。隨后10余年一直在提供股票分析服務(wù)的網(wǎng)絡(luò)風(fēng)投公司擔(dān)任CTO,目前擔(dān)任東證一部上市企業(yè)R&D的部門負(fù)責(zé)人。擅長金融、證券分析和網(wǎng)絡(luò)服務(wù)數(shù)據(jù)分析、市場自動化及大規(guī)模并發(fā)分散系統(tǒng)的體系結(jié)構(gòu)。現(xiàn)在,一方面支持機器學(xué)習(xí)等使用Azure服務(wù)的數(shù)字市場,一方面致力于推進(jìn)面向證券、金融的FinTech解決方案的研究以及由人造機器人的人工知能或者人工智能構(gòu)成的呼叫中心支援系統(tǒng)的開發(fā)。
山本和貴(Kazuki Yamamoto)
FIXER公司數(shù)據(jù)科學(xué)家
2015年畢業(yè)于東京都立產(chǎn)業(yè)技術(shù)高等專業(yè)學(xué)校制造工學(xué)部的電子信息工學(xué)系。在高等專業(yè)學(xué)校的畢業(yè)論文研究中,為了預(yù)測網(wǎng)絡(luò)輻輳?fù)瑱C器學(xué)習(xí)相遇,之后一直著迷于機器學(xué)習(xí)。從事于人工智能云的開發(fā),將使用微軟Azure ML的深層學(xué)習(xí)研究及通過機器學(xué)習(xí)提高服務(wù)質(zhì)量的音聲識別、面部識別、個性化引擎等進(jìn)行組合。
大澤文孝(Fumitaka Oosawa)
科技作家程序設(shè)計師信息處理技術(shù)人員
主要面向開發(fā)人員在雜志報刊上撰寫有關(guān)服務(wù)器、網(wǎng)絡(luò)、網(wǎng)絡(luò)編程、安全等文章。近幾年,主要從事網(wǎng)絡(luò)系統(tǒng)的設(shè)計及開發(fā)。著有《掌握幫神技能:掌握J(rèn)ava編程入門》《掌握幫神技能:網(wǎng)絡(luò)和編程基礎(chǔ)中的基礎(chǔ)》《Amazon Web Services云端設(shè)計模式安裝指導(dǎo)》等書籍
第1章 什么是機器學(xué)習(xí)
明晰機器學(xué)習(xí)
機器學(xué)習(xí)概述
機器學(xué)習(xí)流行的“原因”
將機器學(xué)習(xí)用于商業(yè)的方法
消除對機器學(xué)習(xí)的誤解
機器學(xué)習(xí)通過數(shù)據(jù)進(jìn)行判斷
機器學(xué)習(xí)是“系統(tǒng)”
機器自己會變聰明嗎
必須決定“特征向量”
開啟機器學(xué)習(xí)之旅
機器學(xué)習(xí)專用工具
無須編程就可以使用的Azure ML
即使如此,依然想編程
通過判斷目標(biāo)來選擇分類器
第2章 收集數(shù)據(jù)
使用公司內(nèi)部數(shù)據(jù)
日志文件等歷史數(shù)據(jù)
非時間類型數(shù)據(jù)
使用公開數(shù)據(jù)
DATA.GO.JP
DATA.GOV
Twitter
GitHub
第3章 通過Azure ML創(chuàng)建機器學(xué)習(xí)模型
Azure ML的基本操作
注冊Azure ML Studio
在工作區(qū)進(jìn)行操作
機器學(xué)習(xí)的方法
在Azure ML中進(jìn)行機器學(xué)習(xí)的流程
創(chuàng)建機器學(xué)習(xí)模型時Experiment的編輯界面
機器學(xué)習(xí)模型的構(gòu)成和種類
學(xué)習(xí)邏輯
計算邏輯
學(xué)習(xí)組件的種類
第4章 使用回歸分析預(yù)測數(shù)據(jù)
什么是回歸分析
本模擬所實現(xiàn)目標(biāo)
本模擬所建模型
上傳用于分析的數(shù)據(jù)集
下載CSV文件樣本
將CSV文件作為數(shù)據(jù)集進(jìn)行上傳保存
新建Experiment
添加和調(diào)整所要分析的數(shù)據(jù)集對象
添加數(shù)據(jù)集
將范圍縮小至使用列
修復(fù)受損數(shù)據(jù)
分離學(xué)習(xí)用數(shù)據(jù)和評價用數(shù)據(jù)
構(gòu)建學(xué)習(xí)邏輯
構(gòu)成回歸分析的組件
使用已訓(xùn)練模型預(yù)測評價用數(shù)據(jù)
使用評分模型進(jìn)行數(shù)據(jù)預(yù)測
確認(rèn)預(yù)測值
第5章 嘗試使用已建回歸分析模型
使用已訓(xùn)練模型進(jìn)行計算
上傳用于計算的數(shù)據(jù)集對象
在評分模型右上方輸入數(shù)據(jù)即可得出結(jié)果
保存已訓(xùn)練模型,使其在其他Experiment中也可以使用
保存已訓(xùn)練模型
使用已訓(xùn)練模型進(jìn)行預(yù)測
新建用于預(yù)測的Experiment
創(chuàng)建可進(jìn)行數(shù)據(jù)預(yù)測的機器學(xué)習(xí)模型
觀察運行結(jié)果
以CSV形式輸出
數(shù)據(jù)轉(zhuǎn)換組件
第6章 提高預(yù)測精度
提高預(yù)測精度的方法
確認(rèn)目前的預(yù)測精度
使用評估模型對分析結(jié)果進(jìn)行評價
確認(rèn)評價結(jié)果
更改參數(shù)提高精確度
更改Linear Regression的參數(shù)
優(yōu)化學(xué)習(xí)組件
可用于回歸分析的學(xué)習(xí)組件種類
更改為貝葉斯線性回歸
使用有限的學(xué)習(xí)數(shù)據(jù)進(jìn)行檢驗
使用“Cross Validate Model”組件
確認(rèn)“Cross Validate Model”的評價結(jié)果
第7章 通過統(tǒng)計分類進(jìn)行判斷
什么是統(tǒng)計分類
本模擬所實現(xiàn)目標(biāo)
本模擬所建模型
用統(tǒng)計分類創(chuàng)建分類機器學(xué)習(xí)模型
新建數(shù)據(jù)集
新建Experiment
創(chuàng)建數(shù)據(jù)集
構(gòu)建學(xué)習(xí)邏輯
預(yù)測和評價
確認(rèn)和反思學(xué)習(xí)結(jié)果
確認(rèn)使用評價用數(shù)據(jù)得出的結(jié)果
評價統(tǒng)計分類的學(xué)習(xí)結(jié)果
使用其他統(tǒng)計分類學(xué)習(xí)組件
第8章 用聚類方法判別相似數(shù)據(jù)
什么是聚類
本模擬所實現(xiàn)目標(biāo)
本模擬所建模型
創(chuàng)建可通過聚類分析分組的機器學(xué)習(xí)模型
新建數(shù)據(jù)集
新建 Experiment
添加數(shù)據(jù)集
構(gòu)建學(xué)習(xí)邏輯
確認(rèn)分組結(jié)果
將用于評價的數(shù)據(jù)加入到已訓(xùn)練的學(xué)習(xí)模型中
第9章 活用實驗結(jié)果
Web API化
數(shù)據(jù)可視化
第10章 讓機器越來越聰明
進(jìn)行模型的二次學(xué)習(xí)
用Web API更新公開的分類器(模型更新)
附錄 使用Azure ML的方法
創(chuàng)建環(huán)境
創(chuàng)建Microsoft賬戶
激活訂閱
登錄Azure
云優(yōu)化您的業(yè)務(wù)
創(chuàng)建工作區(qū)
訪問Azure ML Studio
關(guān)于收費
免費使用