PHP+MySQL百萬級(jí)數(shù)據(jù)插入的優(yōu)化操作技巧
2019-04-02
插入分析
MySQL中插入一個(gè)記錄需要的時(shí)間由下列因素組成,其中的數(shù)字表示大約比例:
連接:(3)
發(fā)送查詢給服務(wù)器:(2)
分析查詢:(2)
插入記錄:(1x記錄大?。?/p>
插入索引:(1x索引)
關(guān)閉:(1)
如果我們每插入一條都執(zhí)行一個(gè)SQL語句,那么我們需要執(zhí)行除了連接和關(guān)閉之外的所有步驟N次,這樣是非常耗時(shí)的,優(yōu)化的方式有一下幾種:
在每個(gè)insert語句中寫入多行,批量插入
將所有查詢語句寫入事務(wù)中
利用Load Data導(dǎo)入數(shù)據(jù)
每種方式執(zhí)行的性能如下。
Innodb引擎
InnoDB 給 MySQL 提供了具有事務(wù)(commit)、回滾(rollback)和崩潰修復(fù)能力(crash recovery capabilities)的事務(wù)安全(transaction-safe (ACID compliant))型表。InnoDB 提供了行鎖(locking on row level)以及外鍵約束(FOREIGN KEY constraints)。
InnoDB 的設(shè)計(jì)目標(biāo)是處理大容量數(shù)據(jù)庫系統(tǒng),它的 CPU 利用率是其它基于磁盤的關(guān)系數(shù)據(jù)庫引擎所不能比的。在技術(shù)上,InnoDB 是一套放在 MySQL 后臺(tái)的完整數(shù)據(jù)庫系統(tǒng),InnoDB 在主內(nèi)存中建立其專用的緩沖池用于高速緩沖數(shù)據(jù)和索引。
測試環(huán)境
Macbook Air 12mid apache2.2.26 php5.5.10 mysql5.6.16
總數(shù)100W條數(shù)據(jù)
插入完后數(shù)據(jù)庫大小38.6MB(無索引),46.8(有索引)
無索引單條插入 總耗時(shí):229s 峰值內(nèi)存:246KB
有索引單條插入 總耗時(shí):242s 峰值內(nèi)存:246KB
無索引批量插入 總耗時(shí):10s 峰值內(nèi)存:8643KB
有索引批量插入 總耗時(shí):16s 峰值內(nèi)存:8643KB
無索引事務(wù)插入 總耗時(shí):78s 峰值內(nèi)存:246KB
有索引事務(wù)插入 總耗時(shí):82s 峰值內(nèi)存:246KB
無索引Load Data插入 總耗時(shí):12s 峰值內(nèi)存:246KB
有索引Load Data插入 總耗時(shí):11s 峰值內(nèi)存:246KB
MyIASM引擎
MyISAM 是MySQL缺省存貯引擎。設(shè)計(jì)簡單,支持全文搜索。
測試環(huán)境
Macbook Air 12mid apache2.2.26 php5.5.10 mysql5.6.16
總數(shù)100W條數(shù)據(jù)
插入完后數(shù)據(jù)庫大小19.1MB(無索引),38.6(有索引)
無索引單條插入 總耗時(shí):82s 峰值內(nèi)存:246KB
有索引單條插入 總耗時(shí):86s 峰值內(nèi)存:246KB
無索引批量插入 總耗時(shí):3s 峰值內(nèi)存:8643KB
有索引批量插入 總耗時(shí):7s 峰值內(nèi)存:8643KB
無索引Load Data插入 總耗時(shí):6s 峰值內(nèi)存:246KB
有索引Load Data插入 總耗時(shí):8s 峰值內(nèi)存:246KB
總結(jié)
我測試的數(shù)據(jù)量不是很大,不過可以大概了解這幾種插入方式對(duì)于速度的影響,最快的必然是Load Data方式。這種方式相對(duì)比較麻煩,因?yàn)樯婕暗搅藢懳募强梢约骖檭?nèi)存和速度。
二、PHP+MySQL百萬數(shù)據(jù)插入
第一種方法:使用insert into 插入,代碼如下:
最后顯示為:23:25:05 01:32:05 也就是花了2個(gè)小時(shí)多! 這是時(shí)間擼幾把 都行。。。
第二種方法:使用事務(wù)提交,批量插入數(shù)據(jù)庫(每隔10W條提交下)
最后顯示消耗的時(shí)間為:22:56:13 23:04:00 ,一共8分13秒 ,代碼如下:
時(shí)間是一下縮短不少但還是有點(diǎn)長。
第三種方法:使用優(yōu)化SQL語句:將SQL語句進(jìn)行拼接,使用 insert into table () values (),(),(),()然后再一次性插入,如果字符串太長,
則需要配置下MYSQL,在mysql 命令行中運(yùn)行 :set global max_allowed_packet = 2*1024*1024*10;消耗時(shí)間為:11:24:06 11:24:11;
我擦 插入200W條測試數(shù)據(jù)僅僅用了不到6秒鐘!代碼如下:
可能這里又會(huì)有人說數(shù)據(jù)不大 sql文件導(dǎo)出來也是小200M 5秒鐘 對(duì)一表格 進(jìn)行200萬條數(shù)據(jù) 速度已經(jīng)不錯(cuò)了。
這個(gè)再跟大家說一個(gè) TP框架了的 addall方法
速度也很快 但是還不如原生。
著了說一下其中可能會(huì)遇到的問題 比如試驗(yàn)時(shí)可能會(huì)出現(xiàn)PHP內(nèi)存限制 和mysql的SQL語句溢出甚至宕機(jī)
這里數(shù)幾個(gè)方案
1、可以進(jìn)行相關(guān)的配置php.ini my.ini 等
2、大家可以用隊(duì)列進(jìn)行分批處理
3、或者自己的一些方法