機(jī)械化的數(shù)據(jù)處理工作中——字段索與模式
2021-07-19
計(jì)算機(jī)用戶通常會(huì)在簡單、機(jī)械化的數(shù)據(jù)處理任務(wù)上花費(fèi)大量時(shí)間——更改數(shù)據(jù)格式、驗(yàn)證數(shù)據(jù)的有效性、搜索特定數(shù)據(jù)項(xiàng)、匯總、打印報(bào)告等。這些任務(wù)可以自動(dòng)完成,但如果每次遇到這樣的任務(wù),用標(biāo)準(zhǔn)的編程語言(比如C或)寫一個(gè)專門的程序來解決就太麻煩了。 awk 是一種特殊的編程語言,它非常適合處理上面提到的任務(wù),往往只需要一兩行就可以完成。 awk 程序由一系列模式和動(dòng)作組成。這些模式和動(dòng)作指示要在輸入中搜索哪些數(shù)據(jù),以及找到滿足條件的數(shù)據(jù)時(shí)應(yīng)執(zhí)行哪些操作。 awk 在輸入文件集中搜索匹配模式的輸入行,當(dāng)找到匹配的行時(shí),執(zhí)行相應(yīng)的動(dòng)作。通過字符串、值、字段、變量和數(shù)組元素的比較操作,加上正則表達(dá)式,利用這些組合,可以使用模式選擇輸入行,動(dòng)作可以對選中的行進(jìn)行任意處理。描述動(dòng)作的語言看起來和 C 非常相似,但它不需要聲明,而且字符串和數(shù)字是內(nèi)置的數(shù)據(jù)類型。 awk 自動(dòng)掃描輸入文件并將每個(gè)輸入行拆分為字段。因?yàn)楹芏喙ぷ鞫际亲詣?dòng)完成的——包括輸入、字段分割、存儲(chǔ)管理和初始化——所以與用傳統(tǒng)語言編寫的程序相比,awk 程序要短得多。 awk 最常見的用途是前面提到的作業(yè)。因?yàn)閍wk程序一般都很短,人們經(jīng)常這樣使用:通過鍵盤在命令行輸入程序代碼(只有一兩行),執(zhí)行awk編程語言 pdf,然后丟棄代碼。其實(shí)awk是一個(gè)通用的編程工具,很多特殊的工具都可以代替。因?yàn)楸磉_(dá)式和操作都很簡單,所以用awk構(gòu)建一個(gè)大程序的原型非常方便:從簡單的幾行開始,慢慢擴(kuò)展,測試不同的設(shè)計(jì)方案,直到達(dá)到預(yù)期的目標(biāo)。因?yàn)槌绦虮容^短,所以很容易上手。如果您在開發(fā)過程中想到了更好的解決方案,您可以對其進(jìn)行修改(甚至可以從頭開始)。只要設(shè)計(jì)正確,將awk程序翻譯成其他語言很方便。
本書的第一個(gè)目標(biāo)是告訴讀者awk是什么以及如何有效地使用它。第一章是快速入門教程。閱讀幾頁后,讀者應(yīng)該有足夠的知識開始編寫一些有用的 awk 程序。本章的例子都很簡短,都是awk的典型應(yīng)用。第 2 章描述了整個(gè) awk 語言。本章雖然也有很多例子,但是讀起來跟說明書一樣無聊,所以第一次閱讀本章的時(shí)候,快速瀏覽一下。本書的其余章節(jié)包含了豐富的示例,主要用于展示awk的范圍有多廣以及如何有效地使用它。這些例子有的比較常規(guī),有的則展示了一定的編程思想,但不是很實(shí)用,也有少數(shù)例子只是因?yàn)樗鼈兏腥?。?3 章重點(diǎn)介紹檢索、轉(zhuǎn)換、歸約和數(shù)據(jù)驗(yàn)證——這些任務(wù)原本是 awk 最初開發(fā)的目標(biāo)。本章還討論了如何處理多行記錄,例如地址簿。 awk 是管理小型個(gè)人數(shù)據(jù)庫的絕佳工具。第 4 章討論如何從數(shù)據(jù)庫中生成報(bào)表,以及如何構(gòu)建一個(gè)簡單的關(guān)系數(shù)據(jù)庫系統(tǒng)以及如何為存儲(chǔ)在多個(gè)文件中的數(shù)據(jù)構(gòu)建相應(yīng)的查詢語言。
awk 處理文本和其他語言處理數(shù)值一樣方便,因此常用于文本處理領(lǐng)域。第 5 章討論如何使用 awk 生成文本并協(xié)助文檔準(zhǔn)備。本章包含一個(gè)索引生成程序,本書的索引是使用其增強(qiáng)版生成的。第六章是關(guān)于“小語言”的。小語種是指特定領(lǐng)域的定制化語言。使用awk編寫翻譯器非常方便,因?yàn)樗幕静僮髦С执蟛糠衷~匯表管理任務(wù)。本章包含匯編程序、繪圖程序和若干計(jì)算器程序。 awk 也可用于演示算法。因?yàn)橛胊wk寫程序不需要聲明,也不用擔(dān)心內(nèi)存管理,不僅有很多偽代碼的優(yōu)點(diǎn),而且是可運(yùn)行的。第七講算法實(shí)驗(yàn),包括測試和性能評估。算法包括幾種排序算法,最后以Unix程序make結(jié)束。第8章介紹了awk的歷史。另外awk編程語言 pdf,如果程序比較慢或者條件比較苛刻,本章還提出了幾個(gè)優(yōu)化建議。附錄A總結(jié)了awk語言,附錄B是一些習(xí)題的參考答案。讀者應(yīng)該從第 1 章開始閱讀,并嘗試自己編寫程序。快速瀏覽第 2 章,重點(diǎn)介紹摘要和表格,不要被細(xì)節(jié)所困擾。然后根據(jù)自己的興趣閱讀以下章節(jié)。這些章節(jié)是相互獨(dú)立的,所以不要在意閱讀順序。